|
|
|
|
|
全球华语网:工具资源
|
华语语料库用字用语统计工具
|
针对大规模语料库的汉字使用情况和词语使用情况的统计分析,中心自主完成了一个语料库用字用语的统计工具。
该工具主要功能包括:
A、 汉字使用情况统计
只需输入待处理语料库所在文件夹,一键即可统计出汉字的使用情况:
汉字分类使用情况(规范字、繁体字、异体字等的频次、频率、文本数、累加频率、在该类中的频率)。
标点符号和汉字部件的使用情况(含符号、频序、频次、频率、文本数、累加频率、文档频率)。
汉字字表的覆盖率情况(如不同覆盖率的汉字字种数及其比例、例字)。
按使用率排序的字表、按频率排序的字表(含汉字、频序、频次、频率、文本数、累加频率、文档频率)。
总的汉字使用的摘要报告。
B、 词语使用情况分析
只需输入待处理语料库所在文件夹,一键即可分词标注词性、统计出词语的使用情况:
不分词性统计的词表、分词性统计的词表(含词语、频序、频次、频率、文本数、累加频率、文档频率)。
频次与词种数关系。
高频词语用字统计。
高频词语词长统计。
覆盖率与词种数关系。
词性及其频次的统计结果。
词性及其词种数的统计结果。
成语使用结果。
C、 字词频序比、共用独用分析
统计字词的频序比,几个字词表之间的共用独用统计。

在线检索:东南亚主要华文媒体语料库用字用语检索
|
|
|
|