|
|
|
|
|
全球华语网:工具资源:语料库
|
|
东南亚主要华文媒体语料库
|
东南亚主要华文媒体,指的是东南亚的华语报纸、华语网站。东南亚主要华文媒体语料库的来源综合考虑语料的地域分布,以新加坡、马来西亚和泰国为主,时间上动态更新,逐年增加;内容上,考虑不同主题的分布情况,如政治、经济、文化、教育等等。
东南亚华文媒体较多,由于我们对语料获取的技术限制,以及其他因素的影响,有的华文媒体语料无法获得,因此,选择的来源媒体主要考虑了语料的可获取性、媒体影响和信息量三个因素。
目前,该语料库的语料时间跨度为2005年到2008年,均来自于网络,做了去除HTML标签信息和广告信息的处理,抽取出了网页正文、标题、发表时间、媒体来源(如国家、媒体名称)等信息,以XML格式存储。总共文本数为343978个,约3亿字。
下面是语料来源的具体信息:
新加坡:亚洲新闻网、新动网、联合早报。
马来西亚:马新社中文网、光华日报电子新闻、独立新闻在线、韩视新闻中心、亚洲时报。
泰国:泰国世界日报。
对于东南亚主要华文媒体语料库,我们做了自动分词和词性标注的处理。并且,对于每一媒体的子语料库,统一做了用字用语的标记和统计分析。例如,针对汉字分类使用的统计分析,在语料库中,分别标记出了规范字、繁体字、异体字、不规范的简化字、旧印刷字形、日本汉字、旧计量用字和韩国汉字。
目前,华语中心已经完成了一个网络版的在线语料检索系统(www.globalhuayu.com/corpus.htm),可以检索任意字串或符号,可以利用规则进行高级检索。
同时,也完成了一个网络版的语料库用字用语检索系统(www.globalhuayu.com/corpus.htm),可以检索任意汉字或词语在各个媒体子语料库中的使用情况。
基于东南亚主要华文媒体语料库,海外华语研究中心进行了东南亚华语用字用词统计调查,并完成了“东南亚华语用字用词统计调查”、“东南亚华语特色词”两个报告(约6万字),已经由“国家语言资源监测与研究中心”《中国语言生活状况报告》发布,商务印书馆出版。并且发表多篇华语研究的论文。

在线检索:东南亚主要华文媒体语料库例句检索
在线检索:东南亚主要华文媒体语料库用字用语检索
在线演示:东南亚主要华文媒体用字与用语调查研究
|
|
|
|