首 页 中心简介 新闻动态 研究项目 研究成果 资源下载 网站论坛 有问有答 ENGLISH
资源推荐
 全球华语词典
 全球华语研究
 全球华语语料库
 词语表资源下载
 超大规模层级分类语料库
 文本分类主题词标引文摘
 其他免费资源下载
   
友情链接
 暨南大学华文学院
 教育部语信司
 中文助手
 语言资源兄弟站点
 在线诗词网
 华语桥
 澜科语言科技
   
 
海外华语研究中心——全球华语语料库
总体目标

        1.1资源建设

        以海外华语报纸期刊语料为主,构建一个超大型的海外华语资源库。海外华语报刊语料为主,侨务信息语料为辅(政策、法规、文献);综合考虑语料地域分布,如东南亚、港澳台、欧洲、美洲、非洲等等;时间上动态更新,逐年增加;内容上,考虑不同主题的分布情况,如政治、经济、文化、教育等等。

       1.2软件开发

       各种面向海外华语资源库的应用软件。

       1.2.1资源库管理系统:浏览、存储、增删、导入导出、角色权限。

       1.2.2语料加工系统:初加工系统(网页下载、网页信息抽取、语料建库);分类标引系统(主题分类、标引关键词);深加工系统(切分、字词频统计)。

       1.2.3产品开发系统:检索、新词发现、流行语加工、语言学研究辅助系统、词典编撰机助系统、面向各行业辅助研究系统(如经济领域的研究)、决策支持系统(如侨务决策辅助系统)。

       1.3产品开发、成果发布

       根据资源库进行相关的产品开发与发布。为快速高效提高中心的影响力,建议建立海外华文网站。

       1.3.1海外华语资源资源总体情况,提供给各类机构研究,如侨办等等。

       1.3.2海外华语语言学描写语言学特征描写,与大陆对比研究。如当年出现的新词语,与大陆新词语对比研究。

       1.3.3海外流行语分地区(如东南亚、欧、美等等)、分时期(按年)、分类别(如政治、经济、文化、体育等等)发布。

第一年度计划
        2.1媒体调查

        调查海外华语媒体情况,如报刊网站、纸版报刊、全球华语媒体分布。

       2.2确定华语语料库建库原则

       华语语料库建库的基本原则、语料信息字段定义、存储格式选择。

        2.3软件开发

       2.3.1网页自动下载工具设定下载网址,快速批量自动下载网页。已有。

       2.3.2网页信息抽取及建库工具通过网页解析得到语料库建库所需的信息,如网页来源、网页发表时间、作者,等等。xml格式建库。

       2.3.3语料初加工工具、切词系统、分类标引系统。已有,但需改进或重新训练。

        2.4资源建设

       下载海外华语报刊语料,预计下载2005年及以前的全部语料词表建设:简体词表、繁体词表(难度较大)规章制度建设,如语料管理、授权使用制度

       2.5初步产品发布(待补)

初步成果

        3.1媒体调查

        已基本上调查清楚海外华语媒体情况,如报刊网站、纸版报刊、全球华语媒体分布。参见《海外华语媒体分布情况》

        3.2确定华语语料库建库原则

        已确定华语语料库建库的基本原则、语料信息字段定义、存储格式选择。

        为什么要定义信息字段、选择XML格式存储?参见《语料库建库原则、语料信息字段、存储格式》

        3.3已完成软件工具

        网页自动下载工具、网页信息抽取及建库工具、切词系统、分类标引系统。

        3.4已完成语料库情况

        已完成网络语料的下载和信息抽取建库工作。 为什么要抽取信息建库?如何抽取建库?参见《网页信息抽取及建库系统C#实现》

        语料来自五大洲主要华语社区报刊网络版,总文件数约为8万,总字数约为8千万。具体分布如下:

        3.5语料示例

        参见《网页信息抽取及建库系统C#实现》

 
版权所有 2006 © 海外华语研究中心 全球华语网

地址:广州市广园东路暨南大学华文学院海外华语研究中心 邮编:510610
网址:http://www.globalhuayu.com Email:liuhua0461@sina.com  管理员登陆