首 页 中心简介 新闻动态 研究项目 研究成果 资源下载 网站论坛 有问有答 ENGLISH
资源推荐
 全球华语词典
 全球华语研究
 全球华语语料库
 词语表资源下载
 超大规模层级分类语料库
 文本分类主题词标引文摘
 其他免费资源下载
   
友情链接
 暨南大学华文学院
 教育部语信司
 中文助手
 语言资源兄弟站点
 在线诗词网
 华语桥
 澜科语言科技
   
 
刘华计算语言学资源                                语料库资源词语表资源软件资源
知讯者生存:计算语言学为对外汉语教学、辞典编撰、语言研究、信息检索服务!
语料库资源

古汉语现代汉语语料库

    以古汉语、现当代汉语语料为主。古汉语语料从周朝的《春秋》、《诗经》、《尚书》、《周易》一直到清代,几乎包括所有古汉语文献,如诗词曲赋、经史子集等。现当代汉语语料内容平衡,包括各种文体、类别,如记叙、议论、实用文、小说、辞典、经济、哲学、杂志、报刊等等,还包括北京口语语料。

超大规模层级分类语料库

    分类后的语料共100万个XML文件,约10亿字,共15大类,层级为4级,层级小类如“科技_数码_视频_相机”、“体育_水上运动_跳水”、“经济_证券资讯_黄金市场”、“汽车_用车修车”,类目总共244个,以XML格式存储,时间跨度为5年(2002-2006)。该语料库字段信息丰富(标题、关键词、栏目、类别、同主题链接、时间、来源),分类系统科学,存储格式可扩展性强。适合构建文本分类、话题识别和信息检索的大型训练(测试)集,而且可以面向词典编撰和教材编写,如基于分类语料库的学科词汇聚类和例句检索等。

    详情参见《一个超大规模分类标注语料库的建立》

    XML格式语料下载

    网页分类用类目系统

海外华语语料库

    以海外华语报纸期刊语料为主,构建一个超大型的海外华语资源库。海外华语报刊语料为主,侨务信息语料为辅(政策、法规、文献);综合考虑语料地域分布,如东南亚、港澳台、欧洲、美洲、非洲等等;时间上动态更新,逐年增加;内容上,考虑不同主题的分布情况,如政治、经济、文化、教育等等。

 
版权所有 2006 © 海外华语研究中心 全球华语网

地址:广州市广园东路暨南大学华文学院海外华语研究中心 邮编:510610
网址:http://www.globalhuayu.com Email:liuhua0461@sina.com  管理员登陆