古汉语现代汉语语料库
以古汉语、现当代汉语语料为主。古汉语语料从周朝的《春秋》、《诗经》、《尚书》、《周易》一直到清代,几乎包括所有古汉语文献,如诗词曲赋、经史子集等。现当代汉语语料内容平衡,包括各种文体、类别,如记叙、议论、实用文、小说、辞典、经济、哲学、杂志、报刊等等,还包括北京口语语料。
超大规模层级分类语料库
分类后的语料共100万个XML文件,约10亿字,共15大类,层级为4级,层级小类如“科技_数码_视频_相机”、“体育_水上运动_跳水”、“经济_证券资讯_黄金市场”、“汽车_用车修车”,类目总共244个,以XML格式存储,时间跨度为5年(2002-2006)。该语料库字段信息丰富(标题、关键词、栏目、类别、同主题链接、时间、来源),分类系统科学,存储格式可扩展性强。适合构建文本分类、话题识别和信息检索的大型训练(测试)集,而且可以面向词典编撰和教材编写,如基于分类语料库的学科词汇聚类和例句检索等。
详情参见《一个超大规模分类标注语料库的建立》。
XML格式语料下载
网页分类用类目系统
海外华语语料库
以海外华语报纸期刊语料为主,构建一个超大型的海外华语资源库。海外华语报刊语料为主,侨务信息语料为辅(政策、法规、文献);综合考虑语料地域分布,如东南亚、港澳台、欧洲、美洲、非洲等等;时间上动态更新,逐年增加;内容上,考虑不同主题的分布情况,如政治、经济、文化、教育等等。
|