|
|
语料库的来源以新加坡、马来西亚和泰国主流媒体为主,语料时间跨度为2005年到2008年,总共文本数为343978个,约3亿字。
已经分词和标注词性,对于每一媒体的子语料库,统一做了用字用语的标记和统计分析。目前,中心已经完成了一个网络版的在线例句检索系统和用字用语检索系统。
查看详细...
|
|
|
立足“本土化、主流性”的基本原则,东南亚小学华文教材语料库以动态方式采集各种东南亚小学华文教材。语料涵盖东南亚各国,以新加坡、马来西亚、菲律宾、印尼的小学华文教材为主。选取了20套、约240本小学华文教材,已经全部采集完毕,并已经输入电脑,总共约300万字。
查看详细...
|
|
|
东南亚留学生作文语料库主要收集在华学习汉语的东南亚华裔留学生的汉语作文语料,包括平时作文和考试作文。该语料库收集了2001年到2010年的留学生作文,大约400万字。
查看详细...
|
中国大陆超大规模层级分类语料库
|
|
为了和中国大陆的语料库进行对比,更好地研究海外华语,中心构建了一个超大规模的中国大陆语料的分类语料库。分类后的语料共150万个XML文件,约15亿字,共15大类,层级为4级,类目总共244个,以XML格式存储,时间跨度为7年(2002-2008)。
|
古汉语现代汉语语料库
|
|
以古汉语、现当代汉语语料为主。古汉语语料从周朝的《春秋》、《诗经》、《尚书》、《周易》一直到清代,几乎包括所有古汉语文献,如诗词曲赋、经史子集等。现当代汉语语料内容平衡,包括各种文体、类别,如记叙、议论、实用文、小说、辞典、经济、哲学、杂志、报刊等等,还包括北京口语语料。
|