|
通用大词语表
词语表共38万词条,含有大量专名、术语,如经济、科技、房地产、汽车、游戏、体育、旅游、娱乐、军事、时政新闻、教育等领域的新词语(专名、术语)。新词语以命名实体为主,结构固定,意义完整性和专指性强,有助于解决歧义切分和未登录词问题,并能提高文本表示如分类和关键词标引的效果。适合用于信息检索、文本分类、主题词标引、本体构建和面向特定领域的输入法等等。
分类词语表
基于大规模分类语料库,以词和短语作为聚类对象,利用文本分类的特征提取方法进行词语的领域自动聚类,从而获得大规模的领域知识,取得较理想的效果。利用该方法构建的大规模领域知识库将有利于文本分类、主题词标引等相关的文本主题分析。
详情参见《基于文本分类中特征提取的领域词语聚类》。
主要用于以下几个方面:
对外汉语教学词语按话题聚类分级:利用本系统提供的文本特征提取方法可以快速自动聚类出与话题相关的词语集合,并将词语按流通度分级,有利于教师选择与话题相关的词语集合进行教学。
对外汉语教学词表建设:目前,对外汉语教学和测评用的词表,对所有国家和所有专业领域都是一样的。而实际上,不同专业领域也需要不同的领域词表,例如,正在进行的HSK商务(文秘、旅游等)就需要构建相应的词表。
分类词典编撰:针对分类词典中学科词条的获取和选择问题,利用文本分类和聚类中特征提取的方法进行词语聚类,从而达到辅助词典编撰的目的。
词语表下载:“分类词语表”、“HSK商务词表”
大规模聚类词语表
对所有100万个网页中文档频数大于20的关键词聚类后得到18215个聚类词语表,每一关键词词语表按权值取前800个(权值阈值约为7)。体育和国内新闻类因为文本数最大,得到的关键词聚类词表也最多;科技类中得到的数字字母关键词聚类词表最多,达到了142个;体育和娱乐类中得到的人名关键词聚类词表最多。
词语表下载:“聚类词语表”
新词语词典编撰
新词语词典编撰的关键问题是新词语的获取,即动态更新新词语。目前我们已经完成了一个新词语自动获取及领域聚类系统,系统实时抽取大规模网页上的新词语,按照网页发布时间定义新词语,并按照该网页栏目对应的网页分类用类别体系的类目将新词语分类,同时达到新词语快速识别和领域聚类的目的。
目前,正准备利用新词语自动获取和聚类系统,每年进行分领域的新词语发布与新词语词典出版。
另外,基于大规模分类语料库的词条定义提取和例句检索也是我们的一个研究方向,结合词条的获取和选择,设计开发一个计算机辅助词典编撰的应用系统,将会是我们未来的工作之一。
《一种快速获取领域新词语的新方法》 |