北京师范大学中文信息处理研究所

新闻动态

本所发布全网最全预训练语言向量资源Chinese Word Vectors

2018-05-27

对于国内自然语言处理的研究者而言，中文字词向量是需求很大的资源。北京师范大学中文信息处理研究所历时半年，构建了目前全网最全的中文语言向量资源，包含数十种用各领域语料（百度百科、维基百科、人民日报、知乎、微博、文学、金融、古汉语等）训练的字、词、ngram向量，覆盖多种训练设置，并提供了CA8评测数据集及评测方法。

近日，Chinese Word Vectors项目在Github开源平台上正式发布，发布一周来已经在Github上获得1500余星，以及机器之心、汉语堂、Paper Weekly等媒体的广泛报道与推荐。该研究的论文《Analogical Reasoning on Chinese Morphological and Semantic Relations》也获得ACL 2018大会接收。

参考：

机器之心：Chinese Word Vectors：目前最全的中文预训练词向量集合，2018年5月15日。

Paper Weekly：Github项目精选推荐，2018年5月19日。

汉语堂：马云-阿里巴巴+腾讯=？用中文词向量来实现语义推理，2018年5月24日。

更多关于北师大ICIP的资讯，欢迎关注我们的微信公众号：