新闻动态

本所发布全网最全预训练语言向量资源Chinese Word Vectors

2018-05-27

对于国内自然语言处理的研究者而言,中文字词向量是需求很大的资源。北京师范大学中文信息处理研究所历时半年,构建了目前全网最全的中文语言向量资源,包含数十种用各领域语料(百度百科、维基百科、人民日报、知乎、微博、文学、金融、古汉语等)训练的字、词、ngram向量,覆盖多种训练设置,并提供了CA8评测数据集及评测方法。

近日,Chinese Word Vectors项目在Github开源平台上正式发布,发布一周来已经在Github上获得1500余星,以及机器之心、汉语堂、Paper Weekly等媒体的广泛报道与推荐。该研究的论文《Analogical Reasoning on Chinese Morphological and Semantic Relations》也获得ACL 2018大会接收。


参考:

机器之心:Chinese Word Vectors:目前最全的中文预训练词向量集合,2018年5月15日。

Paper Weekly:Github项目精选推荐,2018年5月19日。

汉语堂:马云-阿里巴巴+腾讯=?用中文词向量来实现语义推理,2018年5月24日。


更多关于北师大ICIP的资讯,欢迎关注我们的微信公众号: