北京师范大学中文信息处理研究所

新闻动态

本所论文获得“NLP-NABD 2018最佳论文奖”

2018-10-24

2018年10月19日-21日，第17届中国计算语言学大会（CCL 2018）暨第6届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD 2018）在长沙理工大学举行。本所硕士生邱媛媛参加会议并作oral展示，值得一提的是，该论文《Revisiting correlations between intrinsic and extrinsic evaluations of word embeddings》获得大会“NLP-NABD 2018最佳论文奖”。

论文获得最佳论文奖

邱媛媛同学汇报论文

CCL是中国中文信息学会（CIPS）的旗舰会议，经过20余年的发展历程，已形成了十分广泛的学术影响，成为国内自然语言处理领域权威性最高、口碑最好、规模最大（2017年注册参会人次超过1000）的学术会议。

自2014年起，CCL和NLP-NABD开始设立最佳论文奖，对高质量中文和英文稿件分别予以奖励。其中，“CCL最佳论文奖”用于奖励中文信息处理方面的优秀中文论文，“NLP-NABD最佳论文奖”用于奖励大数据环境下自然语言处理方面的优秀英文论文。

本篇获奖论文聚焦中文词向量内外部评测一致性问题，是神州泰岳-北京示范大学联合实验在中文语言向量技术及服务研究上产生的又一成果。在前期中文语言向量研究的基础上，该论文进一步探究词向量内外部评测一致性问题。通过对词相似、词类比、命名实体识别、情感分类四个任务效果相关性的讨论，探究不同向量特征对自然语言处理任务的影响，从而为NLP任务中的词向量选择提供科学的参考和依据。

实验结果表明，内外部评测各任务之间具有较强的正相关性，这说明词向量在下游任务中的表现是可以通过内部评测任务来预判的。但同时不同任务对词向量的特征有不同偏好，对于依赖于形态特征或者字符语义的任务来说，偏重字特征的词向量是更好的选择，而融合了n-gram 特征的词向量对于依赖较长距离上下文的任务来说更合适。论文还特别提到，词向量与任务之间领域相关或一致将有利于提升效果，实验中的命名实体识别任务专注于财经领域，而金融语料的词向量有明显优势；采用豆瓣书评作为数据集的情感分类任务在语体、话题相似的知乎词向量（2.1G）上也表现突出，接近21.3G 的综合词向量（Comb.）。

论文链接：https://link.springer.com/chapter/10.1007/978-3-030-01716-3_18
Github项目链接：https://github.com/Embedding/Chinese-Word-Vectors