面向少量标注数据的命名实体识别研究(3)
(2)共享参数。共享词嵌入侧重于词义的表示,而共享参数则侧重于模型参数的迁移。例如,Jason等人[18]从神经网络迁移机制以及迁移哪些层进行大量实验,实验结论显示浅层网络学习知识的通用特征,具有很好的泛化能力,当迁移到第3层时性能达到饱和,继续迁移会导致“负迁移”的产生。Giorgi等人[19]基于LSTM进行网络权重的迁移,首先将源领域模型参数迁移至目标领域初始化,之后进行微调使适应任务需要。而Yang等人[20]从跨领域、跨应用、跨语言迁移出发测试模型迁移的可行性,在一些benchmarks上实现了state-of-theart。整体而言,在处理NER任务时良好的语义空间结合深度模型将起到不错的效果,在迁移过程中模型层次的选择和适应是难点。
2.3 基于特征变换的NER
在面向少量标注数据NER任务时,我们希望迁移领域知识以实现数据的共享和模型的共建,在上文中我们从模型迁移的角度出发,它们在解决领域相近的任务时表现良好,但当领域之间存在较大差异时,模型无法捕获丰富、复杂的跨域信息。因此,在跨领域任务中,一种新的思路是在特征变换上改进,从而解决领域数据适配性差的问题。基于特征变换的方法是通过特征互相转移或者将源域和目标域的数据特征映射到统一特征空间[21],来减少领域之间差异的学习过程,本节主要从特征选择和特征映射的角度进行探讨。
(1)特征选择。即通过一定的度量方法选取相似特征并转换,在源域和目标域之间构建有效的桥梁的策略。例如Daume等人[22]通过特征空间预处理实现目标域和源域特征组合,在只有两个域的任务中,扩展特征空间RF至R3F,对应于域问题,扩展特征空间至R(K+1)F。然而当Yi与YJ标签空间差异较大时,这种线性组合效果可能不理想,Kim等人[23]从不同的角度出发,进行标签特征的变换,第一种是将细粒度标签泛化为粗粒度标签。例如源域标签中<starttime>泛化为<time>,因为在对其他领域学习时,泛化标签更具一般性。第二种是将简单标签增加领域属性,例如给定“Sunny”词语,可以在原标签<condition>增加为<condition, weather>。
(2)特征映射。即为了减少跨领域数据的偏置,在不同领域之间构建资源共享的特征空间,并将各领域的初始特征映射到该共享空间上[24]。利用预测的源标签嵌入至目标领域是一种常见策略。例如,Qu等人[25]从领域和标签差异出发,首先训练大规模源域数据,再度量源域和目标域实体类型相关性,最后通过模型迁移的方式微调。其基本步骤为:1、通过CRF学习大规模数据的知识;2、使用双层神经网络学习源域与目标域的命名实体的相关性;3、利用CRF训练目标域的命名实体。
实验结果显示相较于Baseline方法Deep-CRF,TransInit方法能提高160%的性能。
标签嵌入的方式在领域之间有较多共享标签特征时迁移效果不错,但是这种假设在现实世界中并不普遍。一种新的思路是在编解码中进行嵌入适配(如图10),这种方式利用来自预训练源模型的参数初始化Bi-LSTM-CRF基础模型,并嵌入词语、句子和输入级适配。具体而言,在词级适配中,嵌入核心领域词组以解决输入特征空间的领域漂移现象。在句子级适配中,根据来自目标域的标记数据,映射学习过程中捕获的上下文信息。在输出级适配中将来自LSTM层输出的隐藏状态作为其输入,为重构的CRF层生成一系列新的隐藏状态,进而减少了知识迁移中的损失。
图9 特征变换方法TransInit实验结果[25]
2.4 基于知识链接的NER
基于知识链接[27]的NER,即使用本体、知识库等结构化资源来启发式地标记数据,将数据的结构关系作为共享对象,从而帮助解决目标NER任务,其本质上一种基于远程监督的学习方式,利用外部知识库和本体库来补充标注实体。例如Lee等人[28]的框架(如图11),在Distant supervision模块,将文本序列与NE词典中的条目进行匹配,自动为带有NE类别的大量原始语料添加标签,然后利用bagging和主动学习完善弱标签语料,从而实现语料的精炼。一般而言,利用知识库和本体库中的链接信息和词典能实现较大规模的信息抽取任务,这种方法有利于快速实现任务需求。
图10 跨域模型对比[26]
图11 知识链接与数据增强结合模型[28]
(1)基于知识库。这种方式通常借用外部的知识库来处理NER、关系抽取、属性抽取等任务,在现实世界中如Dbpedia、YAGO、百度百科等知识库存在海量结构化信息,利用这些知识库的结构化信息框、日志信息可以抽取出海量知识。例如,Richman等人[29]利用维基百科知识设计了一种NER的系统,这种方法利用维基百科类别链接将短语与类别集相关联,然后确定短语的类型。类似地,Pan等人[30]利用一系列知识库挖掘方法为200多种语言开发了一种跨语言的名称标签和链接结构。在实践中,较为普遍的是联合抽取实体和实体关系。例如Ren等[31]的做法,该方法重点解决领域上下文无关和远程监督中的噪声问题,其基本步骤为:
文章来源:《水产科技情报》 网址: http://www.sckjqbzz.cn/qikandaodu/2021/0303/398.html
上一篇:图书资料整理盒设计情报分析
下一篇:躬耕科研数十载勇立潮头传捷报广东省科技厅系