面向少量标注数据的命名实体识别研究(2)
图5 面向少量标注数据NER方法分类
2 面向少量标注数据的NER方法
2.1 基于数据增强的NER
数据增强的方法即:在少量数据集训练模型导致过拟合时,通过样本选择、权重调整等策略以创建高质量样本集,再返回分类器中迭代学习,使之能够较好地完成学习任务的方法[6]。
(1)样本选择。在面向少量标注数据时,最直接的策略是挑选出高质量样本以扩大训练数据。其中,样本选择是数据增强式NER的核心模块,它通过一定的度量准则挑选出置信度高、信息量大的样本参与训练,一种典型的思路为主动学习(Active learning)[7]采样,例如Shen等[7]利用基于“不确定性”标准,通过挖掘实体内蕴信息来提高数据质量。在实践中,对于给定的序列X=(x1,x2,…xi)和标记序列Y=(y1,y2,…yi),x被预测为Y的不确定性可以用公式(1)来度量,其中P(y)为预测标签的条件分布概率,M为标签的个数,n为序列的长度:
本文为验证主动学习采样的性能,在人民日报(1998年)语料中进行实验,共迭代十次,其中Random为迭代中随机采样,ALL为一次训练完所有数据的结果,Active-U为利用数据增强的结果。实验结果(如图6)表明,利用数据增强方法在第7次迭代中就能达到拟合,节省了30%的标注成本。
图6 基于数据增强方法的实例
也有不同学者利用其他的度量准则,例如高冰涛等人[8]通过评估源域样本在目标领域中的贡献度,并使用单词相似性和编辑距离,在源域样本集和目标样本集上计算权值来实现迭代学习。Zhang等人[9]充分考虑领域相似性,分别进行域区分、域依赖和域相关性计算来度量。这些方法利用无监督模式通过降低统计学习的期望误差来对未标记样本进行优化选择,能够有效减少标注数据的工作量。此外,半监督采样也是一种新的思路。例如在主动学习的基础上加入自学习(Self-Training)[10]、自步学习(Self-Paced Learning,SPL)[11]过程,这些方式通过对噪声样本增大学习难度,由易到难地控制选择过程,让样本选择更为精准。
(2)分类器集成。在数据增强中,训练多个弱分类器来获得一个强分类器的学习方式也是一种可行的思路。其中典型的为Dai等人[6]提出集成式TrAdaBoost方法,它扩展了Ada-Boost方法,在每次迭代的过程中,通过提高目标分类样本的采样权重、降低误分类实例样本的权重来提高弱分类器的学习能力。TrAda-Boost利用少量的标签数据来构建对源域标签数据的样本增强,最后通过整合基准弱分类器为一个强分类器来进行训练,实现了少样本数据的学习。之后的研究针对TrAdaBoost进行了相应的改进也取得了不错的效果。例如,王红斌等人[12]在分类器集成中增加迁移能力参数,让模型充分表征语义信息,在NER中提高精度也能显著减少标注成本。
2.2 基于模型迁移的NER
基于模型迁移的基本框架如图7所示,其核心思想是利用分布式词表示构建词共享语义空间,然后再迁移神经网络的参数至目标领域,这是一种固定现有模型特征再进行微调(Fine-Tuning)的方法,在研究中共享词嵌入和模型参数的迁移对NER性能产生较大影响。
图7 模型迁移基本结构
(1)共享词嵌入。在NLP中,前期工作通常会借助语言预训练模型学习文本的词义信息,这种方式构建了公共的词嵌入表示空间,词嵌入在NER中通常作为输入。词向量是共享词嵌入的初步形式,此后,ELMo(Embedding from Language Models)[13]模型利用上下文信息的方式能解决传统词向量不擅长的一词多义问题,还能在一定程度上对词义进行预测逐渐受到人们关注。而2018年谷歌提出的BERT(Bidirectional Encoder Representations from Transformers)[14]预训练模型更是充分利用了词义和语义特性,BERT是以双向Transformer[15]为编码器栈的语言模型,它能强有力地捕捉潜在语义和句子关系,基于BERT的NER在多个任务上也取得state-of-the-art[16-17],其基本网络结构如图8所示。
图8 模型迁移的基础方法-BERT-BiLSTM-CRF
其中BERT作为语义表示输入,BiLSTM抽取特征,CRF获取概率最大标签。与传统的NER模型相比,该模型最关键的是BERT语言模型的引入,BERT通过无监督建模的方式学习海量互联网语义信息,能充分表征实体的语义信息。在人民日报(1998年)语料中进行实验,实验结果(如表1)表明,基于BERT的预训练迁移学习模型能有效提高分类的准确率。
表1 BERT-BiLSTM-CRF与其他方法的比较[17]?
文章来源:《水产科技情报》 网址: http://www.sckjqbzz.cn/qikandaodu/2021/0303/398.html
上一篇:图书资料整理盒设计情报分析
下一篇:躬耕科研数十载勇立潮头传捷报广东省科技厅系