面向少量标注数据的命名实体识别研究(5)
表4 典型方法的数据集与评测?
4 总结与展望
4.1 未来的研究方向
在面向少量标注数据的NER时,基本的思路为扩大样本集、迁移领域知识、提高模型特征质量以及借用外部结构化数据等,已有的成果证明了这些方法的有效性,但仍然有很多问题存在,需要持续地进行突破。本文对未来可能研究方向进行了思考,以供其他学者参考:
(1)样本选择策略的改进。在样本选择模块,度量准则的定义是难点,优良的准则函数能充分表示信息量,在评估度量准则的优劣时,应对多种度量进行比较,进而选择出对模型拟合帮助较大的准则。此外,在未来的研究中结合生成模型和样本选择是不错的策略,例如利用GAN[39]能迭代生成样本的优势以进行数据增强。
(2)考虑零样本学习。在跨领域的知识迁移中,域适应问题最为关键,域适应的有效手段是联合特征映射和模型迁移。而当前的研究主要集中在有监督的情况,也就是考虑目标域和源领域都有标签,这些方法对包含丰富信息的无监督数据利用较少。在未来的研究中可以考虑零样本学习,Chen等人[40]已经在此作了一些尝试,后续的研究可以考虑基于预训练模型进行改进,也可以分析不同领域零样本语料对模型的影响强度。
(3)考虑语义漂移与噪声。当借用领域知识学习时,大多数研究的假设是领域之间有较高的相似性,但这种强假设条件在现实世界里并不普遍存在,如何在领域差异大的场景下进行NER成为难题,一种可行的策略是借助第三方域完成知识传递,也可以联合多任务学习完成。另外,借用外部的结构化信息进行NER任务时,精度问题是最为关心的,如何消减噪声和歧义是需要持续关注的问题,在未来结合语义与深度增强模型区分正例与反例是一个可选的方向。
4.2 结语
面向少量标注数据学习是近些年来机器学习领域的新兴方向,基本思想为迁移源领域知识以完成目标领域任务,对这一过程深入研究不仅对资源匮乏的NLP任务具有重要意义,也为细分场景下智能系统建设和科技情报服务起到重要作用。在NER的研究中,标注资源的匮乏催生面向少量标注数据的方法,基于数据增强、模型迁移、特征变换、知识链接是典型的思路,这些方法在泛化能力、模型训练速度、对标注数据的需求有不同特点。在后续的研究中,可以结合这些方法,例如在模型迁移中利用数据增强的样本来微调,还可以对知识链接中样本采用数据增强的方式精炼以适应任务需求。此外,数据资源的有效利用值得关注,一般而言,通用领域实体较为简单,但如生物医药和化学领域的资源更有意义,后续的研究应多关注专业领域。
[1] 戴国强. 推进竞跑阶段的创新情报研究[J]. 情报学报, 2019, 38(8):771-777.
[2] 谷威, 田欣. 基于条件随机场和篇章校对的有机物命名实体识别方法研究[J]. 情报工程, 2018,4(5):64-72.
[3] Goyal A, Gupta V, Kumar M. Recent Named Entity Recognition and Classification techniques:A systematic review[J]. Computer Science Review,2018(29):21-43.
[4] 高甦, 金佩, 张德政. 基于深度学习的中医典籍命名实体识别研究[J]. 情报工程, 2019, 5(1):113-123.
[5] 刘宇飞, 尹力, 张凯,等. 基于深度迁移学习的技术术语识别——以数控系统领域为例[J]. 情报杂志, 2019, 38(10):168-175.
[6] Wen Y D, Qiang Y, Gui R X, et al. Boosting for transfer learning[C]. Proceedings of the 24thinternational conference on Machine learning,2007:193-200.
[7] Shen Y, Yun H, Lipton Z C, et al. Deep active learning for named entity recognition[J]. arXiv preprint arXiv:, 2017.
[8] 高冰涛, 张阳, 刘斌. BioTrHMM:基于迁移学习的生物医学命名实体识别算法[J]. 计算机应用研究, 2019, 36(1):45-48.
[9] Shun Z, Shao F L, Jiang F G, et al. Recognizing Small-Sample Biomedical Named Entity Based on Contextual Domain Relevance[C]. 2019 IEEE 3rdInformation Technology, Networking, Electronic and Automation Control Conference (ITNEC).2019:1509-1516.
[10] 钟志农, 刘方驰, 吴烨,等. 主动学习与自学习的中文命名实体识别[J]. 国防科技大学学报, 2014,36(4):82-88.
[11] 梅涛. 基于主动自步学习的文本分类研究[D]. 西安: 西安电子科技大学, 2018.
[12] 王红斌, 沈强, 线岩团. 融合迁移学习的中文命名实体识别[J]. 小型微型计算机系统, 2017,38(2):346-351.
[13] Matthew E P, Mark N, Mohit I, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:1802. 05365, 2018.
[14] Jacob D, Ming W C, Kenton L, et al. BERT:Pretraining of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:, 2018.
文章来源:《水产科技情报》 网址: http://www.sckjqbzz.cn/qikandaodu/2021/0303/398.html
上一篇:图书资料整理盒设计情报分析
下一篇:躬耕科研数十载勇立潮头传捷报广东省科技厅系