面向少量标注数据的命名实体识别研究(5)

栏目导航

综合新闻

通知公告

您现在所在位置：主页 > 期刊导读 >

来源：水产科技情报 【在线投稿】栏目：期刊导读时间：2021-03-03

【作者】：网站采编
【关键词】：
【摘要】：表4 典型方法的数据集与评测? 4 总结与展望 4.1 未来的研究方向在面向少量标注数据的NER时，基本的思路为扩大样本集、迁移领域知识、提高模型特征质量

表4 典型方法的数据集与评测?

4 总结与展望

4.1 未来的研究方向

在面向少量标注数据的NER时，基本的思路为扩大样本集、迁移领域知识、提高模型特征质量以及借用外部结构化数据等，已有的成果证明了这些方法的有效性，但仍然有很多问题存在，需要持续地进行突破。本文对未来可能研究方向进行了思考，以供其他学者参考：

（1）样本选择策略的改进。在样本选择模块，度量准则的定义是难点，优良的准则函数能充分表示信息量，在评估度量准则的优劣时，应对多种度量进行比较，进而选择出对模型拟合帮助较大的准则。此外，在未来的研究中结合生成模型和样本选择是不错的策略，例如利用GAN[39]能迭代生成样本的优势以进行数据增强。

（2）考虑零样本学习。在跨领域的知识迁移中，域适应问题最为关键，域适应的有效手段是联合特征映射和模型迁移。而当前的研究主要集中在有监督的情况，也就是考虑目标域和源领域都有标签，这些方法对包含丰富信息的无监督数据利用较少。在未来的研究中可以考虑零样本学习，Chen等人[40]已经在此作了一些尝试，后续的研究可以考虑基于预训练模型进行改进，也可以分析不同领域零样本语料对模型的影响强度。

（3）考虑语义漂移与噪声。当借用领域知识学习时，大多数研究的假设是领域之间有较高的相似性，但这种强假设条件在现实世界里并不普遍存在，如何在领域差异大的场景下进行NER成为难题，一种可行的策略是借助第三方域完成知识传递，也可以联合多任务学习完成。另外，借用外部的结构化信息进行NER任务时，精度问题是最为关心的，如何消减噪声和歧义是需要持续关注的问题，在未来结合语义与深度增强模型区分正例与反例是一个可选的方向。

4.2 结语

面向少量标注数据学习是近些年来机器学习领域的新兴方向，基本思想为迁移源领域知识以完成目标领域任务，对这一过程深入研究不仅对资源匮乏的NLP任务具有重要意义，也为细分场景下智能系统建设和科技情报服务起到重要作用。在NER的研究中，标注资源的匮乏催生面向少量标注数据的方法，基于数据增强、模型迁移、特征变换、知识链接是典型的思路，这些方法在泛化能力、模型训练速度、对标注数据的需求有不同特点。在后续的研究中，可以结合这些方法，例如在模型迁移中利用数据增强的样本来微调，还可以对知识链接中样本采用数据增强的方式精炼以适应任务需求。此外，数据资源的有效利用值得关注，一般而言，通用领域实体较为简单，但如生物医药和化学领域的资源更有意义，后续的研究应多关注专业领域。

[1] 戴国强. 推进竞跑阶段的创新情报研究[J]. 情报学报, 2019, 38(8):771-777.

[2] 谷威, 田欣. 基于条件随机场和篇章校对的有机物命名实体识别方法研究[J]. 情报工程, 2018,4(5):64-72.

[3] Goyal A, Gupta V, Kumar M. Recent Named Entity Recognition and Classification techniques:A systematic review[J]. Computer Science Review,2018(29):21-43.

[4] 高甦, 金佩, 张德政. 基于深度学习的中医典籍命名实体识别研究[J]. 情报工程, 2019, 5(1):113-123.

[5] 刘宇飞, 尹力, 张凯,等. 基于深度迁移学习的技术术语识别——以数控系统领域为例[J]. 情报杂志, 2019, 38(10):168-175.

[6] Wen Y D, Qiang Y, Gui R X, et al. Boosting for transfer learning[C]. Proceedings of the 24thinternational conference on Machine learning,2007:193-200.

[7] Shen Y, Yun H, Lipton Z C, et al. Deep active learning for named entity recognition[J]. arXiv preprint arXiv:, 2017.

[8] 高冰涛, 张阳, 刘斌. BioTrHMM:基于迁移学习的生物医学命名实体识别算法[J]. 计算机应用研究, 2019, 36(1):45-48.

[9] Shun Z, Shao F L, Jiang F G, et al. Recognizing Small-Sample Biomedical Named Entity Based on Contextual Domain Relevance[C]. 2019 IEEE 3rdInformation Technology, Networking, Electronic and Automation Control Conference (ITNEC).2019:1509-1516.

[10] 钟志农, 刘方驰, 吴烨,等. 主动学习与自学习的中文命名实体识别[J]. 国防科技大学学报, 2014,36(4):82-88.

[11] 梅涛. 基于主动自步学习的文本分类研究[D]. 西安: 西安电子科技大学, 2018.

[12] 王红斌, 沈强, 线岩团. 融合迁移学习的中文命名实体识别[J]. 小型微型计算机系统, 2017,38(2):346-351.

[13] Matthew E P, Mark N, Mohit I, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:1802. 05365, 2018.

[14] Jacob D, Ming W C, Kenton L, et al. BERT:Pretraining of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:, 2018.

文章来源：《水产科技情报》网址: http://www.sckjqbzz.cn/qikandaodu/2021/0303/398.html

上一篇：图书资料整理盒设计情报分析
下一篇：躬耕科研数十载勇立潮头传捷报广东省科技厅系