面向少量标注数据的命名实体识别研究(4)
1、利用POS对文本语料进行切割一获得提及的实体;
2、生成实体关系对;
3、捕获实体与实体关系的浅层语法及语义特征;
4、训练模型并抽取正确的实体及关系。
在NYT等语料上进行实验(如表2),基于知识库的方法相较于基线方法有显著提高。
表2 不同语料下实体的F1值[31]?
(2)基于本体系统。该方式通过一定的规则,将本体库中的概念映射为实体。例如史树敏等人[32]通过构建的MPO本体,首先利用CRF获得高召回率的实体,再融合规则过滤噪声,最终获得较为精确的匹配模式。相似地,Lima等 人[33]通 开 过 发 出OntoLPER本 体 系统,并利用较高的表达关系假设空间来表示与实体—实体关系结构,在这个过程中利用归纳式逻辑编程产生抽取规则,这些抽取规则从基于图表示的句子模型中抽取特定的实体和实体关系实例。同样地,李贯峰等人[34]首先从Web网页提取知识构建农业领域本体,之后将本体解析的结果应用在NER任务中,使得NER的结果更为准确。这些方法利用本体中的语义结构和解析器完成实体的标准化,在面向少量标注的NER中也能发挥出重要作用。
2.5 四种方法比较
上述所介绍的4种面向少量标注的NER方法各有特点,本文从领域泛化能力、模型训练速度、对标注数据的需求和各方法的优缺点进行了细致地比较,整理分析的内容如表3所示。
表3 面向少量标注数据的NER 4种方法比较?
面向少量标注数据NER,最直接的方法是数据增强,通过优先挑选高质量样本参与训练,这种方法在窄域中能实现较高的准确率。但是针对不同领域所需的策略也不同,领域的泛化能力一般。模型迁移从海量无结构化文本中获取知识,这种方式对目标领域的数据需求较少,只需“微调”模型避免了重新训练的巨大开销,但是它依赖领域的强相关性,当领域差异性太大时,容易产生域适应问题。相较于模型迁移,特征变换更加注重细粒度知识表示,这种方法利用特征重组和映射,丰富特征表示,减少知识迁移中的损失,在一定程度上能实现“零样本”学习,但是这种方法往往难以求出优化解,过适配现象也会造成消极影响。知识链接能利用任何结构化信息,通过知识库、本体库中的语义关系来辅助抽取目标实体,但是这种方法易产生噪声,实体的映射匹配依赖强假设条件,所需的知识库通常难以满足领域实体的抽取。
3 数据资源集合与评测
3.1 数据资源集合
近年来,面向少量标注数据的NER实验数据集主要有:CoNLL-2003① bb2.、OntoNotes5⑥
CoNLL 2003:CoNLL(Conference on Computational Natural Language Learning)是由ACLSIGNLL (Special Interest Group on Natural Language Learning)举办的学术会议,其中英语CoNLL 2003数据取自路透社新闻,共包含人名、组织、地名、时间和数量五类实体。
i2b2-2010:该语料来源于49个临床文档和个独特句子。每个句子中都标注了三种类型的医疗实体:病症(个)、治疗手段(8099个)和测试方法(6915个)。
BioCreative-V-CDR:BioCreative是生物和生化领域的信息提取系统,在BioCreative V中有实体识别(DNER)和化学诱发疾病(CID)关系抽取两项任务,其语料来源于1500篇PubMed文章,共包括4409种化学药品实体,5818种疾病实体和3116种化学疾病实体关系。
NYT-FB:NYT是利用Freebase对齐NYT(纽约时报)文本的数据集,其中实体有人名、地名、组织名三类,训练数据集为对齐2005年和2006年纽约时报上文章,测试数据及为对齐2007年的文章。
BioNLP-2016:该 数 据 集 是 由BioNLP Shared Task 2016组织负责的Bacteria Biotope子任务,该任务数据源为PubMed论文摘要,共包含细菌、栖息地和地理位置3种实体。
OntoNotes5:OntoNotes是BBN科技公司和科罗拉多等大学共同发起的项目,OntoNotes 5.0是该项目的最终版本,其数据来源包括新闻、网络日志、博客等文本,其中实体被标注为人名、地名和组织名等18个类别。
MSRA:MSRA语 料 是ACL(Association for Computational Linguistics)的一个专门的兴趣小组SIGHAN(the Special Interest Group for Cchinese Language Processing)在Bakeoff 2006评测比赛中提供的语料,共计四类实体人名、地名、机构名和地理-政治实体。
人民日报-1998:该语料来源于1998年人民日报,共包括人名、地名和机构名3类实体。
3.2 资源链接与评测方法
本文中四类面向少量标注数据的典型方法数据资源与评测信息如表4所示:
文章来源:《水产科技情报》 网址: http://www.sckjqbzz.cn/qikandaodu/2021/0303/398.html
上一篇:图书资料整理盒设计情报分析
下一篇:躬耕科研数十载勇立潮头传捷报广东省科技厅系