2023-04-22 07:45:46 来源:博客园
讲在前面,chatgpt出来的时候就想过将其利用在信息抽取方面,后续也发现了不少基于这种大语言模型的信息抽取的论文,比如之前收集过的:
接下来继续介绍另一篇论文。
(资料图)
GPT-NER:通过大型语言模型的命名实体识别
GPT-NER: Named Entity Recognition via Large Language Models
https://arxiv.org/pdf/2304.10428v1.pdf
https://github.com/ShuheWang1998/GPT-NER
Part1前言为什么使用大语言模型在NER上的表现仍然明显低于普遍的基线?
由于NER和LLMs这两个任务之间的差距:前者本质上是一个序列标记任务,而后者是一个文本生成模型。
怎么解决上述的问题呢?
GPTNER遵循语境学习的一般范式,可以分解为三个步骤:
如图所示:第一句话:你是一个优秀的语言学家;第二句话:任务是从给定的句子中标记xxx实体。接下来是一些例子,然后给树了一些例子。最后再输入自己想要提取实体的句子得到结果。很容易发现,每次只能提取一种实体,因此要提取出所有的实体,必须遍历实体列表。例如GPT-3,对提示的长度有 一个硬性的限制(例如GPT-3的4096个tokens)。鉴于这种有限的标记数量,我们不可能在一个提示中包括对所有实体类型的描述和演示。
1怎么提供实例样本?如图所示:
Prompt:Iamanexcellentlinguist.Thetaskistolabellocationentitiesinthegivensentence.Belowaresomeexamples.Input:ColumbusisacityOutput:@@Columbus##isacityInput:RareHendrixsongsellsfor$17Output:GPT-3Output:Rare@@Hendrix##songsellsfor$17
过度预测是指将不是实体的预测为实体。如上面的例子:Hendrix被识别为一个location实体,这显然是不对的。自我验证策略:给定一个由LLM提取的实体,我们要求LLM进一步验证该提取的实体是否正确,用是或否回答。比如:
“Thetaskistoverifywhetherthewordisalocationentityextractedfromthegivensentence”(1)“Theinputsentence:OnlyFranceandBritainbackedFischler’sproposal”,(2)“Istheword"France"intheinputsentencealocationentity?Pleaseanswerwithyesorno”.(3)Yes
同样的,也是根据之前的策略选择样例。
Part3实验总结一下,利用大语言模型进行信息抽取,大多数都是采用这种类似问答的方式进行的,也就是分为多个步骤。
关键词: