一种基于问题扩展的机器阅读理解候选答案抽取方法

    专利查询2026-05-11  0


    本发明属于自然语言处理,具体涉及一种基于问题扩展的机器阅读理解候选答案抽取方法。


    背景技术:

    1、机器阅读理解是自然语言处理领域的一个重要研究方向,其目标是让机器理解文本中的语义并回答相应的问题。特别地,对于散文机器阅读理解来说,散文候选答案抽取需要从散文中抽取与问题题干相关的语句,作为回答该问题的依据。然而,散文阅读理解中问题题干内容精简、用词抽象,且阅读材料内容较长,使得候选答案在阅读材料中分布较分散,导致抽取候选答案准确率较低,因此,需要采用更先进的方法对问题题干和文章材料进行分析。

    2、散文候选答案抽取属于多片段抽取任务,其难点主要在于:

    3、(1)散文问题题干内容精简、用词抽象,导致直接获取题干中的有效信息较困难,另外,题干与文章内容之间呼应较少,若直接将问题与文章内容进行匹配时,机器难以理解问题中的抽象词,导致抽取出的候选答案准确率较低。例如,侯祺积等人提出top-mrv模型,通过引入问题词扩展集来划分子句权重,提升了模型抽取候选答案的准确率。zhan等人采用对比学习的思想,提出了动态硬负采样的训练策略,在保持较好稳定性的同时,能够关注排名靠前的答案候选句。然而,上述方法均未考虑到引用外部知识对散文题干进行丰富扩充。

    4、(2)散文文本较长,候选答案分布较分散。先前的研究一般使用滑动窗口、直接截断的方法处理长文本,但直接截断的方法势必会丢失一部分文章信息,影响模型的召回率。滑动窗口虽然分段将文本输入到模型中,但是窗口分割可能导致文本中重要的语境信息被切分,降低模型对整体文本的理解能力。还有guan等人提出利用transformer模型内部的自注意力权重推导出文章中不重要的上下文信息,通过去掉这些信息,达到精简文章内容的效果。ding等人提出cogltx模型,该模型对文章选择性截取来实现缩短长文的效果。然而,上述方法均存在长文本处理不当,未考虑到散文文本上下文关联更加密切,经过上述方法处理后的文章丢失了语句间的关联性,给阅读理解任务带来了语义理解上的困难。

    5、综上所述,现有的散文候选答案抽取方法存在外部知识利用不足和长文本处理不当等问题。因此,本发明旨在面向散文体裁,利用大语言模型强大的生成能力构建散文问题词扩展库,对问题扩展和丰富题干信息;利用分块技术对散文长文分割,再构建相关性判断模型对问题和文章句子间的关联判断,增强抽取候选答案的准确率。


    技术实现思路

    1、针对传统文本抽取方法难以充分利用外部知识对问题进行扩展,以及对长文本进行有效处理等问题,本发明利用大语言模型构建散文问题词扩展库,以及相关性判断模型,提供了一种基于问题扩展的机器阅读理解候选答案抽取方法,主要包括(1)基于大语言模型(llm)抽取文章中与问题题干相关词,构建了问题词扩展库;其次,利用大语言模型强大的生成能力,对原问题的题干进行重写,进一步,利用问题词扩展库对重写的问题进行扩展,以解决题干内容精简、用词抽象的问题。(2)设计了全局上下文编码模块,对问题和文章句子分别进行编码。(3)设计了历史信息编码模块,将句子的全局上下文信息和历史信息相融合。(4)设计了mlp模块,对问题和文章句子间进行关联打分,根据分数选择与问题相关的候选答案。

    2、为达到上述目的本发明采用了以下技术方案:

    3、一种基于问题扩展的机器阅读理解候选答案抽取方法,其特征在于,包括以下步骤:

    4、s1、获取文本context和原问题q的数据;

    5、s2、构建散文问题扩展与候选答案抽取模型,包括基于大模型的问题扩展模块和相关性判断模型构建模块,所述基于大模型的问题扩展模块包括问题重写和问题词扩展,其中问题重写是基于大模型的文本生成能力,得到重写问题;问题词扩展是基于问题题干中提及的具体人物或环境,从散文文章中找到相关的描写词,扩展到重写问题中,得到扩展问题;

    6、所述相关性判断模型构建模块包括分块处理、相关性判断模型和获取候选答案,其中分块处理是应对长文本的处理;相关性判断模型包括全局上下文编码模块、历史信息编码模块和mlp模块,用来得到扩展问题和文章句子间的相关性得分;获取候选答案是选取相关性得分较高的文章句子;

    7、s3、将文本context和原问题q输入问题扩展与候选答案抽取模型,得到扩展问题和文章句子间的相关性得分,并选取相关性得分较高的前k个块作为候选答案。

    8、进一步,所述s2中问题重写具体为:

    9、1)提示信息建立:依据文章内容对原问题进行重写,要求对原问题重写出多条问题,这些重写的问题要求包含文本的上下文信息;

    10、2)根据提示信息进行问题重写:将原问题、散文文本和提示信息输入开源千问大语言模型,生成与原问题语义相似的问题,具体过程如下:

    11、{qrewrite}=llmq([q;context;prompt])

    12、其中,{qrewrite}表示重写问题的集合,llmq为开源千问大语言模型,q表示原问题,context表示散文文本,prompt表示提示信息;

    13、3)筛选重写后的问题:将重写问题q分别与文本句子s和原问题q计算相似度,将两者相似度计算后求和,排序并选取相似度得分最高的问题作为重写问题。

    14、再进一步,所述相似度计算使用基于tfidf的相似度计算方法;

    15、所述重写问题q与文本句子s的相似度cos(q,s),计算公式如下:

    16、

    17、其中,dw表示词向量的维度,tfidf(q,wi)表示词wi在重写问题q中的tfidf值、tfidf(s,wi)表示词wi在散文文章句子s中的tfidf值;

    18、同理,计算重写问题q与原问题q的相似度cos(q,q);

    19、所述求和是对以上两个相似度求和,得到每个重写问题最终的得分,计算公式如下:

    20、grade(q,s,q)=cos(q,s)+cos(q,q)。

    21、进一步,所述s2中问题词扩展具体为:

    22、1)人物形象和环境描写词汇抽取:利用大语言模型识别出散文文本中出现的人名实体或环境,针对各人名实体抽取对应的人物形象或环境描述词;

    23、2)扩展词选取:选择文本中人物形象或环境描述词的前m个词作为扩展词,若描述词数量少于m个,则会全部选取作为问题扩展词,进而构建问题词扩展库。

    24、3)利用问题词扩展库解释抽象词:针对重写问题q,从问题词扩展库中匹配抽象词对应的解释词fs,将fs和q组合,得到扩展后的问题。

    25、进一步,所述s2中分块处理,具体为:

    26、将扩展问题放入到b0块中,记作问题块b0(q),文本分成n个子块,记为文本块b1,...,bn,每个子块的长度为l=length/n,其中,length为整个文本的长度;对于每个子句sk,若长度超过l,则将超出部分的子句划分到下一个文本块bi+1中,同时,下一个子句sk+1将划分到文本块bi+2中,以此类推,直到子块的个数达到n。

    27、进一步,所述s2中的相关性判断模型包括全局上下文编码模块、历史信息编码模块和mlp模块,具体为:

    28、全局上下文编码模块:设初始文本序列为x=(b0(q),b1,b2,...,bn),使用预训练语言模型macbert将块中信息映射到一个高维向量空间中,获得包含文本信息的向量表示m,在此基础上,使用bilstm建立各块间的前后语义关联,获得各块中句子的上下文信息表示,其中将(g1,....,gn)记为全局上下文信息表示g,具体计算公式如下,

    29、m=macbert(x)

    30、(g0,g1,...,gn)=bilstm(m)

    31、历史信息编码模块:设已抽取的文本块数为a,已抽取文本块记为e=(e1,...,ea),则待抽取文本块为v=(va+1,...,vn),在待抽取文本块间执行多头自注意力,以使每个待抽取文本块捕获其他剩余块提供的上下文信息,记作vmhsa;在vmhsa和已抽取文本块e之间执行多头注意力,得到每个待抽取文本块的历史信息表示vmhca;最后连接待抽取文本块的全局上下文表示g和历史信息表示vmhca,得到聚合向量h,具体计算公式如下:

    32、vmhsa=mhsa(v,v)

    33、vmhca=mhca(vmhsa,e)

    34、h=(h1,...,hn-a)=concate(g[ga+1:gn],vmhca)

    35、其中,g[ga+1:gn]表示全局向量中ga+1到gn的部分;

    36、mlp模块:将聚合向量hi输入到mlp中,再通过sigmoid函数,得到扩展问题和文本块间的相关性得分pi,具体计算如下:

    37、pi=sigmoid(whi+b)

    38、其中,w为可训练参数,b为偏置,pi∈[0,1]。

    39、再进一步,还包括优化模型,使模型得到的相关性得分与标准分数无限接近。

    40、更进一步,所述模型优化采用最小化交叉熵损失的方法,损失函数lossestimate计算公式如下:

    41、

    42、其中,yi表示文本块bt中每个词的真实标签。

    43、通过在散文数据集上进行消融实验,本发明与现有技术相比,具有以下优点:

    44、1、利用大语言模型扩展问题题干:与其他模型相比,本发明所提出的方法在散文数据集上达到了最好效果。首先,利用大语言模型抽取文章中与问题题干相关的词,构建了问题词扩展库,其次,利用大语言模型强大的生成能力对原问题的题干进行重写,进一步,利用问题词扩展库对其扩展。扩展后的问题相比于原问题内容更具体详尽、对问题中的抽象词作出了解释,同时引入了文中的部分相关情节,提供给模型更多的上下文信息。

    45、2、构建相关性判断模型:虽然利用大语言模型实现了对问题的扩展,但由于散文文本较长,候选答案较分散,抽取候选答案的准确率较低。为了解决这一局限性,本发明所提出的方法通过构建相关性判断模型,对较长的文章信息通过先分块,然后联合全局上下文编码模块和历史信息编码模块对问题和文章句子间的关系做出判断。这种方法使得模型能够从全局信息和历史信息的角度对文章句子做出判断。通过在散文阅读理解数据集上的实验,本发明能够有效地提升模型在候选答案抽取的性能。这为散文阅读理解的生成类问答提供技术支持。


    技术特征:

    1.一种基于问题扩展的机器阅读理解候选答案抽取方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的一种基于问题扩展的机器阅读理解候选答案抽取方法,其特征在于,所述s2中问题重写,具体为:

    3.根据权利要求2所述的一种基于问题扩展的机器阅读理解候选答案抽取方法,其特征在于,所述相似度计算使用基于tfidf的相似度计算方法;

    4.根据权利要求3所述的一种基于问题扩展的机器阅读理解候选答案抽取方法,其特征在于,所述s2中问题词扩展,具体为:

    5.根据权利要求4所述的一种基于问题扩展的机器阅读理解候选答案抽取方法,其特征在于,所述s2中分块处理,具体为:

    6.根据权利要求5所述的一种基于问题扩展的机器阅读理解候选答案抽取方法,其特征在于,所述s2中的相关性判断模型包括全局上下文编码模块、历史信息编码模块和mlp模块,具体为:

    7.根据权利要求6所述的一种基于问题扩展的机器阅读理解候选答案抽取方法,其特征在于,还包括优化模型,使模型得到的相关性得分与标准分数无限接近。

    8.根据权利要求7所述的一种基于问题扩展的机器阅读理解候选答案抽取方法,其特征在于,所述模型优化采用最小化交叉熵损失的方法,损失函数lossestimate计算公式如下:


    技术总结
    本发明属于自然语言处理技术领域,具体涉及一种基于问题扩展的机器阅读理解候选答案抽取方法。为解决现有抽取方法存在外部知识利用不足和长文本处理不当等问题,本发明主要包括(1)基于大语言模型抽取文章中与问题题干相关词,构建了问题词扩展库;其次,利用大语言模型强大的生成能力,对原问题的题干进行重写,进一步,利用问题词扩展库对重写的问题进行扩展,以解决题干内容精简、用词抽象的问题。(2)设计相关性判断模型,全局上下文编码模块对问题和文章句子分别进行编码,历史信息编码模块将句子的全局上下文信息和历史信息相融合,MLP模块对问题和文章句子间进行关联打分,根据分数选择与问题相关的候选答案。

    技术研发人员:王素格,雷洋,李旸
    受保护的技术使用者:山西大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-35579.html

    最新回复(0)