一种基于正交投影的BI-LSTM-CNN的情感特征抽取方法

    专利查询2022-07-09  141


    一种基于正交投影的bi-lstm-cnn的情感特征抽取方法
    技术领域
    1.本发明涉及自然语言处理领域,尤其涉及一种基于正交投影的bi-lstm-cnn的情感特征抽取方法。


    背景技术:

    2.文本情感分类是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,同时也是人们对产品、服务、事件及其属性的观点、情绪、评价和态度的计算研究,属于文本分类的子任务。不同于普通文本分类,文本情感分类要求更高层的语义抽取和高区分度的情感特征,这在技术上更具挑战性。因此,如何利用自然语言处理(natural language processing,nlp)技术对主观意见文本进行情感分类正被越来越多的研究人员关注。
    3.传统的rnn与cnn深度学习模型通过其强大的表征学习能力在生成判别特征方面取得了重大进展,但情感特征的完整性仍有待提高。例如,rnn与cnn学习模型都可以用来进行文本情感分类。其中rnn模型可以对整个句子建模,捕获句子内的长期依赖关系;然而,对整个序列进行建模可能会忽略一些对分类至关重要的关键局部上下文信息。cnn模型可以通过不同大小的窗口提取更多的局部和位置不变特征,但无法对某些特殊的字符赋予适当的权重(例如:“一般”、“正常”、“?”等这些特殊意义的词)。因此,需要在捕捉句子内的长期依赖关系的同时,对于某些特殊的字符赋予适当的权重,得到高区分度的完整的情感特征是当前的研究热点之一。
    4.为了解决该问题,一种有效的情感特征抽取方法应该考虑以下几个方面:(1)如何从文本中获取准确的情感极性词向量矩阵和具有特殊意义的字符;(2)某些特殊的词或字符如何加权,得到更高区分度的情感特征;(3)从更高层的语义抽取的情感特征向量,如何提高文本情感分类的准确率。


    技术实现要素:

    5.基于以上考虑,本发明引入了中性词向量投影的方法,可以对一些含有特殊意义的词赋予适当的权重,得到高区分度的情感特征。提出一种基于正交投影的bi-lstm cnn的情感特征抽取方法(cpd-net cba)。该方法分为两部分,分别是正交投影模型(cpd-net)和复杂神经网络模型(cnn bi-lstm attention,cba),模型核心任务是将中性词向量投影到正交空间中,赋予其适当的权重,再通过cba模型学习具有更高区分度的情感特征,使文本在情感分类时更具判别性。
    6.所述方法包括以下步骤:
    7.1)一个文本序列通过word2vec等词嵌入模型转化为wordvector序列作为模型的输入。
    8.2)计算出词语间语义关联信息,设置合适的阈值,筛选出具有特殊意义的中性词向量或者符号。
    9.3)将筛选出的中性词向量或者符号投影到情感极性词向量空间中,赋予其适当的
    net的目的是获取情感极性词向量。cp-net由三部分构成:输入层x、特征提取器f
    cp
    、正交投影层(opl);d-net由输入层x、特征提取器fd(特征提取器f
    cp
    和特征提取器fd的参数独立)、梯度反向层(grl)三部分构成。该模型的核心思想是:将特征提取器f
    cp
    计算得到的特征向量f
    cp
    投影到特征提取器fd提取的特征向量fd的正交方向上,即f
    cp
    投影到更有判别语义的空间中,使得一些特殊的中性词被赋予适当的权重,增加了情感特征提取的完整度。
    22.结合图3,具体实施方式为:本发明提出的方法通过加权中性词向量表示某些特殊词的重要性,即在对文本进行设置标签时,一般会有情感特征表现较为明确的特征,如:perfect和nice代表的积极的情绪,bad和disgusting代表的消极的情绪。但是,文本中还会存在除了特征表达明显之外的词,称为中性词(例如:“一般”、“正常”、“?”等)。他们的情感特征是不明显的,在分类上不存在歧义,都属于中性词向量,但是中性词向量在一定程度上会影响文本情感分类结果。
    23.具体的,词语间语义关联(the degree of word correlation,dwc)用于衡量情感极性词和上下文中的中性词的关联度,即从上下文中计算出中性词的情感极性强度,借助词语间语义关联可以更准确的识别出具有特殊意义的词语或者字符,从而提高特征抽取的完整度,其计算公式如公式dwci=|ci×
    wci|所示。其中ci表示中性词与极性词之间的关联度,其计算公式如公式所示。其中ru表示整个评论语料库中的平均值,r
    u,i
    表示词i与平均值的关联度,r
    u,j
    表示词j与平均值的关联度。wci表示中性词的词性,wci由wi和li求得,其计算公式如公式wci=wi×
    li所示。其中wi表示中性词的初始权重,li表示词的位置。由于文本中的中性词较多,而只有少部分的中性词具有特殊意义,因此使用哈工大的ltp工具根据词性进行文本分词,并计算词语间语义关联,筛选出具有特殊意义的中性词或者符号。如图3所示,“电脑”、“一般”、“!”都是中性词,通过计算中性词与极性词的词语间语义关联,选择大于阈值的词语作为筛选结果。为后续的特征投影操作提供数据支持。
    24.结合图4,具体实施方式为:本发明提出的方法将神经网络模型和注意力机制相结合,提出了cba(cnn bi-lstm attention)模型。利用cnn bi-lstm混合神经网络对输入文本进行情感特征提取,结合注意力机制以获取丰富的情感特征。首先,该模型采用word2vec模型将输入文本转换为词向量,并传入到cnn-bi-lstm混合神经网络中;其次,利用cnn模型优势对输入向量进行充分的挖掘,获取输入文本的主要特征。cnn模型包含卷积层和最大池化层,卷积层的目的是获取输入数据的特征,两层的激活函数都是relu。在卷积层之后进行最大池化操作,对卷积层所提取的特征进行向下采样,达到精简模型参数的目的;然后,将cnn网络提取到的特征传入bi-lstm网络中,提取文本特征进行强化学习,以获取特征之间的内在联系来解决长时依赖问题;最后,引入attention机制,计算每一时刻输出与整个特征向量的匹配得分,分值越大表明对应的注意力越大,词也就越重要。该方法主要包括embedding层、cnn-bi-lstm层和attention层。
    25.结合图5,具体实施方式为:在多模型对比的迭代过程中,本发明所公开的方法的参数优化路线更加高效。在训练前期(前10轮),各个模型的准确率都较低,交叉熵损失较高,但本发明所公开的方法的准确率处于领先位置;训练的中期(10至20轮),使用交叉熵损
    失函数计算得到损失值并进行模型的参数优化,其它多个模型的准确率逐渐提升,但本发明所公开的方法的准确率开始趋近平稳;训练的后期(20至50轮),其它多个模型的准确率才逐渐稳定。
    26.传统的cnn网络和lstm网络曲线波动较大,在第5个epoch才开始收敛,改进的cnn和lstm的混合模型曲线相对平缓,波动较小,但收敛速度仍相对较慢。本发明所公开的方法不仅收敛速度更快,且曲线整体相对平缓,训练过程稳定且准确率高,且在后续的训练过程中一直处于领先优势,进一步体现了本发明所公开的方法的优势。
    27.此外,以上实施方式仅用以说明本发明的具体实施方式而不是对其限制,本领域技术人员应当理解,还可以对其中部分技术特征进行同等替换,这些修改和替换亦属于本发明保护范围。
    转载请注明原文地址:https://tc.8miu.com/read-3256.html

    最新回复(0)