一种基于大语言模型检测和音素增强的越南语法纠错方法与流程

    专利查询2026-02-09  1


    本发明涉及一种基于大语言模型检测和音素增强的越南语法纠错方法,属于自然语言处理。


    背景技术:

    1、随着经济全球化的不断深入,越南作为东南亚的重要经济体,其语言-越南语也越来越多地进入国际交流的视野,越南语语法纠错技术的发展显得尤为关键。越南语语法纠错的核心目标是准确识别并修正文本中的语法不规范问题,这些问题可能包括:词语顺序的错误、词性搭配不当和句子构造问题等。这些语法错误的存在会严重影响文本的清晰度和可读性,进而影响沟通的效果。因此,为了提升越南语文本的准确性和专业性,对于越南语语法校正技术的需求日益增长。这一技术的进步不仅有助于提升非母语者的越南语写作能力,也对于促进越南语作为国际交流语言的普及和发展具有重要意义。随着技术的不断进步和应用,越南语语法纠错技术将成为提升语言教育质量、优化跨文化交流的重要工具。

    2、越南语语法纠错技术在自然语言处理领域具有独特的挑战性。由于越南语自身的语法结构和汉语不同,它的纠错过程需要考虑到越南语特有的语言特点,如声调、复杂的词尾变化以及特有的句法规则。

    3、越南语语法纠错技术的意义不仅体现在提升文本质量上,更在于它对于优化用户体验和满足不同应用场景需求的不可替代性。这一技术作为确保文本准确性和专业性的核心,有效地减少了交流中的误解和障碍,提升了沟通的效率。

    4、综上所述,对于非母语者来说,越南语语法纠错技术是一个强大的辅助工具,能够帮助他们提高写作技能,从而促进语言学习和教育的发展。在自然语言处理的其他领域,如机器翻译和语音识别,语法检测技术的提升也直接促进了这些技术的准确性和实用性。


    技术实现思路

    1、本发明提供了一种基于大语言模型检测和音素增强的越南语法纠错方法,以用于基于mbart基础模型架构,并新增音素编码模块、平均池化层、过滤性门控机制和检测层构建越南语语法纠错模型以解决越南语语法纠错中精确率较低的问题。

    2、本发明的技术方案是:

    3、一种基于大语言模型检测和音素增强的越南语法纠错方法,所述方法的具体步骤如下:

    4、step1、选取预训练模型mbart作为基础模型架构;

    5、step2、收集越南语音素,构建越南语音素字典;

    6、step3、在step1的基础模型架构上,新增了一个音素编码模块,用于获取上下文音素信息表示;

    7、step4、在音素编码模块后,引入了平均池化层和过滤性门控机制;

    8、step5、通过在基础模型的编码端之后集成一个检测层,并对此层及模型的参数进行联合优化与调整,从而对整合了step3和step4的模型进行了全面训练和优化,以实现最优的性能指标。

    9、进一步地,所述step1的具体步骤如下:

    10、step1.1、首先获取开源且预先训练好的多语言的mbart基础模型,mbart基础模型采用编码端到解码端的架构设计;

    11、step1.2、下载相关的语音识别数据集与图像识别数据集,经过语音识别与图像识别后,得到包含错误的纠错平行数据集;纠错平行数据集作为训练集将用于训练mbart基础模型;

    12、step1.3、对mbart基础模型在公开越南语纠错数据集上进行初步测试,以获取模型的基准性能结果。

    13、进一步地,所述step2的具体步骤如下:

    14、step2.1、从网络资源中搜集所有可能的音素表示p,进而构建一个初始的基础音素字典pv1;

    15、step2.2、构造最大匹配算法,通过实现最大匹配算法来对越南语音节进行拆分,依据是初始的基础音素字典pv1中存在的最大匹配字符;在处理过程中,遍历训练集中的所有越南语音节,并尝试使用最大匹配算法将其构造成音素表示p;随后,对音素表示p进行统计,对于任何不在初始的基础音素字典pv1中的表示pi,将其添加到初始的基础音素字典pv1中,从而扩展并形成最终的基础音素字典pv作为越南语音素字典;

    16、step2.3、对最终的基础音素字典pv中的所有音素表示进行排序,确保相似的音素根据其相似性按照邻近的位置排列。

    17、进一步地,所述step3的具体步骤如下:

    18、step3.1、通过最大匹配算法将输入句子s转化成相应音素表示p,并通过越南语音素字典将输入句子中的每个音素都转化为相应音素id表示pid;

    19、step3.2、在mbart基础模型上增加音素嵌入层,利用音素嵌入层将稀疏的音素id表示pid映射为稠密的拼音向量表示;

    20、step3.3、将step3.2得到的稠密的拼音向量表示作为双向长短时记忆网络的输入,经过双向长短时记忆网络编码,获取上下文音素信息表示。

    21、进一步地,所述step4的具体步骤如下:

    22、step4.1、当获取上下文音素信息表示后,首先求得上下文音素信息表示在第二个维度的平均值,并重复至与上下文文本表示维度一致的音素临时隐藏层表示;然后通过平均池化层提取上下文音素临时隐藏层表示的单一维度特征;随后,通过在第三个维度上合并文本表示与音素临时隐藏层表示,通过融合音素信息与文本信息,并获取带有音素信息的文本表示;

    23、step4.2、将step4.1得到的带有音素信息的文本表示通过过滤性门控,过滤掉其中存在无用信息,得到最终的带有音素信息的文本表示;通过使用最终的带有音素信息的文本表示作为mbart基础模型解码端输入。

    24、进一步地,所述step5的具体步骤如下:

    25、step5.1、将mbart基础模型编码端输出的上下文文本表示作为双向门控循环单元的输入,通过双向门控循环单元捕获文本信息之间可能存在的错误信息,并得到带有检测信息的向量表示;

    26、step5.2、带有检测信息的向量表示经过分类层后,将稠密的向量表示映射成稀疏的检测信息;

    27、step5.3、尝试使用交叉熵对检测信息建模,通过计算负对数似然函数优化文本编码器参数。

    28、本发明的有益效果是:本发明首先使用多语言预训练模型mbart构建一个端到端的语法纠错基础模型,借助mbart强大的语言表征能力提升纠错效果;在上述基础上,本发明进一步设计了一个专用的音素编码模块,旨在辅助纠错模型学习越南语的特有语言特性;进一步地,通过平均池化层提取包含越南语特征的音素信息,并确保其与文本信息表示在维度上的一致;随后,通过过滤门控机制将音素信息与文本信息融合,剔除音素信息中的干扰成分,以确保文本信息表示的准确性和可靠性;最后,本发明在过滤门控机制之后添加一个错误检测层,通过精确识别错误,减少模型的过度校正现象,提升整体语法纠错的准确性和稳定性。



    技术特征:

    1.一种基于大语言模型检测和音素增强的越南语法纠错方法,其特征在于,所述方法的具体步骤如下:

    2.根据权利要求1所述的基于大语言模型检测和音素增强的越南语法纠错方法,其特征在于,所述step1的具体步骤如下:

    3.根据权利要求1所述的基于大语言模型检测和音素增强的越南语法纠错方法,其特征在于,所述step2的具体步骤如下:

    4.根据权利要求1所述的基于大语言模型检测和音素增强的越南语法纠错方法,其特征在于,所述step3的具体步骤如下:

    5.根据权利要求1所述的基于大语言模型检测和音素增强的越南语法纠错方法,其特征在于,所述step4的具体步骤如下:

    6.根据权利要求1所述的基于大语言模型检测和音素增强的越南语法纠错方法,其特征在于,所述step5的具体步骤如下:


    技术总结
    本发明公开了一种基于大语言模型检测和音素增强的越南语法纠错方法,属于自然语言处理技术领域。本发明首先使用多语言预训练模型mBART构建一个端到端的语法纠错基础模型,借助mBART强大的语言表征能力提升纠错效果;还设计了一个音素编码模块,旨在辅助纠错模型学习越南语的特有语言特性;进一步通过平均池化层提取包含越南语特征的音素信息,并确保其与文本信息表示在维度上的一致;随后,通过过滤门控机制将音素信息与文本信息融合,剔除音素信息中的干扰成分,以确保文本信息表示的准确性和可靠性;最后,在过滤门控机制之后添加一个错误检测层,通过精确识别错误,减少模型的过度校正现象,提升整体语法纠错的准确性和稳定性。

    技术研发人员:李英,毛存礼,黄于欣,高盛祥,王振晗
    受保护的技术使用者:小语智能信息科技(云南)有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-34118.html

    最新回复(0)