本发明涉及人工智能领域,尤其涉及到一种面向工业数据的大模型语料构建方法。
背景技术:
1、在工业领域,由于数据来源涵盖ot(操作技术)数据(包括传感器数据、实时监控数据、设备状态信息、生产过程控制数据、模拟信号、时序信号等)、it(信息技术)数据(包括企业资源规划(erp)系统数据、数据库记录、业务流程信息、生产管理系统数据、数字日志等)、et(工程技术)数据(包括工程设计数据、建模数据、工艺设计图纸、设备规格和校准数据、测试结果等)和nt(非传统)数据(包括互联网开放数据、社交媒体数据、用户生成内容、在线评论和市场调研数据等),现有技术很难将这些多源异构的工业数据有效地转化为工业大模型语料。以下是构建工业大模型语料库的基本方法:
2、1)使用pipeline流水线将单元和词排版合并,通过模板生成文本作为语料。2)使用深度学习的端到端编码解码方式输出文本语料。3)使用预训练模型,提前学习海量文本,生成更加流畅自然的语料。
3、例如,专利号为202111030767.5的专利文件公开了一种基于pipeline处理和es储存问答系统构建方法,对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签;将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入es数据库。
4、上述方法的缺陷在于:1)难以揭示数据之间的深层次关系。由于工业数据的多源异构,使得挖掘数据间潜在联系的能力受限;2)理解能力差。不能处理复杂的上下文,尤其是在涉及工业领域专业知识的情况下;3)精确度低。由于各处理阶段存在信息传递的损失或扭曲,导致最终输出的问答结果存在偏差,降低了整体的回答精确度;4)成本高。为了适应特定场景,需要对模型进行微调,导致企业运营成本上升。
5、因此,有必要对上述现有技术进行改进,以克服上述缺陷。
技术实现思路
1、本发明的目的是提供一种面向工业数据的大模型语料构建方法,以解决现有技术中存在的问题。
2、本发明的上述目的是通过以下技术方案实现的:
3、一种面向工业数据的大模型语料构建方法,包括如下步骤:
4、1)将工业数据通过检索本地知识库,数据库和图谱进行数据集成,将与工业数据相关的数据找出,以获得集成后的工业数据;
5、2)通过llm大语言模型对工业数据进行结构化提取,对提取到的实体进行图谱检索,根据实体与工业数据的相关性对检索结果进行排序,获得工业机理上下文;
6、3)将本地相关语料库构建为向量库;把工业数据向量化后,在向量库中检索相似向量;将检索到的相关文本根据相关性重新排序后输出,作为生成语料的样例模板;
7、4)采用上述样例模板,结合工业机理上下文,将集成后的工业数据通过llm大语言模型转换为语料。
8、进一步的,所述步骤1)的具体方法如下:
9、1.1)工业数据集成:列出需要集成的工业数据源,为工业数据源创建配置文件,根据配置文件自动抽取数据源的元数据,将其存放元数据库中;
10、1.2)元数据向量化检索:清洗元数据,去除无效和重复信息后,将元数据转换为向量,将向量化后的元数据存储到向量数据库中;根据输入数据源的向量,在向量数据库中检索与之相关的工业数据;
11、1.3)元数据集成:读取相关数据源,根据具体的应用场景,设置并调整阈值,利用llm大语言模型判断数据源之间的关联性,以获取相关数据源;对于任意两个数据源计算它们之间的关联性;根据有效的关联结果,通过横向合并表的方式,补全工业数据的相关信息。
12、进一步的,所述清洗元数据采用对比损失函数contrastive loss,如公式(1)所示:
13、 (1)
14、其中,是对比损失函数的值;是工业数据语料元数据样本对数量;是第个工业数据语料相似样本对的标签,其中=1表示样本对是相似的,=0表示样本对不相似;是第个样本对之间的距离;是预设的工业数据语料样本对之间的距离阈值,用于判断样本对是否相似;
15、当=1,即工业数据语料元数据样本对相似时,对比损失函数的第一项会惩罚那些样本对之间的距离大于阈值的相似样本对;若小于或等于,则损失为0;若大于,则损失是与之差;
16、当=0,即工业数据语料元数据样本对不相似时,对比损失函数的第二项会惩罚那些样本对之间的距离小于阈值的不相似样本对。
17、进一步的,所述读取相关数据源采用如下方法:
18、1)基于元数据特征的权重,动态选择最优数据源;
19、2)集成多种元数据读取方式,并根据实时需求进行调整;
20、3)特征重要性评分:对于每个元数据特征,通过随机森林模型预测其重要性评分,计算方法如公式(2)所示;
21、 (2)
22、其中,表示特征的重要性评分;表示随机森林模型中树的数量;表示特征在第棵树中作为分裂节点的平均均方误差;表示特征在第棵树中作为分裂节点的平均均方误差。
23、4)根据公式(3)计算每个元数据特征的权重,根据确定元数据处理的优先级;
24、 (3)
25、表示特征的权重;表示特征的重要性评分;表示特征的总数;表示特征的重要性评分。
26、进一步的,所述有效关联的确认采用公式(4):
27、 (4)
28、其中,表示数据源和数据源之间是否存在有效的关联;如果
29、的值大于或等于,则被设置为真,表示这两个数据源之间存在关联;否则,被设置为假,表示这两个数据源之间没有关联。
30、进一步的,所述步骤2)的具体方法如下:
31、2.1)使用llm大语言模型从工业数据中提取结构化的实体;
32、2.2)根据工业领域的知识,构建结构化的实体的工业知识图谱;
33、2.3)根据混合检索算法在工业知识图谱中检索实体;
34、2.4)根据被检索实体的相关性,对实体进行重新排序,为语料生成提供工业机理上下文。
35、进一步的,所述混合检索算法采用公式(5)实现:
36、 (5)
37、其中,是数据项d对于查询q的向量检索最终评分;是权重参数,其值位于区间 [0, 1]之间,表示基于向量和关键词的评分的权重;表示基于向量的检索评分;表示基于关键词的检索评分;表示基于图谱的检索评分。
38、所述根据被检索实体的相关性,对实体进行重新排序采用公式(6):
39、 (6)
40、其中,表示第i个实体与查询之间的相关性评分;
41、是第i个实体与查询之间的相似度评分;是第i个实体与查询之间的相关性评分;考虑了实体与查询的语义关联和实体的重要性;相关性评分值范围在[0, 1]之间,其值越接近1,则表示实体与查询越相关。
42、进一步的,所述语料向量化包括:1)计算语料中每个词的词向量;2)将词向量转为句子向量;其分别通过公式(7)和(8)实现:
43、 (7)
44、其中, 表示词嵌入函数;是文本语料中的第个词;
45、是对应的词向量;
46、 (8)
47、其中,是句子中词的个数; 表示词对应的句子向量,是第个词的向量;
48、所述构建向量库包括:1)计算存储向量;2)构建存储向量的索引;其分别通过公式(9)和(10)实现:
49、) (9)
50、其中,表示存储操作;表示工业语料文本;是工业语料文本的向量表示,表示工业语料文本向量化后的存储向量;
51、 (10)
52、是生成语料时的工业数据向量化后的查询向量;是存储的第个向量;表示与查询向量最接近的存储向量的索引。
53、进一步的,所述步骤3)的具体方法如下:
54、3.1)构建本地语料向量库:整理已有的文本资源,作为语料模板,将文本资源转换为向量表示,存储到本地语料向量库中;
55、3.2)生成工业语料模板:将工业数据转换为向量,在本地语料向量库中检索与工业数据相似的向量,将检索到的相似向量对应的语料作为模板,
56、使用llm大语言模型对模板进行重新排序,筛选出最佳模板。
57、进一步的,所述步骤4)的具体方法如下:
58、4.1)输入数据准备:整合集成后的工业数据、工业机理上下文和供参考的语料模板,作为原始数据相关的上下文信息;
59、4.2)语料生成:将上下文信息输入llm大语言模型,根据参考模板设置提示词,生成最终的工业语料;
60、4.3)语料审核与优化:对生成的工业语料进行审核、修改和优化。
61、综上所述,本发明具有以下有益效果:
62、1)运用数据集成策略,发现工业数据的潜在关联,有效丰富工业数据的维度,从而消除数据孤岛,提高数据质量。
63、2)对工业机理的深入挖掘,通过实体识别与图谱检索技术,显著增强了模型对工业领域复杂上下文的理解能力。
64、3)创新性地利用本地语料库rag检索增强,以样例模板增强的方式,优化了语料生成过程,确保了文本生成的专业性和精准度。
1.一种面向工业数据的大模型语料构建方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的面向工业数据的大模型语料构建方法,其特征在于,所述步骤1)的具有方法如下:
3.根据权利要求2所述的面向工业数据的大模型语料构建方法,其特征在于,所述清洗元数据采用对比损失函数contrastive loss,如公式(1)所示:
4.根据权利要求2所述的面向工业数据的大模型语料构建方法,其特征在于,所述读取相关数据源采用如下方法:
5.根据权利要求2所述的面向工业数据的大模型语料构建方法,其特征在于,所述有效关联的确认采用公式(4):
6.根据权利要求2所述的面向工业数据的大模型语料构建方法,其特征在于,所述步骤2)的具体方法如下:
7.根据权利要求6所述的面向工业数据的大模型语料构建方法,其特征在于,所述混合检索算法采用公式(5)实现:
8.根据权利要求6所述的面向工业数据的大模型语料构建方法,其特征在于,所述语料向量化包括:1)计算语料中每个词的词向量;2)将词向量转为句子向量;其分别通过公式(7)和(8)实现:
9.根据权利要求6所述的面向工业数据的大模型语料构建方法,其特征在于,所述步骤3)的具体方法如下:
10.权利要求7所述的面向工业数据的大模型语料构建方法,其特征在于,所述步骤4)的具体方法如下: