一种基于大语言模型的机器学习运维方法

专利查询2026-05-05 3

本发明涉及机器学习运维，尤其是涉及一种基于大语言模型的机器学习运维方法。

背景技术：

1、在信息化时代的浪潮中，算法开发与运维领域正经历着深刻变革。随着数据量的指数级增长、系统架构的日益复杂以及业务需求的快速迭代，传统运维模式面临严峻挑战。算法科学家和技术团队在模型部署、资源调度和服务监控方面的困难尤为突出。这不仅是由于软件工程知识的不足导致运维效率低下，还因为高性能计算资源，特别是gpu资源的稀缺性和高成本，严重限制了研发速度和创新能力。

2、针对这些痛点，mlops(机器学习运维)应运而生，成为信息技术运维领域的一场革命。mlops集成了大数据处理、机器学习和自动化技术，旨在颠覆传统运维模式，提升运维效率、降低运营成本，并确保系统的高度稳定性和可靠性。

3、基于云原生、虚拟化和容器技术，mlops算法平台整合了领先的开源工具和自研组件，构建了一个全面、高效的算法开发生命周期管理体系。通过动态可扩展、自动负载均衡的微服务架构，平台提供了从数据处理、算法开发到模型部署和服务监控的全自动化或半自动化流程，特别适用于追求高效算法实施的场景。

4、mlops适用于不同规模的算法项目。对于小规模开发，平台简化了从数据处理到服务监控的全过程；在大规模团队协作中，它通过自动化训练、打包和部署功能，极大地减轻了管理负担。此外，平台的分布式训练和弹性资源管理机制确保了gpu等关键资源的高效利用，避免了资源闲置和浪费。

5、尽管mlops的理念和技术框架已经初见成效，但在实际应用中，尤其是在用户交互体验、智能化操作指导以及高级决策辅助等方面，仍存在明显短板。特别是随着大语言模型(llm)技术的迅猛发展，其在自然语言处理、复杂逻辑推理和个性化响应上的卓越表现，为mlops平台的进一步智能化升级提供了无限想象空间。

6、如何将llm的先进能力与现有的mlops平台深度融合，创造出能够理解用户意图、提供精准帮助、甚至预测并自动编排机器学习流水线的智能助手，成为亟待探索的关键课题。因此，提出一种基于大语言模型的机器学习运维方法，以解决上述问题，具有重要的现实意义和广阔的应用前景。

技术实现思路

1、本发明提供了一种基于大语言模型的机器学习运维方法，通过全面优化机器学习运维流程，提升运维效率与智能化水平，为机器学习运维领域提供基于大语言模型的解决方案。

2、一种基于大语言模型的机器学习运维方法，包括以下步骤：

3、预处理阶段，对机器学习运维平台上的各类资产文档进行数据预处理，包括数据清洗、元数据提取、文档总结、向量存储和分片索引；其中，各类资产文档包含数据集文档、模型文档和组件文档；

4、检索召回阶段，根据用户问题、对话历史和上下文语境，大语言模型构建并发送查询请求至匹配的知识库进行针对性检索；

5、请求处理阶段，大语言模型分析用户问题，识别用户意图，对简单问题直接回答，对于复杂任务则分解成子问题，并将子问题路由至工具代理系统或机器学习任务代理系统进一步处理，整合处理结果并构造最终响应；

6、反馈修正阶段，通过人类实时反馈机制，动态调整工具代理系统或机器学习任务代理系统的推理流程，修正大语言模型的错误判断。

7、进一步地，在元数据提取过程中，将文档内容作为输入，通过预定义模板格式化大语言模型识别并输出的元数据，并转化为json格式的结构化信息写入平台资产配置文件；将这些步骤封装成调用链，实现对平台资产文档的自动化提取与管理。

8、文档总结采用递归总结方式生成期望的总结内容，具体步骤包括：

9、将文档按照512个token的大小进行分片；大语言模型按顺序读取各分片，结合截至上一分片的总结与当前分片的原始内容，生成截至当前分片的总结，确保总结内容的连贯性和完整性。

10、预处理阶段，采用small-to-big策略对文档进行向量存储和分片索引，具体步骤包括：

11、将各类资产文档按照128、256、512、1024个token的大小进行分片；对大小为128、256、512个token的小分片进行编码，生成嵌入向量，存入向量数据库，作为对应大小为1024token的大分片的索引；当在向量数据库中检索到小分片的嵌入向量时，实际召回的是该小分片所属的大分片内容，以保证召回内容的完整性与检索效率。

12、检索召回阶段，大语言模型构建并发送查询请求至匹配的知识库进行针对性检索，包括如下步骤：

13、对于资产细节问题，在存储资产文档分片的向量数据库中进行检索，具体的：对路由至向量数据库中检索的问题，将检索问题编码为嵌入向量，利用余弦相似度度量向量间距离，应用knn算法在向量数据库中搜索最相近的k个分片向量；设置相似度阈值过滤低相似度分片；召回过滤后的小分片对应的大分片，若多个小分片对应同一个大分片，该大分片仅召回一次；使用gte-rerank重排模型计算所有召回分片与问题的匹配度，并根据匹配度重排；为召回分片添加必要元信息，包括分片所在的源文档名称及路径，关联的资产名称及资产类型、任务类型；

14、对于资产概览问题，在平台资产配置文件中查找，具体的：对路由至平台资产配置文件中查找的问题，大语言模型通过调用查询api，通过api参数控制查询范围和内容输出方式，将api执行结果作为召回内容。

15、请求处理阶段，工具代理系统采用思维链机制，负责执行常规任务，包括图表绘制、脚本编写；通过预设目标和可调用工具，大语言模型逐步推理直至得到最终答案；

16、机器学习任务代理系统基于用户问题与对话历史，总结用户需求，并生成定制化的机器学习工作流。

17、机器学习任务代理系统采用工具链chain策略，按照预设的工具调用顺序执行任务，实现对复杂任务的有序处理；

18、机器学习任务代理系统在选择组件时，采用plan-action策略，即先由大语言模型制定总体计划，再依据计划步骤逐步推理，确定各环节的最优组件，以提升组件选择的准确性和效率。

19、机器学习任务代理系统在选择数据集、模型、组件时，采用召回-精排策略，具体步骤包括：通过元数据信息在平台资产配置文件中筛选初步资产候选集合；通过精排算法，从候选集合中挑选最匹配资产，确保选择的准确性和效率。

20、精排算法通过迭代筛选机制，控制大语言模型每次选择时的选择项不超过五项，降低大语言模型的推理成本，提高选择的准确性；精排算法具体如下：

21、初始化阶段，创建一个队列，并将初始列表的所有元素放入队列中，所有元素指的是所有数据集、模型和组件，即各类资产文档；准备一个子集列表用于暂存部分结果；对该队列循环处理，直到队列为空为止；每次循环开始时，计算当前队列的长度，如果队列中只剩下一个元素，将其作为最终结果并结束循环；否则，根据当前队列的长度计算一个阈值，保证每次处理的子集数量不大于4；遍历当前队列中的每个元素，逐个将其放入子集列表中，当子集列表达到设定的阈值或者已经处理到队列末尾时，由大语言模型从子集列表中筛选出最优元素，并被添加回队列中，成为下一轮处理的输入；当队列中只剩下一个元素时，将其作为最终的选择结果返回。选择数据集时，结果就是数据集；选择模型时，结果就是模型；选择组件时，结果就是组件。

22、反馈修正阶段，通过实时反馈机制，动态调整工具代理系统或机器学习任务代理系统的推理流程，包括如下步骤：

23、工具代理系统在经典的思维链机制基础上，融入人在回路机制，提升大语言模型决策的准确性和灵活性；具体为：在大模型原有的思考、工具调用、工具调用结果三步骤中(大模型领域经典的react agent机制)，嵌入人类反馈环节；在思考环节和工具调用结果环节后，邀请人类专家进行审查和反馈，确保决策的合理性与准确性；其中，思考环节后，工具代理系统将向用户呈现大模型的推理过程与预期行动；工具调用结果环节后，工具代理系统则呈现当前行动的执行结果；用户通过回车确认决策，清空人类反馈区域，推进至下一推理步骤；若用户输入n或n，则触发回滚机制，系统将回溯至上一推理结束点，重新开始本轮推理；若用户提供了额外的指导或纠正意见，这些反馈将被记录并置于大模型本轮推理的提示词头部，赋予其优先级，引导大模型向更符合用户期望的方向推理；

24、机器学习任务代理系统在工具链策略的基础上，融入人在回路机制，增强长工具链推理的可控性和灵活性；具体为：每一个子工具链在完成推理后，系统将呈现推理结果，邀请用户进行确认或反馈；若用户通过回车确定决策，则表明认可当前子工具链的推理结果，系统将继续执行下一个子工具链，推进整体任务进程；若用户输入n或n，则触发回滚机制，系统将回溯至上一个子工具链的推理结束点，重新启动当前子工具链的推理，确保决策路径的正确性和用户满意度；若用户还提供了额外的指导或纠正意见，这些反馈将被记录并置于当前子工具链的提示词头部，赋予其优先级，引导工具链向更符合用户期望的方向推理。

25、与现有技术相比，本发明具有以下有益效果：

26、本发明将大语言模型应用在机器学习运维领域，通过融合数据预处理技术、高级检索策略、任务分解与处理能力，以及人在回路机制，将大语言模型的先进能力与现有的mlops平台深度融合，为机器学习运维领域带来了基于大语言模型的解决方案。不仅能够理解用户意图、提供精准帮助、甚至预测并自动编排机器学习流水线，显著提升了运维效率与智能化水平，还优化了计算资源的利用，降低了运维成本，满足了多样化项目需求，为未来的机器学习运维开辟了新的道路。

技术特征：

1.一种基于大语言模型的机器学习运维方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大语言模型的机器学习运维方法，其特征在于，在元数据提取过程中，将文档内容作为输入，通过预定义模板格式化大语言模型识别并输出的元数据，并转化为json格式的结构化信息写入平台资产配置文件；将这些步骤封装成调用链，实现对平台资产文档的自动化提取与管理。

3.根据权利要求1所述的基于大语言模型的机器学习运维方法，其特征在于，文档总结采用递归总结方式生成期望的总结内容，具体步骤包括：

4.根据权利要求1所述的基于大语言模型的机器学习运维方法，其特征在于，预处理阶段，采用small-to-big策略对文档进行向量存储和分片索引，具体步骤包括：

5.根据权利要求4所述的基于大语言模型的机器学习运维方法，其特征在于，检索召回阶段，大语言模型构建并发送查询请求至匹配的知识库进行针对性检索，包括如下步骤：

6.根据权利要求1所述的基于大语言模型的机器学习运维方法，其特征在于，请求处理阶段，工具代理系统采用思维链机制，负责执行常规任务，包括图表绘制、脚本编写；通过预设目标和可调用工具，大语言模型逐步推理直至得到最终答案；

7.根据权利要求6所述的基于大语言模型的机器学习运维方法，其特征在于，机器学习任务代理系统采用工具链chain策略，按照预设的工具调用顺序执行任务，实现对复杂任务的有序处理；

8.根据权利要求7所述的基于大语言模型的机器学习运维方法，其特征在于，机器学习任务代理系统在选择数据集、模型、组件时，采用召回-精排策略，具体步骤包括：通过元数据信息在平台资产配置文件中筛选初步资产候选集合；通过精排算法，从候选集合中挑选最匹配资产，确保选择的准确性和效率。

9.根据权利要求8所述的基于大语言模型的机器学习运维方法，其特征在于，精排算法通过迭代筛选机制，控制大语言模型每次选择时的选择项不超过五项，降低大语言模型的推理成本，提高选择的准确性；精排算法具体如下：

10.根据权利要求7所述的基于大语言模型的机器学习运维方法，其特征在于，反馈修正阶段，通过实时反馈机制，动态调整工具代理系统或机器学习任务代理系统的推理流程，包括如下步骤：

技术总结
本发明公开了一种基于大语言模型的机器学习运维方法，包括：对机器学习运维平台上的各类资产文档进行数据预处理，包括数据清洗、元数据提取、文档总结、向量存储和分片索引；根据用户问题、对话历史和上下文语境，大语言模型构建并发送查询请求至匹配的知识库进行针对性检索；大语言模型分析用户问题，识别用户意图，对简单问题直接回答，对于复杂任务则分解成子问题，并将子问题路由至工具代理系统或机器学习任务代理系统进一步处理，整合处理结果并构造最终响应；通过人类实时反馈机制，动态调整工具代理系统或机器学习任务代理系统的推理流程，修正大语言模型的错误判断。本发明通过全面优化机器学习运维流程，提升运维效率与智能化水平。

技术研发人员：谢立夫,张犁,李石坚,潘纲
受保护的技术使用者：浙江大学
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-35378.html

专利

最新回复(0)