本发明涉及大数据,尤其涉及一种大数据系统故障处理方法、系统、电子设备及存储介质。
背景技术:
1、随着信息技术的飞速发展,大数据已成为推动各行业创新与决策的核心动力。然而,大数据领域的运维管理面临着前所未有的复杂性与规模性挑战。传统的运维模式依赖人工监控与手动干预,这在数据量爆炸性增长、系统架构日益复杂的情况下显得捉襟见肘。一方面,人工处理海量数据的分析与异常检测不仅耗时巨大,且易出错;另一方面,资源的动态调配、异常的即时响应及安全威胁的预防等需求,对运维的自动化与智能化水平提出了更高要求。
2、目前的自动化运维更多依赖预设规则和脚本,对于非结构化数据的处理、复杂逻辑推理和自适应学习能力较弱,难以应对大数据场景下的多样化和动态变化的需求。尽管自动化运维工具和平台已经取得了显著的进步,能够自动监控、诊断并解决一部分常见问题,但面对复杂多变的系统环境和层出不穷的新异常模式,其覆盖能力依然显得捉襟见肘。
技术实现思路
1、根据本公开实施例的一方面,提供了一种大数据系统故障处理方法,包括:监测大数据系统的指标数据;基于指标数据进行异常预警,并在指标出现异常时生成预警信息;根据预警信息确定处理相应异常的异常处理方式;在确定异常处理方式包括调用大模型的情况下,获取与预警信息对应的日志信息,调用大模型处理所述日志信息以生成异常恢复方案,以通过异常恢复方案实现故障恢复;在确定异常处理方式包括调用异常处理服务的情况下,调用与预警信息对应的异常处理服务,以通过异常处理服务实现故障恢复。
2、在一些实施方式中,上述方法还包括:利用大模型生成与异常恢复方案对应的异常恢复脚本;根据预警信息具体化异常恢复脚本,以形成可执行的异常恢复脚本;执行具体化后的异常恢复脚本。
3、在一些实施方式中,上述方法还包括:在执行具体化后的异常恢复脚本无法实现异常恢复的情况下,通知运维人员进行异常修复;接收运维人员进行异常修复后上传的异常恢复记录,以基于异常恢复记录训练优化所述大模型,其中,异常恢复记录包括异常描述、异常分析过程和异常恢复方案。
4、在一些实施方式中,监测大数据系统的指标数据包括:对大数据系统的组件进行探活并生成探活数据;基于指标数据进行异常预警,并在指标出现异常时生成预警信息,包括:在基于探活数据确定组件的进程或端口探测失败时,生成指示组件探测失败的预警信息;根据预警信息确定处理相应异常的异常处理方式,包括:若预警信息指示所述组件探测失败,确定调用大模型;获取与预警信息对应的日志信息,包括:基于指示组件探测失败的预警信息确定组件的组件类型,在组件类型对应的日志存储位置获取组件运行日志;调用大模型处理日志信息以生成组件恢复方案,包括:调用大模型处理组件运行日志以生成组件恢复方案及相应的组件恢复脚本;上述方法还包括:根据指示组件探测失败的预警信息具体化组件恢复脚本,以形成可执行的组件恢复脚本;执行具体化后的组件恢复脚本,以拉起该组件。
5、在一些实施方式中,基于指标数据进行异常预警,并在指标出现异常时生成预警信息,包括:在基于所述指标数据确定大数据作业执行失败的情况下,生成指示大数据作业执行失败的预警信息;根据预警信息确定处理相应异常的异常处理方式,包括:若预警信息指示大数据作业执行失败,确定调用大模型;获取与预警信息对应的日志信息,包括:获取大数据作业的执行日志信息;调用大模型处理日志信息以生成异常恢复方案,包括:调用大模型处理大数据作业的执行日志信息以生成作业恢复方案;该方法还包括:将作业恢复方案推送到作业管理员,以使作业管理员根据作业恢复方案进行作业恢复。
6、在一些实施方式中,上述方法还包括:在作业运行过程中,调用作业优化服务,作业优化服务用于:根据作业的执行信息和配置参数校验作业配置合理性,基于校验结果生成作业优化建议,将作业优化建议推送到作业管理员进行处理。
7、在一些实施方式中,根据预警信息确定处理相应异常的异常处理方式,包括:若预警信息指示集群异常为集群的资源管理器或管理节点的服务异常,通过运行检查作业来确定该服务是真正异常还是闪断异常;在检查作业执行失败的情况下,确定调用大模型和调用集群故障转移服务,集群故障转移服务用于将主集群流量切换到备集群;若预警信息指示集群异常为集群节点硬件异常,确定调用集群故障转移服务,集群故障转移服务用于将相应节点的数据节点服务以及资源管理器服务下线;上述方法还包括:如果下线的节点超过总集群节点数的预设比例,则通知运维人员介入处理。
8、在一些实施方式中,监测大数据系统的指标数据,包括:监测大数据系统的集群资源使用情况;基于所述指标数据进行异常预警,并在指标出现异常时生成预警信息,包括:周期性基于集群资源使用情况生成指示集群资源使用情况的预警信息;根据预警信息确定处理相应异常的异常处理方式,包括:若预警信息指示集群资源使用情况,确定调用集群资源弹性伸缩服务;其中,集群资源弹性伸缩服务:若存储利用率或计算资源使用率大于第一预设值,进行集群资源扩容;若计算资源使用率小于第二预设值,进行集群资源缩容。
9、在一些实施方式中,根据预警信息确定处理相应异常的异常处理方式,包括:若预警信息指示存储系统的任一文件请求频次超过设定阈值,则确定调用缓存服务,缓存服务将该文件数据缓存到缓存中间层存储系统中,以便作业再次访问时直接访问缓存,减少底层数据请求;若预警信息指示存储系统的小文件数量超过阈值时,确定调用小文件合并服务,小文件合并服务进行小文件合并以避免小文件过多对元数据管理带来的压力。
10、在一些实施方式中,上述方法还包括:接收作业用户输入的运维问题描述;调用大模型处理运维问题描述以生成运维方案;若大模型无法输出运维方案或者输出的运维方案有误,则通知运维人员介入处理;并接收运维人员上传的运维方案记录,以训练优化大模型,其中,运维方案记录包括运维问题描述和运维方案。
11、根据本公开实施例的另一方面,提供了一种大数据系统异常处理系统,包括:数据采集装置,用于监测大数据系统的指标数据;异常监测装置,用于基于指标数据进行异常预警,并在指标出现异常时生成预警信息;智能分析装置,用于:根据预警信息确定处理相应异常的异常处理方式;在确定异常处理方式包括调用大模型的情况下,获取与预警信息对应的日志信息,调用大模型处理日志信息以生成异常恢复方案,以通过异常恢复方案实现故障恢复;在确定异常处理方式包括调用异常处理服务的情况下,调用与预警信息对应的异常处理服务,以通过异常处理服务实现故障恢复。
12、根据本公开实施例的另一方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行本公开实施例提及的方法。
13、根据本公开实施例的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本公开实施例提及的方法。
14、本公开实施例中提供的一个或多个技术方案,监测大数据系统的指标数据,基于指标数据进行异常预警并在指标出现异常时生成预警信息,根据预警信息确定处理相应异常的异常处理方式;在确定异常处理方式包括调用大模型的情况下,获取与预警信息对应的日志信息,调用大模型处理所述日志信息以生成异常恢复方案,以通过异常恢复方案实现故障恢复;在确定异常处理方式包括调用异常处理服务的情况下,调用与预警信息对应的异常处理服务,以通过异常处理服务实现故障恢复。充分利用大模型在数据分析及预测决策等方面的强大能力,并结合异常处理服务,能够应对大数据场景下的多样化和动态变化的需求,实现大数据系统集群、作业等的自动化管理。
1.一种大数据系统故障处理方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,还包括:
3.如权利要求2所述的方法,其特征在于,还包括:
4.如权利要求1或2所述的方法,其特征在于,
5.如权利要求1所述的方法,其特征在于,
6.如权利要求5所述的方法,其特征在于,还包括:
7.如权利要求1或2所述的方法,其特征在于,根据所述预警信息确定处理相应异常的异常处理方式,包括:
8.如权利要求1所述的方法,其特征在于,
9.如权利要求1所述的方法,其特征在于,根据所述预警信息确定处理相应异常的异常处理方式,包括:
10.如权利要求1所述的方法,其特征在于,还包括:
11.一种大数据系统异常处理系统,其特征在于,包括:
12.一种电子设备,包括:
13.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-10中任一项所述的方法。