云环境下实时流数据与业务维度信息自动关联系统及方法与流程

    专利查询2023-09-02  116



    1.本发明涉及云计算领域,具体地,涉及一种云环境下实时流数据与业务维度信息自动关联系统及方法。


    背景技术:

    2.随着云计算、大数据相关业务的快速发展,面对海量、快速、多维的实时流数据,传统的t+1模式的离线数据分析方式已经无法满足业务上对数据时效性的要求。实时流处理技术虽然可以在达到准实时,甚至实时需求,但实时流数据往往只带有很少的原始数据,无法直接对这类数据进行多维度分析,因此需要将这些数据与各个维度的业务信息关联,才能被诸如大屏展示、分析报表等业务系统使用。
    3.现有实时数据与业务维度信息关联方式存在以下问题:
    4.1、基于api的实现方式,需要用户自行编码,自由度高,但技术门槛高,实现难度大,开发人员水平参差不齐,性能难以保证,上线部署流程复杂;
    5.2、基于sql的实现方式,虽然相较于api编程方式,技术门槛一定程度降低,但仍然需要用户自行完成sql编写,依然存在sql编写水平参差不齐,性能难以保证的问题,而难度降低的同时也带来了自由度的下降,无法精确控制实时流数据与业务维度信息关联过程,如业务维度信息变化时无法精确控制更新的粒度和时机。
    6.公开号cn105976242a专利文献“一种基于实时流数据分析的交易欺诈检测方法及系统”公开了一种基于实时流数据分析的交易欺诈检测方法,该发明与本发明解决的技术问题并不一致。
    7.本发明针对云环境下应用产生的各类实时数据(如实时日志数据、监控指标数据、链路追踪数据、数据库变更数据等)如何与业务维度信息自动、快速、高效关联的问题,提出了一种解决方案,通过对云环境下各类应用进行抽象建模、维度信息关联时自动根据模型进行维度上卷及退化、自动生成关联sql语句等方式实现实时数据业务化属性信息的高效关联扩充操作。


    技术实现要素:

    8.针对现有技术中的缺陷,本发明的目的是提供一种云环境下实时流数据与业务维度信息自动关联系统及方法。
    9.根据本发明的一个方面,提供了一种云环境下实时流数据与业务维度信息自动关联系统,包括:元数据建模模块、实时数据接入模块、流表关联计算模块、维度数据更新及存储模块和数据持久化存储模块;
    10.所述元数据建模模块,对云计算平台中资源进行抽象建模得到模型元数据;
    11.所述实时数据接入模块,基于所述模型元数据实现实时数据接入到流表关联计算模块;
    12.所述流表关联计算模块,基于维度拓扑数据以源数据接入模型元数据实现实时流
    数据与维度数据的自动、高效关联;
    13.所述维度数据更新及存储模块,监听维度拓扑图中维度表信息的变更,自动更新分布式缓存中的维度表数据;
    14.所述数据持久化存储模块,对实时流数据与维度数据关联加工后的实时明细数据进行持久化存储。
    15.优选地,所述元数据建模模块,每个资源都被抽象成配置项,每一个配置项都有一个配置项编码,做为全局惟一标识,并以此关联到下述三个维度的层次模型中:
    16.a.运营主线层次模型:配置项技术服务业务服务应用系统租户;
    17.b.资源主线层次模型:主机机柜机柜区块机房数据中心;
    18.c.人员主线层次模型:管理员团队部门;
    19.基于上述三个主线层次模型,云环境下的任何一种类型资源都会自动生成一个维度拓扑图,维度拓扑图是一个有向无环图,每一个节点都是一个维度表,包括了详细属性信息,某些属性本身可能是另一个维度表的主键,通过维度拓扑图可以完整描述云环境下任一指定资源。维度拓扑图可以根据实际需要进行裁剪,默认提供全维拓扑以及精简拓扑两个内置维度拓扑图模式,维度拓扑图数据存储于元数据库中,同时提供元数据建模可视化操作页面进行信息配置,基于拓扑图中节点对应的维度表的历史更新规律,自动推荐维度表数据更新策略,同时开放自定义配置。
    20.优选地,所述每个资源,包括软件资源及硬件资源;
    21.优选地,所述软件资源,包括包括oracle/db2/mysql数据库、activemq/kafka中间件、tomcat/websphere web容器和nginx/haproxy代理软件。
    22.优选地,所述硬件资源,包括负载均衡设备、路由器、交换机及waf防护设备。
    23.优选地,所述实时数据接入模块中,对云环境下各种类型的数据源,包括数据库、web容器和中间件,进行抽象建模,包括但不限于数据源类型(不同的数据源类型提供不同的数据接入适配器)、数据源连接信息、防火墙开通状态、源数据格式(包括json或xml)、源数据字段结构(包括名称、类型和长度等)、字段映射关系、字段加工逻辑、数据同步模式(包括实时抽取和主动推送等)、数据同步类型(包括增量同步和全量同步等)、数据采样策略(包括采集时长、采集数量等)、实时数据接入模块基于上述模型元数据实现实时数据接入到计算模块,同时提供实时数据接入配置可视化操作页面进行信息配置。
    24.优选地,所述维度数据更新及存储模块,监听维度拓扑图中维度表信息的变更,当维度拓扑图中信息发生变更时,自动更新分布式缓存中的维度表数据,更新模式有实时更新、定时更新、命令触发更新三种模式,同时提供维度数据策略配置可视化操作页面进行信息配置,预先自动填充显示推荐配置,用户根据业务需要进行确认或自定义修改。
    25.优选地,所述流表关联计算模块,负责基于维度拓扑数据以源数据接入模型元数据实现实时流数据与维度数据的自动、高效关联,用户可以根据需要选择全维关联以及精简关联两个内置流表关联模式,同时开放自定义关联模式,提供流表数据处理编辑器通过编写sql语句的方式实现流表关联,编辑器提供自动语法校验、字段推荐、在线调试、性能调优等功能。
    26.优选地,所述数据持久化存储模块,对实时流数据与维度数据关联加工后的事实明细数据进行持久化存储,主要包括数据存储类型及存储时长,同时提供数据持久化配置
    可视化操作页面进行相关参数配置。
    27.根据本发明的另一个方面,提供了一种云环境下实时流数据与业务维度信息自动关联方法,包括:元数据建模步骤、实时数据接入步骤、流表关联计算步骤、维度数据更新及存储步骤和数据持久化存储步骤;
    28.所述元数据建模步骤,对云计算平台中资源进行抽象建模得到模型元数据;
    29.所述实时数据接入步骤,基于所述模型元数据实现实时数据接入到流表关联计算步骤;
    30.所述流表关联计算步骤,基于维度拓扑数据以源数据接入模型元数据实现实时流数据与维度数据的自动、高效关联;
    31.所述维度数据更新及存储步骤,监听维度拓扑图中维度表信息的变更,自动更新分布式缓存中的维度表数据;
    32.所述数据持久化存储步骤,对实时流数据与维度数据关联加工后的实时明细数据进行持久化存储。
    33.与现有技术相比,本发明具有如下的有益效果:
    34.1.本发明实现了云环境下异构应用产生的各类原始实时数据与业务维度数据信息的高效、自动关联加工操作;
    35.2.本发明最大限度降低云环境下各类实时数据与业务维度信息关联的难度,最小化研发人员开发工作量,最大程度保证了运行效率。
    附图说明
    36.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
    37.图1为根据本发明系统云环境下的任何一种资源自动生成的维度拓扑图;
    38.图2为实时数据接入配置页面中设计实时数据接入的源数据建模截图。
    具体实施方式
    39.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
    40.在本实施例中,根据本发明提供的一种云环境下实时流数据与业务维度信息自动关联系统,包括:元数据建模模块、实时数据接入模块、流表关联计算模块、维度数据更新及存储模块和数据持久化存储模块。元数据建模模块,对云计算平台中资源进行抽象建模得到模型元数据。实时数据接入模块,基于模型元数据实现实时数据接入到流表关联计算模块。流表关联计算模块,基于维度拓扑数据以源数据接入模型元数据实现实时流数据与维度数据的自动、高效关联。维度数据更新及存储模块,监听维度拓扑图中维度表信息的变更,自动更新分布式缓存中的维度表数据。数据持久化存储模块,对实时流数据与维度数据关联加工后的实时明细数据进行持久化存储。
    41.其中,元数据建模模块,每个资源都被抽象成配置项,每一个配置项都有一个配置
    项编码,做为全局惟一标识,并以此关联到下述三个维度的层次模型中:a.运营主线层次模型:包括从配置项技术服务业务服务应用系统租户;b.资源主线层次模型:包括从主机机柜机柜区块机房数据中心;c.人员主线层次模型:包括从管理员团队部门。
    42.基于上述三个主线层次模型,云环境下的任何一种类型资源都会自动生成一个维度拓扑图,如图1所示,维度拓扑图是一个有向无环图,每一个节点都是一个维度表,包括了详细属性信息,某些属性本身可能是另一个维度表的主键,通过维度拓扑图可以完整描述云环境下任一指定资源。维度拓扑图可以根据实际需要进行裁剪,默认提供全维拓扑以及精简拓扑两个内置维度拓扑图模式,维度拓扑图数据存储于元数据库中,同时提供元数据建模可视化操作页面进行信息配置,基于拓扑图中节点对应的维度表的历史更新规律,自动推荐维度表数据更新策略,同时开放自定义配置。每个资源包括软件资源及硬件资源,软件资源,包括oracle/db2/mysql等数据库、activemq/kafka等中间件、tomcat/websphere等web容器和nginx/haproxy等代理软件。硬件资源,包括负载均衡设备、路由器、交换机及waf防护设备等it设备。
    43.在实时数据接入模块中,对云环境下各种类型的数据源,包括数据库、web容器和中间件,进行抽象建模,包括但不限于数据源类型(不同的数据源类型提供不同的数据接入适配器)、数据源连接信息、防火墙开通状态、源数据格式(包括json或xml)、源数据字段结构(包括名称、类型和长度等)、字段映射关系、字段加工逻辑、数据同步模式(包括实时抽取和主动推送等)、数据同步类型(包括增量同步和全量同步等)、数据采样策略(包括采集时长、采集数量等)、实时数据接入模块基于上述模型元数据实现实时数据接入到计算模块,同时提供实时数据接入配置可视化操作页面进行信息配置。
    44.在维度数据更新及存储模块中,监听维度拓扑图中维度表信息的变更,当维度拓扑图中信息发生变更时,自动更新分布式缓存中的维度表数据,更新模式有实时更新、定时更新、命令触发更新三种模式,同时提供维度数据策略配置可视化操作页面进行信息配置,预先自动填充显示推荐配置,用户根据业务需要进行确认或自定义修改。
    45.流表关联计算模块负责基于维度拓扑数据以源数据接入模型元数据实现实时流数据与维度数据的自动、高效关联,用户可以根据需要选择全维关联以及精简关联两个内置流表关联模式,同时开放自定义关联模式,提供流表数据处理编辑器通过编写sql语句的方式实现流表关联,编辑器提供自动语法校验、字段推荐、在线调试、性能调优等功能。
    46.数据持久化存储模块对实时流数据与维度数据关联加工后的事实明细数据进行持久化存储,主要包括数据存储类型及存储时长,同时提供数据持久化配置可视化操作页面进行相关参数配置。
    47.在上海市xx云计算平台即采用本方法实现各种类型监控指标实时数据与维度信息关联加工处理,下面以配置项编码为pvvm000071的mongodb数据库中的实时监控指标数据【a00001-cpu使用率】加工处理过程为例说明具体过程:
    48.a)进入【元数据建模配置】页面,设置pvvm000071的拓扑模式为全维拓扑,保存。平台自动计算拓扑图中节点对应的维度表的历史更新频率,并给出推荐更新频率。
    49.b)在【维度数据策略配置】页面,设置维度数据更新策略,包括更新策略和更新周期。由于步骤a)平台已经自动显示当前场景下推荐的维度数据更新策略为定时更新(凌晨0点更新),更新频率为1天,本场景无需修改,点击确认保存。
    50.c)在【实时数据接入配置】页面如图2所示,设计实时数据接入的各项参数。平台基于配置项编码pvvm000071已经将数据源对应的基础信息自动填充并显示,包括数据源类型(mongodb),ip地址(10.70.0.x),防火墙开通状态(已开通),数据同步模式(实时抽取)、数据同步类型(增量同步),数据采样时长(120秒),数据采样数量(1条)等,出于安全保密考虑,需要自行输入连接信息包括用户名及密码,完成上述配置后,点击确认,即自动完成源数据样本采样,以及生成源数据模型,本场景无需对源数据模型做自定义修改,源数据字段结构、字段映射关系等配置直接选择确认,点击保存。
    51.d)在【数据持久化配置】页面,选择存储为hive,存储时长为1年。
    52.e)在【流表关联计算配置】页面,在加工逻辑显示区域显示基于步骤(a)、(b)、(c)、(d)配置,自动生成的sql语句,本场景无需修改,点击确认。平台自动在【任务管理】页面生成待启动任务。
    53.f)在【任务管理】页面,点击启动按钮,启动对pvvm000071的mongodb数据库中的实时监控指标数据【a00001-cpu使用率】加工处理过程。
    54.可以看到,整个过程,最大程度上简化了开发人员的工作量,基本达到了零sql编写、零代码开发即可实现实时数据与业务维度数据关联加工处理的目的,最大限度保证了数据加工处理的效率。
    55.本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
    56.以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本技术的实施例和实施例中的特征可以任意相互组合。

    技术特征:
    1.一种云环境下实时流数据与业务维度信息自动关联系统,其特征在于,包括:元数据建模模块、实时数据接入模块、流表关联计算模块、维度数据更新及存储模块和数据持久化存储模块;元数据建模模块,对云计算平台中资源进行抽象建模得到模型元数据;实时数据接入模块,基于所述模型元数据实现实时数据接入到流表关联计算模块;流表关联计算模块,基于维度拓扑数据以源数据接入模型元数据实现实时流数据与维度数据的自动、高效关联;维度数据更新及存储模块,监听维度拓扑图中维度表信息的变更,自动更新分布式缓存中的维度表数据;数据持久化存储模块,对实时流数据与维度数据关联加工后的实时明细数据进行持久化存储。2.根据权利要求1所述云环境下实时流数据与业务维度信息自动关联系统,其特征在于,所述元数据建模模块,每个资源都被抽象成配置项,每一个配置项都有一个配置项编码,做为全局惟一标识,并以此关联到下述三个维度的层次模型中:a.运营主线层次模型:配置项技术服务业务服务应用系统租户;b.资源主线层次模型:主机机柜机柜区块机房数据中心;c.人员主线层次模型:管理员团队部门;基于上述三个主线层次模型,云环境下的任何一种类型资源都会自动生成一个维度拓扑图,维度拓扑图是一个有向无环图,每一个节点都是一个维度表,包括了详细属性信息,某些属性本身可能是另一个维度表的主键,通过维度拓扑图可以完整描述云环境下任一指定资源,维度拓扑图可以根据实际需要进行裁剪,默认提供全维拓扑以及精简拓扑两个内置维度拓扑图模式,维度拓扑图数据存储于元数据库中,同时提供元数据建模可视化操作页面进行信息配置,基于拓扑图中节点对应的维度表的历史更新规律,自动推荐维度表数据更新策略,同时开放自定义配置。3.根据权利要求2所述云环境下实时流数据与业务维度信息自动关联系统,其特征在于,所述每个资源,包括软件资源及硬件资源。4.根据权利要求3所述云环境下实时流数据与业务维度信息自动关联系统,其特征在于,所述软件资源,包括oracle/db2/mysql数据库、中间件、web容器和代理软件。5.根据权利要求3所述云环境下实时流数据与业务维度信息自动关联系统,其特征在于,所述硬件资源包括物理机、负载均衡设备、路由器、交换机及waf防护设备。6.根据权利要求1所述云环境下实时流数据与业务维度信息自动关联系统,其特征在于,所述实时数据接入模块中,对云环境下各种类型的数据源,进行抽象建模,包括但不限于数据源类型、不同的数据源类型提供不同的数据接入适配器、数据源连接信息、防火墙开通状态、源数据格式,包括json或xml、源数据字段结构、包括名称、类型和长度,字段映射关系、字段加工逻辑、数据同步模式、包括实时抽取和主动推送、数据同步类型、包括增量同步和全量同步、数据采样策略,包括采集时长、采集数量,实时数据接入模块基于上述模型元数据实现实时数据接入到计算模块,同时提供实时数据接入配置可视化操作页面进行信息配置。7.根据权利要求1所述云环境下实时流数据与业务维度信息自动关联系统,其特征在
    于,所述维度数据更新及存储模块,监听维度拓扑图中维度表信息的变更,当维度拓扑图中信息发生变更时,自动更新分布式缓存中的维度表数据,更新模式有实时更新、定时更新、命令触发更新三种模式,同时提供维度数据策略配置可视化操作页面进行信息配置,预先自动填充显示推荐配置,用户根据业务需要进行确认或自定义修改。8.根据权利要求1所述云环境下实时流数据与业务维度信息自动关联系统,其特征在于,所述流表关联计算模块,基于维度拓扑数据以源数据接入模型元数据实现实时流数据与维度数据的自动、高效关联,用户可以根据需要选择全维关联以及精简关联两个内置流表关联模式,同时开放自定义关联模式,提供流表数据处理编辑器通过编写sql语句的方式实现流表关联,编辑器提供自动语法校验、字段推荐、在线调试、性能调优功能。9.根据权利要求1所述云环境下实时流数据与业务维度信息自动关联系统,其特征在于,所述数据持久化存储模块,对实时流数据与维度数据关联加工后的事实明细数据进行持久化存储,主要包括数据存储类型及存储时长,同时提供数据持久化配置可视化操作页面进行相关参数配置。10.一种云环境下实时流数据与业务维度信息自动关联方法,其特征在于,包括:元数据建模步骤、实时数据接入步骤、流表关联计算步骤、维度数据更新及存储步骤和数据持久化存储步骤;元数据建模步骤,对云计算平台中资源进行抽象建模得到模型元数据;实时数据接入步骤,基于所述模型元数据实现实时数据接入到流表关联计算步骤;流表关联计算步骤,基于维度拓扑数据以源数据接入模型元数据实现实时流数据与维度数据的自动、高效关联;维度数据更新及存储步骤,监听维度拓扑图中维度表信息的变更,自动更新分布式缓存中的维度表数据;数据持久化存储步骤,对实时流数据与维度数据关联加工后的实时明细数据进行持久化存储。

    技术总结
    本发明提供了一种云环境下实时流数据与业务维度信息自动关联系统及方法,包括:元数据建模模块、实时数据接入模块、流表关联计算模块、维度数据更新及存储模块和数据持久化存储模块。元数据建模模块,对云计算平台中资源进行抽象建模得到模型元数据;实时数据接入模块,基于所述模型元数据实现实时数据接入到流表关联计算模块;流表关联计算模块,实现实时流数据与维度数据的自动、高效关联;维度数据更新及存储模块,自动更新分布式缓存中的维度表数据;数据持久化存储模块,对实时明细数据进行持久化存储。本发明实现了云环境下异构应用产生的各类原始实时数据与业务维度数据信息的高效、自动关联加工操作。自动关联加工操作。自动关联加工操作。


    技术研发人员:郭杰 伍治平 周斌 王磊 成名
    受保护的技术使用者:上海宝信软件股份有限公司
    技术研发日:2020.11.23
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-18388.html

    最新回复(0)