面向科研应用的自动机器学习实现方法、平台及装置

    专利查询2022-07-07  198



    1.本发明涉及机器学习平台技术领域,尤其涉及一种面向科研应用的自动机器学习实现方法、平台及装置。


    背景技术:

    2.当下机器学习技术有着广泛的应用前景,相关的机器学习算法也在高速研发中。但由于专业知识方面的限制,很多非机器学习专业的研究者不能很好地将前沿的机器学习算法应用于实际科研业务中。解决该问题的主要方案为设计一个自动机器学习平台,降低机器学习算法的使用门槛,帮助科研人员专注于专业领域内的问题。
    3.然而目前市场上的机器学习平台产品普遍存在以下问题。以目前主流的机器学习平台为例。在数据方面,平台baidu machine learning与ai platform不支持基本数据的共享,其中ai platform虽提供了方案的共享功能却没有完善的方案检索功能。同时,目前所有的机器学习平台中数据间缺少关系图谱的构建,用户难以更进一步地使用关联数据。在可完成的机器学习任务范围方面,平台baidu machine learning与modelarts目前依赖预置好的任务,用户不能接管全流程的机器学习解决方案构建,难以根据自身需求定制解决方案。同时,平台也引入了繁杂的开发与维护工作。在编程方面,平台amazon sagemaker基于jupyter notebook通过代码进行算法开发,缺少机器学习背景知识的用户难以上手使用。而基于预置任务的平台则缺少对科研人员编程需求的支持,用户难以根据现有的算法进行代码微调。传统的机器学习平台已经不能满足现有用户的使用需求,机器学习平台亟需新的架构技术。


    技术实现要素:

    4.为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种面向科研应用的自动机器学习实现方法、平台及装置。
    5.本发明所采用的技术方案是:
    6.一种面向科研应用的自动机器学习实现方法,包括以下步骤:
    7.获取用户输入的科研数据,根据科研数据和预设构建的关系图谱生成解决方案;
    8.根据解决方案,利用深度学习方法对用户需求进行智能分析,生成规范化的检索表单;
    9.基于用户对各科研数据的操作信息,为用户提供个性化的数据推荐服务;
    10.结合拖拽式编程与代码编程构建可视化算子,通过可视化算子构建实验的算法流程图,以实现可视化编程与展示;
    11.其中,关系图谱通过标签系统与关联系统构建获得。
    12.进一步地,所述科研数据的类别:数据集、模型、算法、论文、实验、博客文档。
    13.进一步地,所述解决方案包含了科研数据中关系图谱的构的数据集、模型、算法、论文与实验;所述解决方案是不同种类的科研数据之间的关联关系的描述,并指出这些科
    研数据的子集完成哪些特定的科研任务。
    14.进一步地,还包括以下步骤:
    15.当不明确科研数据关联与平台数据库中的数据的关联关系时,用户使用标注系统对该数据进行信息标注;标注内容包含:科研数据的应用领域、应用任务、数据样本格式等一种或者多种;
    16.平台数据库基于科研数据的标签信息进行分析,对具有相同标签内容的科研数据进行关联;
    17.当明确科研数据关联与平台数据库中的数据的关联关系时,用户使用关联系统直接创建多个科研数据间的关联关系。
    18.进一步地,所述操作信息包括:对科研数据的创建、收藏、检索与使用;
    19.所述为用户提供个性化的数据推荐服务,包括:
    20.用户确定检索范围后,构建并提交规范化的检索表单;
    21.记录用户的检索行为,分析检索表单并返回查询结果;
    22.通过分析用户对科研数据的操作信息,生成用户画像,并根据用户画像为基础提供个性化的数据推荐服务。
    23.进一步地,所述利用深度学习方法对用户需求进行智能分析,生成规范化的检索表单,包括:
    24.通过深度学习方法,提取描述或图片中存在的数据实体信息,分析出解决或包含该类数据的数据集集合、模型集合等信息加入检索表单中;
    25.通过语义理解,分析需求中所需完成的任务,从而构建出完成的规范化检索表单;
    26.其中,规范化的检索表单包含如下内容:数据集集合、模型集合、算法集合、论文集合、实验集合与解决的任务;通过该规范化检索表单对平台数据库中存在的解决方案进行检索。
    27.进一步地,所述结合拖拽式编程与代码编程构建可视化算子,通过可视化算子构建实验的算法流程图,包括:
    28.结合代码编程与拖拽式编程创建可视化算子,并通过可视化算子复用以构建实验的算法流程图;
    29.运行实验时,解析实验的算法流程图,生成可执行代码;
    30.实验结束后结合图表向用户展示实验结果。
    31.进一步地,代码编程通过解析用户输入的具有预设特定结构的代码,分析出代码中包含的参数,并利用参数信息来构建特定可视化算子;
    32.拖拽式编程则通过让用户选择一个或多个预设的可视化算子,用户通过改变算子参数与算子连接逻辑进行新可视化算子的构建。
    33.本发明所采用的另一技术方案是:
    34.一种面向科研应用的自动机器学习实现平台,包括:
    35.数据输入模块,用于获取用户输入的科研数据,根据科研数据和预设构建的关系图谱生成解决方案;
    36.智能分析模块,用于根据解决方案,利用深度学习方法对用户需求进行智能分析,生成规范化的检索表单;
    37.用户操作模块,用于基于用户对各科研数据的操作信息,为用户提供个性化的数据推荐服务;
    38.可视化展示模块,用于结合拖拽式编程与代码编程构建可视化算子,通过可视化算子构建实验的算法流程图,以实现可视化编程与展示;
    39.其中,关系图谱通过标签系统与关联系统构建获得。
    40.本发明所采用的另一技术方案是:
    41.一种面向科研应用的自动机器学习实现装置,包括:
    42.至少一个处理器;
    43.至少一个存储器,用于存储至少一个程序;
    44.当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
    45.本发明的有益效果是:本发明打破了现有机器学习平台中存在的数据壁垒,让不同专业领域的科研人员充分利用现有的机器学习方案解决自己专业领域的问题,有效地提升科研数据的利用率,降低科研人员之间的沟通成本。
    附图说明
    46.为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
    47.图1是本发明实施例中数据湖业务图;
    48.图2是本发明实施例中智能化需求分析流程图;
    49.图3是本发明实施例中数据检索流程图;
    50.图4是本发明实施例中数据推荐流程图;
    51.图5是本发明实施例中可视化编程与展示流程图;
    52.图6是本发明实施例中辅助方案与设计流程图;
    53.图7是本发明实施例中平台业务流程图。
    具体实施方式
    54.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
    55.在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
    56.在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、
    小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
    57.本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
    58.本发明是面向科研应用的自动机器学习平台,其中主要用户划分为不具有机器学习背景知识的非专业用户与具备一定背景知识的科研人员,如图7所示。为了满足两者对平台的不同需求,平台中存在如图2到图6所示的四大功能模块,其分别为高效的数据检索与推荐,智能化需求分析,可视化编程与展示,辅助方案设计。平台中数据的存储优先选用数据湖的实施方案,服务器使用nginx进行反向代理,用户通过restful接口进行功能调用。
    59.以数据湖为优选实施方案,其优点在于能够存储海量、多种类的数据并支持对数据进行查询与加工。数据入湖后保持原本的格式与内容,等待进一步被加工使用。如图1所示,用户可以通过上传某个数据的处理方法,实现对特定数据处理的定制化,其他用户可以通过简单检索并复用该处理方法,有效避免数据沼泽的发生。
    60.四大功能模块具体实施方案如下:
    61.s1.数据的检索与推荐模块中,数据代表了科研数据,其类型包括数据集、模型、算法、论文、实验、博客文档、解决方案。为了实现高效的数据检索,首先,平台构建了科研数据间的关系图谱,揭示数据间的关联关系。用户可以通过标注系统与关联系统进行关系图谱的构建,其步骤分别如下:
    62.使用标注系统。在用户不明确平台中哪些数据应与该科研数据进行关联时,用户使用标注系统对该数据进行信息标注。标注内容包含:科研数据的应用领域、应用任务、数据样本格式等一种或者多种。平台为每个标注内容不重复地生成一个标签实体,并且把该科研数据与该标签实体进行关联,数据湖中存储标签实体与关联关系。之后,平台基于科研数据的标签信息分析,具有相同标签内容的科研数据会关联于同一个标签实体,实现了科研数据的间接关联。
    63.使用关联系统。当用户具有明确特定的关联目标时,用户使用关联系统创建多个科研数据间的直接关联关系。通过结合标注系统与关联系统,用户可以灵活地把该科研数据与已知数据与未知数据进行关联。利用关系图谱可以高效地使用关联关系进行数据检索与推荐,如图3所示。
    64.标签系统与关联系统是本实施例构建数据关系图谱用到的两个方法。现有机器学习平台的数据之间数据缺少关联,数据只能通过关键词匹配的方法进行检索。由于机器学习平台的数据量大、数据类型复杂,用户很难通过简单的关键词匹配的方式检索到所需要的数据,使得平台数据利用率较低。为解决该问题,本实施例引入这两个系统构建数据关系图谱,实现数据的智能检索和推荐。
    65.标签系统是较传统的数据关联方法,用户在创建数据时为每个数据打上具体标签,如“nlp模型”、“高性能模型”等,这样具有同类型标签的数据表明它们之间有着一定相似性,用户可以通过标签发掘更多类似的数据,系统也可以把类似的数据推荐给用户。关联系统则是用户明确地指出这两个数据存在关联,与标签系统的差异主要在标签系统指出这
    个数据属于某个标签,同标签下的数据存在关系但是不能保证他们之间存在很强的关系性,而关联系统主要应用的场景是,这个数据使用或者包含了另外一个数据,或者是被使用、被包含的关系,这时候两个数据之间就存在很强的关系连接。这两个系统在其他产品,如电商平台上都有类似的产品,但是在机器学习平台上还处于空白阶段,我们把两个系统与机器学习平台结合解决数据难以被发现,复用率低的问题。
    66.为了实现个性化的数据推荐服务,如图4所示,平台记录用户对各科研数据的操作记录,其包括数据的创建、收藏、检索与使用。根据用户的操作记录,使用机器学习算法分析出用户画像。同时,对于每个科研数据,也通过机器学习方法分析其标签信息与描述信息,得到数据画像。通过使用推荐算法分析用户画像与数据画像实现个性化的数据推荐功能。
    67.示例性地,基于用户对各科研数据的操作信息,为用户提供个性化的数据推荐服务,这里的操作信息指的是用户对数据的创建、收藏、检索与使用。用户每次对数据进行操作的时候都会被系统自动记录下来。之后系统使用基于深度学习的传统推荐算法。首先分析每个数据本身的内容与其他数据的关联从而生成数据画像,数据画像是数据的一种抽象表示,是数据自身信息和关联信息的一种结合;之后通过分析用户对现有数据进行了哪些操作,也通过推荐模型算法成相应的用户画像,该用户画像表示用户对哪些种类的数据存在偏好,并且进一步地预测用户会对其他哪些数据感兴趣并进一步进行推荐,这一部分就是系统最终的输出。由于每一个用户对数据的操作信息都不一样因此每个用户得到的推荐数据都会有差异,实现了个性化推荐服务。这些内容都是现有机器学习平台中比较欠缺的部分,也是现有机器学习平台受众较窄的原因。
    68.s2.智能化需求分析模块中,使用到深度学习方法中的自然语言处理与物体识别技术。对于用户输入的数据相关图片,使用图像处理中的物体识别技术,通过提取、理解与整合特征,分析图片中存在的数据实体。对于用户输入中以自然语言描述的需求,使用自然语言处理技术进行分词并为每个分词打上标签,通过整合标签信息提取描述中存在的数据实体。系统通过比对提取出来的数据实体信息与各数据画像,分析出包含或解决该类数据实体的数据集集合、模型集合等信息。同时,通过自然语言处理中的语义理解技术,分析需求中所需完成的任务。
    69.如图2所示,通过整合各个部分的信息,系统自动构建出规范化的检索表单。该表单包含数据集集合、模型集合、算法集合、论文集合、实验集合与解决的任务信息。通过该规范化的检索表单对平台中存在的解决方案进行高效检索。
    70.引入深度学习技术分析用户需求主要是让用户高效地检索现有数据,同时降低用户的使用门槛。流程中,用户首先会输入一段文字和图片的组合,利用训练好的目标检测模型可以从用户输入的文本和图像中检测到出现了哪些种类的物体,通过在数据库中查询包含了这些种类物体的数据集有哪些,并且利用自然语言处理技术判断用户想要实现什么具体的任务,比如图2所示是一个分类任务。
    71.最后,通过结合数据集与具体的任务类别,利用关系图谱挖掘适合的模型等信息,一并加入到检索表单中完成整体结构化表单的构建。
    72.解决方案只是现有数据的一个子集还有对该子集的描述,用户选择了实验、数据集等数据后平台首先自动添加与这些数据存在着强关联的其他数据,如使用到的数据或者存在依赖关系的数据。其次,分析已有数据的关系图谱,为用户推荐与已有数据存在弱关联
    的数据,让用户有选择地添加。在用户选定了所有数据并且提供对应的描述后,平台生成一个解决方案实体,通过关联系统为该实体与所包含数据建立使用关系。同时,解析所包含数据中存在的标签加入到该实体的标签集中,用户对该标签集进行微调以确定最终标签集,通过标签系统让该实体与其他具有相同标签的数据建立弱关联。
    73.在一些可选的实施例中,生成解决方案的一个具体例子是实验a、实验b、实验c共同解决了计算机视觉领域中的某个问题,而由于数据间存在着关系图谱,在创建该解决方案时我们可以只是选择添加实验a、实验b、实验c,系统自动把与这些实验有着强关联的数据集、算法、论文等添加到解决方案中,避免用户手动添加导致的错漏情况,同时把其他有着弱关联的数据推荐给用户让用户选择性地添加。因此,对关系图谱的利用能进一步帮助解决方案的生成。
    74.在一些可选的实施例中,不仅是生成解决方案,在生成实验时也要选择对应的数据集,模型等信息。平台记录用户以往对数据的使用偏好,即统计用户所使用的数据的标签数据分布,计算用户对哪些数据使用概率较大,进而把这部分数据推荐给用户选择,同时通过关系图谱分析用户偏好数据与其他数据的关联,判断用户可能会愿意使用的新数据一同推荐给用户。避免用户每次创建新数据的时候都要重复地对使用数据进行检索,同时有利于让用户接触和使用到新数据。
    75.s3.可视化编程与展示模块中,编程又分为代码编程与拖拽式编程。用户通过拖拽式或代码编程创建可视化算子,并通过算子复用以构建实验的算法流程图。运行实验时,平台解析实验的算法流程图,生成可执行代码。实验结束后结合图表向用户展示实验结果。其中,两种编程方式的具体实现方式分别如下:
    76.通过代码编程创建算子。用户输入具有特定结构的代码,平台使用正则表达式解析出代码中包含的初始化参数,输入参数和输出参数并生成基本的可视化算子。其中,参数包括了参数的名字,参数的默认值与参数的类型,在之后的算子连接中会进行类型匹配检查。
    77.通过拖拽式编程创建算子。用户通过拖拽的方式复用现有的可视化算子。以一定的逻辑连接算子,并且提供相应的初始化参数进行初始化,没有被使用的输入接口与输出接口则作为新算子的输入参数与输出参数进行可视化,创建算子时提供的初始化参数则被当作新算子的默认初始化参数。
    78.算法流程图的构建与翻译的具体实现如下。如图5所示,用户通过拖拽现有算子进行连接,并填充算子中必要的初始化参数进行算法流程图的搭建。平台对算法流程图进行合法性检测,包括算子的输入与输出类型是否匹配,必要的初始化参数是否被正确初始化,必要的输入接口是否与某个算子的输出连接。在流程图通过合法性检测后执行翻递归译。平台通过算子的拓扑排序确定算子的运行顺序,创建中间变量存储每个算子的输出。若当前进行翻译的算子由代码编程创建则朴素地使用创建算子时用户输入的代码,若当前的算子由拖拽式编程创建则把该算子展开作为算法流程子图,进行递归翻译。
    79.s4.辅助方案设计模块中,主要在于辅助方案中算法流程图的设计。如图6所示,用户通过查看其他方案的算法流程图,快速了解其算法的实现过程与逻辑,并在其基础上根据自身的需求修改算子的连接逻辑与配置参数实现高效的算法流程图定制化。
    80.其中,数据检索与推荐、智能化需求分析、可视化编程与展示、辅助方案设计,具有
    如下关联关系:可视化编程与展示中算子的复用与辅助方案设计中方案的搜寻依赖于数据检索与推荐功能;其次,辅助方案设计通过修改方案中可视化的算法流程图实现方案定制化,依赖于可视化编程与展示功能;再者,数据检索模块中,用户可以利用智能化需求分析功能通过自然语言描述的需求构建规范化的检索表单。
    81.在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
    82.尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
    83.以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
    转载请注明原文地址:https://tc.8miu.com/read-1198.html

    最新回复(0)