数据处理方法、装置、计算设备及介质与流程

    专利查询2022-08-24  108



    1.本公开的实施方式涉及数据处理技术领域,更具体地,本公开的实施方式涉及一种数据处理方法、装置、计算设备及介质。


    背景技术:

    2.本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
    3.随着互联网的发展,越来越多的用户数据被记录了下来,如用户名、用户类型等基本用户信息以及用户的点击、浏览等操作数据,等等。这些数据可以在一定程度上反映用户的兴趣与需求,以便后续可以基于不同用户的兴趣与需求进行针对性推荐,从而提高推荐效果。
    4.其中,不同类型的数据所反映的用户兴趣与需求的准确程度是不同的,因此,亟需一种数据处理方法,来确定不同类型的数据与预测概率之间的关联程度,以便可以从多种类型的数据中,确定出所反映的用户兴趣与需求更加准确的数据。


    技术实现要素:

    5.本公开的实施方式至少提供一种数据处理方法、装置、计算设备及介质。
    6.在本公开实施方式的第一方面中,提供了一种数据处理方法,该方法包括:
    7.对多个样本用户所提供的第一数据进行数据扩充,得到第二数据,第二数据包括第一目标数据和第二目标数据,第一目标数据和第二目标数据均对应有标注信息,标注信息用于指示样本用户完成设定操作的概率;
    8.基于第二数据中的第一目标数据以及第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络;
    9.基于第二数据中的第二目标数据,通过多个第二概率预测网络,确定第二目标数据对应的预测概率;
    10.基于第二目标数据对应的预测概率和标注信息,从多个第二概率预测网络中,确定目标概率预测网络;
    11.基于目标概率预测网络的网络参数,确定目标关系数据,目标关系数据用于确定不同类型的数据与预测概率之间的关联程度。
    12.在本公开实施方式的第二方面中,提供了一种数据处理装置,该装置包括:
    13.数据处理模块,用于对多个样本用户所提供的第一数据进行数据扩充,得到第二数据,第二数据包括第一目标数据和第二目标数据,第一目标数据和第二目标数据均对应有标注信息,标注信息用于指示样本用户完成设定操作的概率;
    14.训练模块,用于基于第二数据中的第一目标数据以及第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络;
    15.第一确定模块,用于基于第二数据中的第二目标数据,通过多个第二概率预测网
    络,确定第二目标数据对应的预测概率;
    16.第二确定模块,用于基于第二目标数据对应的预测概率和标注信息,从多个第二概率预测网络中,确定目标概率预测网络;
    17.第三确定模块,用于基于目标概率预测网络的网络参数,确定目标关系数据,目标关系数据用于确定不同类型的数据与预测概率之间的关联程度。
    18.在本公开实施方式的第三方面中,提供了一种计算设备,计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行程序时实现上述第一方面以及第一方面的任一实施例所提供的数据处理方法所执行的操作。
    19.在本公开实施方式的第四方面中,提供了一种计算机可读存储介质,计算机可读存储介质上存储有程序,程序被处理器执行上述第一方面以及第一方面的任一实施例所提供的数据处理方法所执行的操作。
    20.在本公开实施方式的第五方面中,提供了一种计算机程序产品,包括计算机程序,程序被处理器执行时实现上述第一方面以及第一方面的任一实施例所提供的数据处理方法所执行的操作。
    21.本公开通过对多个样本用户所提供的对应有标注信息的第一数据进行数据扩充,得到第二数据,从而基于第二数据中的第一目标数据以及第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络,从而基于第二数据中的第二目标数据,通过多个第二概率预测网络,确定第二目标数据对应的预测概率,以便基于第二目标数据对应的预测概率和标注信息,从多个第二概率预测网络中,确定目标概率预测网络,基于目标概率预测网络的网络参数,确定目标关系数据,以便可以基于目标关系数据确定不同类型的数据与预测概率之间的关联程度。
    附图说明
    22.通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
    23.图1是本公开根据一示例性实施例示出的一种数据处理方法的流程图;
    24.图2是本公开根据一示例性实施例示出的一种第一概率预测网络的训练过程的流程图;
    25.图3是本公开根据一示例性实施例示出的一种确定目标关系数据的流程图;
    26.图4是本公开根据一示例性实施例示出的一种数据处理方法的流程示意图;
    27.图5是本公开根据一示例性实施例示出的一种数据处理装置的框图;
    28.图6是本公开根据一示例性实施例示出的一种计算机可读存储介质的示意图;
    29.图7是本公开根据一示例性实施例示出的一种计算设备的结构示意图;
    30.在附图中,相同或对应的标号表示相同或对应的部分。
    具体实施方式
    31.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何
    方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
    32.本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
    33.在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
    34.根据本公开的实施方式,提供了一种数据处理方法,上述方法可以由计算设备执行,用于就多个样本用户所提供的第一数据,确定目标关系数据,以便后续可以基于目标关系数据,确定不同类型的数据与预测概率之间的关联程度,实现对不同类型的数据的评分。其中,计算设备可以为服务器,如一台服务器、多台服务器、服务器集群、云计算平台,等等,本公开对计算设备的设备类型和设备数量不加以限定。
    35.可选地,本公开所提供的数据处理方法,可以用于对多种类型的数据进行评级。例如,本公开所提供的数据处理方法,可以用于对用户提交的注册数据进行评级,注册数据可以为用于在目标平台上进行注册的数据,或者,可以用于对用户提交的申请数据进行评级,申请数据可以为用于对目标产品进行试用时所提交的数据,等等。
    36.下面结合上述有关应用场景的介绍,参考图1来描述根据本公开示例性实施方式所提供的数据处理方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
    37.参见图1,图1是本公开根据一示例性实施例示出的一种数据处理方法的流程图,该方法包括:
    38.s101、对多个样本用户所提供的第一数据进行数据扩充,得到第二数据,第二数据包括第一目标数据和第二目标数据,第一目标数据和第二目标数据均对应有标注信息,标注信息用于指示样本用户完成设定操作的概率。
    39.其中,第一数据对应有标注信息,在一种可能的实现方式中,可以将第一数据的标注信息,作为基于第一数据扩充得到的第二数据的标注信息,也即是第一目标数据和第二目标数据的标注信息。
    40.s102、基于第二数据中的第一目标数据以及第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络。
    41.在一种可能的实现方式中,可以将第二数据划分为第一目标数据和第二目标数据两部分,从而基于第一目标数据来进行第一概率网络的训练,后续可以基于第二目标数据来进行目标概率网络的确定。
    42.可选地,第一目标数据和第二目标数据中的数据可以重复,或者,第一目标数据和第二目标数据中的数据不重复,本公开对此不加以限定。
    43.s103、基于第二数据中的第二目标数据,通过多个第二概率预测网络,确定第二目标数据对应的预测概率。
    44.s104、基于第二目标数据对应的预测概率和标注信息,从多个第二概率预测网络中,确定目标概率预测网络。
    45.s105、基于目标概率预测网络的网络参数,确定目标关系数据,目标关系数据用于确定不同类型的数据与预测概率之间的关联程度。
    46.本公开通过对多个样本用户所提供的对应有标注信息的第一数据进行数据扩充,得到第二数据,从而基于第二数据中的第一目标数据以及第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络,从而基于第二数据中的第二目标数据,通过多个第二概率预测网络,确定第二目标数据对应的预测概率,以便基于第二目标数据对应的预测概率和标注信息,从多个第二概率预测网络中,确定目标概率预测网络,基于目标概率预测网络的网络参数,确定目标关系数据,以便可以基于目标关系数据确定不同类型的数据与预测概率之间的关联程度。
    47.在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
    48.在一些实施例中,第一数据可以包括基于样本用户在目标页面上的填写操作获取到的用户数据、基于样本用户在目标页面上的互动操作获取到的操作数据、样本用户用于访问目标页面的请求数据中的至少一项。
    49.其中,基于样本用户在目标页面上的填写操作获取到的用户数据可以包括样本用户在目标页面中填写的用户名称(如个人用户名称、企业用户名称等)、联系方式、证件号码等,可选地,用户数据还可以包括其他类型的数据,本公开对用户数据的具体类型不加以限定。
    50.基于样本用户在目标页面上的互动操作获取到的操作数据可以基于样本用户在目标页面上所使用过的功能确定,例如,用户是否使用过价格查看功能(如访问价格页面)、用户是否使用过性能查看功能(如访问性能介绍界面)等等,可选地,操作数据还可以包括其他类型的数据,本公开对操作数据的具体类型不加以限定。
    51.样本用户用于访问目标页面的请求数据可以用于指示请求数据的来源信息,例如,来自广告推广、分享链接、官网页面,等等,可选地,请求数据还可以包括其他类型的数据,以指示请求数据的其他信息,本公开对此不加以限定。
    52.其中,目标页面可以为注册页面、产品介绍页面、申请页面(如用于申请产品使用资格的页面)等,或者,目标页面还可以为其他类型的页面,仅需保证目标页面可以为样本用户提供填写信息、进行互动操作的功能即可。
    53.上述仅为对第一数据的几种示例性数据类型的介绍,可选地,第一数据还可以包括其他类型的数据,本公开对第一数据所包括的数据类型不加以限定。
    54.而第二数据可以包括归属地数据、标签数据、用户行为数据、来源渠道数据中的至少一项。
    55.以上述介绍的第一数据和第二数据为例,对于s101,在对多个样本用户所提供的第一数据进行数据扩充,得到第二数据时,可以包括如下至少一项:
    56.一、对作为第一数据的用户数据进行数据扩充,得到作为第二数据的归属地数据。
    57.在一种可能的实现方式中,可以从作为用户数据的用户名称中获取用户的归属地,以得到作为第二数据的归属地数据。
    58.例如,以样本用户为企业用户为例,样本用户的用户名称可以为企业名称,如“浙江杭州
    ×××
    有限公司”,则可以从企业名称中获取“浙江杭州”作为该企业用户的归属地
    数据,其中,“浙江”为该企业用户的归属地数据所包括的省份信息,“杭州”为该企业用户的归属地数据所包括的城市信息。
    59.在另一种可能的实现方式中,可以基于作为用户数据的联系方式,获取作为第二数据的归属地数据。
    60.例如,联系方式可以为手机号码,则可以根据手机号码的号码段,确定手机号码所属的归属地,从而将所确定出的归属地作为归属地数据。
    61.在一种可能的实现方式中,在确定手机号码所属的归属地时,可以根据手机号码中的目标号码段,确定手机号码所属的归属地。其中,目标号码段可以为手机号码的第4位至第7位。以手机号码为
    ×××
    6789
    ××××
    为例,可以基于目标号码段“6789”确定该手机号码的归属地为“浙江杭州”。
    62.上述仅为获取归属地数据的两种示例性方式,在更多可能的实现方式中,还可以采用其他方式来获取归属地数据。
    63.例如,还可以基于请求数据来获取归属地数据。其中,请求数据可以包括访问请求的网际协议(internet protocol,ip)地址,基于此,在基于请求数据获取归属地数据时,可以确定ip地址所属的归属地,从而实现对归属地数据的获取。
    64.在一种可能的实现方式中,在确定ip地址所属的归属地时,可以根据ip地址中的目标地址字段,确定ip地址所属的归属地。其中,目标号码段可以为ip地址的第1位至第3位。以ip地址为115.236.133.126为例,可以基于目标地址字段“115”确定该ip地址的归属地为“浙江杭州”。
    65.二、对作为第一数据的用户数据进行数据扩充,得到作为第二数据的标签数据,标签数据用于指示样本用户所属的行业和/或样本用户对应的产品。
    66.在一种可能的实现方式中,可以通过外部数据接口,查询用户数据所对应的标签数据。
    67.以样本用户为企业用户为例,可以通过外部数据接口,查询对应企业信息,以获取该企业用户的标签数据,如企业产品标签、企业行业标签、企业地域标签、企业域名、企业规模等。
    68.三、对作为第一数据的操作数据进行数据扩充,得到作为第二数据的用户行为数据。
    69.其中,用户行为数据可以为用户是否使用过某种功能,或者,用户是否访问过某个页面。例如用户是否使用过价格查看功能(也即是,用户是否访问过价格页面)、用户是否使用过性能查看功能(也即是,用户是够访问过性能介绍页面)等。
    70.四、对作为第一数据的请求数据进行数据扩充,得到作为第二数据的来源渠道数据。
    71.其中,来源渠道数据可以包括来自广告推广、来自官网页面、来自分享链接,等等。
    72.在通过上述过程扩充得到第二数据后,即可以基于第二数据,来进行目标关系数据的确定。可选地,第二数据可以仅包括基于第一数据扩充得到的数据,或者,第二数据包括第一数据以及基于第一数据扩充得到的数据,本公开对第二数据所包括的具体数据类型不加以限定。
    73.在一种可能的实现方式中,可以将第二数据划分为第一目标数据和第二目标数据
    两部分,从而对第一目标数据和第二目标数据采用不同的处理方式,以保证最终可以实现目标关系数据的确定。其中,第一目标数据可以作为训练集数据,第二目标数据可以作为测试集数据。例如,可以将第二数据中70%的数据作为第一目标数据,将第二数据中30%的数据作为第二目标数据,也即是,将第二数据中70%的数据作为训练集数据,将第二数据中30%的数据作为测试集数据。
    74.可选地,还可以将第二数据划分为第一目标数据、第二目标数据和第三目标数据,第一目标数据可以作为训练集数据,第二目标数据可以作为测试集数据,第三目标数据可以作为验证集数据。其中,验证集数据可以用于正则化超参数调优,例如,通过确定上下界并进行网格搜索的方式,来基于验证集数据进行正则化参数调优。
    75.需要说明的是,样本用户所提供的第一数据是对应有标注信息的,而由于第二数据是基于第一数据扩充得到,因而可以将第一数据的标注信息作为第二数据的标注信息,从而使得第二数据也是对应有标注信息的,而对于第二数据所包括的第一目标数据和第二目标数据,或者,第二数据所包括的第一目标数据、第二目标数据和第三目标数据,相应地,第一目标数据、第二目标数据和第三目标数据也是对应有标注信息的。
    76.在一些实施例中,参见图2,图2是本公开根据一示例性实施例示出的一种第一概率预测网络的训练过程的流程图,对于s102,在基于第二数据中的第一目标数据以及第一目标数据的标注信息,训练第一概率预测网络,得到多个第二概率预测网络时,可以包括如下步骤:
    77.s1021、基于第一目标数据,获取样本特征信息。
    78.其中,第一目标数据中包括对应于多个特征信息的数据,基于此,s1021可以通过如下至少一种方式实现:
    79.在一种可能的实现方式中,可以确定第一目标数据的特征信息对应的操作数据,基于操作数据,获取满足第一目标条件的样本特征信息。
    80.其中,操作数据可以包括用户是否进行了预设类型的互动操作,预设类型的互动操作可以包括点击操作、购买操作、浏览操作等互动操作中的至少一项,本公开对此不加以限定。
    81.例如,可以基于不同类型的特征信息所对应的操作数据是否发生了设定类型的互动操作的情况,来对各个类型的特征信息进行分布分析,从而确定发生了设定类型的互动操作的操作数据所对应的特征信息与未发生设定类型的互动操作的操作数据所对应的特征信息的统计值,进而基于所确定出的统计值,获取满足第一目标条件的样本特征信息。其中,第一目标条件可以为统计值大于第一设定阈值,或者,统计值排序位于设定位置之前,本公开对具体采用哪种条件作为第一目标条件不加以限定。
    82.可选地,在进行分布分析时,可以采用构建直方图、概率密度曲线、透视表或交叉表等方式中的至少一项,本公开对此不加以限定。
    83.以设定类型的互动操作包括点击操作和购买操作为例,可以采用构建直方图结合透视表的方式,来获取点击过设定页面的用户和未点击过设定页面的用户中发生了购买操作和未发生购买操作的用户的统计值,从而获取统计值排序位于设定位置之前的特征信息,作为满足第一目标条件的样本特征信息。
    84.在另一种可能的实现方式中,可以确定第一目标数据的任意两个特征信息之间的
    关联程度,基于所确定出的关联程度,获取满足第二目标条件的样本特征信息。
    85.例如,可以确定任意两个特征信息之间的相关系数(例如,皮尔逊相关系数),从而将相关系数大于第二设定阈值的特征信息,确定为满足第二目标条件的样本特征信息。若第一目标数据包括对应于n个特征信息的数据,则在确定出任意两个特征信息之间的相关系数后,即可得到一个n*n的相关性矩阵,该相关性矩阵中包括每两个特征信息之间的相关系数。
    86.通过上述过程可以分析第一目标数据所对应的特征信息是否存在冗余,从而可以剔除掉冗余的特征。以确定是否进行了购买操作和时间这两个特征信息之间的相关程度的过程为例,通过相关性分析可以确定出是否进行购买操作基本不受时间影响,故可剔除掉时间这个特征信息。
    87.可选地,还可以对第一目标数据进行数据预处理,以便可以基于经过数据预处理的第一目标数据,来进行样本特征信息的获取。
    88.其中,数据预处理包括数据清洗处理和/或数据均衡处理,数据清洗处理包括缺失值填充和/或异常数据清除,数据均衡处理包括过采样处理和/或欠采样处理。下面分别对各种数据预处理过程进行说明:
    89.对于缺失值填充过程,可以预先确定第一目标数据中的数据缺失值情况,对于缺失较少且是数值型的特征信息所对应的数据,可以使用均值填充;而对于缺失较多且是离散型的特征信息所对应的数据,可以以特定离散值形式填充,例如,若用户是直接点开了目标页面,而未通过其他渠道,则其所对应的来源渠道数据可以用none字符串填充。
    90.对于异常数据清除过程,以对异常的数值型数据进行清除的过程为例,可以对数值型数据进行箱线图分析,从而即可得到数值型数据的中位数、第一分位和第三分位,以剔除掉特征值中的异常数据。例如,输入的用户名称长达50个字符,属于随意输入的无效用户名称。
    91.对于数据均衡处理过程,可以分析第一目标数据中正反例数据的比例,通常第一目标数据中发生购买操作的数据较少,所以需要使用一些方法来进行调整,从而避免概率预测网络花费大量时间,来基于未发生购买操作的数据来进行拟合。例如,可以使用过采样处理(如重复正例数据)来实现数据均衡处理,或者,可以使用欠采样处理来选取部分的反例数据,从而实现数据均衡处理。
    92.通过上述过程中的至少一个过程,即可实现对第一目标数据的预处理过程,从而得到经过数据预处理的第一目标数据,以便后续可以基于经过数据预处理的第一目标数据,来获取满足第一目标条件和/或满足第二目标条件的样本特征信息,具体过程可以参见上述实施例,此处不再赘述。
    93.s1022、基于样本特征信息以及第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络。
    94.需要说明的是,由于概率预测网络需要数值型的数据输入,因而,在一些实施例中,在基于样本特征信息以及第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络之前,还可以包括如下步骤:
    95.步骤一、在样本特征信息对应的数据中存在离散型数据的情况下,对离散型数据进行数据转化处理,得到离散型数据对应的数值型数据。
    96.在一种可能的实现方式中,可以采用独热(one-hot)编码、散列、分箱等方式,来对离散型数据进行数据转化处理,从而得到离散型数据对应的数值型数据。
    97.通过采用one-hot、散列、分箱等方式,来对离散型数据进行数据转化处理,可以避免将顺序信息引入数据,使得数值型数据与对应的离散型数据的含义不一致,导致后续网络训练过程中涉及到均值方差等的计算出现异常,保证网络训练过程的准确性。
    98.下面以采用分箱的方式,来实现将离散型数据转换为数值型数据的过程为例来进行说明。
    99.其中,分箱可以包括手动分箱和自动分箱两种方式,也可以使用算法确定分箱方式。分箱方式可以包括等距分箱和等频分箱,根据数据的性质可以采用不同的分箱方式。通过对数据进行分箱处理,进而基于每个分箱中的数据计算一个数值,用于表达分箱中所包括的各个数据,以实现将离散型数据转换为数值型数据。
    100.在一种可能的实现方式中,可以采用证据权重(weight of evidence,woe)来表示当前分箱中操作成功的数据的比例与未操作成功的数据的比例之间的差异(也即是优势比odds),其中,woe的计算公式可以参见如下公式(1):
    [0101][0102]
    其中,deal
    bin
    表示分箱中操作成功的数据量,nodeal
    bin
    表示分箱中未操作成功的数据量,deal
    all
    表示数据总体中操作成功的数据量,nodeal
    all
    表示数据总体中未操作成功的数据量。需要说明的是,woe值越大,说明该分箱的区分度越好。
    [0103]
    通过以woe来表示分箱中的数据,可以把非线性特征转化为线性特征,并且可以实现对各个分箱中异常数据的处理,使得所得到的woe对异常数据不敏感,便于后续概率预测网络的迭代训练。
    [0104]
    步骤二、基于数值型数据和样本特征信息对应的操作数据,确定各个样本特征信息与对应的样本概率之间的关联程度。
    [0105]
    在一种可能的实现方式中,可以通过如下公式(2)来确定各个样本特征信息与对应的样本概率之间的关联程度:
    [0106][0107]
    其中,iv为信息价值(information value),可以表示变量与结果关系的强弱,也即是样本概率与样本特征信息之间的关系的强弱(或称关联程度),n表示分箱总数,deal
    bin
    表示分箱中操作成功的数据量,nodeal
    bin
    表示分箱中未操作成功的数据量,deal
    all
    表示数据总体中操作成功的数据量,nodeal
    all
    表示数据总体中未操作成功的数据量,woei表示第i个分箱对应的woe值。
    [0108]
    需要说明的是,上述仅为确定各个样本特征信息与对应的样本概率之间的关联程度的一种示例性方式,在更多可能的实现方式中,还可以采用其他方式,来确定各个样本特征信息与对应的样本概率之间的关联程度,本公开对具体采用哪种方式不加以限定。
    [0109]
    步骤三、基于各个样本特征信息与对应的样本概率之间的关联程度,获取满足第三目标条件的样本特征信息。
    [0110]
    仍以采用iv值表示各个样本特征信息与对应的样本概率之间的关联程度的方式
    为例,可以将iv值大于第三设定阈值的样本特征信息,确定为满足第三目标条件的样本特征信息,和/或,将按照从大到小的顺序排序后的iv值中位于设定位置之前的样本特征信息,确定为满足第三目标条件的样本特征信息。
    [0111]
    其中,第三设定阈值可以为任意取值,例如,第三设定阈值可以为0.1,设定位置可以为任意位置,例如,设定位置可以为第10位,则可以获取iv值大于0.1的样本特征信息,也即是,筛掉iv值小于或等于0.1的样本特征信息,并获取按照从大到小的顺序排序后的iv值中位于前10位的样本特征信息,确定为满足第三目标条件的样本特征信息。
    [0112]
    需要说明的是,iv值考虑了某个分箱发生概率很小但woe值很大的情况,通过引入iv值来对样本特征信息进行筛选,可以有效确定出哪些特征需要被筛掉,从而确定出输入概率预测网络的样本特征信息,从而即可基于样本特征信息来进行第一概率预测网络的训练,从而保证概率预测网络训练过程中所使用的特征的有效性,进而提高概率预测网络的训练效果。
    [0113]
    在确定出输入第一概率预测网络的样本特征信息后,即可基于所确定出的样本特征信息,来进行概率预测网络的训练。可选地,概率预测网络可以为任意类型的机器学习网络,例如,概率预测网络可以为随机森林分类器、梯度增强决策树(gradient boosting decision tree,gbdt)、逻辑回归(logistic regression,lr)网络等,本公开对概率预测网络的具体类型不加以限定。
    [0114]
    在一种可能的实现方式中,将第一目标数据输入第一概率预测网络,通过第一概率预测网络,输出第一目标数据对应的预测概率;基于指示第一目标数据对应的预测概率与第一目标数据所对应的标注信息之间的差异的损失函数,训练第一概率预测网络,得到多个第二概率预测网络。
    [0115]
    其中,在将第一目标数据输入第一概率预测网络时,可以将样本特征信息输入第一概率预测网络,从而通过第一概率预测网络,输出样本特征信息的预测概率,从而基于指示样本特征信息的预测概率与对应的标注信息之间的差异的损失函数,训练第一概率预测网络,得到多个第二概率预测网络。
    [0116]
    以第一概率预测网络为lr网络为例,该第一概率预测网络可以对样本特征信息进行线性函数处理,进而通过激活函数,对经过线性函数处理所得到的特征进行进一步处理,得到样本特征信息的预测概率,作为第一概率预测网络的lr网络的函数表达式可以参见如下公式(3)和公式(4):
    [0117][0118]
    z=θ0 θ1*x1 θ2*x2 ... θn*xnꢀꢀ
    (4)
    [0119]
    其中,θ0、θ1、

    、θn表示第一概率预测网络的网络参数(如权重参数),x0、x1、

    、xn表示输入第一概率预测网络的woe值,g(z)表示样本概率,当z≥0时,g(z)≥0.5,当z《0时,g(z)《0.5。
    [0120]
    需要说明的是,在获取多个第二概率预测网络时,可以通过增减训练过程中使用的特征或调整概率预测网络的超参数,来获取到多个第二概率预测网络。也即是,每训练完一个概率预测网络,即可通过增减训练过程中使用的特征信息或调整概率预测网络的超参数,来更新待训练的第一概率预测网络,从而基于更新后的待训练的第一概率预测网络,来
    获取第二概率预测网络。
    [0121]
    其中,每个第二概率预测网络对应的训练过程均为通过多轮梯度下降过程,来基于网络的损失值对网络进行训练的迭代过程。下面以任一个第二概率预测网络的训练过程为例进行说明,可以将第一个样本特征信息输入第一概率预测网络,通过第一概率预测网络,输出第一个样本特征信息的预测概率,从而基于指示第一个样本特征信息的预测概率与对应的标注信息之间的差异的损失函数,来对第一概率预测网络的网络参数进行调整,得到经过第一次参数调整的第一概率预测网络;进而将第二个样本特征信息输入经过第一次参数调整的第一概率预测网络,通过经过第一次参数调整的第一概率预测网络,输出第二个样本特征信息的预测概率,从而基于指示第二个样本特征信息的预测概率与对应的标注信息之间的差异的损失函数,来对经过第一次参数调整的第一概率预测网络的网络参数继续进行调整,得到经过第二次参数调整的第一概率预测网络,进而通过经第二次参数调整的第一概率预测网络继续对第三个样本特征信息进行处理,以此类推,直至满足训练截止条件,即可得到训练好的第二预测网络。
    [0122]
    其中,训练截止条件可以为迭代次数达到设定次数,或者,损失函数值满足设定条件,或者,各个样本特征信息均已处理完成,等等,本公开对具体采用哪种条件作为训练截止条件不加以限定。另外,需要说明的是,上述仅为一个第二概率预测网络的训练过程,通过增减训练过程中使用的特征信息或调整概率预测网络的超参数所获取到的第二概率预测网络的训练过程与之同理,此处不再赘述。
    [0123]
    可选地,可以采用adam优化器进行梯度下降,可以采用多种类型的损失函数作为第一概率预测网络的训练过程中所使用的损失函数,例如,损失函数可以为交叉熵函数,参见如下公式(5):
    [0124][0125]
    其中,j(θ)表示损失函数值,m表示样本特征信息的总数,y(i)表示样本特征信息的标注信息(也即是样本概率),h
    θ
    (x(i))表示样本特征信息的预测概率(也即是g(z))。
    [0126]
    通过上述过程,即可获取到基于第一概率预测网络训练得到的多个第二概率预测网络,从而可以从中选择准确性较高的第二概率预测网络。
    [0127]
    在一些实施例中,基于第二目标数据对应的预测概率和标注信息,确定各个第二概率预测网络的性能参数,从而基于各个第二概率预测网络的性能参数,确定目标概率预测网络,其中,性能参数用于表示第二概率预测网络的预测准确程度。
    [0128]
    例如,在一种可能的实现方式中,对于多个第二概率预测网络中的任一第二概率预测网络,可以将各个第二目标数据逐个输入该第二概率预测网络,通过该第二概率预测网络输出各个第二目标数据对应的预测概率,基于各个第二目标数据的预测概率和标注信息,确定该第二概率预测网络的真正率(true positive rate,tpr)和假正率(false positive rate,fpr),从而确定该第二概率预测网络对应的受试者工作特征(receiver operating characteristic,roc)曲线,进而基于roc曲线计算该第二概率预测网络对应的roc曲线下与坐标轴围成的面积(area under the curve of roc,auc),以便将所计算出的auc值作为该第二概率预测网络的性能参数,从而基于各个第二概率预测网络的auc值来确定目标概率预测网络。
    [0129]
    其中,roc曲线的横轴为假正率,纵轴为真正率,roc曲线可以用于评判预测结果的好坏,而对于roc曲线下的面积,也即是auc值,auc值越大,第二概率预测网络的准确性越高,因而可以从多个第二概率预测网络中,确定对应auc值最大的第二概率预测网络,作为目标概率预测网络。
    [0130]
    在确定出目标概率预测网络后,即可基于所确定出的目标概率预测网络,来进行目标关系数据的确定。
    [0131]
    在一些实施例中,参见图3,图3是本公开根据一示例性实施例示出的一种确定目标关系数据的流程图,对于s105,在基于目标概率预测网络的网络参数,确定目标关系数据时,可以包括如下步骤:
    [0132]
    s1051、基于第一设定参数值,确定第一目标参数值,并基于设定分数阈值、第二设定参数值和所述第一目标参数值,确定第二目标参数值。
    [0133]
    在一种可能的实现方式中,可以通过如下公式(6),来确定第一目标参数值:
    [0134][0135]
    其中,pdo为第一设定参数值,可以为预先设定好的任意正数值,a为第一目标参数值。
    [0136]
    在确定出第一目标参数值后,即可通过如下公式(7),来确定第二目标参数值:
    [0137]
    base=b a*log(thresold)
    ꢀꢀ
    (7)
    [0138]
    其中,base为第二设定参数值,b为第二目标参数值,a为第一目标参数值,thresold为设定参数阈值。
    [0139]
    可选地,thresold为预先设置好的一个常数值,如0.5,或者,thresold为基于目标概率预测网络的洛伦兹(kolmogorov-smirnov,k-s)曲线确定出的参数值。
    [0140]
    其中,k-s曲线的横轴为决策阈值(也即是不同取值的参数阈值),真正率和假正率都被作为k-s曲线的纵轴,真正率与假正率的差值表示目标概率预测网络的预测效果,差值越大表示目标概率预测网络的预测效果越好,同时,差值最大的位置所对应的横坐标值即为设定参数阈值的取值。
    [0141]
    s1052、基于目标概率预测网络的网络参数、第一目标参数值以及第二目标参数值,确定目标关系数据。
    [0142]
    在一种可能的实现方式中,可以通过如下公式(8)至公式(11),以确定出目标关系数据,也即是公式(12):
    [0143]
    score=b a*ln(odds)
    ꢀꢀ
    (8)
    [0144][0145][0146]
    weight=[θ
    0 weight
    1 weight
    2 ... weightn]
    ꢀꢀ
    (11)
    [0147][0148]
    其中,x为输入特征矩阵,表示n个分箱,表示n个分箱对应的n个woe值,weight为网络参数矩阵,θ0表示目标概率网络的截距,weight1、...、weightn表示目标概率预测网络的网络参数(也即是权重参数),a表示第一目标参数值,b表示第二目标参数值。
    [0149]
    在一些实施例中,在通过上述过程确定出目标关系数据后,即可通过目标关系数据来确定不同类型的数据的评分,从而基于所确定出的评分来对各种类型的数据进行评级。其中,评分用于指示不同类型的数据与预测概率之间的关联程度,处于不同取值范围内的评分对应于不用的评分等级。
    [0150]
    在一种可能的实现方式中,将第二数据输入目标关系数据,通过目标关系数据,确定第二数据的评分;基于第二数据的评分所处的取值范围,确定第二数据的评分等级。
    [0151]
    例如,可以设置三个评分等级,如a、b、c,不同的评分等级对应于不同的评分取值范围,如,评分小于第一目标阈值的第二数据对应于评分等级a,评分大于等于第一目标阈值小于第二目标阈值的第二数据对应于评分等级b,评分大于等于第二目标阈值的第二数据对应于评分等级c,第一目标阈值小于第二目标阈值。
    [0152]
    其中,第一目标阈值和第二目标阈值可以通过如下方式确定:
    [0153]
    确定多个第二数据的评分的均值、最大值、最小值,从而确定评分的概率密度曲线,基于概率密度曲线确定第一目标阈值和第二目标阈值。
    [0154]
    另外,还可以根据第一目标阈值和第二目标阈值重新确定分段概率密度曲线,从而基于分段概率密度曲线对第二数据的评分进行分布分析,例如,基于分段概率密度曲线确定第二数据的评分是否符合正态分布,对每段概率密度曲线计算odds并查看是否呈现单调性,等等。
    [0155]
    需要说明的是,上述各个实施例所描述的过程可以参见图4,图4是本公开根据一示例性实施例示出的一种数据处理方法的流程示意图,如图4所示,在获取到第一数据后,可以通过s401至s404,分别通过地域信息扩充、行为数据扩充、来源渠道信息扩充、外部数据接口扩充这四种方式,以获取到基于第一数据扩充得到的第二数据,从而通过s405,基于第二数据进行特征工程,从而得到满足目标条件的样本特征信息,以便通过s406,基于样本特征信息来进行网络训练及评估,以确定目标关系数据,从而通过s407,基于目标关系数据来对第二数据的评分进行校准,上述仅为关于本公开的流程性介绍,上述各个步骤的具体实现方式可以参见上述各个实施例,此处不再赘述。
    [0156]
    在介绍了本公开示例性实施方式的数据处理方法之后,接下来,对本公开示例性实施方式的数据处理装置以及用于实现数据处理方法的计算设备的结构进行说明。
    [0157]
    参见图5,图5是本公开根据一示例性实施例示出的一种数据处理装置的框图,该装置包括:
    [0158]
    数据处理模块501,用于对多个样本用户所提供的第一数据进行数据扩充,得到第二数据,第二数据包括第一目标数据和第二目标数据,第一目标数据和第二目标数据均对应有标注信息,标注信息用于指示样本用户完成设定操作的概率;
    [0159]
    训练模块502,用于基于第二数据中的第一目标数据以及第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络;
    [0160]
    第一确定模块503,用于基于第二数据中的第二目标数据,通过多个第二概率预测网络,确定第二目标数据对应的预测概率;
    [0161]
    第二确定模块504,用于基于第二目标数据对应的预测概率和标注信息,从多个第二概率预测网络中,确定目标概率预测网络;
    [0162]
    第三确定模块505,用于基于目标概率预测网络的网络参数,确定目标关系数据,目标关系数据用于确定不同类型的数据与预测概率之间的关联程度。
    [0163]
    在本公开的一个实施例中,第一目标数据为训练集数据;
    [0164]
    训练模块502,在用于基于第二数据中的第一目标数据以及第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络时,包括获取子模块和训练子模块;
    [0165]
    获取子模块,用于基于第一目标数据,获取样本特征信息;
    [0166]
    训练子模块,用于基于样本特征信息以及第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络。
    [0167]
    在本公开的一个实施例中,数据处理模块501,还用于对第一目标数据进行数据预处理,数据预处理包括数据清洗处理和/或数据均衡处理,数据清洗处理包括缺失值填充和/或异常数据清除,数据均衡处理包括过采样处理和/或欠采样处理;
    [0168]
    获取子模块,在用于基于第一目标数据,获取样本特征信息时,用于:
    [0169]
    基于经过数据预处理的第一目标数据,获取样本特征信息。
    [0170]
    在本公开的一个实施例中,第一目标数据中包括对应于多个特征信息的数据;
    [0171]
    获取子模块,在用于基于经过数据预处理的第一目标数据,获取样本特征信息时,用于下述至少一项:
    [0172]
    基于经过数据预处理的第一目标数据,确定第一目标数据的特征信息对应的操作数据,基于操作数据,获取满足第一目标条件的样本特征信息;
    [0173]
    确定经过数据预处理的第一目标数据的任意两个特征信息之间的关联程度,基于所确定出的关联程度,获取满足第二目标条件的样本特征信息。
    [0174]
    在本公开的一个实施例中,数据处理模块501,还用于在样本特征信息对应的数据中存在离散型数据的情况下,对离散型数据进行数据转化处理,得到离散型数据对应的数值型数据;
    [0175]
    该装置还包括:
    [0176]
    第四确定模块,用于基于数值型数据和样本特征信息对应的操作数据,确定各个样本特征信息与对应的样本概率之间的关联程度;
    [0177]
    获取模块,用于基于各个样本特征信息与对应的样本概率之间的关联程度,获取满足第三目标条件的样本特征信息。
    [0178]
    在本公开的一个实施例中,训练模块502,在用于基于第二数据中的第一目标数据
    以及第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络时,用于:
    [0179]
    将第一目标数据输入第一概率预测网络,通过第一概率预测网络,输出第一目标数据对应的预测概率;
    [0180]
    基于指示第一目标数据对应的预测概率与第一目标数据所对应的标注信息之间的差异的损失函数,训练第一概率预测网络,得到多个第二概率预测网络。
    [0181]
    在本公开的一个实施例中,第二目标数据为测试集数据;
    [0182]
    第二确定模块504,在用于基于第二目标数据对应的预测概率和标注信息,从多个第二概率预测网络中,确定目标概率预测网络时,用于:
    [0183]
    基于第二目标数据对应的预测概率和标注信息,确定各个第二概率预测网络的性能参数,性能参数用于表示第二概率预测网络的预测准确程度;
    [0184]
    基于各个第二概率预测网络的性能参数,确定目标概率预测网络。
    [0185]
    在本公开的一个实施例中,第三确定模块505,在用于基于目标概率预测网络的网络参数,确定目标关系数据时,用于:
    [0186]
    基于第一设定参数值,确定第一目标参数值,并基于设定分数阈值、第二设定参数值和第一目标参数值,确定第二目标参数值;
    [0187]
    基于目标概率预测网络的网络参数、第一目标参数值以及第二目标参数值,确定目标关系数据。
    [0188]
    在本公开的一个实施例中,第一数据包括基于样本用户在目标页面上的填写操作获取到的用户数据、基于样本用户在目标页面上的互动操作获取到的操作数据、样本用户用于访问目标页面的请求数据中的至少一项;第二数据包括归属地数据、标签数据、用户行为数据、来源渠道数据中的至少一项;
    [0189]
    数据处理模块501,在用于对多个样本用户所提供的第一数据进行数据扩充,得到第二数据时,用于下述至少一项:
    [0190]
    对作为第一数据的用户数据进行数据扩充,得到作为第二数据的归属地数据;
    [0191]
    对作为第一数据的用户数据进行数据扩充,得到作为第二数据的标签数据,标签数据用于指示样本用户所属的行业和/或样本用户对应的产品;
    [0192]
    对作为第一数据的操作数据进行数据扩充,得到作为第二数据的用户行为数据;
    [0193]
    对作为第一数据的请求数据进行数据扩充,得到作为第二数据的来源渠道数据。
    [0194]
    在本公开的一个实施例中,目标关系数据用于确定不同类型的数据的评分,评分用于指示不同类型的数据与预测概率之间的关联程度,处于不同取值范围内的评分对应于不同的评分等级;
    [0195]
    该装置还包括:
    [0196]
    第五确定模块,用于将第二数据输入目标关系数据,通过目标关系数据,确定第二数据的评分;
    [0197]
    第五确定模块,还用于基于第二数据的评分所处的取值范围,确定第二数据的评分等级。
    [0198]
    需要说明的是,对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。也即是,上述装置中各个模块/子模块的功能和作用的
    实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
    [0199]
    应当注意,尽管在上文详细描述中提及了数据处理装置的若干模块/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块/子模块的特征和功能可以在一个模块/子模块中具体化。反之,上文描述的一个模块/子模块的特征和功能可以进一步划分为由多个模块/子模块来具体化。
    [0200]
    本公开实施例还提供了一种计算机可读存储介质。图6是本公开根据一示例性实施例示出的一种计算机可读存储介质的示意图,如图6所示,该存储介质上存储有计算机程序601,该计算机程序601被处理器执行时可以执行本公开任一实施例所提供的数据处理方法。
    [0201]
    本公开实施例还提供了一种计算设备,该计算设备可以包括存储器、处理器,该存储器用于存储可在处理器上运行的计算机指令,该处理器用于在执行该计算机指令时实现本公开任一实施例所提供的推荐模型的训练方法。参见图7,图7是本公开根据一示例性实施例示出的一种计算设备的结构示意图,该计算设备700可以包括但不限于:处理器710、存储器720、连接不同系统组件(包括存储器720和处理器710)的总线730。
    [0202]
    其中,存储器720存储有计算机指令,该计算机指令可以被处理器710执行,使得处理器710能够执行本公开任一实施例所提供的数据处理方法。存储器720可以包括随机存取存储单元ram721、高速缓存存储单元722和/或只读存储单元rom723。该存储器720还可以包括:具有一组程序模块724的程序工具725,该程序模块724包括但不限于:操作系统、一个或多个应用程序、其他程序模块和程序数据,这些程序模块一种或多种组合可以包含网络环境的实现。
    [0203]
    总线730例如可以包括数据总线、地址总线和控制总线等。该计算设备700还可以通过i/o接口740与外部设备750通信,该外部设备750例如可以是键盘、蓝牙设备等。该计算设备700还可以通过网络适配器760与一个或多个网络通信,例如,该网络可以是局域网、广域网、公共网络等。如图7所示,该网络适配器760还可以通过总线730与计算设备700的其他模块进行通信。
    [0204]
    本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,程序被计算设备700的处理器710执行时,可以实现本公开任一实施例所提供的数据处理方法。
    [0205]
    此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
    [0206]
    虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

    技术特征:
    1.一种数据处理方法,其特征在于,所述方法包括:对多个样本用户所提供的第一数据进行数据扩充,得到第二数据,所述第二数据包括第一目标数据和第二目标数据,所述第一目标数据和所述第二目标数据均对应有标注信息,所述标注信息用于指示所述样本用户完成设定操作的概率;基于所述第二数据中的第一目标数据以及所述第一目标数据对应的所述标注信息,训练第一概率预测网络,得到多个第二概率预测网络;基于所述第二数据中的第二目标数据,通过所述多个第二概率预测网络,确定第二目标数据对应的预测概率;基于第二目标数据对应的预测概率和标注信息,从所述多个第二概率预测网络中,确定目标概率预测网络;基于所述目标概率预测网络的网络参数,确定目标关系数据,所述目标关系数据用于确定不同类型的数据与预测概率之间的关联程度。2.根据权利要求1所述的方法,其特征在于,所述第一目标数据为训练集数据;所述基于所述第二数据中的第一目标数据以及所述第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络,包括:基于所述第一目标数据,获取样本特征信息;基于所述样本特征信息以及所述第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对所述第一目标数据进行数据预处理,所述数据预处理包括数据清洗处理和/或数据均衡处理,所述数据清洗处理包括缺失值填充和/或异常数据清除,所述数据均衡处理包括过采样处理和/或欠采样处理;所述基于所述第一目标数据,获取样本特征信息,包括:基于经过数据预处理的第一目标数据,获取所述样本特征信息。4.根据权利要求3所述的方法,其特征在于,所述第一目标数据中包括对应于多个特征信息的数据;所述基于经过数据预处理的第一目标数据,获取所述样本特征信息,包括下述至少一项:基于经过数据预处理的第一目标数据,确定所述第一目标数据的特征信息对应的操作数据,基于所述操作数据,获取满足第一目标条件的样本特征信息;确定经过数据预处理的第一目标数据的任意两个特征信息之间的关联程度,基于所确定出的关联程度,获取满足第二目标条件的样本特征信息。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述样本特征信息对应的数据中存在离散型数据的情况下,对所述离散型数据进行数据转化处理,得到所述离散型数据对应的数值型数据;基于所述数值型数据和所述样本特征信息对应的操作数据,确定各个样本特征信息与对应的样本概率之间的关联程度;基于各个样本特征信息与对应的样本概率之间的关联程度,获取满足第三目标条件的样本特征信息。
    6.根据权利要求1所述的方法,其特征在于,所述第二目标数据为测试集数据;所述基于第二目标数据对应的预测概率和标注信息,从所述多个第二概率预测网络中,确定目标概率预测网络,包括:基于所述第二目标数据对应的预测概率和标注信息,确定各个第二概率预测网络的性能参数,所述性能参数用于表示所述第二概率预测网络的预测准确程度;基于各个第二概率预测网络的性能参数,确定所述目标概率预测网络。7.根据权利要求1所述的方法,其特征在于,所述基于所述目标概率预测网络的网络参数,确定目标关系数据,包括:基于第一设定参数值,确定第一目标参数值,并基于设定分数阈值、第二设定参数值和所述第一目标参数值,确定第二目标参数值;基于所述目标概率预测网络的网络参数、所述第一目标参数值以及所述第二目标参数值,确定所述目标关系数据。8.一种数据处理装置,其特征在于,所述装置包括:数据处理模块,用于对多个样本用户所提供的第一数据进行数据扩充,得到第二数据,所述第二数据包括第一目标数据和第二目标数据,所述第一目标数据和所述第二目标数据均对应有标注信息,所述标注信息用于指示所述样本用户完成设定操作的概率;训练模块,用于基于所述第二数据中的第一目标数据以及所述第一目标数据对应的所述标注信息,训练第一概率预测网络,得到多个第二概率预测网络;第一确定模块,用于基于所述第二数据中的第二目标数据,通过所述多个第二概率预测网络,确定第二目标数据对应的预测概率;第二确定模块,用于基于第二目标数据对应的预测概率和标注信息,从所述多个第二概率预测网络中,确定目标概率预测网络;第三确定模块,用于基于所述目标概率预测网络的网络参数,确定目标关系数据,所述目标关系数据用于确定不同类型的数据与预测概率之间的关联程度。9.一种计算设备,其特征在于,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的数据处理方法所执行的操作。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序,所述程序被处理器执行如权利要求1至7中任一项所述的数据处理方法所执行的操作。

    技术总结
    本公开的实施方式提供了一种数据处理方法、装置、计算设备及介质。本公开通过对多个样本用户所提供的对应有标注信息的第一数据进行数据扩充,得到第二数据,从而基于第二数据中的第一目标数据以及第一目标数据对应的标注信息,训练第一概率预测网络,得到多个第二概率预测网络,从而基于第二数据中的第二目标数据,通过多个第二概率预测网络,确定第二目标数据对应的预测概率,以便基于第二目标数据对应的预测概率和标注信息,从多个第二概率预测网络中,确定目标概率预测网络,基于目标概率预测网络的网络参数,确定目标关系数据,以便可以基于目标关系数据确定不同类型的数据与预测概率之间的关联程度。与预测概率之间的关联程度。与预测概率之间的关联程度。


    技术研发人员:黄宇方 钱益再 王超 杨云鹏
    受保护的技术使用者:杭州网易竹书信息技术有限公司
    技术研发日:2022.02.17
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-11146.html

    最新回复(0)