1.本技术涉及人工智能、区块链以及云技术等领域,尤其涉及一种多媒体数据处理方法、装置、设备及存储介质。
背景技术:
2.随着大数据的发展,多种多媒体平台(如音视频平台、游戏平台等)均陆续引入基于大数据的个性化推送算法来为用户推送多媒体数据,提升了用户获取多媒体数据的便捷性。在推送多媒体数据的过程中,通常需要根据用户的性别、年龄、学历等特征生成用户信息,根据该用户信息为用户推送用户感兴趣的多媒体数据。实践中发现,这种用户信息只能片面的反映用户关于多媒体数据的兴趣特征,导致多媒体数据的推送准确度比较低。
技术实现要素:
3.本技术实施例提供一种多媒体数据处理方法、装置、设备及存储介质,提高多媒体数据的推送准确度。
4.本技术实施例一方面提供一种多媒体数据处理方法,包括:分别获取目标对象、第一关联对象、第二关联对象关于多媒体数据的初始媒体特征向量;所述目标对象与所述第一关联对象之间具有一阶关联关系,所述目标对象与所述第二关联对象之间具有二阶关联关系;将所述目标对象的初始媒体特征向量与所述第一关联对象的初始媒体特征向量进行一阶关联处理,得到所述目标对象的第一关联媒体特征向量;将所述目标对象的初始媒体特征向量与所述第二关联对象的初始媒体特征向量、所述第一关联对象的初始媒体特征向量进行二阶关联处理,得到所述目标对象的第二关联媒体特征向量;根据所述第一关联媒体特征向量与所述第二关联媒体特征向量,生成所述目标对象的目标媒体特征向量,根据所述目标媒体特征向量为所述目标对象推送多媒体数据。
5.本技术实施例一方面提供一种多媒体数据处理装置,包括:获取模块,用于分别获取目标对象、第一关联对象、第二关联对象关于多媒体数据的初始媒体特征向量;所述目标对象与所述第一关联对象之间具有一阶关联关系,所述目标对象与所述第二关联对象之间具有二阶关联关系;处理模块,用于将所述目标对象的初始媒体特征向量与所述第一关联对象的初始媒体特征向量进行一阶关联处理,得到所述目标对象的第一关联媒体特征向量;将所述目标对象的初始媒体特征向量与所述第二关联对象的初始媒体特征向量、所述第一关联对象的初始媒体特征向量进行二阶关联处理,得到所述目标对象的第二关联媒体特征向量;生成模块,用于根据所述第一关联媒体特征向量与所述第二关联媒体特征向量,生成所述目标对象的目标媒体特征向量,根据所述目标媒体特征向量为所述目标对象推送多媒体数据。
6.本技术实施例一方面提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的方法的步骤。
7.本技术实施例一方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法的步骤。
8.本技术实施例一方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现所述的方法的步骤。
9.本技术中,计算机设备可以分别获取目标对象、第一关联对象、第二关联对象的初始媒体特征向量,该初始媒体特征向量用于反映对象的基本属性信息和显著媒体标签。进一步,可以将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量进行一阶关联处理,得到第一关联媒体特征向量,并将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量、第二关联对象的初始媒体特征向量进行二阶关联处理,得到第二关联媒体特征向量。通过上述一阶关联处理和二阶关联处理能够挖掘出目标对象的潜在媒体标签,也就是说,第一关联媒体特征向量和第二关联媒体特征向量不仅能够反映目标对象的基础属性信息和显著媒体标签,还能够反映目标对象的潜在媒体标签。通过根据该第一关联媒体特征向量与该第二关联媒体特征向量,生成该目标对象的目标媒体特征向量,该目标媒体特征向量能够反映该目标对象丰富的媒体标签,因此,通过根据该目标媒体特征向量为目标用户推送多媒体数据,能够提高多媒体数据的推送准确度,实现多媒体数据的精准推送。
附图说明
10.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1是本技术提供的一种多媒体数据处理系统的架构示意图;图2是本技术提供的一种多媒体数据处理方法的流程示意图;图3是本技术提供的一种获取目标对象的目标媒体特征向量的场景示意图;图4是本技术提供的一种多媒体数据处理方法的流程示意图;图5是本技术提供的对候选媒体识别模型的训练过程的场景示意图;图6是本技术提供的基于图神经网络模型获取目标样本对象的预测媒体特征向量的场景示意图;图7是本技术实施例提供的一种多媒体数据处理装置的结构示意图;图8是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
12.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
13.本技术涉及人工智能,例如,本技术主要涉及人工智能中的机器学习技术,利用机器学习技术将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量进行一阶关联处理,得到目标对象的第一关联媒体特征向量,并将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量、第二关联对象的初始媒体特征向量进行二阶关联处理,得到目标对象的第二关联媒体特征向量,根据第一关联媒体特征向量和第二关联媒体特征向量确定目标对象的目标媒体特征向量。也就是说,通过该机器学习技术能够挖掘目标对象的更多潜在媒体标签,提高获取目标对象的媒体特征向量的准确度。此处的机器学习(machine learning, ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
14.本技术涉及区块链技术领域,例如,计算机设备可以将对象用户的基本属性信息和历史多媒体行为数据存储至区块链网络中,当计算机设备需要获取这些数据时,由该区块链网络中的节点设备对计算机设备的合法性进行验证,在节点设备确定该计算机设备具有合法性时,计算机设备才能从区块链网络中读取这些数据,这样可以提高用户数据的安全性。
15.为了便于更清楚理解本技术,首先介绍实现本技术的媒体数据处理方法的媒体数据处理系统,如图1所示,该媒体数据处理系统中包括服务器10和终端集群,终端集群可以包括一个或者多个终端,这里将不对终端的数量进行限制。如图1所示,终端集群具体可以包括终端1、终端2、
…ꢀ
、终端n;可以理解的是,终端1、终端2、终端3、
…ꢀ
、终端n均可以与服务器10进行网络连接,以便于每个终端均可以通过网络连接与服务器10之间进行数据交互。
16.终端安装有为用户提供多媒体数据的多媒体平台,该多媒体平台可以包括但不限于:游戏应用下载平台、短视频平台、内容发布平台、音视频播放平台以及购物平台等等,终端可以根据用户的目标媒体特征向量向用户推送多媒体数据。此处的关联用户可以是指与用户具有关联关系的用户,该关联关系可以包括好友关系、亲友关系、同事关系等等,好友关系可以是指共同关注、收藏了同一类多媒体数据的用户之间的关系,或者,好友关系可以是指同属于一个通信群组的用户之间的关系。该关联关系可以包括一阶关联关系和二阶关联关系,一阶关联关系和二阶关联关系可以是指根据用户之间的亲密度确定的,该亲密度可以是根据用户之间的互动频率、关注时长、关联关系类别等信息确定的,互动可以是指对其他用户发布的多媒体数据执行播放、点赞、收藏等操作,或者,互动可以是在社交平台上进行信息交换。关联关系类别包括直接关联关系和间接关联关系,例如,针对用户a,与用户a具有直接关联关系的用户是指在用户a的通讯录中的用户,如用户b,与用户a具有间接关联关系的用户是指未在用户a的通讯录中的用户,且在用户b的通讯录中的用户。其中,一阶关联关系对应的亲密度值大于二阶关联关系对应的亲密度值,例如,针对用户a,与用户a具有一阶关联关系的用户可以是指与该用户a的亲密度值大于亲密度阈值的用户,与用户a具有二阶关联关系的用户可以是指与该用户a的亲密度值小于或等于亲密度阈值的用户。
17.可理解的是,该多媒体数据在不同多媒体平台中所指的具体内容不同,例如,在游戏应用下载平台中,该多媒体数据可以是指游戏应用,如单机游戏、网络游戏、手游或小游戏等等;在短视频平台中,多媒体数据可以是指一段视频。在音视频播放平台中,多媒体数据可以是指影视作品、音频数据等等;在购物平台中,该多媒体数据可以是指购物平台中出售的产品或服务,在内容发布平台中,该多媒体数据可以是指一篇文学作品、一则新闻资讯、一篇旅游游记等等。
18.可理解的是,目标媒体特征向量可以是根据用户自身的初始媒体特征向量,以及关联用户的初始媒体特征向量生成的,初始媒体特征向量包括用于反映该用户的基本属性信息的基础特征值,以及用于反映该用户的l个媒体标签的媒体特征值。基本属性信息可以包括用户的性别、年龄、学历、教育程度、住址等等固有基础属性元素,媒体标签对应的媒体特征值包括目标数值和非目标数值,媒体标签对应的媒体特征值为目标数值可以是指用户具有该媒体标签,即该用户对该媒体标签对应的媒体数据感兴趣;媒体标签对应的媒体特征值为非目标数值可以是指用户不具有该媒体标签,即该用户对该媒体标签对应的媒体数据不感兴趣。媒体标签对应的媒体特征值是根据用户的历史多媒体行为数据确定的,此处历史多媒体行为数据包括用户针对多媒体数据的下载、播放、关注、收藏、评论等操作的行为数据。可见,用户的初始媒体特征向量能够用于反映用户具有哪些媒体标签,由于初始媒体特征向量中的媒体标签对应的媒体特征值是根据用户的历史多媒体行为数据直接得到的,因此,也可以称用户的初始媒体特征向量能够反映用户的显著媒体标签,即该显著媒体标签是根据该用户自身的历史多媒体行为数据直接得到的。
19.同理,用户的目标媒体特征向量也包括用于反映该用户的基本属性信息的基础特征值,以及用于反映该用户的l个媒体标签的媒体特征值。该目标媒体特征向量中用于反映该用户的基本属性信息的基础特征值,就是指该用户的初始媒体特征向量中用于反映该用户的基本属性信息的基础特征值;该目标媒体特征向量中的媒体标签对应的媒体特征值是,根据自身的初始媒体特征向量和关联用户的初始媒体特征向量关联处理得到的;即该目标媒体特征向量中的媒体标签对应的媒体特征值是,根据关联用户的初始媒体特征向量中的媒体特征值,对该用户的初始媒体特征向量中的媒体特征值进行调整得到的。可见,用户的目标媒体特征向量也能够用于反映用户具有哪些媒体标签,由于目标媒体特征向量中的媒体特征值是,根据该用户的初始媒体特征向量中的媒体特征值和关联用户的初始媒体特征向量中的媒体特征值确定的,因此,也可以称用户的目标媒体特征向量能够反映用户的显著媒体标签和潜在媒体标签,显著媒体标签是从该用户的初始媒体特征向量中继承得到的。其中,潜在媒体标签可以是通过如下三种方式中的任一种或多种结合方式挖掘得到的:1)根据关联用户的初始媒体特征向量确定基础属性信息与用户的媒体标签之间的联合关联关系,根据该联合关联关系和用户的初始媒体特征向量,挖掘用户的潜在媒体特征标签。例如,根据用户a的关联用户的初始媒体特征向量确定年龄在15岁以下的男孩,大多数均具有游戏y1对应的媒体标签,则确定基本属性信息中年龄15岁、男与游戏y1对应的媒体标签相关联。如果根据用户a的初始媒体特征向量确定该用户a的年龄为14岁,性别为男,则可以将游戏y1对应的媒体标签确定为用户a的潜在媒体标签;此处游戏y1对应的媒体标签可以是指游戏y1的名称或类别等等。
20.2)根据关联用户的初始媒体特征向量确定用户的媒体标签之间的媒体关联关系,根据该媒体关联关系和用户的初始媒体特征向量,挖掘用户的潜在媒体特征标签。例如,根据用户a的关联用户的初始媒体特征向量确定具有游戏y2对应的媒体标签的关联用户,大多数也具有游戏y3对应的媒体标签,则确定游戏y2与游戏y3关联,假设根据用户a的初始媒体特征向量确定用户a具有游戏y2对应的媒体标签,根据游戏y2与游戏y3之间的关联关系,将游戏y3对应的媒体标签确定为用户a的潜在媒体标签。
21.3)根据关联用户的初始媒体特征向量统计具有某种媒体标签的用户数量,根据用户数量确定和用户的初始媒体特征向量,挖掘用户的潜在媒体特征标签。例如,根据用户a的关联用户的初始媒体特征向量统计具有游戏y4对应的媒体标签的用户数量为10个,用户a的关联用户的数量为12个,即大多数关联用户具有游戏y4对应的媒体标签,因此,可以将游戏y4对应的媒体标签确定为用户a的潜在媒体标签。
22.可理解的是,服务器10可以是指用于为多媒体平台提供后端服务的设备,例如,服务器10可以用于对用户发布在多媒体平台中的多媒体数据进行审核,排布等处理,该服务器10还可以用于存储用户的关系链、历史多媒体行为数据以及基础属性信息,该关联链用于记录与用户具有关联关系的用户。
23.其中,服务器可以是独立的一个物理服务器,也可以是至少两个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、中容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端具体可以是指车载终端、智能手机、平板电脑、笔记本电脑、桌上型电脑、智能音箱、有屏音箱、智能手表等等,但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,同时,终端以及服务器的数量可以为一个或至少两个,本技术在此不做限制。
24.需要说明的是,本技术中的对象可以是指用户,当本技术以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且用户的基本属性信息、历史多媒体行为数据、初始媒体特征向量、目标媒体特征向量、标注媒体特征向量等用户信息的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说,计算机设备可以在获取到用户针对上述信息的授权信息时,计算机设备才能获取用户的基本属性信息、历史多媒体行为数据、初始媒体特征向量、目标媒体特征向量、标注媒体特征向量等用户信息。
25.例如,计算机设备可以在多媒体平台的多媒体界面中显示权限提示界面,该权限提示界面用于提示用户当前正在搜集用户的初始媒体特征向量,在获取到用户对该权限提示界面发出确认操作后,开始执行获取用户的初始媒体特征向量步骤,否则结束。
26.进一步地,请参见图2,是本技术实施例提供的一种多媒体数据处理方法的流程示意图。如图2所示,该方法可由图1中的终端来执行,也可以由图1中的服务器来执行,还可以由图1中的终端和服务器共同执行,本技术中用于执行该方法的设备可以统称为计算机设备。其中,该多媒体数据处理方法可以包括如下步骤s101~s104:s101、计算机设备分别获取目标对象、第一关联对象、第二关联对象关于多媒体数据的初始媒体特征向量;该目标对象与该第一关联对象之间具有一阶关联关系,该目标对象与该第二关联对象之间具有二阶关联关系。
27.本技术中,计算机设备可以获取目标对象的基础属性信息和历史多媒体行为数
据,根据该目标对象的基础属性信息和历史多媒体行为数据生成该目标对象关于多媒体数据的初始媒体特征向量。该目标对象的初始媒体特征向量包括用于反映目标对象的基本属性信息的基本特征值,以及该目标对象的媒体标签的媒体特征值,目标对象的媒体标签的标签值是根据目标对象的历史多媒体数据确定的,媒体特征值为目标特征值的媒体标签称为目标对象的显著媒体标签,也就是说,目标对象的初始媒体特征向量用于反映目标对象的显著媒体标签。
28.同理,计算机设备可以获取第一关联对象的基础属性信息和历史多媒体行为数据,根据该第一关联对象的基础属性信息和历史多媒体行为数据生成该第一关联对象关于多媒体数据的初始媒体特征向量。该第一关联对象的初始媒体特征向量包括用于反映第一关联对象的基本属性信息的基本特征值,以及该第一关联对象的媒体标签的媒体特征值,第一关联对象的媒体标签的标签值是根据第一关联对象的历史多媒体数据确定的,媒体特征值为目标特征值的媒体标签称为第一关联对象的显著媒体标签,也就是说,第一关联对象的初始媒体特征向量用于反映第一关联对象的显著媒体标签。计算机设备可以获取第二关联对象的基础属性信息和历史多媒体行为数据,根据该第二关联对象的基础属性信息和历史多媒体行为数据生成该第二关联对象关于多媒体数据的初始媒体特征向量。该第二关联对象的初始媒体特征向量包括用于反映第二关联对象的基本属性信息的基本特征值,以及该第二关联对象的媒体标签的媒体特征值,第二关联对象的媒体标签的标签值是根据第二关联对象的历史多媒体数据确定的,媒体特征值为目标特征值的媒体标签称为第二关联对象的显著媒体标签,也就是说,第二关联对象的初始媒体特征向量用于反映第二关联对象的显著媒体标签。
29.可选的,步骤s101包括:获取目标对象对应的第一关联对象网络,该第一关联对象网络包括用于反映该目标对象的初始媒体特征向量的第一节点,用于反映候选关联对象的初始媒体特征向量的第二节点,以及该第一节点和该第二节点相连接所构成的边;该目标对象与该候选关联对象关联;按照以该第一节点为起点的节点路径,依次对该第一关联对象网络中第二节点进行采样处理,得到与该目标对象具有一阶关联关系的第一关联对象,以及与该目标对象具有二阶关联关系的第二关联对象;从该第一关联对象网络中,分别获取该目标对象、该第一关联对象、该第二关联对象关于多媒体数据的初始媒体特征向量。
30.上述候选关联对象中包括与目标对象具有一阶关联关系的候选关联对象,以及与目标对象具有二阶关联关系的候选关联对象,计算机设备可以将该第一关联对象网络中的所有或部分与目标对象具有一阶关联关系的候选对象,作为第一关联对象,将该第一关联对象网络中所有或部分与目标对象具有二阶关联关系的候选对象,作为第二关联对象;从第一关联对象网络中分别获取目标对象、第一关联对象和第二关联对象的初始媒体特征向量。
31.例如,如图3所示,该第一关联对象网络包括第一节点为节点a、第二节点为节点b、节点c、节点d、节点e、节点f、节点g、节点h,节点a用于反映目标对象的初始媒体特征向量,节点b、节点c、节点d分别用于反映与目标对象具有一阶关联关系的第一候选关联媒体的初始媒体特征向量,节点e、节点f、节点g、节点h分别用于反映与目标对象具有二阶关联关系的第二候选关联对象的初始媒体特征向量。计算机设备可以按照以该节点a为起点的节点路径,依次对该第一关联对象网络中第二节点进行遍历,得到与该目标对象具有一阶关联
关系的第一候选关联对象,以及与该目标对象具有二阶关联关系的第二候选关联对象。进一步,从第一候选关联对象中采样出部分候选关联对象,作为与目标对象具有一阶关联关系的第一关联对象,如图3中,第一关联对象包括节点b、节点c分别对应的第一候选关联对象,此处的节点d对应的第一候选关联对象不满足采样条件。从第二候选关联对象中采样出部分候选关联对象,作为与目标对象具有二阶关联关系的第二关联对象,如图3中,第二关联对象包括节点e、节点f、节点g、节点h分别对应的第二候选关联对象,即此处的节点e、节点f、节点g、节点h分别对应的第二候选关联对象均满足采样条件。将第一关联对象网络中第一关联对象对应的候选关联对象的初始媒体特性向量,确定为第一关联对象的初始媒体特性向量,将第一关联对象网络中第二关联对象对应的候选关联对象的初始媒体特性向量,确定为第二关联对象的初始媒体特性向量,从该第一关联对象网络中获取目标对象的初始媒体特性向量。通过对与目标对象具有关联关系的候选关联对象进行采样处理,可以避免候选关联对象的对象数量过多,导致资源浪费的问题,还可以避免候选关联对象分布不平衡,导致目标对象的目标媒体特性向量的准确度较低的问题。
32.可选的,该初始媒体特征向量包括l个媒体标签对应的媒体特征值,上述按照以所述第一节点为起点的节点路径,依次对所述第一关联对象网络中第二节点进行采样处理,得到与所述目标对象具有一阶关联关系的第一关联对象,以及与所述目标对象具有二阶关联关系的第二关联对象,包括:按照以所述第一节点为起点的节点路径,依次对所述第一关联对象网络中的第二节点进行采样,得到与所述目标对象具有一阶关联关系的n个第一候选关联对象,以及与所述目标对象具有二阶关联关系的m个第二候选关联对象;获取所述n个第一候选关联对象中l个媒体标签对应的媒体特征值均为非目标数值的第一候选关联对象的第一对象数量;获取所述m个第二候选关联对象中,l个媒体标签对应的媒体特征值均为非目标数值的第二候选关联对象的第二对象数量;若所述第一对象数量小于第一数量阈值,则将所述n个第一候选关联对象确定为与所述目标对象具有一阶关联关系的第一关联对象;若所述第二对象数量小于第二数量阈值,则将所述m个第二候选关联对象确定为与所述目标对象具有一阶关联关系的第一关联对象。m、n可以相同,也可以不相同,例如,n可以大于或等于m,或者,n可以小于或等于m。
33.该初始媒体特征向量包括l个媒体标签对应的媒体特征值,一个媒体标签用于反映一类多媒体数据或一个多媒体数据的媒体标签,媒体特征值可以为目标数值或非目标数值,具有目标数值的媒体标签用于反映目标对象具有该媒体标签,具有非目标数值的媒体标签用于反映目标对象不具有该媒体标签。例如,该目标数值可以为1,非目标数值可以为0,该媒体标签为体育资讯的媒体标签,若目标对象关于体育资讯的媒体特征值为1,则表明目标对象对体育资讯感兴趣,即目标对象具有体育资讯的媒体标签;若目标对象关于体育资讯的媒体特征值为0,则表明目标对象对体育资讯不感兴趣,即目标对象不具有体育资讯的媒体标签。其中,对象的初始媒体特征向量中l个媒体标签对应的媒体特征值均为非目标数值,可以称这类对象为不具有媒体标签的对象,也可以称这类对象为无标签对象;对象的初始媒体特征向量中l个媒体标签对应的媒体特征值不完全为非目标数值,可以称这类对象为具有媒体标签的对象,也可以称这类对象为有标签对象。
34.为了避免目标对象的第一关联对象和第二关联对象中各种媒体标签不平衡,计算机设备可以按照以该第一节点为起点的节点路径,依次对所述第一关联对象网络中的第二
节点进行采样,得到与所述目标对象具有一阶关联关系的n个第一候选关联对象,以及与所述目标对象具有二阶关联关系的m个第二候选关联对象,也就是说,从第一关联对象网络中获取有限数量个第一关联对象和第二关联对象,这样可以避免第一关联对象或第二关联对象中的对象数量过多,导致资源浪费。进一步,可以获取所述n个第一候选关联对象中l个媒体标签对应的媒体特征值均为非目标数值的第一候选关联对象的第一对象数量,获取所述m个第二候选关联对象中,l个媒体标签对应的媒体特征值均为非目标数值的第二候选关联对象的第二对象数量;即第一对象数量用于反映n个第一候选关联对象中的无标签对象对应的对象数量,第二对象数量用于反映m个第二候选关联对象中的无标签对象对应的对象数量。
35.进一步,若第一对象数量小于第一数量阈值,表明n个第一候选关联对象中无标签对象比较少,且有标签对象比较多,即n个第一候选关联对象中有标签对象占多数,则将该n个第一候选关联对象确定为与所述目标对象具有一阶关联关系的第一关联对象。若所述第二对象数量小于第二数量阈值,表明m个第二候选关联对象中无标签对象比较少,且有标签对象比较多,即m个第二候选关联对象中有标签对象占多数,则将该m个第二候选关联对象确定为与该目标对象具有一阶关联关系的第一关联对象。此处的第一数量阈值可以是根据第一关联对象中的对象数量确定的,第二数量阈值可以是根据第二关联对象中的对象数量确定的。通过对第一候选关联对象和第二候选关联对象进行采样处理,可以避免无标签对象占多数,导致不能准确地挖掘目标对象的潜在媒体标签,提高获取目标对象的目标媒体特征向量的准确度。
36.s102、计算机设备将该目标对象的初始媒体特征向量与该第一关联对象的初始媒体特征向量进行一阶关联处理,得到该目标对象的第一关联媒体特征向量。
37.本技术中,计算机设备可以将该目标对象的初始媒体特征向量与该第一关联对象的初始媒体特征向量进行一阶关联处理,得到该目标对象的第一关联媒体特征向量;此处的一阶关联处理是指根据目标对象的初始媒体特征向量和第一关联对象的初始媒体特征向量挖掘目标对象的潜在媒体特征;即该第一关联媒体特征向量用于反映目标对象的显著媒体特征、潜在媒体特征,以及该目标对象的基本属性信息。
38.可选的,步骤s102可以包括:调用目标媒体识别模型的一阶向量识别层,对至少两个所述第一关联对象的初始媒体特征向量进行平均化处理,得到第一平均媒体特征向量,根据所述第一平均媒体特征向量确定关于至少两个所述第一关联对象的第一媒体关联信息,根据所述第一媒体关联信息和所述目标对象的初始媒体特征向量,确定所述目标对象的第一关联媒体特征向量。
39.计算机设备可以调用目标媒体识别模型的一阶向量识别层,根据目标对象分别与各个第一关联对象之间的亲密度,对至少两个所述第一关联对象的初始媒体特征向量进行加权平均化处理,得到第一平均媒体特征向量。进一步,根据第一平均媒体特征向量确定关于至少两个第一关联对象的第一媒体关联信息;该第一媒体关联信息包括第一联合关联关系、第一媒体关联关系以及每个媒体标签的第四对象数量种的一项或多项,第一联合关联关系用于反映第一关联对象的媒体标签与基本属性信息之间的关联关系,第一媒体关联关系用于反映媒体标签之间的关联关系,每个媒体标签的第四对象数量用于反映具有该媒体标签的第一关联对象对应的对象数量。因此,计算机设备可以通过如下三种方式中的任一
种或多种组合方式确定第一关联媒体特征向量:1)该第一媒体关联信息包括第一联合关联关系,根据第一联合关联关系和目标对象的初始媒体特征向量挖掘目标对象的第一潜在媒体标签,将该目标对象的初始媒体特征向量中的该第一潜在媒体标签对应的媒体特征值调整为目标数值,得到第一关联媒体特征向量。例如,第一联合关联关系反映年龄属于[18,27]、性别为男的基本属性信息与体育资讯对应的媒体标签关联,即年龄在[18,27]之间的男性对象中的大多数对象具有体育资讯对应的媒体标签。如果根据目标对象的初始媒体特征向量确定该目标对象的年龄属于[18,27]、性别为男,则将体育资讯对应的媒体标签确定为目标对象的第一潜在媒体标签,将该目标对象的初始媒体特征向量中第一潜在媒体标签对应的媒体特征值调整为目标特征值,得到目标对象的第一关联媒体特征向量。
[0040]
2)该第一媒体关联信息包括第一媒体关联关系,根据第一媒体关联关系和目标对象的初始媒体特征向量挖掘目标对象的第二潜在媒体标签,将该目标对象的初始媒体特征向量中的该第二潜在媒体标签对应的媒体特征值调整为目标数值,得到第一关联媒体特征向量。例如,第一媒体关联关系反映体育资讯对应的媒体标签与游戏资讯对应的媒体标签相关联,即具有体育资讯对应媒体标签的第一关联对象中的大多数对象也具有游戏资讯对应的媒体标签。如果根据该目标对象的初始媒体特征向量确定该目标对象具有体育资讯对应的媒体标签,则将游戏资讯对应的媒体标签确定为目标对象的第二潜在媒体标签,将该目标对象的初始媒体特征向量中的该第二潜在媒体标签对应的媒体特征值调整为目标数值,得到第一关联媒体特征向量。
[0041]
3)该第一媒体关联信息包括每个媒体标签的第四对象数量,根据第四对象数量和目标对象的初始媒体特征向量挖掘目标对象的第三潜在媒体标签,将该目标对象的初始媒体特征向量中的该第三潜在媒体标签对应的媒体特征值调整为目标数值,得到第一关联媒体特征向量。例如,第一关联对象的总对象数量为12,第一关联对象中具有体育资讯对应的媒体标签的对象数量为10,将体育资讯对应的媒体标签确定为目标对象的第三潜在媒体标签,将该目标对象的初始媒体特征向量中的该第三潜在媒体标签对应的媒体特征值调整为目标数值,得到第一关联媒体特征向量。通过一阶关联处理能够挖掘目标用户的潜在媒体标签,提高获取目标对象的目标媒体特征向量的准确度。
[0042]
s103、计算机设备将该目标对象的初始媒体特征向量与该第二关联对象的初始媒体特征向量、该第一关联对象的初始媒体特征向量进行二阶关联处理,得到该目标对象的第二关联媒体特征向量。
[0043]
本技术中,计算机设备可以将该目标对象的初始媒体特征向量与该第二关联对象的初始媒体特征向量、该第一关联对象的初始媒体特征向量进行二阶关联处理,得到该目标对象的第二关联媒体特征向量,此处的二阶关联处理是指根据目标对象的初始媒体特征向量和、第一关联对象的初始媒体特征向量、第二关联对象的初始媒体特征向量挖掘目标对象的潜在媒体特征;即该第二关联媒体特征向量用于反映目标对象的显著媒体特征、潜在媒体特征,以及该目标对象的基本属性信息。通过二阶关联处理能够挖掘目标用户的潜在媒体标签,提高获取目标对象的目标媒体特征向量的准确度。
[0044]
可选的,计算机设备可以通过如下两种方式中的任一种方式,获取目标对象的第二关联媒体特征向量:
方式一:计算机设备调用目标媒体识别模型的二阶向量识别层,对所述目标对象的初始媒体特征向量以及所述第二关联对象的初始媒体特征向量进行平均化处理,得到第二平均媒体特征向量,根据该第二平均媒体特征向量确定关于该目标对象、该第二关联对象之间的第二媒体关联信息;根据所述第二媒体关联信息和该第一关联对象的初始媒体特征向量确定该目标对象的第二关联媒体特征向量。
[0045]
在方式一中:计算机设备可以调用目标媒体识别模型的二阶向量识别层,根据目标对象与第二关联对象之间的亲密度对所述目标对象的初始媒体特征向量以及所述第二关联对象的初始媒体特征向量进行加权平均化处理,得到第二平均媒体特征向量。进一步,根据该第二平均媒体特征向量确定关于该目标对象、该第二关联对象之间的第二媒体关联信息,该第二媒体关联信息包括第二联合关联关系、第二媒体关联关系以及每个媒体标签的第五对象数量种的一项或多项,第二联合关联关系用于反映第二关联对象、目标对象的媒体标签与基本属性信息之间的关联关系,第二媒体关联关系用于反映媒体标签之间的关联关系,每个媒体标签对应的第五对象数量用于反映具有该媒体标签的第二关联对象和目标对象中对应的对象数量。计算机设备可以根据第二媒体关联信息和该第一关联对象的初始媒体特征向量挖掘第一关联对象的潜在媒体特征,将该第一关联对象的潜在媒体标签作为目标对象的潜在媒体标签,根据该目标对象的潜在媒体标签更新目标对象的初始媒体特征向量,得到该目标对象的第二关联媒体特征向量。
[0046]
方式二:计算机设备调用目标媒体识别模型的二阶向量识别层,对第一关联对象的初始媒体特征向量以及所述第二关联对象的初始媒体特征向量进行平均化处理,得到第四平均媒体特征向量,根据该第四平均媒体特征向量确定关于该第一关联对象、该第二关联对象之间的第三媒体关联信息,根据该第三媒体关联信息和该目标对象的初始媒体特征向量确定该目标对象的第二关联媒体特征向量。
[0047]
在方式二中:计算机设备可以调用目标媒体识别模型的二阶向量识别层,根据目标对象分别与第一关联对象、第二关联对象之间的亲密度对第一关联对象的初始媒体特征向量以及所述第二关联对象的初始媒体特征向量进行加权平均化处理,得到第四平均媒体特征向量。进一步,根据该第四平均媒体特征向量确定关于该第一关联对象、该第二关联对象之间的第三媒体关联信息,该第三媒体关联信息包括第三联合关联关系、第三媒体关联关系以及每个媒体标签对应的第六对象数量种的一项或多项;第三联合关联关系用于反映第二关联对象、第一关联对象分别的媒体标签与基本属性信息之间的关联关系,第三媒体关联关系用于反映媒体标签之间的关联关系,每个媒体标签的第六对象数量用于反映具有该媒体标签的第二关联对象和第一关联对象中对应的对象数量。计算机设备可以根据第三媒体关联信息和该目标对象的初始媒体特征向量挖掘目标对象的潜在媒体标签,根据该目标对象的潜在媒体标签更新目标对象的初始媒体特征向量,得到目标对象的第二关联媒体特征向量。
[0048]
其中,二阶关联处理挖掘目标对象的潜在媒体标签的实现过程,可以参考一阶关联处理挖掘目标对象的潜在媒体标签的实现过程,重复之处不再赘述。
[0049]
s104、计算机设备根据该第一关联媒体特征向量与该第二关联媒体特征向量,生成该目标对象的目标媒体特征向量,根据该目标媒体特征向量为该目标对象推送多媒体数据。
[0050]
本技术中,第一关联媒体特征向量用于反映目标对象的基本属性信息,目标对象的显著媒体特征和第一潜在媒体特征,第二关联媒体特征向量用于反映目标对象的基本属性信息,目标对象的显著媒体特征和第二潜在媒体特征,或者,第二关联媒体特征向量用于反映目标对象的基本属性信息,目标对象的显著媒体特征、第二潜在媒体特征和第三潜在媒体特征。进一步,计算机设备可以对第一关联媒体特征向量和第二关联媒体特征向量进行拼接等处理,得到该目标对象的目标媒体特征向量,该目标媒体特征向量能够反映该目标对象丰富的媒体特征,因此,可以根据该目标媒体特征向量为目标用户推送多媒体数据,提高推送多媒体数据的准确度。
[0051]
可选的,步骤s104可以包括:调用目标媒体识别模型的目标向量识别层,对至少两个所述第二关联对象分别对应的第二关联媒体特征向量进行平均化处理,得到第三平均媒体特征向量;对所述第一关联媒体特征向量和所述第三平均媒体特征向量进行拼接,得到所述目标对象的目标媒体特征向量。
[0052]
计算机设备可以调用目标媒体识别模型的目标向量识别层,对至少两个该第二关联对象分别对应的第二关联媒体特征向量进行平均化处理,得到第三平均媒体特征向量,对该第一关联媒体特征向量和所述第三平均媒体特征向量进行拼接处理,得到拼接后的媒体特征向量。此处的拼接处理可以是指将该第一关联媒体特征向量中的特征值添加至该第三平均媒体特征向量中,得到拼接处理后的媒体特征向量,例如,第一关联媒体特征向量和第三平均媒体特征向量均为4x3的向量,那么,拼接处理后的媒体特征向量为4x6的向量。
[0053]
进一步,对该拼接后的媒体特征向量进行归一化处理,得到所述目标对象的目标媒体特征向量,该目标对象的目标媒体特征向量能够反映目标对象丰富的媒体特征,提高获取目标对象的媒体特征向量的准确度。
[0054]
本技术中,计算机设备可以分别获取目标对象、第一关联对象、第二关联对象的初始媒体特征向量,该初始媒体特征向量用于反映对象的基本属性信息和显著媒体标签。进一步,可以将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量进行一阶关联处理,得到第一关联媒体特征向量,并将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量、第二关联对象的初始媒体特征向量进行二阶关联处理,得到第二关联媒体特征向量。通过上述一阶关联处理和二阶关联处理能够挖掘出目标对象的潜在媒体标签,也就是说,第一关联媒体特征向量和第二关联媒体特征向量不仅能够反映目标对象的基础属性信息和显著媒体标签,还能够反映目标对象的潜在媒体标签。通过根据该第一关联媒体特征向量与该第二关联媒体特征向量,生成该目标对象的目标媒体特征向量,该目标媒体特征向量能够反映该目标对象丰富的媒体标签,因此,通过根据该目标媒体特征向量为目标用户推送多媒体数据,能够提高多媒体数据的推送准确度,实现多媒体数据的精准推送。
[0055]
进一步地,请参见图4,是本技术实施例提供的一种多媒体数据处理方法的流程示意图。如图4所示,该方法可由图1中的终端来执行,也可以由图1中的服务器来执行,还可以由图1中的终端和服务器共同执行,本技术中用于执行该方法的设备可以统称为计算机设备。其中,该多媒体数据处理方法可以包括如下步骤s201~s208:s201、计算机设备分别获取目标样本对象、第一关联样本对象、第二关联样本对象关于多媒体数据的标注媒体特征向量;所述目标样本对象与所述第一关联样本对象之间具
有一阶关联关系,所述目标样本对象与所述第二关联样本对象具有二阶关联关系。
[0056]
本技术中,计算机设备可以分别获取目标样本对象、第一关联样本对象、第二关联样本对象关于多媒体数据的标注媒体特征向量,目标样本对象、第一关联样本对象、第二关联样本对象关于多媒体数据的标注媒体特征向量可以是多次人工标注并校验得到的,标注媒体特征向量用于反映对象的真实媒体标签。
[0057]
可选的,上述步骤s201包括:获取第二关联对象网络,该第二关联对象网络包括用于反映候选样本对象的标注媒体特征向量的节点,以及相关联的候选样本对象对应的节点相连接所构成的边,该标注媒体特征向量包括l个媒体标签对应的媒体特征值;按照该第二关联对象网络中的节点路径,依次对该第二关联对象网络中节点进行采样处理,得到该l个媒体标签分别对应的k个目标候选样本对象;一个媒体标签对应的目标候选样本对象为该第二关联对象网络中,该个媒体标签对应的媒体特征值为目标数值的候选样本对象;根据该l个媒体标签分别对应的k个目标候选样本对象以及该第二关联对象网络,确定出目标样本对象、第一关联样本对象、第二关联样本对象;从该第二关联对象网络中,分别获取该目标样本对象、该第一关联样本对象、该第二关联样本对象分别关于多媒体数据的标注媒体特征向量。
[0058]
例如,如图5所示,计算机设备可以获取第二关联对象网络,通过平衡采样方式,从第二关联对象网络中获取目标样本对象、第一关联样本对象和第二关联样本对象;该平衡采样方式是指按照该第二关联对象网络中的节点路径,依次对该第二关联对象网络中节点进行采样处理,得到该l个媒体标签分别对应的k个目标候选样本对象;也就是说,为每个媒体标签采样k个具有该媒体标签的目标候选样本对象,使每个媒体标签对应的样本对象数量达到平衡。可以从该l个媒体标签分别对应的k个目标候选样本对象选择部分目标候选样本对象作为目标样本对象,部分作为验证样本对象,然后,从第二关联对象网络中确定与目标样本对象具有一阶关联关系的第一关联样本对象,以及与目标样本对象具有二阶关联关系的第二关联样本对象。进一步,从该第二关联对象网络中,分别获取该目标样本对象、该第一关联样本对象、该第二关联样本对象分别关于多媒体数据的标注媒体特征向量。通过对第一关联对象网络进行平衡采样处理,使每个媒体标签对应的对象数量达到平衡,提高目标媒体识别模型的泛化能力,即提高目标媒体识别模型的归纳学习能力。
[0059]
例如,第二关联对象网络中的任一节点u对应的标注媒体特征向量包括用于反映基本属性信息的基本特征值x
0u
,以及l个媒体标签对应的媒体特征值,如第i个媒体标签的媒体特征值可表示为:,i小于或等于l,这l个媒体标签之间不互斥。第二关联对象网络中的有些样本对象具有一个或多个媒体标签,而有些用户不具有媒体标签,实践中发现,存在某些媒体标签的对象数量过多,如果直接采用这些样本对象的标注媒体特征向量对候选媒体识别模型进行训练,会使目标媒体识别模型擅长识别这些媒体标签,对其他媒体标签的识别能力较差,导致目标媒体识别模型的泛化能力较差。因此,计算机设备可以利用平衡采样方式,从由第二关联对象网络中的候选样本对象所构成的集合v中,分别为每个媒体标签yi随机采样k个包含该媒体标签的目标候选样本对象,最终取并集得到由目标候选样本对象所构成的结点集合v
′
,该平衡采样处理可以采用如下公式(1)表示:
在获取到结点集合v
′
后,可以从按照比例划分出训练样本对象集和验证样本对象集,训练样本对象集中的候选样本对象用于对候选媒体识别模型进行训练,训练样本对象集中的候选样本对象可以是指上述目标样本对象;验证样本对象集中的候选样本对象验证候选媒体识别模型的训练效果,验证样本对象集中的候选样本对象可以是指下文的验证样本对象。
[0060]
可选的,所述根据所述l个媒体标签分别对应的k个目标候选样本对象以及所述第二关联对象网络,确定出目标样本对象、第一关联样本对象、第二关联样本对象,包括:从所述第二关联对象网络中,确定与目标候选样本对象pi具有一阶关联关系的第一关联候选样本对象;所述目标候选样本对象pi属于所述l个媒体标签分别对应的k个目标候选样本对象,i为正整数;从所述第二关联对象网络中,确定与所述目标候选样本对象pi具有二阶关联关系的第二关联候选样本对象;将所述目标候选样本对象pi作为目标样本对象,从所述第一关联候选样本对象采样出q个第一关联候选样本对象,作为所述第一关联样本对象;从所述第二关联候选样本对象采样出d个第二关联候选样本对象,作为所述第二关联样本对象。
[0061]
计算机设备可以从该第二关联对象网络中,确定与目标候选样本对象pi具有一阶关联关系的第一关联候选样本对象,并从所述第二关联对象网络中,确定与该目标候选样本对象pi具有二阶关联关系的第二关联候选样本对象;可以从第一关联候选样本对象中采样出q个第一关联候选样本对象,作为第一关联样本对象;从第二关联候选样本对象中采样出d个第二关联候选样本对象,作为第二关联样本对象;q可以大于或等于d,q也可以小于d,q、d可以是计算机设备的性能(如内存大小、处理效率)确定的,并将该目标候选样本对象pi作为目标样本对象。通过采样处理,使目标候选样本对象pi的第一关联候选样本对象和第二关联候选样本对象分别对应的对象数量均不会过多,避免出现超级样本对象,导致候选媒体识别模型的训练过程中内存不足的问题。
[0062]
其中,第一关联样本对象中具有媒体标签的对象数量大于完全没有媒体标签的对象数量,第二关联样本对象中具有媒体标签的对象数量大于不具有媒体标签的对象数量;样本对象具有媒体标签是指样本对象的标注媒体特征向量的媒体特征值部分为目标数值,或者,样本对象具有媒体标签是指样本对象的标注媒体特征向量的媒体特征值均为目标数值,样本对象不具有媒体标签是指样本对象的标注媒体特征向量的媒体特征值全为非目标数值,避免对候选媒体识别模型的训练过程中,完全被无标签的关联样本对象主导,从而失去借助其他关联对象的标注媒体特征向量挖掘目标样本对象的潜在媒体标签的能力。
[0063]
也就是说,训练和验证过程中,为了加速对候选媒体识别模型的训练效率,以及进行归纳式的学习方式,并没有将目标样本对象所有的第一关联候选样本对象和第二关联候选样本对象输入到候选媒体识别模型中,而是对第一关联候选样本对象和第二候选样本对象也提前进行了采样。采样过程中,设置了每个目标样本对象的最大的第一关联样本对象、第二关联样本对象的数目分别为q、d,从而避免超级节点(即目标样本对象的关联样本对象过多)导致训练过程中内存不足的问题。同时设定了每个样本对象的第一关联样本对象、第二关联样本对象中,有标签的关联样本对象的对象数量不能少于完全没有标签的关联样本对象的对象数量,避免候选媒体识别模型的训练过程中完全被无标签关联对象主导,从而失去了借助关联样本对象的标注媒体特征向量挖掘潜在目标样本对象的潜在媒体标签的
能力。
[0064]
s202、计算机设备调用候选媒体识别模型,分别对该目标样本对象、第一关联样本对象、第二关联样本对象分别的标注媒体特征向量进行掩码处理,得到该目标样本对象、第一关联样本对象、第二关联样本对象分别对应的掩码处理后的标注媒体特征向量。
[0065]
本技术中,计算机设备可以分别对所述目标样本对象的标注媒体特征向量与所述第二关联样本对象的标注媒体特征向量、所述第一关联样本对象的标注媒体特征向量进行掩码处理,得到所述目标样本对象对应的掩码处理后的标注媒体特征向量、所述第二关联样本对象对应的掩码处理后的标注媒体特征向量以及所述第一关联样本对象对应的掩码处理后的标注媒体特征向量。此处的掩码处理可以是指对标注媒体特征向量中的媒体特征值进行调整,该掩码处理可以称为降噪自编码处理中的编码过程,降噪自编码处理包括编码过程和解码过程。降噪自编码处理的编码过程是指:由候选媒体识别模型中的编码器在分别对所述目标样本对象的标注媒体特征向量与所述第二关联样本对象的标注媒体特征向量、所述第一关联样本对象的标注媒体特征向量中引入噪声。降噪自编码处理的编码过程是指:由候选媒体识别模型中的解码器重构出各个对象对应的真实媒体特征向量(及标注媒体特征向量)。通过标注媒体特征向量进行掩码处理,有利于提高目标样本对象的预测媒体特征向量的泛化能力,即提高目标媒体识别模型的泛化能力,此处的泛化能力可以是指通过少量的真实媒体标签挖掘对象更多的真实媒体标签的能力。
[0066]
可选的,步骤s202可以包括:计算机设备调用候选媒体识别模型,调整所述目标样本对象的标注媒体特征向量中的媒体特征值,得到所述目标样本对象对应的掩码处理后的标注媒体特征向量;调整所述第一关联样本对象的标注媒体特征向量中的媒体特征值,得到所述第一关联样本对象对应的掩码处理后的标注媒体特征向量;调整所述第二关联样本对象的标注媒体特征向量中的媒体特征值,得到所述第二关联样本对象对应的掩码处理后的标注媒体特征向量。
[0067]
计算机设备可以调用候选媒体识别模型的编码器,按照目标概率随机将目标样本对象的标注媒体特征向量中的媒体标签对应的目标数值调整为非目标数值,得到目标样本对象对应的掩码处理后的标注媒体特征向量,即按照目标概率随机丢弃该目标样本对象的真实媒体标签,相当于,按照目标概率随机在目标样本对象的标注媒体特征向量中引入噪声。同理,计算机设备可以调用候选媒体识别模型的编码器,按照目标概率随机将第一关联样本对象的标注媒体特征向量中的媒体标签对应的目标数值调整为非目标数值,得到第一关联样本对象对应的掩码处理后的标注媒体特征向量,即按照第一关联概率随机丢弃该第一关联样本对象的真实媒体标签,相当于,按照第一关联概率随机在第一关联样本对象的标注媒体特征向量中引入噪声。计算机设备可以调用候选媒体识别模型的编码器,按照目标概率随机将第二关联样本对象的标注媒体特征向量中的媒体标签对应的目标数值调整为非目标数值,得到第二关联样本对象对应的掩码处理后的标注媒体特征向量,即按照第一关联概率随机丢弃该第二关联样本对象的真实媒体标签,相当于,按照第一关联概率随机在第二关联样本对象的标注媒体特征向量中引入噪声。通过在标注媒体特征向量中引入噪声,有利于提高目标样本对象的预测媒体特征向量的泛化能力,即提高目标媒体识别模型的泛化能力。
[0068]
例如,该候选媒体识别模型可以为深度神经网络模型、图神经网络模型、逻辑回归
网络模型或线性回归网络模型等等,如图6所示,以该候选媒体识别模型为图神经网络模型为例进行说明。如图6所示,该图神经网络模型的输入为第二关联对象网络,该第二关联对象网络包括目标样本对象对应的节点,以及与目标样本对象具有一阶关联关系的第一关联样本对象对应的节点,以及与目标样本对象具有二阶关联关系的第二关联样本对象对应的节点。如图6所示,与目标样本对象具有一阶关联关系的第一关联样本对象包括对象1、对象2以及对象3,与目标样本对象具有二阶关联关系的第二关联样本对象包括对象4、对象5、对象6、对象7、对象8以及对象9。其中,对象4、对象5分别与对象1之间具有一阶关联关系,对象6、对象7分别与对象2之间具有一阶关联关系,对象8、对象9分别与对象3之间具有一阶关联关系。第二关联对象网络中的节点用于反映样本对象的标注媒体特征向量,该标注媒体特征向量包括用于反映基本属性信息的基础特征值,以及用反映真实媒体标签的媒体特征值,图6中采用三角形标识样本对象的基本属性信息,采用无填充矩形标识样本对象的真实媒体标签。图神经网络模型的编码器首先会对任一输入的节点u本身的真实标签yu进行动态掩码,所谓动态掩码就是在每一次训练时输入到图神经网络模型的批量训练数据时,重新对每个节点u的真实标签yu按照一定随机概率α丢弃得到,使得其中部分标签i有最终,图神经网络模型的输入为(即处理后的标注媒体特征向量)。
[0069]
s203、计算机设备将所述目标样本对象对应的掩码处理后的标注媒体特征向量与所述第二关联样本对象对应的掩码处理后的标注媒体特征向量、所述第一关联样本对象对应的掩码处理后的标注媒体特征向量进行关联预测,得到所述目标样本对象的预测媒体特征向量。
[0070]
本技术中,计算机设备可以将目标样本对象对应的掩码处理后的标注媒体特征向量与第一关联样本对象对应的掩码处理后的标注媒体特征向量进行一阶关联预测,得到第一关联预测媒体特征向量;将目标样本对象对应的掩码处理后的标注媒体特征向量与第一关联样本对象对应的掩码处理后的标注媒体特征向量、第二关联样本对象对应的掩码处理后的标注媒体特征向量进行二阶关联预测,得到第二关联预测媒体特征向量,根据第一关联预测媒体特征向量和第二关联预测媒体特征向量确定该目标样本对象的预测媒体特征向量。
[0071]
可理解的是,此处的一阶关联预测与上述一阶关联处理具有相似的含义,即一阶关联预测是指根据目标样本对象对应的掩码处理后的标注媒体特征向量和第一关联样本对象对应的掩码处理后的标注媒体特征向量挖掘目标样本对象的潜在媒体特征。同理,此处的二阶关联预测与上述二阶关联处理具有相似的含义,即二阶关联预测是指根据目标样本对象对应的掩码处理后的标注媒体特征向量、第一关联样本对象对应的掩码处理后的标注媒体特征向量以及第二关联样本对象对应的掩码处理后的标注媒体特征向量挖掘目标样本对象的潜在媒体特征。
[0072]
例如,定义每个节点u采样后的邻居节点集合(具有一阶关联关系的样本对象集)为n(u),采样深度(即迭代次数)depth=2,每批训练数据的前向传播流程如下表1所示:表1
上述表1中,h
dn(u)
表示对节点u对应的邻居节点集合中的样本对象对应的掩码处理后的标注媒体特征向量进行平均化处理得到的平均媒体特征向量,h
du
表示节点u对应的关联媒体特征向量,wd权重值,该权重值可以是根据经验得到的。以图6为例,对上述表1进行说明,目标样本对象对应的邻居节点集合为n0={对象1、对象2、对象3},对象1对应的邻居节点集合为n1={对象4、对象5、对象6},对象2对应的邻居节点集合为n2={对象6、对象7、目标对象},对象3对应的邻居节点集合为n3={对象8、对象9、目标对象}。目标样本对象、对象1、对象2、对象3、对象4、对象5、对象6、对象7、对象8以及对象9分别对应的掩码处理后的标注媒体特征向量为h
0a
,h
0b
,h
0c
,h
0d
,h
0e
,h
0f
,h
0g
,h
0k
,h
0m
,h
0n
。如图6所示,这些处理后的标注媒体特征向量用于反映第二关联对象网络中的样本对象的基础属性信息和掩码后的媒体标签,图6中采用无填充矩形标识样本对象的掩码后的媒体标签。针对目标样本对象,当d=1时,针对目标样本对象,计算机设备可以执行表1中的步骤(3),即采用如下公式(2),根据n0计算目标样本对象对应的平均媒体特征向量h
1n(a)
,并执行表1中的步骤(4),即采用如下公式3,根据目标样本对象对应的平均媒体特征向量和处理后的标注媒体特征向量计算目标样本对象对应的第一关联媒体特征向量h
1a
::同理,针对对象1,计算机设备可以执行表1中的步骤(3),即采用如下公式(4),根据n1计算对象1对应的平均媒体特征向量h
1n(b)
,并执行表1中的步骤(4),即采用如下公式(5),根据对象1对应的平均媒体特征向量和处理后的标注媒体特征向量计算对象1对应的第一关联媒体特征向量量h
1b
:同样,针对对象2,计算机设备根据n2以及对象2对应的掩码处理后的标注媒体特征向量执行表1中的步骤(3)和步骤(4)得到,对象2对应的第一关媒体特征向量h
1c
。针对对象3,计算机设备根据n3以及对象3对应的掩码处理后的标注媒体特征向量执行表1中的步骤(3)和步骤(4)得到,对象3对应的第一关媒体特征向量h
1d
。进一步,计算机设备可以将该对象1、对象2、以及对象3分别对应的第一关联媒体特征向量,确定为目标样本对象的第二
关联媒体特征向量。这时,d增加1,即d=2,执行表1中的步骤(3),即对各个第二关联媒体特征向量进行平均化处理,得平均媒体特征向量;并执行表1中的步骤(4),根据该平均媒体特征向量和目标样本对象对应的第一关联媒体特征向量h
1a
,计算得到目标样本对象对应的第三关联媒体特征向量;执行表1中的步骤(6),对第三关联媒体特征向量进行归一化处理,得到图神经网络的输出,即目标样本对象的预测媒体特征向量,图6中采样有填充的圆角矩形标识目标样本对象的预测媒体特征向量。
[0073]
s204、计算机设备根据所述目标样本对象的标注媒体特性向量和所述预测媒体特征向量,对所述候选媒体识别模型进行调整,得到所述目标媒体识别模型。
[0074]
本技术中,计算机设备可以获取预测媒体特征向量与目标样本对象的标注媒体特征向量之间的向量距离,根据该向量距离确定该候选媒体识别模型的媒体特征预测误差,该媒体特征预测误差用于反映候选媒体识别模型的媒体特征向量的预测准确度。也就是说,该向量距离越大,表明预测媒体特征向量与目标样本对象的标注媒体特征向量之间的差异较大,即该媒体特征预测误差也越大,也即候选媒体识别模型的媒体特征向量的预测准确度较低;反之,该向量距离越小,表明预测媒体特征向量与目标样本对象的标注媒体特征向量之间的差异较小,即该媒体特征预测误差也越小,也即候选媒体识别模型的媒体特征向量的预测准确度较高。因此,计算机设备可以根据该媒体特征预测误差对该候选媒体识别模型进行调整,得到该目标媒体识别模型,可以提高目标媒体识别模型的准确度。
[0075]
可选的,计算机设备可以通过如下两种方式中的任一种方式,根据所述目标样本对象的标注媒体特性向量和所述预测媒体特征向量,对所述候选媒体识别模型进行调整,得到所述目标媒体识别模型:方式一:计算机设备根据所述目标样本对象的标注媒体特性向量和所述预测媒体特征向量,对所述候选媒体识别模型进行调整,得到调整后的候选媒体识别模型,统计对该候选媒体识别模型的调整次数,若该调整次数大于次数阈值,则将该调整后的候选媒体识别模型确定为目标媒体识别模型。
[0076]
在方式一中,计算机设备可以获取目标样本对象的标注媒体特性向量和所述预测媒体特征向量之间的向量距离,根据该向量距离确定该候选媒体识别模型的媒体特征预测误差,根据该媒体特征预测误差对该候选媒体识别模型进行调整,得到调整后的候选媒体识别模型。此处根据该媒体特征预测误差对候选媒体识别模型进行调整可以是指对候选识别模型的模型参数进行调整,例如,根据该媒体特征预测误差确定调整幅度,根据该调整幅度对候选识别模型的模型参数进行调整,调整幅度可以理解为调整步长,该媒体特征预测误差与调整幅度之间具有正相关关系,即该媒体特征预测误差越大,调整幅度越大;反之,该媒体特征预测误差越小,调整幅度越小。进一步,统计对该候选媒体识别模型的调整次数,若该调整次数大于次数阈值,则将该调整后的候选媒体识别模型确定为目标媒体识别模型。若该调整次数小于或等于次数阈值,则执行方式二中根据所述l个媒体标签分别对应的k个目标候选样本对象以及所述第二关联对象网络,确定出验证样本对象集的步骤;通过限制对候选媒体识别模型的调整次数,避免对候选媒体识别模型的调整次数过多,造成资源浪费。
[0077]
方式二:根据所述目标样本对象的标注媒体特性向量和所述预测媒体特征向量,对所述候选媒体识别模型进行调整,得到调整后的候选媒体识别模型,根据所述l个媒体标
签分别对应的k个目标候选样本对象以及所述第二关联对象网络,确定出验证样本对象集;基于所述验证样本对象集确定所述调整后的候选媒体识别模型的收敛状态;根据所述收敛状态以及所述调整后的候选媒体识别模型,确定所述目标媒体识别模型。
[0078]
在方式二中,计算机设备可以获取目标样本对象的标注媒体特性向量和所述预测媒体特征向量之间的向量距离,根据该向量距离确定该候选媒体识别模型的媒体特征预测误差,对该候选媒体识别模型进行调整,得到调整后的候选媒体识别模型。然后,从l个媒体标签分别对应的k个目标候选样本对象中随机选择目标候选样本对象,作为验证样本对象,该验证样本对象与目标样本对象不同,从第二关联对象网络中确定与验证样本对象具有一阶关联关系的第三关联样本对象,以及与验证样本对象具有二阶关联关系的第四关联样本对象,将验证样本对象、第三关联样本对象、第四关联样本对象确定为验证样本对象集。接着,可以基于该验证样本对象集确定所述调整后的候选媒体识别模型的收敛状态,此处的收敛状态用于反映该调整后的候选媒体识别模型的媒体特征预测能力是否达到最佳。因此,计算机设备可以根据所述收敛状态以及所述调整后的候选媒体识别模型,确定所述目标媒体识别模型。通过根据验证对象集基于该验证样本对象集确定所述调整后的候选媒体识别模型的收敛状态,即实现根据验证样本对象集对调整后的候选媒体识别模型的媒体特征识别准确度进行验证,有利于提高目标媒体识别模型的媒体特征识别准确度,提高目标媒体识别模型的学习归纳能力。
[0079]
可选的,所述验证样本对象集包括验证样本对象,第三关联样本对象、第四关联样本对象;所述验证样本对象与所述目标样本对象不同,所述验证样本对象与所述第三关联样本对象之间具有一阶关联关系,所述验证样本对象与所述第四关联样本对象之间具有二阶关联关系;上述基于所述验证样本对象集确定所述调整后的候选媒体识别模型的收敛状态,包括:调用所述调整后的候选媒体识别模型,对所述验证样本对象、所述第三关联样本对象以及第四关联样本对象分别的标注媒体特征向量进行掩码处理,得到所述验证样本对象、所述第三关联样本对象以及第四关联样本对象分别对应处理后的标注媒体特征向量。调用所述调整后的候选媒体识别模型,对所述验证样本对象对应的掩码处理后的标注媒体特征向量、所述第三关联样本对象对应的掩码处理后的标注媒体特征向量、所述第四关联样本对象对应的掩码处理后的标注媒体特征向量进行关联预测,得到所述验证样本对象的预测媒体特征向量。根据所述验证样本对象的预测媒体特征向量与所述验证样本对象的标注媒体特征向量,确定所述调整后的候选媒体识别模型的预测识别误差;根据所述预测识别误差,确定所述调整后的候选媒体识别模型的收敛状态。
[0080]
计算机设备可以调用所述调整后的候选媒体识别模型的编码器,调用所述调整后的候选媒体识别模型,对所述验证样本对象的标注媒体特征向量进行掩码处理,得到验证样本对象对应的掩码处理后的标注媒体特征向量;对第三关联样本对象的标注媒体特征向量进行掩码处理,得到第三关联样本对象对应的掩码处理后的标注媒体特征向量;对第四关联样本对象的标注媒体特征向量进行掩码处理,得到第四关联样本对象对应的掩码处理后的标注媒体特征向量。进一步,调用所述调整后的候选媒体识别模型的解码器,对所述验证样本对象对应的掩码处理后的标注媒体特征向量、所述第三关联样本对象对应的掩码处理后的标注媒体特征向量、所述第四关联样本对象对应的掩码处理后的标注媒体特征向量进行关联预测,得到所述验证样本对象的预测媒体特征向量。根据所述验证样本对象的预
测媒体特征向量与所述验证样本对象的标注媒体特征向量,确定所述调整后的候选媒体识别模型的预测识别误差;若所述预测识别误差小于误差阈值,则确定所述调整后的候选媒体识别模型处于收敛状态;若所述预测识别误差大于或等于误差阈值,则确定所述调整后的候选媒体识别模型未处于收敛状态。通过根据验证样本对象集对调整后的候选媒体识别模型的媒体特征识别准确度进行验证,有利于提高目标媒体识别模型的媒体特征识别准确度,提高目标媒体识别模型的学习归纳能力。
[0081]
可选的,上述验证样本对象的预测媒体特征向量与所述验证样本对象的标注媒体特征向量中均包括l个媒体标签对应的媒体特征值;上述根据所述验证样本对象的预测媒体特征向量与所述验证样本对象的标注媒体特征向量,确定所述调整后的候选媒体识别模型的预测识别误差,包括:将目标概率与所述验证样本对象的标注媒体特征向量中第j个媒体标签对应的媒体特征值,输入至交叉熵损失函数中,得到所述第j个媒体标签对应的候选识别误差;所述目标概率为所述验证样本对象的预测媒体特征向量中第j个媒体标签对应的媒体特征值为目标数值的概率;j为小于等于l的正整数;对所述第j个媒体标签对应的候选识别误差进行平衡处理,得到所述第j个媒体标签对应的平衡处理后的候选识别误差;对所述l个媒体标签分别对应的所述处理后的候选识别误差进行累计,得到所述调整后的候选媒体识别模型的预测识别误差。通过计算每个媒体标签对应预测识别误差,有利于提高目标媒体识别模型的准确度,并通过对每个媒体标签对应预测识别误差进行平衡处理,避免媒体标签分布不平衡,导致目标媒体识别模型的准确度比较低。
[0082]
可选的,所述对所述第j个媒体标签对应的候选识别误差进行平衡处理,得到所述第j个媒体标签对应的平衡处理后的候选识别误差,包括:获取所述验证样本集中所述第j个媒体标签对应的媒体特征值为所述目标数值的样本对象的第三对象数量;根据所述第三对象数量生成平衡参数,采用所述平衡参数对所述第j个媒体标签对应候选识别误差进行平衡处理,得到所述第j个媒体标签对应的平衡处理后的候选识别误差。通过根据媒体特征值为目标特征值的对象数量,确定平衡参数,避免具有媒体标签的对象数量过多,导致具有媒体标签的对象与不具有媒体标签的对象分布不平衡,导致目标媒体识别模型的准确度比较低。
[0083]
例如,如图3所示,结点u(即目标样本对象)的预测媒体特征向量为zu=h
2u
。以上步骤完成了降噪自编码器中的编码器部分,整个图神经网络模型作为编码器,而解码器部分,本方案采用了简单的分类器作为降噪自编码器的解码器结构,并用于最终的损失函数计算。解码器的输出可以采用如下公式(6)表示:在公式(6)中,的每一维代表对应原始标签可能的目标概率值,wg为图神经网络模型的学习权重,是通过样本数据训练得到的;一般情况下,可以使用交叉熵损失函数作为最终的网络损失,即可以采用如下公式(7)表示:在公式(7)中,loss(pu,yu)表示候选媒体识别模型的预测识别误差,p
iu
表示目标样本对象的预测媒体特征向量中第i个媒体标签的媒体特征值为目标数值的概率,y
iu
表示目标样本对象的标注媒体特征向量中第i个媒体标签的媒体特征值。然而实际场景中,尽管
在样本阶段已经做了媒体标签平衡的操作,最终得到的媒体标签仍然可能是不平衡的,为了缓解这种不平衡带来的各个媒体标签训练不均衡问题,本方案引入了类平衡损失函数,如下公式(8)所示:在公式(8)中,为平衡参数,ni为训练样本对象集中yi=1的样本数为超参数,用于控制每个样本中计算当前标签对应损失的权重,b越接近于1,权重就越接近于样本数量的倒数,b越接近于0,相当于不使用权重。在获取候选媒体识别模型的平衡损失值(预测识别误差)后,可以根据该预测识别误差对候选媒体识别模型进行调整,得到调整后的媒体识别模型。同理,计算机设备可以根据验证对象集按照上述方法计算调整后的媒体识别模型的预测识别误差,重复之处不再赘述。
[0084]
可选的,上述根据所述收敛状态以及所述调整后的候选媒体识别模型,确定所述目标媒体识别模型,包括:若所述调整后的候选媒体识别模型未处于收敛状态,则根据所述目标样本对象的标注媒体特性向量和更新的预测媒体特征向量,对所述调整后的候选媒体识别模型进行调整,得到所述目标媒体识别模型,所述更新的预测媒体特征向量是调用所述调整后的候选媒体识别模型对所述目标样本对象对应的掩码处理后的标注媒体特征向量与所述第二关联样本对象对应的掩码处理后的标注媒体特征向量、所述第一关联样本对象对应的掩码处理后的标注媒体特征向量进行关联预测得到的;若所述调整后的候选媒体识别模型处于收敛状态,则将所述调整后的候选媒体识别模型确定为所述目标媒体识别模型。
[0085]
若所述调整后的候选媒体识别模型的收敛状态未处于收敛状态,表明调整后的候选媒体识别模型的预测识别误差未达到最低,即表明调整后的候选媒体识别模型的预测识别准确度未达到最佳,因此,计算机设备可以根据所述目标样本对象的标注媒体特性向量和更新的预测媒体特征向量,对所述调整后的候选媒体识别模型继续调整,直到调整后的候选媒体识别模型处于收敛状态,得到所述目标媒体识别模型。若所述调整后的候选媒体识别模型的收敛状态处于收敛状态,明调整后的候选媒体识别模型的预测识别误差达到最低,即表明调整后的候选媒体识别模型的预测识别准确度达到最佳,因此,计算机设备可以将所述调整后的候选媒体识别模型确定为所述目标媒体识别模型。
[0086]
s205、计算机设备分别获取目标对象、第一关联对象、第二关联对象关于多媒体数据的初始媒体特征向量;该目标对象与该第一关联对象之间具有一阶关联关系,该目标对象与该第二关联对象之间具有二阶关联关系。
[0087]
s206、计算机设备调用目标媒体识别模型,将该目标对象的初始媒体特征向量与该第一关联对象的初始媒体特征向量进行一阶关联处理,得到该目标对象的第一关联媒体特征向量。
[0088]
s207、计算机设备调用目标媒体识别模型,将该目标对象的初始媒体特征向量与该第二关联对象的初始媒体特征向量、该第一关联对象的初始媒体特征向量进行二阶关联处理,得到该目标对象的第二关联媒体特征向量。
[0089]
s208、计算机设备根据该第一关联媒体特征向量与该第二关联媒体特征向量,生
成该目标对象的目标媒体特征向量,根据该目标媒体特征向量为该目标对象推送多媒体数据。
[0090]
本技术中,计算机设备可以分别获取目标对象、第一关联对象、第二关联对象的初始媒体特征向量,该初始媒体特征向量用于反映对象的基本属性信息和显著媒体标签。进一步,可以将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量进行一阶关联处理,得到第一关联媒体特征向量,并将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量、第二关联对象的初始媒体特征向量进行二阶关联处理,得到第二关联媒体特征向量。通过上述一阶关联处理和二阶关联处理能够挖掘出目标对象的潜在媒体标签,也就是说,第一关联媒体特征向量和第二关联媒体特征向量不仅能够反映目标对象的基础属性信息和显著媒体标签,还能够反映目标对象的潜在媒体标签。通过根据该第一关联媒体特征向量与该第二关联媒体特征向量,生成该目标对象的目标媒体特征向量,该目标媒体特征向量能够反映该目标对象丰富的媒体标签,因此,通过根据该目标媒体特征向量为目标用户推送多媒体数据,能够提高多媒体数据的推送准确度,实现多媒体数据的精准推送。
[0091]
请参见图7,是本技术实施例提供的一种多媒体数据处理装置的结构示意图。上述多媒体数据处理装置可以是运行于网络设备中的一个计算机程序(包括程序代码),例如该多媒体数据处理装置为一个应用软件;该装置可以用于执行本技术实施例提供的方法中的相应步骤。如图7所示,该多媒体数据处理装置可以包括:获取模块711、处理模块712、生成模块713、预测模块714、调整模块715。
[0092]
获取模块,用于分别获取目标对象、第一关联对象、第二关联对象关于多媒体数据的初始媒体特征向量;所述目标对象与所述第一关联对象之间的具有一阶关联关系,所述目标对象与所述第二关联对象之间具有二阶关联关系;处理模块,用于将所述目标对象的初始媒体特征向量与所述第一关联对象的初始媒体特征向量进行一阶关联处理,得到所述目标对象的第一关联媒体特征向量;将所述目标对象的初始媒体特征向量与所述第二关联对象的初始媒体特征向量、所述第一关联对象的初始媒体特征向量进行二阶关联处理,得到所述目标对象的第二关联媒体特征向量;生成模块,用于根据所述第一关联媒体特征向量与所述第二关联媒体特征向量,生成所述目标对象的目标媒体特征向量,根据所述目标媒体特征向量为所述目标对象推送多媒体数据。
[0093]
可选的,所述获取模块分别获取目标对象、第一关联对象、第二关联对象关于多媒体数据的初始媒体特征向量,包括:获取目标对象对应的第一关联对象网络,所述第一关联对象网络包括用于反映所述目标对象的初始媒体特征向量的第一节点,用于反映候选关联对象的初始媒体特征向量的第二节点,以及所述第一节点和所述第二节点相连接所构成的边;所述目标对象与所述候选关联对象关联;按照以所述第一节点为起点的节点路径,依次对所述第一关联对象网络中的第二节点进行采样处理,得到与所述目标对象具有一阶关联关系的第一关联对象,以及与所述目标对象具有二阶关联关系的第二关联对象;从所述第一关联对象网络中,分别获取所述目标对象、所述第一关联对象、所述第
二关联对象关于多媒体数据的初始媒体特征向量。
[0094]
可选的,所述初始媒体特征向量包括l个媒体标签对应的媒体特征值;所述获取模块按照以所述第一节点为起点的节点路径,依次对所述第一关联对象网络中的第二节点进行采样处理,得到与所述目标对象具有一阶关联关系的第一关联对象,以及与所述目标对象具有二阶关联关系的第二关联对象,包括:按照以所述第一节点为起点的节点路径,依次对所述第一关联对象网络中的第二节点进行采样,得到与所述目标对象具有一阶关联关系的n个第一候选关联对象,以及与所述目标对象具有二阶关联关系的m个第二候选关联对象;获取所述n个第一候选关联对象的l个媒体标签对应的媒体特征值均为非目标数值的第一候选关联对象的第一对象数量;获取所述m个第二候选关联对象中,l个媒体标签对应的媒体特征值均为非目标数值的第二候选关联对象的第二对象数量;若所述第一对象数量小于第一数量阈值,则将所述n个第一候选关联对象确定为与所述目标对象具有一阶关联关系的第一关联对象;若所述第二对象数量小于第二数量阈值,则将所述m个第二候选关联对象确定为与所述目标对象具有一阶关联关系的第一关联对象。
[0095]
可选的,所述第一关联对象的数量为至少两个,所述处理模块将所述目标对象的初始媒体特征向量与所述第一关联对象的初始媒体特征向量进行一阶关联处理,得到所述目标对象的第一关联媒体特征向量,包括:调用目标媒体识别模型的一阶向量识别层,对至少两个所述第一关联对象的初始媒体特征向量进行平均化处理,得到第一平均媒体特征向量;根据所述第一平均媒体特征向量确定关于至少两个所述第一关联对象的第一媒体关联信息;根据所述第一媒体关联信息和所述目标对象的初始媒体特征向量,确定所述目标对象的第一关联媒体特征向量。
[0096]
可选的,所述处理模块将所述目标对象的初始媒体特征向量与所述第二关联对象的初始媒体特征向量、所述第一关联对象的初始媒体特征向量进行二阶关联处理,得到所述目标对象的第二关联媒体特征向量,包括:调用目标媒体识别模型的二阶向量识别层,对所述目标对象的初始媒体特征向量以及所述第二关联对象的初始媒体特征向量进行平均化处理,得到第二平均媒体特征向量;根据所述第二平均媒体特征向量确定关于所述目标对象、所述第二关联对象之间的第二媒体关联信息;根据所述第二媒体关联信息和所述第一关联对象的初始媒体特征向量确定所述目标对象的第二关联媒体特征向量。
[0097]
可选的,所述第二关联对象的数量为至少两个,所述处理模块根据所述第一关联媒体特征向量与所述第二关联媒体特征向量,生成所述目标对象的目标媒体特征向量,包括:调用目标媒体识别模型的目标向量识别层,对至少两个所述第二关联对象分别对应的第二关联媒体特征向量进行平均化处理,得到第三平均媒体特征向量;
将所述第一关联媒体特征向量和所述第三平均媒体特征向量进行拼接处理,得到所述目标对象的目标媒体特征向量。
[0098]
可选的,获取模块,还用于分别获取目标样本对象、第一关联样本对象、第二关联样本对象关于多媒体数据的标注媒体特征向量;所述目标样本对象与所述第一关联样本对象之间具有一阶关联关系,所述目标样本对象与所述第二关联样本对象具有二阶关联关系;处理模块,用于调用候选媒体识别模型,对所述目标样本对象、所述第一关联样本对象、所述第二关联样本对象分别对应的标注媒体特征向量进行掩码处理,得到所述目标样本对象、所述第一关联样本对象、所述第二关联样本对象分别对应的掩码处理后的标注媒体特征向量;预测模块,用于将所述目标样本对象对应的掩码处理后的标注媒体特征向量与所述第二关联样本对象对应的掩码处理后的标注媒体特征向量、所述第一关联样本对象对应的掩码处理后的标注媒体特征向量进行关联预测,得到所述目标样本对象的预测媒体特征向量;调整模块,用于根据所述目标样本对象的标注媒体特性向量和所述预测媒体特征向量,对所述候选媒体识别模型进行调整,得到所述目标媒体识别模型。
[0099]
可选的,所述处理模块调用候选媒体识别模型,对所述目标样本对象、所述第一关联样本对象、所述第二关联样本对象分别对应的标注媒体特征向量进行掩码处理,得到所述目标样本对象、所述第一关联样本对象、所述第二关联样本对象分别对应的掩码处理后的标注媒体特征向量,包括:调用候选媒体识别模型,调整所述目标样本对象的标注媒体特征向量中的媒体特征值,得到所述目标样本对象对应的掩码处理后的标注媒体特征向量;调整所述第一关联样本对象的标注媒体特征向量中的媒体特征值,得到所述第一关联样本对象对应的掩码处理后的标注媒体特征向量;调整所述第二关联样本对象的标注媒体特征向量中的媒体特征值,得到所述第二关联样本对象对应的掩码处理后的标注媒体特征向量。
[0100]
可选的,所述获取模块分别获取目标样本对象、第一关联样本对象、第二关联样本对象关于多媒体数据的标注媒体特征向量,包括:获取第二关联对象网络;所述第二关联对象网络包括用于反映候选样本对象的标注媒体特征向量的节点,以及相关联的候选样本对象对应的节点相连接所构成的边,所述标注媒体特征向量包括l个媒体标签对应的媒体特征值;按照所述第二关联对象网络中的节点路径,依次对所述第二关联对象网络中节点进行采样处理,得到所述l个媒体标签分别对应的k个目标候选样本对象;一个媒体标签对应的目标候选样本对象为所述第二关联对象网络中,所述个媒体标签对应的媒体特征值为目标数值的候选样本对象;根据所述l个媒体标签分别对应的k个目标候选样本对象以及所述第二关联对象网络,确定出目标样本对象、第一关联样本对象、第二关联样本对象;从所述第二关联对象网络中,分别获取所述目标样本对象关于多媒体数据的标注媒体特征向量、所述第一关联样本对象关于所述多媒体数据的标注媒体特征向量、所述第
二关联样本对象分别关于所述多媒体数据的标注媒体特征向量。
[0101]
可选的,所述获取模块根据所述l个媒体标签分别对应的k个目标候选样本对象以及所述第二关联对象网络,确定出目标样本对象、第一关联样本对象、第二关联样本对象,包括:从所述第二关联对象网络中,确定与目标候选样本对象pi具有一阶关联关系的第一关联候选样本对象;所述目标候选样本对象pi属于所述l个媒体标签分别对应的k个目标候选样本对象,i为正整数;从所述第二关联对象网络中,确定与所述目标候选样本对象pi具有二阶关联关系的第二关联候选样本对象;将所述目标候选样本对象pi作为目标样本对象,从所述第一关联候选样本对象采样出q个第一关联候选样本对象,作为所述第一关联样本对象;从所述第二关联候选样本对象采样出d个第二关联候选样本对象,作为所述第二关联样本对象。
[0102]
可选的,所述调整模块根据所述目标样本对象的标注媒体特性向量和所述预测媒体特征向量,对所述候选媒体识别模型进行调整,得到所述目标媒体识别模型,包括:根据所述目标样本对象的标注媒体特性向量和所述预测媒体特征向量,对所述候选媒体识别模型进行调整,得到调整后的候选媒体识别模型;根据所述l个媒体标签分别对应的k个目标候选样本对象以及所述第二关联对象网络,确定出验证样本对象集;基于所述验证样本对象集确定所述调整后的候选媒体识别模型的收敛状态;根据所述收敛状态以及所述调整后的候选媒体识别模型,确定所述目标媒体识别模型。
[0103]
可选的,所述验证样本对象集包括验证样本对象,第三关联样本对象、第四关联样本对象;所述验证样本对象与所述目标样本对象不同,所述验证样本对象与所述第三关联样本对象之间具有一阶关联关系,所述验证样本对象与所述第四关联样本对象之间具有二阶关联关系;所述调整模块基于所述验证样本对象集确定所述调整后的候选媒体识别模型的收敛状态,包括:调用所述调整后的候选媒体识别模型,对所述验证样本对象、所述第三关联样本对象以及第四关联样本对象分别的标注媒体特征向量进行掩码处理,得到所述验证样本对象、所述第三关联样本对象以及第四关联样本对象分别对应处理后的标注媒体特征向量;对所述验证样本对象对应的掩码处理后的标注媒体特征向量、所述第三关联样本对象对应的掩码处理后的标注媒体特征向量、所述第四关联样本对象对应的掩码处理后的标注媒体特征向量进行关联预测,得到所述验证样本对象的预测媒体特征向量;根据所述验证样本对象的预测媒体特征向量与所述验证样本对象的标注媒体特征向量,确定所述调整后的候选媒体识别模型的预测识别误差;根据所述预测识别误差,确定所述调整后的候选媒体识别模型的收敛状态。
[0104]
可选的,所述验证样本对象的预测媒体特征向量与所述验证样本对象的标注媒体特征向量中均包括l个媒体标签对应的媒体特征值;所述调整模块根据所述验证样本对象的预测媒体特征向量与所述验证样本对象的标注媒体特征向量,确定所述调整后的候选媒
体识别模型的预测识别误差,包括:将目标概率与所述验证样本对象的标注媒体特征向量中第j个媒体标签对应的媒体特征值,输入至交叉熵损失函数中,得到所述第j个媒体标签对应的候选识别误差;所述目标概率为所述验证样本对象的预测媒体特征向量中第j个媒体标签对应的媒体特征值为目标数值的概率;j为小于等于l的正整数;对所述第j个媒体标签对应的候选识别误差进行平衡处理,得到所述第j个媒体标签对应的平衡处理后的候选识别误差;对所述l个媒体标签分别对应的所述处理后的候选识别误差进行累计,得到所述调整后的候选媒体识别模型的预测识别误差。
[0105]
可选的,所述调整模块对所述第j个媒体标签对应的候选识别误差进行平衡处理,得到所述第j个媒体标签对应的平衡处理后的候选识别误差,包括:获取所述验证样本集中所述第j个媒体标签对应的媒体特征值为所述目标数值的样本对象的第三对象数量;根据所述第三对象数量生成平衡参数,采用所述平衡参数对所述第j个媒体标签对应候选识别误差进行平衡处理,得到所述第j个媒体标签对应的平衡处理后的候选识别误差。
[0106]
可选的,所述调整模块根据所述收敛状态以及所述调整后的候选媒体识别模型,确定所述目标媒体识别模型,包括:若所述调整后的候选媒体识别模型未处于收敛状态,则根据所述目标样本对象的标注媒体特性向量和更新的预测媒体特征向量,对所述调整后的候选媒体识别模型继续调整,得到所述目标媒体识别模型,所述更新的预测媒体特征向量是调用所述调整后的候选媒体识别模型对所述目标样本对象对应的掩码处理后的标注媒体特征向量与所述第二关联样本对象对应的掩码处理后的标注媒体特征向量、所述第一关联样本对象对应的掩码处理后的标注媒体特征向量进行关联预测得到的;若所述调整后的候选媒体识别模型处于收敛状态,则将所述调整后的候选媒体识别模型确定为所述目标媒体识别模型。
[0107]
根据本技术的一个实施例,图2所示的多媒体数据处理方法所涉及的步骤可由图7所示的多媒体数据处理装置中的各个模块来执行。例如,图2中所示的步骤s101可由图7中的获取模块711来执行,图2中所示的步骤s102和步骤s103可由图7中的处理模块712来执行;图2中所示的步骤s104可由图7中的生成模块713来执行。
[0108]
根据本技术的一个实施例,图7所示的多媒体数据处理装置中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的至少两个子单元,可以实现同样的操作,而不影响本技术的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由至少两个单元来实现,或者至少两个模块的功能由一个单元实现。在本技术的其它实施例中,多媒体数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由至少两个单元协作实现。
[0109]
根据本技术的一个实施例,可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理组件和存储组件的例如计算机的通用计算机设备上运
行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的多媒体数据处理装置,以及来实现本技术实施例的多媒体数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
[0110]
本技术中,计算机设备可以分别获取目标对象、第一关联对象、第二关联对象的初始媒体特征向量,该初始媒体特征向量用于反映对象的基本属性信息和显著媒体标签。进一步,可以将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量进行一阶关联处理,得到第一关联媒体特征向量,并将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量、第二关联对象的初始媒体特征向量进行二阶关联处理,得到第二关联媒体特征向量。通过上述一阶关联处理和二阶关联处理能够挖掘出目标对象的潜在媒体标签,也就是说,第一关联媒体特征向量和第二关联媒体特征向量不仅能够反映目标对象的基础属性信息和显著媒体标签,还能够反映目标对象的潜在媒体标签。通过根据该第一关联媒体特征向量与该第二关联媒体特征向量,生成该目标对象的目标媒体特征向量,该目标媒体特征向量能够反映该目标对象丰富的媒体标签,因此,通过根据该目标媒体特征向量为目标用户推送多媒体数据,能够提高多媒体数据的推送准确度,实现多媒体数据的精准推送。
[0111]
请参见图8,是本技术实施例提供的一种计算机设备的结构示意图。如图8所示,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(display)、键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个在远离前述处理器1001的存储装置。如图8所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
[0112]
在图8所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:分别获取目标对象、第一关联对象、第二关联对象关于多媒体数据的初始媒体特征向量;所述目标对象与所述第一关联对象之间的具有一阶关联关系,所述目标对象与所述第二关联对象之间具有二阶关联关系;将所述目标对象的初始媒体特征向量与所述第一关联对象的初始媒体特征向量进行一阶关联处理,得到所述目标对象的第一关联媒体特征向量;将所述目标对象的初始媒体特征向量与所述第二关联对象的初始媒体特征向量、所述第一关联对象的初始媒体特征向量进行二阶关联处理,得到所述目标对象的第二关联媒体特征向量;根据所述第一关联媒体特征向量与所述第二关联媒体特征向量,生成所述目标对象的目标媒体特征向量,根据所述目标媒体特征向量为所述目标对象推送多媒体数据。
[0113]
本技术中,计算机设备可以分别获取目标对象、第一关联对象、第二关联对象的初始媒体特征向量,该初始媒体特征向量用于反映对象的基本属性信息和显著媒体标签。进一步,可以将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量进行一阶关联处理,得到第一关联媒体特征向量,并将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量、第二关联对象的初始媒体特征向量进行二阶关联处理,得到第二关联媒体特征向量。通过上述一阶关联处理和二阶关联处理能够挖掘出目标对象的潜在媒体标签,也就是说,第一关联媒体特征向量和第二关联媒体特征向量不仅能够反映目标对象的基础属性信息和显著媒体标签,还能够反映目标对象的潜在媒体标签。通过根据该第一关联媒体特征向量与该第二关联媒体特征向量,生成该目标对象的目标媒体特征向量,该目标媒体特征向量能够反映该目标对象丰富的媒体标签,因此,通过根据该目标媒体特征向量为目标用户推送多媒体数据,能够提高多媒体数据的推送准确度,实现多媒体数据的精准推送。
[0114]
应当理解,本技术实施例中所描述的计算机设备1000可执行前文图2或者图4所对应实施例中对多媒体数据处理方法的描述,也可执行前文图7所对应实施例中对多媒体数据处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
[0115]
此外,这里需要指出的是:本技术实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的多媒体数据处理装置所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图2以及前文图4对应实施例中对上述多媒体数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本技术方法实施例的描述。
[0116]
作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署在一个地点的至少两个计算机设备上执行,又或者,在分布在至少两个地点且通过通信网络互连的至少两个计算机设备上执行,分布在至少两个地点且通过通信网络互连的至少两个计算机设备可以组成区块链网络。
[0117]
上述计算机可读存储介质可以是前述任一实施例提供的多媒体数据处理装置或者上述计算机设备的中部存储单元,例如计算机设备的硬盘或中存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的中部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0118]
本技术实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同媒体中容,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
[0119]
本技术实施例还提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现前文图4和图2对应实施例中对上述多媒体数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机程序产品的实施例中未披露的技术细节,请参照本技术方法实施例的描述。
[0120]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0121]
本技术实施例提供的方法及相关装置是参照本技术实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程网络连接设备的处理器以产生一个机器,使得通过计算机或其他可编程网络连接设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程网络连接设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程网络连接设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
[0122]
以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
技术特征:
1.一种多媒体数据处理方法,其特征在于,包括:分别获取目标对象、第一关联对象、第二关联对象关于多媒体数据的初始媒体特征向量;所述目标对象与所述第一关联对象之间具有一阶关联关系,所述目标对象与所述第二关联对象之间具有二阶关联关系;将所述目标对象的初始媒体特征向量与所述第一关联对象的初始媒体特征向量进行一阶关联处理,得到所述目标对象的第一关联媒体特征向量;将所述目标对象的初始媒体特征向量与所述第二关联对象的初始媒体特征向量、所述第一关联对象的初始媒体特征向量进行二阶关联处理,得到所述目标对象的第二关联媒体特征向量;根据所述第一关联媒体特征向量与所述第二关联媒体特征向量,生成所述目标对象的目标媒体特征向量,根据所述目标媒体特征向量为所述目标对象推送多媒体数据。2.如权利要求1所述的方法,其特征在于,所述分别获取目标对象、第一关联对象、第二关联对象关于多媒体数据的初始媒体特征向量,包括:获取目标对象对应的第一关联对象网络,所述第一关联对象网络包括用于反映所述目标对象的初始媒体特征向量的第一节点,用于反映候选关联对象的初始媒体特征向量的第二节点,以及所述第一节点和所述第二节点相连接所构成的边;所述目标对象与所述候选关联对象关联;按照以所述第一节点为起点的节点路径,依次对所述第一关联对象网络中的第二节点进行采样处理,得到与所述目标对象具有一阶关联关系的第一关联对象,以及与所述目标对象具有二阶关联关系的第二关联对象;从所述第一关联对象网络中,分别获取所述目标对象、所述第一关联对象、所述第二关联对象关于多媒体数据的初始媒体特征向量。3.如权利要求2所述的方法,其特征在于,所述初始媒体特征向量包括l个媒体标签对应的媒体特征值;所述按照以所述第一节点为起点的节点路径,依次对所述第一关联对象网络中的第二节点进行采样处理,得到与所述目标对象具有一阶关联关系的第一关联对象,以及与所述目标对象具有二阶关联关系的第二关联对象,包括:按照以所述第一节点为起点的节点路径,依次对所述第一关联对象网络中的第二节点进行采样,得到与所述目标对象具有一阶关联关系的n个第一候选关联对象,以及与所述目标对象具有二阶关联关系的m个第二候选关联对象;获取所述n个第一候选关联对象的l个媒体标签对应的媒体特征值均为非目标数值的第一候选关联对象的第一对象数量;获取所述m个第二候选关联对象中,l个媒体标签对应的媒体特征值均为非目标数值的第二候选关联对象的第二对象数量;若所述第一对象数量小于第一数量阈值,则将所述n个第一候选关联对象确定为与所述目标对象具有一阶关联关系的第一关联对象;若所述第二对象数量小于第二数量阈值,则将所述m个第二候选关联对象确定为与所述目标对象具有一阶关联关系的第一关联对象。4.如权利要求1所述的方法,其特征在于,所述第一关联对象的数量为至少两个,所述将所述目标对象的初始媒体特征向量与所述第一关联对象的初始媒体特征向量进行一阶关联处理,得到所述目标对象的第一关联媒体特征向量,包括:
调用目标媒体识别模型的一阶向量识别层,对至少两个所述第一关联对象的初始媒体特征向量进行平均化处理,得到第一平均媒体特征向量;根据所述第一平均媒体特征向量确定关于至少两个所述第一关联对象的第一媒体关联信息;根据所述第一媒体关联信息和所述目标对象的初始媒体特征向量,确定所述目标对象的第一关联媒体特征向量。5.如权利要求1所述的方法,其特征在于,所述将所述目标对象的初始媒体特征向量与所述第二关联对象的初始媒体特征向量、所述第一关联对象的初始媒体特征向量进行二阶关联处理,得到所述目标对象的第二关联媒体特征向量,包括:调用目标媒体识别模型的二阶向量识别层,对所述目标对象的初始媒体特征向量以及所述第二关联对象的初始媒体特征向量进行平均化处理,得到第二平均媒体特征向量;根据所述第二平均媒体特征向量确定关于所述目标对象、所述第二关联对象之间的第二媒体关联信息;根据所述第二媒体关联信息和所述第一关联对象的初始媒体特征向量确定所述目标对象的第二关联媒体特征向量。6.如权利要求1所述的方法,其特征在于,所述第二关联对象的数量为至少两个,所述根据所述第一关联媒体特征向量与所述第二关联媒体特征向量,生成所述目标对象的目标媒体特征向量,包括:调用目标媒体识别模型的目标向量识别层,对至少两个所述第二关联对象分别对应的第二关联媒体特征向量进行平均化处理,得到第三平均媒体特征向量;将所述第一关联媒体特征向量和所述第三平均媒体特征向量进行拼接处理,得到所述目标对象的目标媒体特征向量。7.如权利要求4-6任一项所述的方法,其特征在于,所述方法还包括:分别获取目标样本对象、第一关联样本对象、第二关联样本对象关于多媒体数据的标注媒体特征向量;所述目标样本对象与所述第一关联样本对象之间具有一阶关联关系,所述目标样本对象与所述第二关联样本对象具有二阶关联关系;调用候选媒体识别模型,对所述目标样本对象、所述第一关联样本对象、所述第二关联样本对象分别对应的标注媒体特征向量进行掩码处理,得到所述目标样本对象、所述第一关联样本对象、所述第二关联样本对象分别对应的掩码处理后的标注媒体特征向量;将所述目标样本对象对应的掩码处理后的标注媒体特征向量与所述第二关联样本对象对应的掩码处理后的标注媒体特征向量、所述第一关联样本对象对应的掩码处理后的标注媒体特征向量进行关联预测,得到所述目标样本对象的预测媒体特征向量;根据所述目标样本对象的标注媒体特性向量和所述预测媒体特征向量,对所述候选媒体识别模型进行调整,得到所述目标媒体识别模型。8.如权利要求7所述的方法,其特征在于,所述调用候选媒体识别模型,对所述目标样本对象、所述第一关联样本对象、所述第二关联样本对象分别对应的标注媒体特征向量进行掩码处理,得到所述目标样本对象、所述第一关联样本对象、所述第二关联样本对象分别对应的掩码处理后的标注媒体特征向量,包括:调用候选媒体识别模型,调整所述目标样本对象的标注媒体特征向量中的媒体特征
值,得到所述目标样本对象对应的掩码处理后的标注媒体特征向量;调整所述第一关联样本对象的标注媒体特征向量中的媒体特征值,得到所述第一关联样本对象对应的掩码处理后的标注媒体特征向量;调整所述第二关联样本对象的标注媒体特征向量中的媒体特征值,得到所述第二关联样本对象对应的掩码处理后的标注媒体特征向量。9.如权利要求7所述的方法,其特征在于,所述分别获取目标样本对象、第一关联样本对象、第二关联样本对象关于多媒体数据的标注媒体特征向量,包括:获取第二关联对象网络;所述第二关联对象网络包括用于反映候选样本对象的标注媒体特征向量的节点,以及相关联的候选样本对象对应的节点相连接所构成的边,所述标注媒体特征向量包括l个媒体标签对应的媒体特征值;按照所述第二关联对象网络中的节点路径,依次对所述第二关联对象网络中节点进行采样处理,得到所述l个媒体标签分别对应的k个目标候选样本对象;一个媒体标签对应的目标候选样本对象为所述第二关联对象网络中,所述一个媒体标签对应的媒体特征值为目标数值的候选样本对象;根据所述l个媒体标签分别对应的k个目标候选样本对象以及所述第二关联对象网络,确定出目标样本对象、第一关联样本对象、第二关联样本对象;从所述第二关联对象网络中,分别获取所述目标样本对象、所述第一关联样本对象、所述第二关联样本对象分别关于多媒体数据的标注媒体特征向量。10.如权利要求9所述的方法,其特征在于,所述根据所述l个媒体标签分别对应的k个目标候选样本对象以及所述第二关联对象网络,确定出目标样本对象、第一关联样本对象、第二关联样本对象,包括:从所述第二关联对象网络中,确定与目标候选样本对象pi具有一阶关联关系的第一关联候选样本对象;所述目标候选样本对象pi属于所述l个媒体标签分别对应的k个目标候选样本对象,i为正整数;从所述第二关联对象网络中,确定与所述目标候选样本对象pi具有二阶关联关系的第二关联候选样本对象;将所述目标候选样本对象pi作为目标样本对象,从所述第一关联候选样本对象采样出q个第一关联候选样本对象,作为所述第一关联样本对象;从所述第二关联候选样本对象采样出d个第二关联候选样本对象,作为所述第二关联样本对象。11.如权利要求7所述的方法,其特征在于,所述根据所述目标样本对象的标注媒体特性向量和所述预测媒体特征向量,对所述候选媒体识别模型进行调整,得到所述目标媒体识别模型,包括:根据所述目标样本对象的标注媒体特性向量和所述预测媒体特征向量,对所述候选媒体识别模型进行调整,得到调整后的候选媒体识别模型;根据l个媒体标签分别对应的k个目标候选样本对象以及所述第二关联对象网络,确定出验证样本对象集;基于所述验证样本对象集确定所述调整后的候选媒体识别模型的收敛状态;根据所述收敛状态以及所述调整后的候选媒体识别模型,确定所述目标媒体识别模
型。12.如权利要求11所述的方法,其特征在于,所述验证样本对象集包括验证样本对象,第三关联样本对象、第四关联样本对象;所述验证样本对象与所述目标样本对象不同,所述验证样本对象与所述第三关联样本对象之间具有一阶关联关系,所述验证样本对象与所述第四关联样本对象之间具有二阶关联关系;所述基于所述验证样本对象集确定所述调整后的候选媒体识别模型的收敛状态,包括:调用所述调整后的候选媒体识别模型,对所述验证样本对象、所述第三关联样本对象以及第四关联样本对象分别的标注媒体特征向量进行掩码处理,得到所述验证样本对象、所述第三关联样本对象以及第四关联样本对象分别对应掩码处理后的标注媒体特征向量;对所述验证样本对象对应的掩码处理后的标注媒体特征向量、所述第三关联样本对象对应的掩码处理后的标注媒体特征向量、所述第四关联样本对象对应的掩码处理后的标注媒体特征向量进行关联预测,得到所述验证样本对象的预测媒体特征向量;根据所述验证样本对象的预测媒体特征向量与所述验证样本对象的标注媒体特征向量,确定所述调整后的候选媒体识别模型的预测识别误差;根据所述预测识别误差,确定所述调整后的候选媒体识别模型的收敛状态。13.如权利要求12所述的方法,其特征在于,所述验证样本对象的预测媒体特征向量与所述验证样本对象的标注媒体特征向量中均包括l个媒体标签对应的媒体特征值;所述根据所述验证样本对象的预测媒体特征向量与所述验证样本对象的标注媒体特征向量,确定所述调整后的候选媒体识别模型的预测识别误差,包括:将目标概率与所述验证样本对象的标注媒体特征向量中第j个媒体标签对应的媒体特征值,输入至交叉熵损失函数中,得到所述第j个媒体标签对应的候选识别误差;所述目标概率为所述验证样本对象的预测媒体特征向量中第j个媒体标签对应的媒体特征值为目标数值的概率;j为小于等于l的正整数;对所述第j个媒体标签对应的候选识别误差进行平衡处理,得到所述第j个媒体标签对应的平衡处理后的候选识别误差;对所述l个媒体标签分别对应的所述处理后的候选识别误差进行累计,得到所述调整后的候选媒体识别模型的预测识别误差。14.如权利要求13所述的方法,其特征在于,所述对所述第j个媒体标签对应的候选识别误差进行平衡处理,得到所述第j个媒体标签对应的平衡处理后的候选识别误差,包括:获取所述验证样本集中所述第j个媒体标签对应的媒体特征值为所述目标数值的样本对象的第三对象数量;根据所述第三对象数量生成平衡参数,采用所述平衡参数对所述第j个媒体标签对应候选识别误差进行平衡处理,得到所述第j个媒体标签对应的平衡处理后的候选识别误差。15.如权利要求11所述的方法,其特征在于,所述根据所述收敛状态以及所述调整后的候选媒体识别模型,确定所述目标媒体识别模型,包括:若所述调整后的候选媒体识别模型未处于收敛状态,则根据所述目标样本对象的标注媒体特性向量和更新的预测媒体特征向量,对所述调整后的候选媒体识别模型继续调整,得到所述目标媒体识别模型,所述更新的预测媒体特征向量是调用所述调整后的候选媒体
识别模型对所述目标样本对象对应的掩码处理后的标注媒体特征向量与所述第二关联样本对象对应的掩码处理后的标注媒体特征向量、所述第一关联样本对象对应的掩码处理后的标注媒体特征向量进行关联预测得到的;若所述调整后的候选媒体识别模型处于收敛状态,则将所述调整后的候选媒体识别模型确定为所述目标媒体识别模型。16.一种多媒体数据处理装置,其特征在于,包括:获取模块,用于分别获取目标对象、第一关联对象、第二关联对象关于多媒体数据的初始媒体特征向量;所述目标对象与所述第一关联对象之间具有一阶关联关系,所述目标对象与所述第二关联对象之间具有二阶关联关系;处理模块,用于将所述目标对象的初始媒体特征向量与所述第一关联对象的初始媒体特征向量进行一阶关联处理,得到所述目标对象的第一关联媒体特征向量;将所述目标对象的初始媒体特征向量与所述第二关联对象的初始媒体特征向量、所述第一关联对象的初始媒体特征向量进行二阶关联处理,得到所述目标对象的第二关联媒体特征向量;生成模块,用于根据所述第一关联媒体特征向量与所述第二关联媒体特征向量,生成所述目标对象的目标媒体特征向量,根据所述目标媒体特征向量为所述目标对象推送多媒体数据。17.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至15中任一项所述的方法的步骤。18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至15中任一项所述的方法的步骤。19.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至15中任一项所述的方法的步骤。
技术总结
本申请实施例公开了一种多媒体数据处理方法、装置、设备及存储介质,应用于人工智能、区块链以及交通等领域,其中,该方法包括:分别获取目标对象、第一关联对象、第二关联对象的初始媒体特征向量;将目标对象的初始媒体特征向量与第一关联对象的初始媒体特征向量进行一阶关联处理,得到第一关联媒体特征向量;将目标对象的初始媒体特征向量与第二关联对象的初始媒体特征向量、第一关联对象的初始媒体特征向量进行二阶关联处理,得到第二关联媒体特征向量;根据第一关联媒体特征向量与第二关联媒体特征向量,生成目标对象的目标媒体特征向量,根据目标媒体特征向量为目标对象推送多媒体数据。通过本申请可以提高多媒体数据的推送准确度。送准确度。送准确度。
技术研发人员:李涛 刘松 刘峰 龚千健 许笑 倪翔
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.04.22
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-8762.html