一种联合大模型和知识图谱的语义感知推荐方法

    专利查询2025-06-07  73


    本发明涉及知识图谱、大模型、推荐系统等领域,特别给出了一种联合大模型和知识图谱的语义感知推荐方法。


    背景技术:

    1、随着互联网的快速发展,数据呈指数级增长,用户面临着严重信息过载问题,难以选取感兴趣的内容。推荐系统旨在为用户提供个性化的推荐信息,从而缓解信息过载带来的影响,在网络服务平台上得到了广泛的应用。传统基于协同过滤的推荐系统主要利用用户的历史交互数据,根据用户或项目间的相似性进行个性化推荐,但存在冷启动和数据稀疏的瓶颈问题。近年来,研究者通过知识图谱(knowledge graph,kg)将用户属性、项目属性和关联信息深度融合,通过大量的辅助信息有效缓解了数据稀疏和冷启动问题,成为当前推荐领域的研究热点。

    2、知识图谱为推荐系统提供了丰富的结构化语义信息,通过大量的辅助信息有效缓解了传统基于协同过滤推荐系统面临的数据稀疏和冷启动问题,主要可以分为基于嵌入的推荐模型、基于路径的推荐模型和基于图神经网络的推荐模型。

    3、基于嵌入的推荐模型通过kg嵌入在低维向量空间学习每个实体和关系的特征表示,以捕捉实体之间的复杂关系和属性特征。cke(acm sigkdd internationalconference,2016)采用transr嵌入方法提取项目的结构表示,在嵌入时考虑了实体和关系的异质性,得到用户和项目的精确表示。dkn(world wide web conference,2018)结合单词和实体嵌入,采用transd技术对新闻内容进行多通道综合表示,强调单词与实体的对齐以增强信息的一致性。ktup(world wide web conference,2019)利用kg的结构化数据来增强用户对特定主题的偏好建模,并通过transh方法进行用户-项目交互和三元组的补全。该类推荐模型能有效地将完整的数据表示输入到推荐系统中,但通常忽略了kg的路径关系和多跳实体间的关联,推荐结果可解释性不强。

    4、基于路径的推荐模型通过用户到候选项目的多阶路径为推荐过程提供附加信息,这些路径可以通过循环神经网络和注意力机制进行建模,以预测用户的偏好。ripplenet(acm international conference,2018)根据用户的交互历史为路径中的各跳邻居分配权重,通过kg的链接传播用户的点击项目,进而揭示用户的潜在偏好。然而,给定用户与项目之间的所有传播路径可能包含不相关的路径,这会导致用户偏好的错误传播。为了解决该问题,meirec(acm sigkdd international conference,2019)采用预定义的元路径来指导邻居信息的聚合,通过精确控制信息流向来优化推荐的准确性。pgpr(international acmsigir conference,2019)利用强化学习在kg中识别并优化关键的用户与项目间关系路径,通过策略网络引导路径选择,直接影响推荐决策的生成。该类推荐模型能够有效捕捉kg上的关系路径信息,但往往忽略了图的整体结构信息,而且精确定义或提取元路径也需要较高的成本。

    5、基于gnn的推荐模型利用图神经网络的多层信息聚合机制,通过kg和交互图的拓扑结构从邻居节点收集信息,用于更新中心节点的表示,并在gnn各层之间递归的传播信息。kgcn(international world wide web conferences,2019)通过图卷积操作来捕捉实体与其邻居之间的关联关系,有效地学习并更新实体的特征表示。kgat(acm knowledgediscovery and data mining,2019)将用户-项目图和知识图谱构建为一个统一的异构图,并通过注意力机制来动态选择图中的关键节点和连接,增强了推荐的准确性和可解释性。kgin(the web conference,2021)通过分析用户与项目间的交互,识别用户的潜在意图,并在此基础上对图中的信息进行聚合,以解析用户购物行为的动机。该类推荐模型在局部聚合节点特征时可能存在信息提取不足的问题,同时其推荐效果极大地受到所使用数据质量和覆盖度的限制。

    6、现有的基于知识图谱的推荐系统仍存在两个挑战性问题,一方面推荐系统主要依赖基于id的数据,还不能利用kg的文本数据。文本数据包含丰富的用户和项目显式特征,但推荐系统无法捕捉其中的语义信息。另一方面推荐系统所使用的基于id的数据包含大量的隐式反馈,其噪声数据(如误点击或流行偏差)将影响推荐的准确性。


    技术实现思路

    1、针对现有基于知识图谱的推荐系统难以有效利用文本数据和存在噪声数据的问题,本发明提出一种联合大模型和知识图谱的语义感知推荐方法,利用大模型(largelanguage model,llm)的语义理解能力从kg的文本数据中学习用户和项目的细粒度语义特征,采用多层图注意力网络从kg的结构数据中学习关于用户意图的高阶结构特征,再将两种特征深度融合为用户和项目的高质量特征表示,从而进一步提高推荐的系统性能。

    2、为了解决技术问题本发明采用如下的技术方案:

    3、一种联合大模型和知识图谱的语义感知推荐方法,包括以下步骤:

    4、1)构建协同语义知识图谱

    5、定义1:交互数据:在推荐场景下,设表示由m个用户组成的集合,表示由n个项目组成的集合,用户对项目的交互,如点击、购买或查看等,由隐式反馈收集,并表示为一个用户-项目交互矩阵y∈rm×n,其中yuv=1表示用户u与项目v存在交互,否则yuv=0;

    6、定义2:知识图谱:知识图谱以异构图的形式存储涵盖项目属性或外部常识性知识的现实世界事实,定义知识图谱其中h为头实体,r为关系,t为尾实体,和是实体和关系的集合;在推荐场景下,某个项目对应一个实体构建一个项目-实体对齐集合其中(v,z)表示项目v和知识图谱中的实体对齐,这种对齐使得知识图谱能够为交互数据提供辅助信息;

    7、定义3:文本数据:设用户u和k个项目发生交互,根据用户-项目的交互记录,利用用户和项目的原始id在原始数据集中收集用户u对所有项目的文本评论数据tu,其中tu={c1,c2,...,ck},收集不同用户对项目v的文本评论tv,文本数据集其中{tu,tv}∈t;

    8、给定用户-项目交互矩阵y、知识图谱和文本数据t构建协同语义知识图谱;

    9、2)利用大模型提取语义特征

    10、为确保信息的一致性和质量,用户和项目分别设计了提示模板和指导llm生成高质量的语义信息,llm参照提示模板生成特定格式的用户和项目简介,用户简介包含用户偏好的类型和特点,项目简介包含项目的类型、优点、缺点以及推荐理由;

    11、将每个用户或项目的文本评论数据或输入到llm中,利用llm的上下文理解能力和广泛的数据库资源对海量的文本数据进行增强,生成个性化的用户简介su和项目简介sv,llm利用文本数据增强语义信息的形式为:

    12、

    13、得到用户简介su和项目简介sv后,为了推荐系统能够有效利用语义信息,使用语义编码器将su和sv转化为嵌入向量的形式:

    14、

    15、其中是用户u的语义特征表示;是项目v的语义特征表示;是openaiembedding文本嵌入模型;mlp(·)是多层感知机,用于将语义特征向量的长度进行统一;

    16、文本嵌入模型旨在将文本信息转化为固定长度的稠密向量,转化后的向量不仅反映了文本的语义内容,还确保了语义上相似的文本在嵌入空间中具有近似的向量表示,openai embedding模型通过大规模的预训练和优化,能够提供更加丰富和深层的文本语义表示,为后续的推荐系统利用语义信息提供了基础;

    17、3)利用多层图注意力网络提取结构特征;

    18、4)语义特征与结构特征融合

    19、以上所提取的语义特征和结构特征的嵌入向量空间不同,无法直接融合,需要将这两种特征映射到一个共同的向量空间,采用对比建模的方法对结构特征和语义特征进行双向对齐,其中计算公式为:

    20、

    21、其中sim(·)表示余弦相似度,σ↓是多层感知机,用来将映射到的特征空间;

    22、在对齐过程中,将和看作正样本对,通过模型训练使这些正样本对相互靠近,实现特征双向对齐,由此得到用户和项目融合后的嵌入向量eu和ev:

    23、

    24、5)模型训练

    25、将上述得到的用户和项目的嵌入向量进行内积运算,从而预测用户u购买项目v的可能性其中定义如下:

    26、

    27、采用贝叶斯个性化排序(bpr)损失函数对用户交互的正负样本进行建模。假设用户u已经和项目v发生过交互,那么认为用户u更喜欢项目v,而不是未发生交互的其他项目j,将bpr损失函数表示为:

    28、

    29、其中是由观察到的正样本对(u,v)和未观察到的负样本对(u,j)组成的训练数据集,σ(·)是sigmoid函数;

    30、此外,语义特征和结构特征融合的损失函数定义为:

    31、

    32、其中为样本n的负样本语义表示;

    33、训练模型的整体损失函数由bpr损失函数、特征融合损失函数和正则化损失函数组成:

    34、

    35、其中是模型的参数;λ1和λ2分别是控制特征融合损失函数和正则化损失函数的两个参数;

    36、根据上述训练好的语义感知推荐模型为用户推荐个性化项目。

    37、进一步,所述步骤3)的,过程如下:

    38、(3.1)用户意图建模

    39、用户意图是指用户选择物品的原因,反映了所有用户行为的共性,不同的意图建模了用户不同的行为模式,用户意图通过关系组合进行建模,不同的关系组合能够建模不同的意图,以表达细粒度的用户-项目关系,因此,采用注意力机制为每个意图i∈i在知识图谱中分配一个表示,用户意图的嵌入表示为:

    40、

    41、其中er是关系r的嵌入表示,α(r,i)是关系r的注意力系数,每个关系都分配一个注意力分数来区别其在知识图谱中的重要性,其计算公式为:

    42、

    43、其中wri是对特定的关系r和意图i的可训练权重;

    44、(3.2)聚合用户表示

    45、用户u的一阶连通集合可以定义为其中i表示用户意图,v表示项目,根据该集合,计算用户u的嵌入向量:

    46、

    47、其中是用户u的一阶嵌入向量,是项目v的初始嵌入向量,⊙表示元素级乘积,β(u,i)是不同用户意图i的注意力系数,计算公式为:

    48、

    49、其中是用户u的初始嵌入向量;

    50、上述公式(5)和(6)将不同的用户意图嵌入到用户的嵌入向量中,以增强用户意图在用户表征中的重要作用;

    51、(3.3)聚合项目表示

    52、项目和实体之间有不同的关系连接,通过不同的关系组合和连接的实体得到项目之间的相似性;

    53、项目v的一阶连通集合定义为其中r表示关系,z表示实体,根据该集合,计算项目v的嵌入向量:

    54、

    55、其中是项目v的一阶嵌入向量,是实体z的初始嵌入向量;

    56、同样地,实体z的一阶连通集合定义为根据该集合,计算实体z的嵌入向量:

    57、

    58、其中是实体z的一阶嵌入向量;

    59、(3.4)多层聚合层特征输出

    60、通过聚合用户、项目和实体的一阶嵌入向量得到它们的高阶嵌入向量,该聚合方式不仅能捕获用户和项目的直接关联关系,而且也能捕获关系路径上的间接关联关系,从而提取基于用户意图的结构特征,其计算公式为:

    61、

    62、其中,分别表示用户u、项目v、实体z在(l-1)跳的嵌入向量;

    63、用户u和项目v的综合结构特征通过累加不同跳数的嵌入向量计算得到:

    64、

    65、该模型能够将复杂的用户意图和结构信息编码到低维的嵌入向量,并通过跳数控制信息聚合的深度和广度。本发明的有益效果为:本发明给出的联合大模型和知识图谱的语义感知推荐系统,利用llm的上下文理解能力从文本数据中提取语义特征,在细粒度层面对用户和项目实现精确建模;利用多层图注意力网络从结构数据中学习包含用户意图的高阶结构特征,在意图层面上揭示了用户与项目之间的关联;将语义特征和结构特征进行深度融合,获得用户和项目的高质量特征表示,有效提高了推荐性能。


    技术特征:

    1.一种联合大模型和知识图谱的语义感知推荐方法,其特征在于,所述方法包括以下步骤:

    2.如权利要求1所述的一种联合大模型和知识图谱的语义感知推荐方法,其特征在于,所述步骤3)的,过程如下:


    技术总结
    一种联合大模型和知识图谱的语义感知推荐方法,所述方法包括以下步骤:1)构建融合交互数据、知识图谱和文本数据的协同语义知识图谱;2)利用大模型从知识图谱的关联文本数据中提取用户和项目的语义特征,建立用户和项目的语义特征向量;3)利用多层图注意力网络从知识图谱的关联路径学习基于用户意图的高阶结构特征,生成用户和项目的结构特征向量;4)将语义特征向量与结构特征向量深度融合,获得用户和项目的高质量特征表示;5)将用户和项目的特征表示进行内积运算,预测用户的感兴趣的项目。本发明联合大模型与知识图谱同时提取用户和项目的语义特征和结构特征,进一步提高了推荐系统的准确性。

    技术研发人员:张元鸣,楼勇彪,何子悠,肖刚,高飞
    受保护的技术使用者:浙江工业大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-29165.html

    最新回复(0)