一种基于改进加权lda模型的话题发现方法及系统
技术领域
1.本发明涉及互联网数据挖掘技术领域,尤其是涉及一种基于改进加权lda 模型的话题发现方法及系统。
背景技术:
2.随着人工智能和数字经济的快速发展,数据呈现出规模庞大、更新速度快、多源异构以及价值密度低等特点。由于数据来源、数据结构以及数据标准不同,且多源异构数据再类型、性质、形式、内容和时空上存在极大的差异,容易导致数据信息共享和互联互通障碍,传统的数据处理技术不能满足从海量数据中快速获取认知知识与信息的分析需求。
3.在信息传播速度飞快的互联网时代,社交平台逐渐成为大众获取并传播新闻资讯的主要途径之一,有些人凭借着社交平台其多媒体化性以及交互性传播负面言论,以博得大众关注来获取更多的流量。造成这种局面的很大一部分原因是许多新闻的话题断章取义不够全面,引起了很大的争议,为了打造文明的社交平台,从海量信息中获取关键话题显得尤其重要。
技术实现要素:
4.有鉴于此,本技术提出了一种基于改进加权lda模型的话题发现方法及系统,用于解决现有技术中话题提取过于片面,不能准确地概括出整个文本核心内容的问题。
5.本发明的技术方案是这样实现的:
6.本发明提出了一种基于改进加权lda模型的话题发现方法,其方法包括:
7.s1,采集特定情况下的多源样本数据集,将多源样本数据集转换为可描述的文档,并进行预处理,得到文本数据;
8.s2,采用textrank算法来提取文本数据中的关键词,并计算各关键词的权重值;
9.s3,基于各关键词的权重值构建加权lda模型,并对加权lda模型进行优化训练,得到用于话题发现的lda模型;
10.s4,获取新的多源数据,将其转化为测试文本,输入至用于话题发现的lda 模型中得到测试文本的话题。
11.在以上技术方案的基础上,优选的,步骤s1具体包括:
12.所述多源样本数据集包括文本、语音、图像以及视频;
13.通过接口服务采集、物联网感知获取、数据库同步、文件同步以及数据爬取的方式采集数据;
14.所述预处理包括去噪、去特殊字符以及去停用词处理。
15.在以上技术方案的基础上,优选的,步骤s3中,采用textrank算法来提取文本数据中的关键词具体包括:
16.s201,将文本数据按照完整句子进行分割,即s={s1,s2,
…
,sn};
17.s202,对每个句子进行分词和词性标注处理,只保留名词、动词以及形容词,即si={t
i,1
,t
i,2
,
…
,t
i,m
},t
i,j
是候选关键词,i=1,2,
…
,n,j=1,2,
…
,m;
18.s203,构建一个无向有权网络图模型g=(v,e),将每个候选关键词作为一个候选关键词节点,采用共现关系构造两个候选关键词节点之间的边;
19.s204,根据无向有权网络图模型迭代计算每个候选关键词节点的节点权重值ws,并采用词向量改进节点权重值,直至收敛;
20.s205,得到所有节点权重值,进行降序排列,得到topk个候选关键词作为最终关键词。
21.在以上技术方案的基础上,优选的,步骤s203具体包括:
22.构建一个无向有权网络图模型g=(v,e),v是候选关键词节点集合 v={v1,v2,
…
,vm},e是候选关键词节点之间的连接边集合 e={(v1,v2),(v1,v3),
…
,(vm,v
m-2
),(vm,v
m-1
)},(vh,v
t
)表示候选关键词节点vh和候选关键词节点v
t
之间存在一条连接边,任意两个候选关键词节点之间都有一条连接边, h,t=1,2,
…
,m。
23.在以上技术方案的基础上,优选的,步骤s204具体包括:
24.将所有连接边的权重值设置为1,各候选关键词节点的初始权重值设置为n为候选关键词节点的总个数,利用所述候选关键词的角余弦位距构建权重转移概率矩阵q,其表达式为:
[0025][0026]
其中,q
ht
表示候选关键词的角余弦位距,h,t=1,2,
…
,n,其计算公式为:
[0027][0028]
其中,为候选关键词节点vh的词向量,为候选词节点v
t
的词向量,wh为原始权重转移概率矩阵w的第h列所有元素和;
[0029]
最终节点权重值的计算公式为:
[0030]
ws(vh)=(1-d) d*q*ws(v
t
)
[0031]
其中,d为阻尼系数。
[0032]
在以上技术方案的基础上,优选的,步骤s3具体包括:
[0033]
对文本数据进行分词处理,得到k个主题,给每个主题赋予主题编号z,即 zi∈z,每个主题由一些特征词构成,设置迭代次数t;
[0034]
基于蒙特卡洛采样对原始吉布斯采样方法进行优化,得到改进后的吉布斯采样方法;
[0035]
在每次迭代中,对文本数据采用改进后的吉布斯采样方法进行重新扫描采样,直至收敛,得到主题-词矩阵,即为用于话题发现的lda模型。
[0036]
在以上技术方案的基础上,优选的,基于蒙特卡洛采样对原始吉布斯采样方法进行优化具体包括:
[0037]
计算每个主题中各特征词的权重,将其与lda中主题的概念和词的概率相结合,给
不同的特征词在不同的主题下分配不同的权重,改变生成特征词的概率,改进后的吉布斯采样方法的计算公式为:
[0038][0039]
其中,表示文本数据中第i个位置的特征词d的主题概率分布,zi表示文本数据中的第i个位置的特征词所对应的主题,,表示第m 篇文档中第k个主题的特征词的总个数,表示第k个主题中第t个特征词的个数,表示去除下标为i的特征词,特征词的总个数为d,d,j,t=1,2,
…
,d, weight(j)、weight(d)以及weight(t)均表示特征词的权重,α和β均为超参数。
[0040]
在以上技术方案的技术上,优选的,在每次迭代中,对文本数据采用改进后的吉布斯采样方法进行重新扫描采样,直至收敛具体包括:
[0041]
记录每个特征词的权重,若特征词为由textrank算法提取的关键词,则将该关键词的权重值设为该特征词的权重,否则,权重为0;
[0042]
在每次迭代过程中,若特征词为关键词,则按照改进后的吉布斯采样方法重新采样,并更新采样后的文本数据;
[0043]
若特征词不是关键词,则按照原始吉布斯采样方法重新采样,并更新采样后的文本数据。
[0044]
在以上技术方案的基础上,优选的,步骤s4具体包括:
[0045]
将测试文本输入至用于话题发现的lda模型得到关于测试文本的主题分布概率,对主题进行降序排序,输出topn个主题及其对应的主题词,通过人工组合作为该测试文本的话题。
[0046]
本发明还提出了一种基于改进加权lda模型的话题发现系统,其系统包括:
[0047]
数据处理模块,采集特定情况下的多源样本数据集,将多源样本数据集转换为可描述的文档,并进行预处理,得到文本数据;
[0048]
关键词提取模块,采用textrank算法来提取文本数据中的关键词,并计算各关键词的权重值;
[0049]
lda模型训练模块,基于各关键词的权重值构建加权lda模型,并对加权 lda模型进行优化训练,得到用于话题发现的lda模型;
[0050]
话题发现模块,获取新的多源数据,将其转化为测试文本,输入至用于话题发现的lda模型中得到测试文本的话题。
[0051]
本发明的一种基于改进加权lda模型的话题发现方法,相对于现有技术,具有以下有益效果:
[0052]
(1)通过改进的加权lda模型计算文本数据中主题和词的概率,对每个主题和词进行分析,选取出概率最大的几个主题和主题词,再结合人工组合的方式,决定最终话题,将机器学习与人的情感相结合,能够更有效的抽取其中的隐藏主题,选取出更加合理的话题。
[0053]
(2)采用textrank算法提取文本数据中的关键词,并采用词向量的方法改进节点权重值的计算方法,得到关键词的权重值,缩小了传统textrank算法的语义性差异,提高了
关键词抽取的效果。
[0054]
(3)将文本数据中贡献度最高的词作为关键词,并基于蒙特卡洛采样对原始吉布斯采样方法进行参数优化影响采样中词分布的概率,提高了lda模型主题提取的准确性。
附图说明
[0055]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0056]
图1为本发明一种基于改进加权lda模型的话题发现方法的流程示意图;
[0057]
图2为本发明一种基于改进加权lda模型的话题发现方法中textrank算法的流程示意图。
具体实施方式
[0058]
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
[0059]
参见图1,本实施例一种基于改进加权lda模型的话题发现方法具体包括以下步骤:
[0060]
s1,采集特定情况下的多源样本数据集,将多源样本数据集转换为可描述的文档,并进行预处理,得到文本数据。
[0061]
需要理解的是,所述多源样本数据集包括文本、语音、图像以及视频;
[0062]
通过接口服务采集、物联网感知获取、数据库同步、文件同步以及数据爬取的方式采集数据;
[0063]
所述预处理包括去噪、去特殊字符以及去停用词处理。
[0064]
特定情况可以社交媒体、车联网或监控网,具体的根据任务需求来设置。例如,针对社交媒体,可通过智能终端采集人体信息,包括位置、重力加速度、睡眠、运动;针对车联网,可通过车载传感器采集汽车状态信息,包括车速、位置、温度、发动机转速、雷达;针对监控网,可以采集与安防相关的信息,包括红外、震动、烟雾浓度、生物指纹。将多源样本数据集转换为可描述的文档的方法为现有技术,本实施例中采用卷积神经网络的方法提取多源样本数据集中的特征信息,再将其转换为可描述的文档。
[0065]
s2,采用textrank算法来提取文本数据中的关键词,并计算各关键词的权重值。
[0066]
进一步的,参见图2,本实施例中textrank算法的步骤具体包括:
[0067]
s201,将文本数据按照完整句子进行分割,即s={s1,s2,
…
,sn}。
[0068]
s202,对每个句子进行分词和词性标注处理,只保留名词、动词以及形容词,即si={t
i,1
,t
i,2
,
…
,t
i,m
},t
i,j
是候选关键词,i=1,2,
…
,n,j=1,2,
…
,m。
[0069]
s203,构建一个无向有权网络图模型g=(v,e),将每个候选关键词作为一个候选关键词节点,采用共现关系构造两个候选关键词节点之间的边。
[0070]
具体的,构建一个无向有权网络图模型g=(v,e),v是候选关键词节点集合 v={v1,v2,
…
,vm},e是候选关键词节点之间的连接边集合 e={(v1,v2),(v1,v3),
…
,(vm,v
m-2
),(vm,v
m-1
)},(vh,v
t
)表示候选关键词节点vh和候选关键词节点v
t
之间存在一条连接边,任意两个候选关键词节点之间都有一条连接边, h,t=1,2,
…
,m。
[0071]
s204,根据无向有权网络图模型迭代计算每个候选关键词节点的节点权重值ws,并采用词向量改进节点权重值,直至收敛。
[0072]
具体的,将所有连接边的权重值设置为1,各候选关键词节点的初始权重值设置为n为候选关键词节点的总个数,利用所述候选关键词的角余弦位距构建权重转移概率矩阵q,其表达式为:
[0073][0074]
其中,q
ht
表示候选关键词的角余弦位距,h,t=1,2,
…
,n,其计算公式为:
[0075][0076]
其中,为候选关键词节点vh的词向量,为候选词节点v
t
的词向量,wh为原始权重转移概率矩阵w的第h列所有元素和;
[0077]
最终节点权重值的计算公式为:
[0078]
ws(vh)=(1-d) d*q*ws(v
t
)
[0079]
其中,d为阻尼系数,表示图模型中某一节点跳转到其他任意节点的概率,一般取值为0.85。
[0080]
在textrank算法的迭代过程中,连接边的权重值过大会导致权重转移概率矩阵稠密,过小会导致权重转移概率矩阵稀疏,本实施例利用候选关键词的角余弦位距构建权重转移概率矩阵,使权重转移概率矩阵能够包含更丰富的语义特征,基于隐含主题分布的思想和利用词语的语义性差异能提升关键词抽取的效果。
[0081]
s205,得到所有节点权重值,进行降序排列,得到topk个候选关键词作为最终关键词。
[0082]
需要理解的是,本实施例中最大迭代次数设置为100次,收敛误差值为 0.0001,如果一个候选关键词节点的权重值越高,标明该候选关键词越能反应文本数据的主题。
[0083]
s3,基于各关键词的权重值构建加权lda模型,并对加权lda模型进行优化训练,得到用于话题发现的lda模型。
[0084]
具体的,对文本数据进行分词处理,得到k个主题,给每个主题赋予主题编号z,即zi∈z,每个主题由一些特征词构成,设置迭代次数t;
[0085]
基于蒙特卡洛采样对原始吉布斯采样方法进行优化,得到改进后的吉布斯采样方法;
[0086]
在每次迭代中,对文本数据采用改进后的吉布斯采样方法进行重新扫描采样,直至收敛,得到主题-词矩阵,即为用于话题发现的lda模型。
[0087]
进一步的,计算每个主题中各特征词的权重,将其与lda中主题的概念和词的概率相结合,给不同的特征词在不同的主题下分配不同的权重,改变生成特征词的概率,改进后的吉布斯采样方法的计算公式为:
[0088][0089]
其中,表示文本数据中第i个位置的特征词d的主题概率分布,zi表示文本数据中的第i个位置的特征词所对应的主题,,表示第m 篇文档中第k个主题的特征词的总个数,表示第k个主题中第t个特征词的个数,表示去除下标为i的特征词,特征词的总个数为d,d,j,t=1,2,
…
,d, weight(j)、weight(d)以及weight(t)均表示特征词的权重,α和β均为超参数。
[0090]
在每次迭代中,对文本数据采用改进后的吉布斯采样方法进行重新扫描采样,直至收敛具体包括:
[0091]
记录每个特征词的权重,若特征词为由textrank算法提取的关键词,则将该关键词的权重值设为该特征词的权重,否则,权重为0;
[0092]
在每次迭代过程中,若特征词为关键词,则按照改进后的吉布斯采样方法重新采样,并更新采样后的文本数据;
[0093]
若特征词不是关键词,则按照原始吉布斯采样方法重新采样,并更新采样后的文本数据。
[0094]
传统的lda模型得到的主题词分布会向高频词倾斜,降低了主题提取的效果,本实施例将文本数据中贡献度最高的词作为关键词,在迭代过程中,基于关键词为各特征词分配不同的权重,采用不同的计算方法重新采样,改变了模型生成特征词的概率,相对于传统的lda模型,提高了迭代效率和主题提取的准确率。
[0095]
s4,获取新的多源数据,将其转化为测试文本,输入至用于话题发现的lda 模型中得到测试文本的话题。
[0096]
具体的,将测试文本输入至用于话题发现的lda模型得到关于测试文本的主题分布概率,对主题进行降序排序,输出topn个主题及其对应的主题词,通过人工组合作为该测试文本的话题。
[0097]
需要理解的是,根据实际情况的分析,将选取出来的主题及其对应的主题词进行有条理的组合,将机器学习与人的情感相结合,能够更有效的抽取其中的隐藏主题,选取出更加合理的话题。
[0098]
本实施例还提供了一种基于改进加权lda模型的话题发现系统,该系统包括数据处理模块、关键词提取模块、lda模型训练模块和话题发现模块。
[0099]
数据处理模块,采集特定情况下的多源样本数据集,将多源样本数据集转换为可描述的文档,并进行预处理,得到文本数据。
[0100]
关键词提取模块,采用textrank算法来提取文本数据中的关键词,并计算各关键词的权重值。
[0101]
lda模型训练模块,基于各关键词的权重值构建加权lda模型,并对加权 lda模型
进行优化训练,得到用于话题发现的lda模型。
[0102]
话题发现模块,获取新的多源数据,将其转化为测试文本,输入至用于话题发现的lda模型中得到测试文本的话题。
[0103]
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。
技术特征:
1.一种基于改进加权lda模型的话题发现方法,其特征在于,所述方法包括:s1,采集特定情况下的多源样本数据集,将多源样本数据集转换为可描述的文档,并进行预处理,得到文本数据;s2,采用textrank算法来提取文本数据中的关键词,并计算各关键词的权重值;s3,基于各关键词的权重值构建加权lda模型,并对加权lda模型进行优化训练,得到用于话题发现的lda模型;s4,获取新的多源数据,将其转化为测试文本,输入至用于话题发现的lda模型中得到测试文本的话题。2.如权利要求1所述的一种基于加权lda模型的话题发现方法,其特征在于,步骤s1具体包括:所述多源样本数据集包括文本、语音、图像以及视频;通过接口服务采集、物联网感知获取、数据库同步、文件同步以及数据爬取的方式采集数据;所述预处理包括去噪、去特殊字符以及去停用词处理。3.如权利要求1所述的一种基于改进加权lda模型的话题发现方法,其特征在于,步骤s3中,采用textrank算法来提取文本数据中的关键词具体包括:s201,将文本数据按照完整句子进行分割,即s={s1,s2,
…
,s
n
};s202,对每个句子进行分词和词性标注处理,只保留名词、动词以及形容词,即s
i
={t
i,1
,t
i,2
,
…
,t
i,m
},t
i,j
是候选关键词,i=1,2,
…
,n,j=1,2,
…
,m;s203,构建一个无向有权网络图模型g=(v,e),将每个候选关键词作为一个候选关键词节点,采用共现关系构造两个候选关键词节点之间的边;s204,根据无向有权网络图模型迭代计算每个候选关键词节点的节点权重值ws,并采用词向量改进节点权重值,直至收敛;s205,得到所有节点权重值,进行降序排列,得到topk个候选关键词作为最终关键词。4.如权利要求3所述的一种基于改进加权lda模型的话题发现方法,其特征在于,步骤s203具体包括:构建一个无向有权网络图模型g=(v,e),v是候选关键词节点集合v={v1,v2,
…
,v
m
},e是候选关键词节点之间的连接边集合e={(v1,v2),(v1,v3),
…
,(v
m
,v
m-2
),(v
m
,v
m-1
)},(v
h
,v
t
)表示候选关键词节点v
h
和候选关键词节点v
t
之间存在一条连接边,任意两个候选关键词节点之间都有一条连接边,h,t=1,2,
…
,m。5.如权利要求4所述的一种基于改进加权lda模型的话题发现方法,其特征在于,步骤s204具体包括:将所有连接边的权重值设置为1,各候选关键词节点的初始权重值设置为n为候选关键词节点的总个数,利用所述候选关键词的角余弦位距构建权重转移概率矩阵q,其表达式为:
其中,q
ht
表示候选关键词的角余弦位距,h,t=1,2,
…
,n,其计算公式为:其中,为候选关键词节点v
h
的词向量,为候选词节点v
t
的词向量,w
h
为原始权重转移概率矩阵w的第h列所有元素和;最终节点权重值的计算公式为:ws(v
h
)=(1-d) d*q*ws(v
t
)其中,d为阻尼系数。6.如权利要求1所述的一种基于改进加权lda模型的话题发现方法,其特征在于,步骤s3具体包括:对文本数据进行分词处理,得到k个主题,给每个主题赋予主题编号z,即z
i
∈z,每个主题由一些特征词构成,设置迭代次数t;基于蒙特卡洛采样对原始吉布斯采样方法进行优化,得到改进后的吉布斯采样方法;在每次迭代中,对文本数据采用改进后的吉布斯采样方法进行重新扫描采样,直至收敛,得到主题-词矩阵,即为用于话题发现的lda模型。7.如权利要求6所述的一种基于改进加权lda模型的话题发现方法,其特征在于,基于蒙特卡洛采样对原始吉布斯采样方法进行优化具体包括:计算每个主题中各特征词的权重,将其与lda中主题的概念和词的概率相结合,给不同的特征词在不同的主题下分配不同的权重,改变生成特征词的概率,改进后的吉布斯采样方法的计算公式为:其中,表示文本数据中第i个位置的特征词d的主题概率分布,z
i
表示文本数据中的第i个位置的特征词所对应的主题,,表示第m篇文档中第k个主题的特征词的总个数,表示第k个主题中第t个特征词的个数,表示去除下标为i的特征词,特征词的总个数为d,d,j,t=1,2,
…
,d,weight(j)、weight(d)以及weight(t)均表示特征词的权重,α和β均为超参数。8.如权利要求7所述的一种基于改进加权lda模型的话题发现方法,其特征在于,在每次迭代中,对文本数据采用改进后的吉布斯采样方法进行重新扫描采样,直至收敛具体包括:记录每个特征词的权重,若特征词为由textrank算法提取的关键词,则将该关键词的权重值设为该特征词的权重,否则,权重为0;在每次迭代过程中,若特征词为关键词,则按照改进后的吉布斯采样方法重新采样,并
更新采样后的文本数据;若特征词不是关键词,则按照原始吉布斯采样方法重新采样,并更新采样后的文本数据。9.如权利要求1所述的一种基于改进加权lda模型的话题发现方法,其特征在于,步骤s4具体包括:将测试文本输入至用于话题发现的lda模型得到关于测试文本的主题分布概率,对主题进行降序排序,输出topn个主题及其对应的主题词,通过人工组合作为该测试文本的话题。10.一种基于改进加权lda模型的话题发现系统,其特征在于,所述系统包括:数据处理模块,采集特定情况下的多源样本数据集,将多源样本数据集转换为可描述的文档,并进行预处理,得到文本数据;关键词提取模块,采用textrank算法来提取文本数据中的关键词,并计算各关键词的权重值;lda模型训练模块,基于各关键词的权重值构建加权lda模型,并对加权lda模型进行优化训练,得到用于话题发现的lda模型;话题发现模块,获取新的多源数据,将其转化为测试文本,输入至用于话题发现的lda模型中得到测试文本的话题。
技术总结
本发明提出了一种基于改进加权LDA模型的话题发现方法及系统,其方法包括:采集特定情况下的多源样本数据集,将多源样本数据集转换为可描述的文档,并进行预处理,得到文本数据;采用TextRank算法来提取文本数据中的关键词,并计算各关键词的权重值;基于各关键词的权重值构建加权LDA模型,并对加权LDA模型进行优化训练,得到用于话题发现的LDA模型;获取新的多源数据,将其转化为测试文本,输入至用于话题发现的LDA模型中得到测试文本的话题。本发明解决了现有技术中话题提取过于片面,不能准确地概括出整个文本核心内容的问题,通过改进的加权LDA模型,能够更有效的抽取其中的隐藏主题,选取出更加合理的话题。选取出更加合理的话题。选取出更加合理的话题。
技术研发人员:杜小军 杜乐 杜登斌
受保护的技术使用者:武汉东湖大数据交易中心股份有限公司
技术研发日:2022.02.17
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-11767.html