基于DS证据理论融合的社交网络异常用户检测方法

专利查询2024-03-09 84

基于ds证据理论融合的社交网络异常用户检测方法
技术领域
1.本发明涉及网络安全检测技术领域，尤其涉及一种基于ds证据理论融合的社交网络异常用户检测方法。

背景技术：

2.在线社交网络中发布虚假不实等消息的账户数量持续增长，而平台中庞大的用户信息数据与用户的多样性给异常用户检测问题增加了难度。如何从在线社交平台的信息传播中准确检测出异常用户，从而对异常用户群体进行针对性分析，是一项十分有意义的研究。
3.面对复杂的网络环境，首先在在线社交网络的庞大的用户数据与发布信息中分析出异常用户的特征并检测出异常用户是异常用户检测问题与防治的基础。
4.目前，现有技术中对在线社交网络中异常用户进行检测的方法主要包括：
5.1.针对异常用户的行为特征，例如发布消息的频率或短时间内发布大量好友请求等，利用分类器对这些特征进行训练构建检测模型。
6.2.利用异常用户所发布内容与正常用户差距较大的特点，利用分类器对这些特征进行训练构建监测模型。
7.上述现有技术中的使用分类模型进行异常用户检测的方法存在如下缺点：采用单个分类器对异常用户进行检测，这将导致检测不均衡的问题，造成检测的正确率低。

技术实现要素：

8.本发明的实施例提供了基于ds证据理论融合的社交网络异常用户检测方法，以实现有效地对微博异常用户进行检测。
9.为了实现上述目的，本发明采取了如下技术方案。
10.一种基于ds证据理论融合的社交网络异常用户检测方法，包括：
11.构建并训练卷积神经网络分类模型和k近邻算法分类模型，得到所述卷积神经网络分类模型和所述k近邻算法分类模型对异常用户检测的准确率；
12.分别使用所述卷积神经网络分类模型和所述k近邻算法分类模型对被检测用户的博文文本进行识别，得到所述卷积神经网络分类模型和所述k近邻算法分类模型对所述被检测用户的检测结果；
13.通过d-s融合规则基于所述卷积神经网络分类模型和所述k近邻算法分类模型对异常用户检测的准确率，对所述卷积神经网络分类模型和所述k近邻算法分类模型对所述被检测用户的检测结果进行融合，获取所述被检测用户的异常用户检测结果。
14.优选地，所述的方法还包括：
15.获取一定数量的在线社交网络平台中用户发布的博文文本数据，对博文文本数据进行清洗、去重，去掉博文内容中的表情符号与特殊符号，通过 jieba方法对博文文本内容进行中文分词处理，去除停用词，得到博文文本的特征向量，该特征向量以矩阵形式表示；
16.根据所有博文文本的特征向量构造训练集和测试集。
17.优选地，所述的构建并训练卷积神经网络分类模型和k近邻算法分类模型，得到所述卷积神经网络分类模型和所述k近邻算法分类模型对异常用户检测的准确率，包括：
18.构建基于卷积神经网络的异常用户分类器模型和基于k近邻算法的异常用户分类器模型；
19.利用所述训练集数据对所述卷积神经网络分类模型和所述k近邻算法分类模型进行训练，利用所述测试集数据对所述卷积神经网络分类模型和所述k近邻算法分类模型进行测试，得到训练好的基于卷积神经网络的异常用户分类器模型和基于k近邻算法的异常用户分类器模型，以及两种异常用户分类器模型的平均识别准确率。
20.优选地，所述的分别使用所述卷积神经网络分类模型和所述k近邻算法分类模型对被检测用户的博文文本进行识别，得到所述卷积神经网络分类模型和所述k近邻算法分类模型对所述被检测用户的检测结果，包括：
21.获取被检测用户的以矩阵形式表示的博文文本特征向量，将该博文文本特征向量输入到所述基于卷积神经网络的异常用户分类器模型和基于k近邻算法的异常用户分类器模型；
22.所述基于卷积神经网络的异常用户分类器模型将被检测用户的一定数量的博文文本内容向量化，利用卷积神经网络隐含层的学习与训练来挖掘文本深层的特征，确定待检测用户的类别检测结果，该类别检测结果包括基本概率赋值bpa函数，该bpa函数中包括是异常用户或者不是异常用户；
23.所述基于k近邻算法的异常用户分类器模型通过将博文文本内容用向量空间表示出来，对待定类别用户进行分类，将该用户的博文内容与训练集中所有博文内容进行相似度计算，接下来把计算结果降序排序，选取最近似的若干博文，根据这些博文所属的用户类别，确定待检测用户的类别检测结果，该类别检测结果包括bpa函数。
24.优选地，所述的通过d-s融合规则基于所述卷积神经网络分类模型和所述 k近邻算法分类模型对异常用户检测的准确率，对所述卷积神经网络分类模型和所述k近邻算法分类模型对所述被检测用户的检测结果进行融合，获取所述被检测用户的异常用户检测结果，包括：
25.通过d-s融合规则基于所述卷积神经网络分类模型和所述k近邻算法分类模型对异常用户检测的准确率，对被检测用户在所述卷积神经网络分类模型和所述k近邻算法分类模型上的bpa函数进行融合，得到所述卷积神经网络分类模型和所述k近邻算法分类模型的检测结果的联合信度，根据联合信度利用信度规则获取所述被检测用户的异常用户检测结果；
26.设fi(i＝1，2)分别表示所述卷积神经网络分类模型和所述k近邻算法分类模型，将被检测用户的博文文本特征向量输入到两种分类器模型中，得到的识别结果为ri(ri＝0或ri＝1)，当ri＝1表示识别结果为异常用户，ri＝0 表示识别结果不是异常用户，i类分类器模型对异常的检测准确率为pi；
27.通过全概率理论公式初步得到i类分类器模型的异常用户检测结果的支持度：
28.mi＝pi×ri
+(1-pi)
×
(1-ri)
29.根据bpa函数在识别框架幂集上的两种分类器模型的信度之和等于1的特点：
[0030][0031]
将上式归一化，得到公式：
[0032][0033]
其中p，r分别为识别准确率和识别结果；
[0034]
根据上式得到所述卷积神经网络分类模型和所述k近邻算法分类模型的检测结果的联合信度，根据ds证据理论融合规则和信度规则得到被检测用户的异常用户识别结果。
[0035]
设最终检测的得到的用户为异常用户的联合信度为l(abn)，则l(abn)应满足以下信度规则。
[0036]
(1)l(abn)为两种用户属性联合信度值的最大值。
[0037]
(2)l(abn)的值必须大于阈值x。
[0038]
(3)目标函数l(abn)的与另一类别用户的基本概率分配值的差值必须总大于阈值y。
[0039]
(4)如果上述条件都不能被满足，则输出用户检测结果为“无法识别用户”。
[0040]
由上述本发明的实施例提供的技术方案可以看出，本发明的方案通过结合被检测内容在每种分类器上的识别结果和各个分类器对不同用户的分类准确率，构建基本概率函数，通过ds证据理论融合规则对分类器融合后对被测用户进行识别，均衡有效的实现了对微博异常用户的检测。
[0041]
本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
[0042]
为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0043]
图1为本发明实施例提供的一种基于多分类器ds证据理论融合的社交网络异常用户检测方法的实现原理图。
[0044]
图2为本发明实施例提供的一种基于多分类器ds证据理论融合的社交网络异常用户检测方法的处理流程图。
具体实施方式
[0045]
下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。
[0046]
本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措
辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
[0047]
本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语 (包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。
[0048]
为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。
[0049]
本发明提出了一种能够提高检测准确率与稳定性的结合多种分类器的社交网络异常用户检测方法，即利用ds证据理论对不同分类器进行融合实现对异常用户的检测。本发明方法的处理过程包括：使用在线社交平台用户的博文文本作为输入，再由数据预处理将原始用户文本数据映射表示为特征向量，接下来通过句向量模型pv-dm提取出特征向量的关键表示特征，通过卷积神经网络和k近邻算法进行模型训练，根据以上两种分类器模型，对样本集进行测试，得到各个分类器对异常用户检测的准确率。分别使用以上两种分类模型对被检测用户进行识别，将检测结果和两个分类器的平均识别准确率进行融合，得到各分类器对异常用户的基本概率函数。在ds融合系统中进行多分类器在异常用户上的信度融合，得到待检测用户为异常用户的联合信度。最后根据信度规则，对待检测用户进行识别，生成最终结果。
[0050]
本发明实施例提供的一种基于多分类器ds证据理论融合的社交网络异常用户检测方法的实现原理图如图1所示，具体处理流程如图2所示，包括以下处理步骤：
[0051]
步骤s10、使用在线社交平台用户的博文文本作为输入，再由句向量模型将原始用户文本数据映射表示为特征向量。
[0052]
在线社交网络平台中用户发布的博文文本可能包括多种形式与表达，例如可能包含平台表情符号、特殊符号和url链接等。获取一定数量的博文文本数据构造训练集和测试集。
[0053]
基于文本分析的卷积神经网络分类模型和k近邻算法分类模型的输入为文本向量化的矩阵表示形式，在将博文文本输入之前，需要对博文文本进行预处理，将博文文本表示为模型可处理的数字形式。首先对博文文本数据进行清洗、去重，去掉博文内容中的表情符号与特殊符号等等。然后，通过jieba 方法对博文文本内容进行中文分词处理，去除停用词，得到博文文本的特征向量，该特征向量以矩阵形式表示。
[0054]
jieba方法基于前缀词典进行词图扫描，找出句子中汉字所有生成词构成的有向无环图，再通过动态规划找出最大概率路径，找出基于词频的最大切分组合。然后通过句向量模型pv-dm将微博用户的每一条博文映射成一个段落向量。在输入层中加入段落向量，每一次训练该段落向量参与训练，且随着在一个句子中滑动取若干词训练，该段落向量能够表达的主旨含义会愈发清晰准确。将每个用户100条微博文本分别通过段落向量表示，通过句向量模型 pv-dm对用户的博文文本内容进行处理，输出向量维度设置为100，窗口的大小
设置为4，训练迭代轮数设为150，把用户博文矩阵表示为长度为100的特征向量。
[0055]
步骤s20、构建并训练卷积神经网络分类模型和k近邻算法分类模型，根据以上两种分类器模型，对样本集进行测试，得到各个分类器对异常用户检测的准确率。
[0056]
构建基于卷积神经网络的异常用户分类器模型和基于k近邻算法的异常用户分类器模型。
[0057]
利用训练集数据对上述两个分类器模型进行训练，利用测试集数据对上述两个分类器模型进行测试，得到训练好的基于卷积神经网络的异常用户分类器模型和基于k近邻算法的异常用户分类器模型，以及两种异常用户分类器模型的平均识别准确率。
[0058]
步骤s30、分别使用以上两种分类器模型对被检测用户进行识别，将检测结果和两个分类器的平均识别准确率进行融合，得到各分类器对异常用户的基本概率函数。
[0059]
获取被检测用户的以矩阵形式表示的博文文本特征向量，将该博文文本特征向量输入到上述基于卷积神经网络的异常用户分类器模型和基于k近邻算法的异常用户分类器模型。
[0060]
基于卷积神经网络的异常用户分类器模型将被检测用户的一定数量的博文文本内容向量化，利用卷积神经网络隐含层的学习与训练来挖掘文本深层的特征，确定待检测用户的类别检测结果，该类别检测结果包括基本概率赋值(basic probability assignment,bpa)函数，该bpa函数中包括是异常用户或者不是异常用户。通过这种方式，避免了人工构建特征，即使在用户信息获取不足的情况下也能识别出异常用户。
[0061]
基于k近邻算法的异常用户分类器模型通过将博文文本内容用向量空间表示出来，对待定类别用户进行分类，将该用户的博文内容与训练集中所有博文内容进行相似度计算，接下来把计算结果降序排序，选取最近似的若干博文，根据这些博文所属的用户类别，确定待检测用户的类别检测结果，该类别检测结果包括bpa函数，该bpa函数中包括是异常用户或者不是异常用户。
[0062]
然后，通过dempster-shafer(d-s)融合规则基于上述两个异常用户分类器模型的平均识别准确率，对被检测用户在上述两个异常用户分类器模型上的bpa函数进行融合，得到上述两个异常用户分类器模型对被检测用户的检测结果的联合信度。根据联合信度利用信度规则获取上述被检测用户的异常用户检测。
[0063]
在一个实施例中，设fi(i＝1，2)分别表示基于卷积神经网络的异常用户分类器模型和基于k近邻算法的异常用户分类器模型。将在线社交网络用户的博文内容特征向量输入到两种异常用户分类器模型中，求得i类异常用户分类器模型对异常的检测准确率为pi。
[0064]
引入被检测用户博文内容，在两种异常用户分类器模型上分别进行识别，得到的识别结果为ri(ri＝0或ri＝1)，当ri＝1表示识别结果为异常用户，ri＝0表示识别结果不是异常用户。然后通过全概率理论公式初步得到i 类异常用户分类器模型的异常用户检测结果的支持度：
[0065]
mi＝pi×ri
+(1-pi)
×
(1-ri)
[0066]
根据bpa函数在识别框架幂集上的两种分类器模型的信度之和等于1的特点：
[0067]
[0068]
将上式归一化，得到公式：
[0069][0070]
其中p，r分别为识别准确率和识别结果。
[0071]
根据上式可以得到两种异常用户分类器模型对异常用户的信度值，根据 ds证据理论融合规则和信度规则得到被检测用户的识别结果。
[0072]
设最终检测的得到的用户为异常用户的联合信度为l(abn)，则l(abn)应满足以下信度规则。
[0073]
(1)l(abn)为两种用户属性联合信度值的最大值。
[0074]
(2)l(abn)的值必须大于阈值x。
[0075]
(3)目标函数l(abn)的与另一类别用户的基本概率分配值的差值必须总大于阈值y。
[0076]
(4)如果上述条件都不能被满足，则输出用户检测结果为“无法识别用户”。
[0077]
根据信度规则来确定最终被检测用户的类别，经过试验，本发明将x的值确定为0.80，将y的值确定为0.52。
[0078]
综上所述，本发明的方案通过ds证据理论融合规则对分类器融合后对被测用户进行识别，均衡有效的实现了对在线社交网络异常用户的检测。
[0079]
本发明实施例的方法相比于现有技术方案有着较高的异常用户检测准确率和较高的抗干扰性。
[0080]
本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。
[0081]
通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0082]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0083]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

技术特征：
1.一种基于ds证据理论融合的社交网络异常用户检测方法，其特征在于，包括：构建并训练卷积神经网络分类模型和k近邻算法分类模型，得到所述卷积神经网络分类模型和所述k近邻算法分类模型对异常用户检测的准确率；分别使用所述卷积神经网络分类模型和所述k近邻算法分类模型对被检测用户的博文文本进行识别，得到所述卷积神经网络分类模型和所述k近邻算法分类模型对所述被检测用户的检测结果；通过d-s融合规则基于所述卷积神经网络分类模型和所述k近邻算法分类模型对异常用户检测的准确率，对所述卷积神经网络分类模型和所述k近邻算法分类模型对所述被检测用户的检测结果进行融合，获取所述被检测用户的异常用户检测结果。2.根据权利要求1所述的方法，其特征在于，所述的方法还包括：获取一定数量的在线社交网络平台中用户发布的博文文本数据，对博文文本数据进行清洗、去重，去掉博文内容中的表情符号与特殊符号，通过jieba方法对博文文本内容进行中文分词处理，去除停用词，得到博文文本的特征向量，该特征向量以矩阵形式表示；根据所有博文文本的特征向量构造训练集和测试集。3.根据权利要求2所述的方法，其特征在于，所述的构建并训练卷积神经网络分类模型和k近邻算法分类模型，得到所述卷积神经网络分类模型和所述k近邻算法分类模型对异常用户检测的准确率，包括：构建基于卷积神经网络的异常用户分类器模型和基于k近邻算法的异常用户分类器模型；利用所述训练集数据对所述卷积神经网络分类模型和所述k近邻算法分类模型进行训练，利用所述测试集数据对所述卷积神经网络分类模型和所述k近邻算法分类模型进行测试，得到训练好的基于卷积神经网络的异常用户分类器模型和基于k近邻算法的异常用户分类器模型，以及两种异常用户分类器模型的平均识别准确率。4.根据权利要求3所述的方法，其特征在于，所述的分别使用所述卷积神经网络分类模型和所述k近邻算法分类模型对被检测用户的博文文本进行识别，得到所述卷积神经网络分类模型和所述k近邻算法分类模型对所述被检测用户的检测结果，包括：获取被检测用户的以矩阵形式表示的博文文本特征向量，将该博文文本特征向量输入到所述基于卷积神经网络的异常用户分类器模型和基于k近邻算法的异常用户分类器模型；所述基于卷积神经网络的异常用户分类器模型将被检测用户的一定数量的博文文本内容向量化，利用卷积神经网络隐含层的学习与训练来挖掘文本深层的特征，确定待检测用户的类别检测结果，该类别检测结果包括基本概率赋值bpa函数，该bpa函数中包括是异常用户或者不是异常用户；所述基于k近邻算法的异常用户分类器模型通过将博文文本内容用向量空间表示出来，对待定类别用户进行分类，将该用户的博文内容与训练集中所有博文内容进行相似度计算，接下来把计算结果降序排序，选取最近似的若干博文，根据这些博文所属的用户类别，确定待检测用户的类别检测结果，该类别检测结果包括bpa函数。5.根据权利要求4所述的方法，其特征在于，所述的通过d-s融合规则基于所述卷积神经网络分类模型和所述k近邻算法分类模型对异常用户检测的准确率，对所述卷积神经网
络分类模型和所述k近邻算法分类模型对所述被检测用户的检测结果进行融合，获取所述被检测用户的异常用户检测结果，包括：通过d-s融合规则基于所述卷积神经网络分类模型和所述k近邻算法分类模型对异常用户检测的准确率，对被检测用户在所述卷积神经网络分类模型和所述k近邻算法分类模型上的bpa函数进行融合，得到所述卷积神经网络分类模型和所述k近邻算法分类模型的检测结果的联合信度，根据联合信度利用信度规则获取所述被检测用户的异常用户检测结果；设f
i
(i＝1，2)分别表示所述卷积神经网络分类模型和所述k近邻算法分类模型，将被检测用户的博文文本特征向量输入到两种分类器模型中，得到的识别结果为r
i
(r
i
＝0或r
i
＝1)，当r
i
＝1表示识别结果为异常用户，r
i
＝0表示识别结果不是异常用户，i类分类器模型对异常的检测准确率为p
i
；通过全概率理论公式初步得到i类分类器模型的异常用户检测结果的支持度：m
i
＝p
i
×
r
i
+(1-p
i
)
×
(1-r
i
)根据bpa函数在识别框架幂集上的两种分类器模型的信度之和等于1的特点：将上式归一化，得到公式：其中p，r分别为识别准确率和识别结果；根据上式得到所述卷积神经网络分类模型和所述k近邻算法分类模型的检测结果的联合信度，根据ds证据理论融合规则和信度规则得到被检测用户的异常用户识别结果。设最终检测的得到的用户为异常用户的联合信度为l(abn)，则l(abn)应满足以下信度规则。(1)l(abn)为两种用户属性联合信度值的最大值。(2)l(abn)的值必须大于阈值x。(3)目标函数l(abn)的与另一类别用户的基本概率分配值的差值必须总大于阈值y。(4)如果上述条件都不能被满足，则输出用户检测结果为“无法识别用户”。

技术总结
本发明提供了一种基于DS证据理论融合的社交网络异常用户检测方法。该方法包括：构建并训练卷积神经网络分类模型和K近邻算法分类模型，得到两种分类模型对异常用户检测的准确率；分别使用两种分类模型对被检测用户的博文文本进行识别，得到两种分类模型对被检测用户的检测结果；通过D-S融合规则基于两种分类模型对异常用户检测的准确率，对卷积神经网络分类模型和所述K近邻算法分类模型对被检测用户的检测结果进行融合，获取被检测用户的异常用户检测结果。本发明通过结合被检测内容在每种分类器上的识别结果和分类准确率，通过DS证据理论融合规则对分类器融合后对被测用户进行识别，均衡有效的实现了对微博异常用户的检测。测。测。

技术研发人员：李浥东曹子卓陈乃月金一王涛
受保护的技术使用者：北京交通大学
技术研发日：2022.02.08
技术公布日：2022/5/25

转载请注明原文地址:https://tc.8miu.com/read-21272.html

专利

最新回复(0)