一种基于FP-Tree和随机森林算法的网站敏感词自动分类方法与流程

    专利查询2025-06-21  9


    本发明涉及敏感词分类,具体为一种基于fp-tree和随机森林算法的网站敏感词自动分类方法。


    背景技术:

    1、传统的敏感词分类方法可以分为自动分类和人工分类。自动分类主要基于分词、关键词匹配等技术实现,这种分类方法误报率较高,且不适合新敏感词的分类。而人工分类方法的成本较大,分类速度慢,且分类带有主观因素。一种基于fp-tree和随机森林算法的网站敏感词自动分类方法。


    技术实现思路

    1、本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

    2、为解决上述技术问题,根据本发明的一个方面,本发明提供了如下技术方案:

    3、一种基于fp-tree和随机森林算法的网站敏感词自动分类方法,其包括以下步骤:

    4、s1:数据采集,使用python爬虫技术对网络上各个词库数据进行爬取,并对爬取到的数据信息进行分词处理,构成初步的数据集,接着对敏感词的共有属性进行提取形成特征集合,由于特征集合中非数值特征的存在,需要将其转化为数值特征;

    5、s2:关联数据提取与数据分区,提取敏感词的潜在通性作为特征的关联规则,运用fp-tree算法,根据支持度与信任度先从数据集中找出所有的高频项目组,再由这些高频项目组中产生关联规则及其支持度记为(wag),得出的关联规则即是关联特征组(记为a),不存在关联规则的特征数据便为独立特征(记为f),此时特征空间s内存在两种类型数据:独立特征与关联特征组,由此根据数据类型对特征数据空间s进行划分,将所有关联特征组划分为关联特征分区记为sa,将独立特征数据划分为独立特征分区记为sf,在sa中每个关联特征组作为随机森林选择的独立单位;

    6、s3:调整权重度量与选取比例,在原始的随机森林算法中,采用随机等概率选择输入数据,不同分区的数据类型与决定度不同,等概率选择的方法不再适用,数据选择便根据权重计算选取比例;

    7、s4:建立森林树并预测,建树的数据集从两个分区选取包含两种不同数据类型的特征,其中改进的算法对于sa的样本选取的皆是成组的关联特征数据,与sf中选取的数据形成建树训练特征集合,建树时需要对整个数据集进行集合化,释放因关联规则束缚的特征,在分裂建立决策树时,不再根据关联规则绑定特征而根据特定指数进行选取结点并分裂。

    8、作为本发明所述的一种基于fp-tree和随机森林算法的网站敏感词自动分类方法的一种优选方案,其中,所述s3还包括:

    9、s301:单个特征权重:网站敏感词特征具有结构多样,维度不同的性质,在对特征重要性度量时,必须对特征进行分类评定,所有特征的独立权重具体如公式(1)所示:

    10、

    11、式中,wif代表第i个特征的独立权重;f代表数据集样本个数;y代表特征类型数;ni代表第i类特征存在的样本个数;

    12、s302:分区权重:数据空间被划分为两个分区:关联特征分区(sa)与独立特征分区(sf),在改进的算法中,需要同层次先后在两个分区中按照一定的比例进行选取特征数据,分别将sa与sf的权重记为qa与qf,具体如公式(2),(3)所示:

    13、

    14、式中,wia代表第i个关联特征组的权重,其是由分组的特征权重与分组的关联权重(wag)所得;wjf代表第j个特征的独立权重;wiag代表第i个关联特征组的支持度即在大数据样本中此关联分组在所有关联分组中的决定性占比;z表示sa中关联特征组的个数;n表示关联特征组中特征的个数;

    15、

    16、式中,wif代表第i个特征的独立权重;x表示sf中独立特征的个数;

    17、s303:数据选取:在对特征选取的过程中,根据qa与qf分别计算对sa与sf的选取个数:δa与δf,具体如公式(4),(5)所示,构造出训练特征集;

    18、

    19、式中,λ代表权重;δa与δf分别代表sa与sf选取的数据个数;ca代表sa的关联特征组个数;cf代表sf的独立特征的个数;qa与qf分别代表sa与sf的权重。

    20、作为本发明所述的一种基于fp-tree和随机森林算法的网站敏感词自动分类方法的一种优选方案,其中,所述s4还包括:

    21、步骤401:将从sa中选取的数据集da’{a1,a2,…,aδa’}解除关联规则绑定为da{fa1,fa2,…,fan}并与从sf中选取的df{ff1,ff2,…,ffδf}合并组成训练特征集dt{da,df};

    22、步骤402:对于训练特征集dt,根据gini指数与增益值gain从属性中选出最好的分裂方式对该节点进行分裂,每次选取一个特征直至训练特征集为空,每棵树都尽最大程度的生长,并且没有剪枝过程;

    23、步骤403:重复步骤401、402,直至建立随机森林结束,最终根据投票情况来确定敏感词类型。

    24、与现有技术相比,本发明具有的有益效果是:收集原始数据集并对这些数据集做分词处理。接着,对数据集做关联数据提取与数据分区。然后,调整权重度量与选取比例。最后,建立森林树,根据投票情况来确定敏感词类型。本发明可以实现快速、有效地做好网站敏感词分类。



    技术特征:

    1.一种基于fp-tree和随机森林算法的网站敏感词自动分类方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的一种基于fp-tree和随机森林算法的网站敏感词自动分类方法,其特征在于,所述s3还包括:

    3.根据权利要求2所述的一种基于fp-tree和随机森林算法的网站敏感词自动分类方法,其特征在于,所述s4还包括:


    技术总结
    本发明公开一种基于FP‑Tree和随机森林算法的网站敏感词自动分类方法,其包括考勤机本体具有手指插槽,该手指插槽具有第一下倾斜面,且该第一下倾斜面上设置指纹录入端头防护组件包括与所述手指插槽的侧壁铰接的封闭转接板,其中,所述封闭转接板与所述手指插槽的第二下倾斜面接触,将所述手指插槽封闭,且所述封闭转接板可在所述手指插槽内旋转,在考勤机无人使用时,封闭转接板将手指插槽封闭,在有人员考勤时,通过考勤人员的手持插入至手指插槽内,带动封闭转接板在手指插槽翻转,使指纹录入端头录入指纹,当考勤人员的手指从手指插槽离开时,封闭转接板由于自重再次恢复到原来的状态,将手指插槽封闭。

    技术研发人员:叶翔,虞雁群,曾培,刘彦伸,郭银锋,谢波
    受保护的技术使用者:浙江御安信息技术有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-29647.html

    最新回复(0)