基于LDA和向量空间模型的公共政策参与度评估方法及系统与流程

    专利查询2022-08-29  108


    基于lda和向量空间模型的公共政策参与度评估方法及系统
    技术领域
    1.本发明涉及人工智能技术领域,尤其是涉及一种基于lda和向量空间模型的公共政策参与度评估方法及系统。


    背景技术:

    2.公共政策评估是指评估主体根据一定的标准和程序,通过科学的评估工具与评估方法对于政策的必要性、可行性、成本收益以及实施效果做出的综合性判断与评价,其目的在于降低决策风险,提升政策实施效率,对不合理或不完善的政策立项与实施过程适时进行调整与改进,以及为新政策的制定建立理论依据和经验比对,科学的评估程序与评估方法是开展公共政策评估工作的技术保障。公共政策评估的过程都离不开公民的参与,公民参与到公共政策的制度和执行过程中,可以加强公民对公共政策、国家政策和社会的发展的认知和理解,同时还可以为公共政策的落实提供保障,因此,对公共政策中的公民参与度进行评估显得尤为重要。
    3.目前,利用传统数据挖掘中的文本聚类方法对网络文本进行话题检测仍是主流,也有很多的相关市场产品问世,但是,传统的文本聚类算法在数据的降维和语义表达方面的表现并不理想,从而影响了评估结果的准确性和有效性。


    技术实现要素:

    4.有鉴于此,本技术提出了一种基于lda和向量空间模型的公共政策参与度评估方法及系统,有效解决了传统的文本聚类方法存在的数据稀疏和语义丢失问题,能够对公共政策中的公民参与度进行有效评估。
    5.本发明的技术方案是这样实现的:
    6.本发明提出了一种基于lda和向量空间模型的公共政策参与度评估方法,所述方法包括:
    7.s1,获取目标公共政策文档,同时获取目标公共政策文档发布后预设阶段内的动态数据,作为目标动态数据;
    8.s2,采用tf-idf算法分别对所述目标公共政策文档和目标动态数据进行分词处理,得到文档特征分词集合和数据特征分词集合;
    9.s3,建立lda模型,通过lda模型分别提取目标公共政策文档和目标动态数据中隐含的语义信息,得到文档-数据矩阵;
    10.s4,基于文档特征分词集合和数据特征分词集合构建向量空间模型,计算出目标公共政策文档与目标动态数据之间的相似度,得到相似度矩阵;
    11.s5,对文档-数据矩阵和相似度矩阵进行线性加权处理,得到可以映射预设阶段内公民对公共政策的关注度的组合矩阵。
    12.在以上技术方案的基础上,优选的,步骤s2具体包括:
    13.所述tf-idf算法为经过改进的特征权重算法,其计算公式为:
    [0014][0015]
    其中,w(t,d)表示t在d中的权重,tf(t,d)为t在d中出现的频次,d为文本语料库c中的一个文档,t为文档d中的一个词,c={c1,c2,

    ,cm},ci∈c,m为文本语料库的类别数,g表示文本语料库中文档的总数,n
    t
    为文本语料库中包含t的文本数,w(wk,ci)表示词语wk关于类别ci的类别权重,wk表示第k个词, ci表示第i类文章;
    [0016]
    采用tf-idf算法对所述目标公共政策文档进行分词处理,得到一个m
    ×
    n 的矩阵即为文档特征分词集合vm×n,m表示目标公共政策文档中文本的数目, n表示每个文本中词的数目;
    [0017]
    采用tf-idf算法对所述目标动态数据进行分词处理,得到一个p
    ×
    q的矩阵即为数据特征分词集合v
    p
    ×q,p表示目标动态数据中文本的数目,q表示每个文本中词的数目。
    [0018]
    在以上技术方案的基础上,优选的,步骤s3具体包括:
    [0019]
    建立第一lda模型,将目标公共政策文档作为第一lda模型的语料库,对第一lda模型进行训练;
    [0020]
    建立第二lda模型,将目标动态数据作为第二lda模型的语料库,对第二lda模型进行训练;
    [0021]
    第一lda模型用于提取目标公共政策文档的隐藏的语义信息,得到第一词分布矩阵,进而计算出第一主题分布矩阵,将第一词分布矩阵和第一主题分布矩阵的乘积作为文档分布矩阵;
    [0022]
    第二lda模型用于提取目标动态数据中隐含的语义信息,得到第二词分布矩阵,进而计算出第二主题分布矩阵,将第二词分布矩阵和第二主题分布矩阵的乘积作为数据分布矩阵;
    [0023]
    将文档分布矩阵与数据分布矩阵相乘得到文档-数据矩阵。
    [0024]
    在以上技术方案的基础上,优选的,建立lda模型的步骤具体包括:
    [0025]
    s301,随机初始化lda模型,对语料库中每篇文档的每个词w,随机赋予一个主题编号z,主题总数为k;
    [0026]
    s302,重新扫描语料库,对每个词w,按照吉普斯采样公式重新采样它的主题,在语料库中进行更新;
    [0027]
    s303,重复s302的重新采样过程,直到吉普斯采样公式的值收敛;
    [0028]
    s304,统计语料库中主题下词的分布矩阵,进而计算出相应的文档的主题分布矩阵。
    [0029]
    在以上技术方案的基础上,优选的,步骤s304具体包括:
    [0030]
    一个主题下词的分布概率为:
    [0031][0032]
    其中,wk为文档中第k个词,tj为语料库中第j个主题,则词分布矩阵表示为:
    [0033][0034]
    一篇文档中主题的分布概率为:
    [0035][0036]
    其中,tj为语料库中第j个主题,di为语料库中第i篇文档,则主题分布矩阵表示为:
    [0037][0038]
    在以上技术方案的基础上,优选的,将文档分布矩阵与数据分布矩阵相乘得到文档-数据矩阵具体包括:
    [0039]
    将第一词分布矩阵和第一主题分布矩阵的乘积作为文档分布矩阵,所述文档分布矩阵的表达式为:
    [0040]z′
    =x

    ·y′
    [0041]
    其中,z

    表示文档分布矩阵,x

    表示第一词分布矩阵,y

    表示第一主题分布矩阵;
    [0042]
    将第二词分布矩阵和第二主题分布矩阵的乘积作为数据分布矩阵,所述数据分布矩阵的表达式为:
    [0043]z″
    =x

    ·y″
    [0044]
    其中,z

    表示文档分布矩阵,x

    表示第一词分布矩阵,y

    表示第一主题分布矩阵;
    [0045]
    将文档分布矩阵与数据分布矩阵相乘得到文档-数据矩阵,所述文档-数据权重的表达式为:
    [0046]
    r=z

    ·z″
    [0047]
    其中,r表示文档-数据矩阵,z

    表示文档分布矩阵,z

    表示文档分布矩阵。
    [0048]
    在以上技术方案的基础上,优选的,步骤s4具体包括:
    [0049]
    计算文档特征分词集合和数据特征分词集合之间的相似度,得到相似度矩阵,其表达式为:
    [0050][0051]
    其中,s
    mp
    为文档特征分词集合vm×n的第m行与数据特征分词集合v
    p
    ×q第 p行的余弦相似度,m=1,2,

    ,m,p=1,2,

    ,p。
    [0052]
    在以上技术方案的基础上,优选的,步骤s5具体包括:
    [0053]
    对文档-数据矩阵和相似度矩阵进行线性加权,得到组合矩阵q,其计算公式为:
    [0054]
    q=θ
    ×
    r (1-θ)
    ×e[0055]
    其中,θ为线性组合系数,r为文档-数据矩阵,e为相似度矩阵。
    [0056]
    在以上技术方案的基础上,优选的,步骤s4还包括:
    [0057]
    设置若干评估阈值,将组合矩阵中的数据与所述若干评估阈值进行比对,确定预设阶段内公民对公共政策的话题倾向类别,并统计出各类别的占比率。
    [0058]
    本发明还提出了一种基于lda和向量空间模型的公共政策参与度评估系统,所述系统包括:
    [0059]
    数据获取模块,获取目标公共政策文档,同时获取目标公共政策文档发布后预设阶段内的动态数据,作为目标动态数据;
    [0060]
    数据处理模块,采用tf-idf算法分别对所述目标公共政策文档和目标动态数据进行分词处理,得到文档特征分词集合和数据特征分词集合;
    [0061]
    lda模型建立模块,建立lda模型,通过lda模型分别提取目标公共政策文档和目标动态数据中隐含的语义信息,得到文档-数据矩阵;
    [0062]
    向量空间模型建立模块,基于文档特征分词集合和数据特征分词集合构建向量空间模型,计算出目标公共政策文档与目标动态数据之间的相似度,得到相似度矩阵;
    [0063]
    分析模块,对文档-数据矩阵和相似度矩阵进行线性加权处理,得到可以映射预设阶段内公民对公共政策的关注度与倾向性分析的组合矩阵。
    [0064]
    本发明的一种基于lda和向量空间模型的公共政策参与度评估方法及系统,相对于现有技术,具有以下有益效果:
    [0065]
    (1)基于lda模型和向量空间模型对公共政策中的公民参与度进行评估,能够发现大数据中隐含的语义信息,向量空间模型能在数据较多维度较高的情况下进行数据降维,避免了数据稀疏的问题。
    [0066]
    (2)对预设阶段内目标公共政策文档和公民对目标公共政策文档的各种反馈数据进行分析,可以全面得到公民对目标公共政策文档中各主题的关注度,实现公共政策参与度智能评估结果。
    [0067]
    (3)对lda模型得到的文档-数据矩阵和向量空间模型得到的相似度矩阵进行线性加权处理,综合考虑了目标公共政策文档中的隐藏的语义信息和公民对各主题关注度的影响,提高了评估结果的准确性和有效性。
    附图说明
    [0068]
    为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
    [0069]
    图1为本发明一种基于lda和向量空间模型的公共政策参与度评估方法的流程示意图;
    [0070]
    图2为本发明一种基于lda和向量空间模型的公共政策参与度评估方法中建立lda
    模型的流程示意图。
    具体实施方式
    [0071]
    下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
    [0072]
    如图1所示,本实施例提供了一种基于lda和向量空间模型的公共政策参与度评估方法,其方法包括:
    [0073]
    s1,获取目标公共政策文档,同时获取目标公共政策文档发布后预设阶段内的动态数据,作为目标动态数据。
    [0074]
    需要理解的是,本实施例主要通过爬虫机器人采集官方在互联网上公布的各类公共政策信息,目标公共政策文档可以是多媒体对象;目标动态数据包括媒体和网民的各种反馈信息和数据。例如,2014年《关于金融服务“三农”发展的若干意见》,采集该政策自2014年发布后5年内媒体和网民的各种反馈信息和数据。
    [0075]
    s2,采用tf-idf算法分别对所述目标公共政策文档和目标动态数据进行分词处理,得到文档特征分词集合和数据特征分词集合。
    [0076]
    所述tf-idf算法为经过改进的特征权重算法,其计算公式为:
    [0077][0078]
    其中,w(t,d)表示t在d中的权重,tf(t,d)为t在d中出现的频次,d为文本语料库c中的一个文档,t为文档d中的一个词,c={c1,c2,

    ,cm},ci∈c,m为文本语料库的类别数,g表示文本语料库中文档的总数,n
    t
    为文本语料库中包含t的文本数,w(wk,ci)表示词语wk关于类别ci的类别权重,wk表示第k个词, ci表示第i类文章。
    [0079]
    采用tf-idf算法对所述目标公共政策文档进行分词处理,得到一个m
    ×
    n 的矩阵即为文档特征分词集合vm×n,m表示目标公共政策文档中文本的数目, n表示每个文本中词的数目,文档特征分词集合vm×n中的每一行都表示目标公共政策中一个文本的特征分词权重;
    [0080]
    采用tf-idf算法对所述目标动态数据进行分词处理,得到一个p
    ×
    q的矩阵即为数据特征分词集合v
    p
    ×q,p表示目标动态数据中文本的数目,q表示每个文本中词的数目,数据特征分词集合v
    p
    ×q中每一行都表示目标动态数据中一个文本的特征分词权重。
    [0081]
    在采用tf-idf算法分别对所述目标公共政策文档和目标动态数据进行分词处理前还需要对目标公共政策文档和目标动态数据进行预处理操作,预处理包括去除无用符号、词干还原以及去除停用词等。
    [0082]
    tf-idf是一种用于信息检索与数据挖掘的常用加权技术,tf是词频,idf 是逆向文件频率,本实施例中考虑到同样的词语在某类别文章中出现频繁,但在其他类别文章中很少出现和在所有类别中均出现频繁的现象,在传统的 tf-idf上加以改进,分子分母同时乘以类别权重。
    [0083]
    s3,建立lda模型,通过lda模型分别提取目标公共政策文档和目标动态数据中隐含的语义信息,得到文档-数据矩阵。
    [0084]
    建立第一lda模型,将目标公共政策文档作为第一lda模型的语料库,对第一lda模型进行训练;
    [0085]
    建立第二lda模型,将目标动态数据作为第二lda模型的语料库,对第二lda模型进行训练;
    [0086]
    第一lda模型用于提取目标公共政策文档的隐藏的语义信息,得到第一词分布矩阵,进而计算出第一主题分布矩阵,将第一词分布矩阵和第一主题分布矩阵的乘积作为文档分布矩阵;
    [0087]
    第二lda模型用于提取目标动态数据中隐含的语义信息,得到第二词分布矩阵,进而计算出第二主题分布矩阵,将第二词分布矩阵和第二主题分布矩阵的乘积作为数据分布矩阵;
    [0088]
    将文档分布矩阵与数据分布矩阵相乘得到文档-数据矩阵。
    [0089]
    如图2所示,建立lda模型的步骤具体包括:
    [0090]
    s301,随机初始化lda模型,对语料库中每篇文档的每个词w,随机赋予一个主题编号z,主题总数为k。
    [0091]
    s302,重新扫描语料库,对每个词w,按照吉普斯采样公式重新采样它的主题,在语料库中进行更新。
    [0092]
    需要理解的是,吉普斯采样公式为现有技术,在此不再赘述。
    [0093]
    s303,重复s302的重新采样过程,直到吉普斯采样公式的值收敛。
    [0094]
    需要理解的是,当吉普斯采样公式的值逐渐趋于稳定时,停止重新采样过程,进入下一步。
    [0095]
    s304,统计语料库中主题下词的分布矩阵,进而计算出相应的文档的主题分布矩阵。
    [0096]
    一个主题下词的分布概率为:
    [0097][0098]
    其中,wk为文档中第k个词,tj为语料库中第j个主题,则词分布矩阵表示为:
    [0099][0100]
    一篇文档中主题的分布概率为:
    [0101][0102]
    其中,tj为语料库中第j个主题,di为语料库中第i篇文档,则主题分布矩阵表示为:
    [0103][0104]
    将第一词分布矩阵和第一主题分布矩阵的乘积作为文档分布矩阵,所述文档分布矩阵的表达式为:
    [0105]z′
    =x

    ·y′
    [0106]
    其中,z

    表示文档分布矩阵,x

    表示第一词分布矩阵,y

    表示第一主题分布矩阵;
    [0107]
    将第二词分布矩阵和第二主题分布矩阵的乘积作为数据分布矩阵,所述数据分布矩阵的表达式为:
    [0108]z″
    =x

    ·y″
    [0109]
    其中,z

    表示文档分布矩阵,x

    表示第一词分布矩阵,y

    表示第一主题分布矩阵;
    [0110]
    将文档分布矩阵与数据分布矩阵相乘得到文档-数据矩阵,所述文档-数据权重的表达式为:
    [0111]
    r=z

    ·z″
    [0112]
    其中,r表示文档-数据矩阵,z

    表示文档分布矩阵,z

    表示文档分布矩阵。
    [0113]
    需要理解的是,将词分布矩阵和主题分布矩阵相乘可以得到词在句子中的权重分布度,虽然权重分布度已经体现了句子中词的重要度,但是为了评估公民对公共政策的参与度,要将媒体和网民的评论热点综合起来考虑,所以将文档分布矩阵与数据分布矩阵相乘,通过文档-数据矩阵就能分析出目标公共政策文档的隐含语义信息。
    [0114]
    s4,基于文档特征分词集合和数据特征分词集合构建向量空间模型,计算出目标公共政策文档与目标动态数据之间的相似度,得到相似度矩阵。
    [0115]
    计算文档特征分词集合和数据特征分词集合之间的相似度,得到相似度矩阵,其表达式为:
    [0116][0117]
    其中,s
    mp
    为文档特征分词集合vm×n的第m行与数据特征分词集合v
    p
    ×q第 p行的余弦相似度,m=1,2,

    ,m,p=1,2,

    ,p。
    [0118]
    需要理解的是,s
    mp
    表示的是目标公共政策中的某个文档与目标动态数据中某个文档的相似度,通过这种方法得到目标公共政策文档与目标动态数据之间的相似度,从而更好的反映出公民对公共政策中的话题关注度和倾向度。其中,余弦相似度算法为现有技术,在此不再赘述。
    [0119]
    s5,对文档-数据矩阵和相似度矩阵进行线性加权处理,得到可以映射预设阶段内公民对公共政策的关注度的组合矩阵。
    [0120]
    对文档-数据矩阵和相似度矩阵进行线性加权,得到组合矩阵q,其计算公式为:
    [0121]
    q=θ
    ×
    r (1-θ)
    ×e[0122]
    其中,θ为线性组合系数,r为文档-数据矩阵,e为相似度矩阵。
    [0123]
    需要理解的是,文档-数据矩阵反映的是目标公共政策文档的语义信息,相似度矩阵反映的是公民对公共政策中的话题关注度和倾向度,将文档-数据矩阵和相似度矩阵综合起来,能够对公共政策中的公民参与度进行有效评估,提高了评估的准确性与有效性。
    [0124]
    设置若干评估阈值,将组合矩阵中的数据与所述若干评估阈值进行比对,确定预设阶段内公民对公共政策的话题倾向类别,并统计出各类别的占比率。
    [0125]
    需要理解的是,本实施例中,以2014年《关于金融服务“三农”发展的若干意见》作为目标公共政策文档,以该政策自2014年发布后5年内媒体和网民的各种反馈信息和数据作为目标动态数据,通过lda模型得出话题分布为改善涉农金融环境、完善配套服务体系、严控涉农信贷外流、加大金融创新力度以及其他。因此设置4个评估阈值,当组合矩阵中的某一数据大于或等于第一评估阈值时,其所属话题为改善涉农金融环境;当组合矩阵中的某一数据小于第一评估阈值且大于或等于第二评估阈值时,其所述话题为完善配套服务体系,当组合矩阵中的某一数据小于第二评估阈值且大于或等于第三评估阈值时,其所属话题为严控涉农信贷外流;当组合矩阵中的某一数据小于第三评估阈值且大于或等于第四评估阈值时,其所属话题为加大金融创新力度;当组合矩阵中的某一数据小于第四评估阈值时,其所属话题为其他。统计各话题的数据占总数据的比例,分析得出预设阶段内公民对公共政策的话题倾向类别占比分别为:改善涉农金融环境占33.6%,完善配套服务体系占28%,严控涉农信贷外流占21.5%,加大金融创新力度占12.2%,其他占4.7%。
    [0126]
    本实施例还提供了一种基于lda和向量空间模型的公共政策参与度评估系统,所述系统包括:
    [0127]
    数据获取模块,获取目标公共政策文档,同时获取目标公共政策文档发布后预设阶段内的动态数据,作为目标动态数据;
    [0128]
    数据处理模块,采用tf-idf算法分别对所述目标公共政策文档和目标动态数据进行分词处理,得到文档特征分词集合和数据特征分词集合;
    [0129]
    lda模型建立模块,建立lda模型,通过lda模型分别提取目标公共政策文档和目标动态数据中隐含的语义信息,得到文档-数据矩阵;
    [0130]
    向量空间模型建立模块,基于文档特征分词集合和数据特征分词集合构建向量空间模型,计算出目标公共政策文档与目标动态数据之间的相似度,得到相似度矩阵;
    [0131]
    分析模块,对文档-数据矩阵和相似度矩阵进行线性加权处理,得到可以映射预设阶段内公民对公共政策的关注度与倾向性分析的组合矩阵。
    [0132]
    以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。

    技术特征:
    1.一种基于lda和向量空间模型的公共政策参与度评估方法,其特征在于,所述方法包括:s1,获取目标公共政策文档,同时获取目标公共政策文档发布后预设阶段内的动态数据,作为目标动态数据;s2,采用tf-idf算法分别对所述目标公共政策文档和目标动态数据进行分词处理,得到文档特征分词集合和数据特征分词集合;s3,建立lda模型,通过lda模型分别提取目标公共政策文档和目标动态数据中隐含的语义信息,得到文档-数据矩阵;s4,基于文档特征分词集合和数据特征分词集合构建向量空间模型,计算出目标公共政策文档与目标动态数据之间的相似度,得到相似度矩阵;s5,对文档-数据矩阵和相似度矩阵进行线性加权处理,得到可以映射预设阶段内公民对公共政策的关注度的组合矩阵。2.如权利要求1所述的一种基于lda和向量空间模型的公共政策参与度评估方法,其特征在于,步骤s2具体包括:所述tf-idf算法为经过改进的特征权重算法,其计算公式为:其中,w(t,d)表示t在d中的权重,tf(t,d)为t在d中出现的频次,d为文本语料库c中的一个文档,t为文档d中的一个词,c={c1,c2,

    ,c
    m
    },c
    i
    ∈c,m为文本语料库的类别数,g表示文本语料库中文档的总数,n
    t
    为文本语料库中包含t的文本数,w(w
    k
    ,c
    i
    )表示词语w
    k
    关于类别c
    i
    的类别权重,w
    k
    表示第k个词,c
    i
    表示第i类文章;采用tf-idf算法对所述目标公共政策文档进行分词处理,得到一个m
    ×
    n的矩阵即为文档特征分词集合v
    m
    ×
    n
    ,m表示目标公共政策文档中文本的数目,n表示每个文本中词的数目;采用tf-idf算法对所述目标动态数据进行分词处理,得到一个p
    ×
    q的矩阵即为数据特征分词集合v
    p
    ×
    q
    ,p表示目标动态数据中文本的数目,q表示每个文本中词的数目。3.如权利要求2所述的一种基于lda和向量空间模型的公共政策参与度评估方法,其特征在于,步骤s3具体包括:建立第一lda模型,将目标公共政策文档作为第一lda模型的语料库,对第一lda模型进行训练;建立第二lda模型,将目标动态数据作为第二lda模型的语料库,对第二lda模型进行训练;第一lda模型用于提取目标公共政策文档的隐藏的语义信息,得到第一词分布矩阵,进而计算出第一主题分布矩阵,将第一词分布矩阵和第一主题分布矩阵的乘积作为文档分布矩阵;第二lda模型用于提取目标动态数据中隐含的语义信息,得到第二词分布矩阵,进而计算出第二主题分布矩阵,将第二词分布矩阵和第二主题分布矩阵的乘积作为数据分布矩阵;将文档分布矩阵与数据分布矩阵相乘得到文档-数据矩阵。
    4.如权利要求3所述的一种基于lda和向量空间模型的公共政策参与度评估方法,其特征在于,建立lda模型的步骤具体包括:s301,随机初始化lda模型,对语料库中每篇文档的每个词w,随机赋予一个主题编号z,主题总数为k;s302,重新扫描语料库,对每个词w,按照吉普斯采样公式重新采样它的主题,在语料库中进行更新;s303,重复s302的重新采样过程,直到吉普斯采样公式的值收敛;s304,统计语料库中主题下词的分布矩阵,进而计算出相应的文档的主题分布矩阵。5.如权利要求4所述的一种基于lda和向量空间模型的公共政策参与度评估方法,其特征在于,步骤s304具体包括:一个主题下词的分布概率为:其中,w
    k
    为文档中第k个词,t
    j
    为语料库中第j个主题,则词分布矩阵表示为:一篇文档中主题的分布概率为:其中,t
    j
    为语料库中第j个主题,d
    i
    为语料库中第i篇文档,则主题分布矩阵表示为:6.如权利要求5所述的一种基于lda和向量空间模型的公共政策参与度评估方法,其特征在于,将文档分布矩阵与数据分布矩阵相乘得到文档-数据矩阵具体包括:将第一词分布矩阵和第一主题分布矩阵的乘积作为文档分布矩阵,所述文档分布矩阵的表达式为:z

    =x

    ·
    y

    其中,z

    表示文档分布矩阵,x

    表示第一词分布矩阵,y

    表示第一主题分布矩阵;将第二词分布矩阵和第二主题分布矩阵的乘积作为数据分布矩阵,所述数据分布矩阵的表达式为:z

    =x

    ·
    y

    其中,z

    表示文档分布矩阵,x

    表示第一词分布矩阵,y

    表示第一主题分布矩阵;将文档分布矩阵与数据分布矩阵相乘得到文档-数据矩阵,所述文档-数据权重的表达
    式为:r=z

    ·
    z

    其中,r表示文档-数据矩阵,z

    表示文档分布矩阵,z

    表示文档分布矩阵。7.如权利要求6所述的一种基于lda和向量空间模型的公共政策参与度评估方法,其特征在于,步骤s4具体包括:计算文档特征分词集合和数据特征分词集合之间的相似度,得到相似度矩阵,其表达式为:其中,s
    mp
    为文档特征分词集合v
    m
    ×
    n
    的第m行与数据特征分词集合v
    p
    ×
    q
    第p行的余弦相似度,m=1,2,

    ,m,p=1,2,

    ,p。8.如权利要求7所述的一种基于lda和向量空间模型的公共政策参与度评估方法,其特征在于,步骤s5具体包括:对文档-数据矩阵和相似度矩阵进行线性加权,得到组合矩阵q,其计算公式为:q=θ
    ×
    r (1-θ)
    ×
    e其中,θ为线性组合系数,r为文档-数据矩阵,e为相似度矩阵。9.如权利要求1所述的一种基于lda和向量空间模型的公共政策参与度评估方法,其特征在于,步骤s4还包括:设置若干评估阈值,将组合矩阵中的数据与所述若干评估阈值进行比对,确定预设阶段内公民对公共政策的话题倾向类别,并统计出各类别的占比率。10.一种基于lda和向量空间模型的公共政策参与度评估系统,其特征在于,所述系统包括:数据获取模块,获取目标公共政策文档,同时获取目标公共政策文档发布后预设阶段内的动态数据,作为目标动态数据;数据处理模块,采用tf-idf算法分别对所述目标公共政策文档和目标动态数据进行分词处理,得到文档特征分词集合和数据特征分词集合;lda模型建立模块,建立lda模型,通过lda模型分别提取目标公共政策文档和目标动态数据中隐含的语义信息,得到文档-数据矩阵;向量空间模型建立模块,基于文档特征分词集合和数据特征分词集合构建向量空间模型,计算出目标公共政策文档与目标动态数据之间的相似度,得到相似度矩阵;分析模块,对文档-数据矩阵和相似度矩阵进行线性加权处理,得到可以映射预设阶段内公民对公共政策的关注度的组合矩阵。

    技术总结
    本发明提出了一种基于LDA和向量空间模型的公共政策参与度评估方法及系统,其方法包括:获取目标公共政策文档和目标动态数据;采用TF-IDF算法分别对目标公共政策文档和目标动态数据进行分词处理,得到文档特征分词集合和数据特征分词集合;通过LDA模型分别提取目标公共政策文档和目标动态数据中隐含的语义信息,得到文档-数据矩阵;基于文档特征分词集合和数据特征分词集合构建向量空间模型,计算出目标公共政策文档与目标动态数据之间的相似度,得到相似度矩阵;对文档-数据矩阵和相似度矩阵进行线性加权处理。本发明能够对公共政策中的公民参与度进行有效评估,同时也解决了数据稀疏和语义丢失的问题,提高了评估的准确性和有效性。性和有效性。性和有效性。


    技术研发人员:杜登伟 杜登斌 杜乐 杜小军
    受保护的技术使用者:武汉东湖大数据交易中心股份有限公司
    技术研发日:2022.02.17
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-11775.html

    最新回复(0)