一种基于文本挖掘的黄河流域演进分析方法与流程

    专利查询2022-07-10  133



    1.本发明涉及文本挖掘和演进分析以及交叉领域分析融合技术领域,特别涉及一种基于文本挖掘的黄河流域演进分析方法。


    背景技术:

    2.目前,黄河流域生态保护和高质量发展已经上升为国家战略,流域内研究热点及前沿动态日益受到关注。识别、监测黄河流域的学术研究和政策研究的演进和迁移,有利于把握缓黄河流域发展的流动规律,追溯黄河流域在学术方面和政策方面的发展轨迹,为有效地遴选和追踪重点研究项目提供借鉴和参考。因此,对黄河上中下游学术与政策文本进行文章发布数量、机构、作者、关键词与研究热点进行分析与分类研究,从而系统地梳理和分析黄河上中下游发展的重点信息与演进脉络,可以为黄河流域因地制宜、分类施策提供技术支撑。
    3.但是,现存的单一网络、单一视角的演进分析方法无法满足黄河领域演进分析过程中各领域文献的分析准确性和即时性以及交叉性。
    4.因此,本发明提出一种基于文本挖掘的黄河流域演进分析方法。


    技术实现要素:

    5.本发明提供一种基于文本挖掘的黄河流域演进分析方法,用以满足黄河领域演进分析过程中各领域文献的分析准确性和即时性以及交叉性,快速准确地跟踪黄河流域在各领域的发展趋势,把握相关知识的演进规律,从而更好地为黄河流域因地制宜、分类施策提供技术支撑。
    6.本发明提供一种基于文本挖掘的黄河流域演进分析方法,包括:
    7.s1:对挖掘文本进行处理获得黄河流域演进对应的分析样本;
    8.s2:将所述分析样本中每篇文献包含的知识元进行共现配对,获得对应的共现关系,基于所述共现关系,构建出对应的知识元共现网络;
    9.s3:基于所述分析样本中每篇文献的引文路径构建出引文耦合网络,基于所述引文耦合网络和知识元共现网络构建出知识元融合网络;
    10.s4:基于所述知识元对应的网络中心性指标值构建出不同时间切片下对应的目标知识元网络,对所述目标知识元网络进行分析获得黄河流域的演进分析路径;
    11.s5:确定出每个目标知识元在所述目标知识元网络中和对应核心知识元的共现集群度,基于所述演进分析路径和所述共现集群度获得对应的演进分析结果。
    12.优选的,所述的一种基于文本挖掘的黄河流域演进分析方法,s1:对挖掘文本进行处理获得黄河流域演进对应的分析样本,包括:
    13.s101:基于黄河流域演进分析的关键词列表对文献库进行关键词检索,获得检索结果;
    14.s102:建立所述检索结果和演进分析平台之间的链接协议;
    15.s103:基于所述链接协议实时获取最新的检索结果中每篇文献对应的来源链接;
    16.s104:基于所述来源链接获得对应的挖掘文本;
    17.s105:对所述挖掘文本进行片段截取、分词处理、词频统计、关键词标注,获得对应的分析样本。
    18.优选的,所述的一种基于文本挖掘的黄河流域演进分析方法,s105:对所述挖掘文本进行片段截取、分词处理、词频统计、关键词标注,获得对应的分析样本,包括:
    19.对所述挖掘样本进行引文片段截取和核心片段截取,获得对应的有效文本;
    20.对所述有效文本进行分词,获得分词结果;
    21.基于所述分词结果进行词频统计,获得统计结果;
    22.基于所述统计结果获得片段关键词,并对对应文本片段进行关键词标注,获得关键词标注结果;
    23.基于所述统计结果和所述关键词标注结果获得每篇文献对应的词袋数据,将所述词袋数据和所述有效文本作为每篇文献对应的初始处理文本;
    24.将所有初始处理文本融合后获得分析样本。
    25.优选的,所述的一种基于文本挖掘的黄河流域演进分析方法,s2:将所述分析样本中每篇文献包含的知识元进行共现配对,获得对应的共现关系,基于所述共现关系,构建出对应的知识元共现网络,包括:
    26.s201:基于命名实体识别技术从所述分析样本中抽取出每篇文献包含的知识元;
    27.s202:将所有知识元进行共现配对,获得共现矩阵;
    28.s203:将所述共现矩阵作为所有知识元的共现关系;
    29.s204:基于所述共现关系,构建出对应的知识元共现网络。
    30.优选的,所述的一种基于文本挖掘的黄河流域演进分析方法,s3:基于所述分析样本中每篇文献的引文路径构建出引文耦合网络,基于所述引文耦合网络和知识元共现网络构建出知识元融合网络,包括:
    31.确定出所述分析样本中每篇文献中包含的知识元对应的引用文献,基于所述知识元对应的引文文献,确定出每篇文献对应的引文列表;
    32.基于所述引文列表构建出对应的引文耦合网络;
    33.将所述知识元共现网络和所述引文耦合网络进行耦合,获得对应的知识元融合网络。
    34.优选的,所述的一种基于文本挖掘的黄河流域演进分析方法,s4:基于所述知识元对应的网络中心性指标值构建出不同时间切片下对应的目标知识元网络,对所述目标知识元网络进行分析获得黄河流域的演进分析路径,包括:
    35.基于预设的中心性网络测量指标,确定出不同时间切片下所述知识元融合网络的微观层面网络特征;
    36.基于所述微观层面网络特征对知识元集合进行筛选,获得不同时间切片下对应的目标知识元;
    37.基于所有目标知识元和所述知识元融合网络中所述目标知识元之间的连接关系,构建出不同时间切片下对应的目标知识元网络;
    38.对所述目标知识元网络进行分析,获得黄河流域的演进分析路径。
    39.优选的,所述的一种基于文本挖掘的黄河流域演进分析方法,基于预设的中心性网络测量指标,确定出不同时间切片下所述知识元融合网络的微观层面网络特征,包括:
    40.计算出不同时间切片下每个知识元在所述知识元融合网络中的第一度中心性值、第一中介中心性值、第一接近中心性值;
    41.将不同时间切片下每个知识元对应的第一度中心性值、第一中介中心性值、第一接近中心性值作为对应时间切片下所述知识元融合网络的微观层面网络特征。
    42.优选的,所述的一种基于文本挖掘的黄河流域演进分析方法,基于所述微观层面网络特征对知识元集合进行筛选,获得不同时间切片下对应的目标知识元,包括:
    43.从所述知识元集合中筛选出所述第一度中心性值大于第一阈值且所述第一中介中心性值大于第二阈值且所述第一接近中心性值大于第三阈值的知识元作为第一知识元;
    44.基于所述第一知识元和所述知识元融合网络中的连接关系构建出第一知识元网络;
    45.计算出所述第一知识元在所述第一知识元网络中对应的第二度中心性值、第二中介中心性值、第二接近中心性值;
    46.并计算出对应的度中心性差值、中介中心性差值、接近中心性差值;
    47.判断所述度中心性差值和所述中介中心性差值以及所述接近中心性差值结果是否都为正,若是,则基于所述第二度中心性值、所述第二中介中心性值和所述第二接近中心性值以及正向梯度中心性阈值列表对所述第一知识元继续筛选,直至所述中心性差值和所述中介中心性差值以及所述接近中心性差值的结果都为0时,则将筛选出的知识元作为所述目标知识元;
    48.否则,基于所述逆向梯度中心性阈值列表对所述知识元集合进行重新筛选,直至重新筛选出的第一知识元对应的度中心性差值、中介中心性差值、接近中心性差值结果都为正时,则基于最新确定的度中心性值、中介中心性值、接近中心性值和正向梯度中心性阈值列表对所述第一知识元继续筛选,直至所述中心性差值和所述中介中心性差值以及所述接近中心性差值的结果都为0时,则将筛选出的知识元作为所述目标知识元。
    49.优选的,所述的一种基于文本挖掘的黄河流域演进分析方法,对所述目标知识元网络进行分析,获得黄河流域的演进分析路径,包括:
    50.基于所述目标知识元网络构建出对应的有向图;
    51.计算出所述有向图中每个有向链接的权重,包括:
    [0052][0053]
    式中,为所述有向图中第p个目标知识元至第q个目标知识元之间的有向链接的权重,out_d
    p
    为所述有向图中第p个目标知识元在所述目标知识元网络中的出度,out_dq为所述有向图中第q个目标知识元在所述目标知识元网络中的出度;
    [0054]
    将最大权重对应的有向链接指向的目标知识元作为所述目标知识元网络中的核心知识元;
    [0055]
    基于不同时间切片下对应的核心知识元在所述目标知识元网络中的位置,耦合形成核心知识元路径;
    [0056]
    计算出所述核心知识元路径中每个核心知识元和对应的前一相邻核心知识元之
    间的第一连接趋势值以及每个核心知识元和对应的后一相邻核心知识元之间的第二连接趋势值,包括:
    [0057][0058][0059]
    式中,i为所述核心知识元路径中第i个核心知识元,为所述核心知识元路径中第i个核心知识元和对应的前一相邻核心知识元之间的第一连接趋势值,distance
    i1
    为所述核心知识元路径中第i个核心知识元和对应的前一相邻核心知识元之间的相对距离,distance
    i2
    为所述核心知识元路径中第i个核心知识元和对应的后一相邻核心知识元之间的相对距离,distance
    imax
    为在所述目标知识元网络中所有与第i个核心知识元直接相连的目标知识元和第i个核心知识元之间的最大距离,distance
    imin
    为在所述目标知识元网络中所有与第i个核心知识元直接相连的目标知识元和第i个核心知识元之间的最小距离,in_d
    i0
    为第i个核心知识元在所述目标知识元网络中的入度,out_d
    i0
    为第i个核心知识元在所述目标知识元网络中的出度,in_d
    i1
    为第i个核心知识元对应的前一相邻核心知识元在所述目标知识元网络中的入度,out_d
    i1
    为第i个核心知识元对应的前一相邻核心知识元在所述目标知识元网络中的出度,为所述核心知识元路径中第i个核心知识元和对应的后一相邻核心知识元之间的第二连接趋势值,in_d
    i2
    为第i个核心知识元对应的后一相邻核心知识元在所述目标知识元网络中的入度,out_d
    i2
    为第i个核心知识元对应的后一相邻核心知识元在所述目标知识元网络中的出度;
    [0060]
    基于所述第一连接趋势值和所述第二连接趋势值,判断对应的核心知识元是否满足要求,若是,则基于所述核心知识元路径中包含的核心知识元在所述目标知识元网络中对应的连接关系和在所述核心知识元路径中对应的连接方向,构建出对应的有向路径,将所述有向路径作为黄河流域的演进分析路径;
    [0061]
    否则,将第二大权重对应的目标知识元替换所述核心知识元路径中的对应目标知识元,获得最新的核心知识元路径,直至最新获得的核心知识元满足要求时,基于最新获得的核心知识元路径构建出新的有向路径,将新的有向路径作为黄河流域的演进分析路径。
    [0062]
    所述的一种基于文本挖掘的黄河流域演进分析方法,s5:确定出每个目标知识元在所述目标知识元网络中和对应核心知识元的共现集群度,基于所述演进分析路径和所述共现集群度获得对应的演进分析结果,包括:
    [0063]
    确定出每个目标知识元在所述目标知识元网络中和对应核心知识元的共现集群度;
    [0064]
    基于所述共线集群度识别出在当前时间切片下频繁共现的目标知识元集群;
    [0065]
    将不同时间切片下对应的目标知识元集群与所述演进分析路径进行绑定,获得演进分析结果。
    [0066]
    本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。
    [0067]
    下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
    附图说明
    [0068]
    附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
    [0069]
    图1为本发明实施例中一种基于文本挖掘的黄河流域演进分析方法流程图;
    [0070]
    图2为本发明实施例中又一种基于文本挖掘的黄河流域演进分析方法流程图;
    [0071]
    图3为本发明实施例中再一种基于文本挖掘的黄河流域演进分析方法流程图。
    具体实施方式
    [0072]
    以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
    [0073]
    实施例1:
    [0074]
    本发明提供了一种基于文本挖掘的黄河流域演进分析方法,参考图1,包括:
    [0075]
    s1:对挖掘文本进行处理获得黄河流域演进对应的分析样本;
    [0076]
    s2:将所述分析样本中每篇文献包含的知识元进行共现配对,获得对应的共现关系,基于所述共现关系,构建出对应的知识元共现网络;
    [0077]
    s3:基于所述分析样本中每篇文献的引文路径构建出引文耦合网络,基于所述引文耦合网络和知识元共现网络构建出知识元融合网络;
    [0078]
    s4:基于所述知识元对应的网络中心性指标值构建出不同时间切片下对应的目标知识元网络,对所述目标知识元网络进行分析获得黄河流域的演进分析路径;
    [0079]
    s5:确定出每个目标知识元在所述目标知识元网络中和对应核心知识元的共现集群度,基于所述演进分析路径和所述共现集群度获得对应的演进分析结果。
    [0080]
    该实施例中,挖掘文本即为与黄河流域各领域相关的文献。
    [0081]
    该实施例中,分析样本即为对挖掘文本进行处理后获得的与黄河流域演进分析有关的文本。
    [0082]
    该实施例中,共现关系即为知识元在文献中共同时现的关系。
    [0083]
    该实施例中,共现配对即为将在一篇文献中同时出现的知识元进行配对。
    [0084]
    该实施例中,知识元共现网络即为基于每篇文献中包含的知识元之间的共现关系构建的网络。
    [0085]
    该实施例中,引文路径即为对应篇文献的引用文献和引用层次构成的路径。
    [0086]
    该实施例中,引文耦合网络即为基于分析样本中每篇文献的引文路径构建出的网络,代表分析样本中包含的文献的交叉引用关系和交叉引用路径。
    [0087]
    该实施例中,知识元融合网络即为将引文耦合网络和知识元共现网络融合后获得的网络。
    [0088]
    该实施例中,网络中心性指标值即为表征每个知识元在目标知识元网络的网络中
    心性的值,根据三个指标获得:度中心性值、中介中心性值、接近中心性值。
    [0089]
    该实施例中,目标知识元网络即为基于网络中心性指标值对知识元融合网络中包含的知识元进行筛选后获得的目标知识元按照在这只是原融合网络中的连接关系构建出的网络。
    [0090]
    该实施例中,演进分析路径即为不同时间切片对应的核心知识元构成的有向路径,表征黄河流域相关的各领域的演进分析热点知识元的变化路径。
    [0091]
    该实施例中,共现集群度即为在目标知识元网络中与核心知识元的相连的目标知识元和该核心知识元共同出现的次数与该核心知识元出现的总次数之间的比值。
    [0092]
    该实施例中,演技分析结果即综合黄河流域各领域文献获得的黄河流域演进过程中不同时间切片对应的与黄河流域有关的知识元集群及其变化过程。
    [0093]
    以上技术的有益效果为:满足了黄河领域演进分析过程中各领域文献的分析准确性和即时性以及交叉性,实现了快速准确地跟踪黄河流域在各领域的发展趋势,把握相关知识的演进规律,从而更好地为黄河流域因地制宜、分类施策提供技术支撑。
    [0094]
    实施例2:
    [0095]
    在实施例1的基础上,所述的一种基于文本挖掘的黄河流域演进分析方法,s1:对挖掘文本进行处理获得黄河流域演进对应的分析样本,参考图2,包括:
    [0096]
    s101:基于黄河流域演进分析的关键词列表对文献库进行关键词检索,获得检索结果;
    [0097]
    s102:建立所述检索结果和演进分析平台之间的链接协议;
    [0098]
    s103:基于所述链接协议实时获取最新的检索结果中每篇文献对应的来源链接;
    [0099]
    s104:基于所述来源链接获得对应的挖掘文本;
    [0100]
    s105:对所述挖掘文本进行片段截取、分词处理、词频统计、关键词标注,获得对应的分析样本。
    [0101]
    该实施例中,关键词列表即为包含与黄河流域演进分析有关的关键词的列表。
    [0102]
    该实施例中,文献库例如有中国知网等。
    [0103]
    该实施例中,检索结果即为从文献库检索出的包含关键词列表中包含的关键词的文献。
    [0104]
    该实施例中,演进分析平台即为执行黄河流域演进分析的平台。
    [0105]
    该实施例中,链接协议即为可以基于关键词列表实时对文献库进行检索并将检索结果中包含的每篇文献的来源链接传输至演进分析平台的传输协议。
    [0106]
    该实施例中,来源链接即为对应篇文献的下载链接。
    [0107]
    以上技术的有益效果为:通过构建的链接协议实现基于关键词列表对文献库进行检索并将检索结果的下载链接传输至演进分析平台,保证了演进分析文本获取的及时性和准确性,并通过对挖掘文本的处理为后续的演进分析过程提供了文本基础。
    [0108]
    实施例3:
    [0109]
    在实施例2的基础上,所述的一种基于文本挖掘的黄河流域演进分析方法,s105:对所述挖掘文本进行片段截取、分词处理、词频统计、关键词标注,获得对应的分析样本,包括:
    [0110]
    对所述挖掘样本进行引文片段截取和核心片段截取,获得对应的有效文本;
    [0111]
    对所述有效文本进行分词,获得分词结果;
    [0112]
    基于所述分词结果进行词频统计,获得统计结果;
    [0113]
    基于所述统计结果获得片段关键词,并对对应文本片段进行关键词标注,获得关键词标注结果;
    [0114]
    基于所述统计结果和所述关键词标注结果获得每篇文献对应的词袋数据,将所述词袋数据和所述有效文本作为每篇文献对应的初始处理文本;
    [0115]
    将所有初始处理文本融合后获得分析样本。
    [0116]
    该实施例中,引文片段截取即为将挖掘样本中每篇文献中引用过其他文献的文本片段截取出来的操作。
    [0117]
    该实施例中,核心片段截取即为将挖掘样本中每篇文献中的核心文本片段截取出来的操作,核心文本片段即为对文献中的章标题或节标题进行识别后,获得的除结语等之外的与文献中心内容相关的文本片段。
    [0118]
    该实施例中,有效文本即为对挖掘样本进行引文片段截取和核心片段截取后获得的对黄河流域演进分析有用的文本片段。
    [0119]
    该实施例中,分词结果即为对有效文本进行分词处理后获得的分词结果。
    [0120]
    该实施例中,统计结果即为统计分词结果中包含的词出现的词频的结果。
    [0121]
    该实施例中,基于所述统计结果获得片段关键词,即为将统计结果中是非关键词列表中的词且是每个段落(或每个章节)中词频最高的词作为该段落(或该章节)对应的片段关键词。
    [0122]
    该实施例中,关键词标注即为将对应段落(或对应章节)的关键词标注至对应段落(或对应章节)。
    [0123]
    该实施例中,关键词结果即为对对应段落(或对应章节)进行关键词标注获得的结果。
    [0124]
    该实施例中,词袋数据即为包含对应段落(或对应章节)的所有词文本和关键词的文本数据。
    [0125]
    该实施例中,初始处理文本即为每篇文献对应的词袋数据和有效文本对应的文本数据。
    [0126]
    以上技术的有益效果为:通过对挖掘文本进行片段截取、分词处理、词频统计、关键词标注,实现对挖掘样本进行去噪处理,使得获得的分析样本更加简介,对挖掘样本进行分词处理、词频统计、关键词标注实现对挖掘样本的内容识别和关键词提取,为后续演进分析过程提供了文本基础。
    [0127]
    实施例4:
    [0128]
    在实施例1的基础上,所述的一种基于文本挖掘的黄河流域演进分析方法,s2:将所述分析样本中每篇文献包含的知识元进行共现配对,获得对应的共现关系,基于所述共现关系,构建出对应的知识元共现网络,参考图3,包括:
    [0129]
    s201:基于命名实体识别技术从所述分析样本中抽取出每篇文献包含的知识元;
    [0130]
    s202:将所有知识元进行共现配对,获得共现矩阵;
    [0131]
    s203:将所述共现矩阵作为所有知识元的共现关系;
    [0132]
    s204:基于所述共现关系,构建出对应的知识元共现网络。
    [0133]
    该实施例中,命名实体识别技术即为识别中文文本中实体的边界和类别。
    [0134]
    该实施例中,知识元即为是指每篇文献中包含的不可再分割的具有完备知识表达的知识单位。
    [0135]
    该实施例中,将所有知识元进行共现配对,获得共现矩阵,即为:首先设定窗口长度,然后对在窗口长度内出现的共现词频率进行计数,将计数结果作为对应的共现矩阵。
    [0136]
    该实施例中,共现矩阵即为表现分析样本中共同出现的词频次数的矩阵。
    [0137]
    该实施例中,知识元共现网络即为包含共同出现的知识元之间的共现关系的网络。
    [0138]
    以上技术的有益效果为:通过对分析样本中每篇文献包含的知识元的共现关系的分析,构建出对应的知识元共现网络,实现对分析样本的关键词挖掘和知识元关系分析,实现对分析样本内容的初步详细分析,为提取出不同时间切片下对应的核心知识元提供了基础。
    [0139]
    实施例5:
    [0140]
    在实施例1的基础上,所述的一种基于文本挖掘的黄河流域演进分析方法,s3:基于所述分析样本中每篇文献的引文路径构建出引文耦合网络,基于所述引文耦合网络和知识元共现网络构建出知识元融合网络,包括:
    [0141]
    确定出所述分析样本中每篇文献中包含的知识元对应的引用文献,基于所述知识元对应的引文文献,确定出每篇文献对应的引文列表;
    [0142]
    基于所述引文列表构建出对应的引文耦合网络;
    [0143]
    将所述知识元共现网络和所述引文耦合网络进行耦合,获得对应的知识元融合网络。
    [0144]
    该实施例中,引文列表即为包含对应篇文献的所有引文文献的列表。
    [0145]
    该实施例中,引文耦合网络表征分析样本中包含的知识元之间的引用关系的网络。
    [0146]
    该实施例中,知识元融合网络即为包含分析样本中所有知识元之间的共现关系和引用关系的网络。
    [0147]
    以上技术的有益效果为:通过确定出分析样本中包含的知识元之间的引用关系构建出引文耦合网络,再将引文耦合网络和知识元共现网络耦合后获得知识元融合网络,实现将与黄河流域的演进分析相关的各领域的知识元的共现关系的分析和引用关系的分析,实现将所有文献进行融合分析,进而狮子安乐黄河流域演进分析的交叉性。
    [0148]
    实施例6:
    [0149]
    在实施例1的基础上,所述的一种基于文本挖掘的黄河流域演进分析方法,s4:基于所述知识元对应的网络中心性指标值构建出不同时间切片下对应的目标知识元网络,对所述目标知识元网络进行分析获得黄河流域的演进分析路径,包括:
    [0150]
    基于预设的中心性网络测量指标,确定出不同时间切片下所述知识元融合网络的微观层面网络特征;
    [0151]
    基于所述微观层面网络特征对知识元集合进行筛选,获得不同时间切片下对应的目标知识元;
    [0152]
    基于所有目标知识元和所述知识元融合网络中所述目标知识元之间的连接关系,
    构建出不同时间切片下对应的目标知识元网络;
    [0153]
    对所述目标知识元网络进行分析,获得黄河流域的演进分析路径。
    [0154]
    该实施例中,微观层面网络特征即为知识元融合网络在微观层面的网络特征。
    [0155]
    该实施例中,目标知识元即为表征当前时间切片下的黄河流域相关的热点知识元。
    [0156]
    该实施例中,知识元集合即为知识元融合网络中包含的知识元构成的集合。
    [0157]
    该实施例中,目标知识元网络即为基于目标知识元在知识元融合网络中的连接关系构建出的由目标知识元构成的网络。
    [0158]
    以上技术的有益效果为:基于知识元融合网络在不同时间切片下对应的微观层面网络特征对知识元集合进行筛选,获得可以表征当前时间切片下黄河流域分析研究热点的目标知识元,进而获得对应的目标知识元网络,对不同时间切片下对应的目标知识元网络进行分析,可以获得随时间演变过程中黄河流域相关的热点知识元或热点研究方向领域。
    [0159]
    实施例7:
    [0160]
    在实施例6的基础上,所述的一种基于文本挖掘的黄河流域演进分析方法,基于预设的中心性网络测量指标,确定出不同时间切片下所述知识元融合网络的微观层面网络特征,包括:
    [0161]
    计算出不同时间切片下每个知识元在所述知识元融合网络中的第一度中心性值、第一中介中心性值、第一接近中心性值;
    [0162]
    将不同时间切片下每个知识元对应的第一度中心性值、第一中介中心性值、第一接近中心性值作为对应时间切片下所述知识元融合网络的微观层面网络特征。
    [0163]
    该实施例中,第一度中心性值即为表征对应知识元在知识元融合网络中的度中心性的数值,度中心性是在网络分析中刻画节点中心性的最直接度量指标。一个节点的节点度越大就意味着这个节点的度中心性越高,该节点在网络中就越重要。
    [0164]
    该实施例中,第一中介中心性值即为表征对应知识元在知识元融合网络中的中介中心性的数值,中介中心性用于衡量一个顶点出现在其他任意两个顶点对之间的最短路径的次数,也就是说,如果一个顶点出现在任意两个顶点间最短路径的次数越多,那么该顶点的中介中心性就越大。
    [0165]
    该实施例中,第一接近中心性值即为表征对应知识元在知识元融合网络中的接近中心性的数值,接近中心性算法用于发现可通过图高效传播信息的节点,对于每个节点,接近中心性算法在计算所有节点对之间的最短路径的基础上,还要计算它到其他各节点的距离之和,然后对得到的和求倒数,以确定该节点的接近中心性得分。
    [0166]
    以上技术的有益效果为:将每个知识元在所述知识元融合网络中的度中心性值、中介中心性值、接近中心性值作为知识元融合网络的微观层面特征,为筛选出可以表征当前时间切片下黄河流域分析研究热点的目标知识元,进而获得随时间演变过程中黄河流域相关的热点知识元或热点研究方向领域提供了基础。
    [0167]
    实施例8:
    [0168]
    在实施例6的基础上,所述的一种基于文本挖掘的黄河流域演进分析方法,基于所述微观层面网络特征对知识元集合进行筛选,获得不同时间切片下对应的目标知识元,包括:
    [0169]
    从所述知识元集合中筛选出所述第一度中心性值大于第一阈值且所述第一中介中心性值大于第二阈值且所述第一接近中心性值大于第三阈值的知识元作为第一知识元;
    [0170]
    基于所述第一知识元和所述知识元融合网络中的连接关系构建出第一知识元网络;
    [0171]
    计算出所述第一知识元在所述第一知识元网络中对应的第二度中心性值、第二中介中心性值、第二接近中心性值;
    [0172]
    并计算出对应的度中心性差值、中介中心性差值、接近中心性差值;
    [0173]
    判断所述度中心性差值和所述中介中心性差值以及所述接近中心性差值结果是否都为正,若是,则基于所述第二度中心性值、所述第二中介中心性值和所述第二接近中心性值以及正向梯度中心性阈值列表对所述第一知识元继续筛选,直至所述中心性差值和所述中介中心性差值以及所述接近中心性差值的结果都为0时,则将筛选出的知识元作为所述目标知识元;
    [0174]
    否则,基于所述逆向梯度中心性阈值列表对所述知识元集合进行重新筛选,直至重新筛选出的第一知识元对应的度中心性差值、中介中心性差值、接近中心性差值结果都为正时,则基于最新确定的度中心性值、中介中心性值、接近中心性值和正向梯度中心性阈值列表对所述第一知识元继续筛选,直至所述中心性差值和所述中介中心性差值以及所述接近中心性差值的结果都为0时,则将筛选出的知识元作为所述目标知识元。
    [0175]
    该实施例中,第一阈值即为正向梯度中心性阈值列表中的最中间的用于筛选知识元的度中心性阈值。
    [0176]
    该实施例中,第二阈值即为正向梯度中心性阈值列表和正向梯度中心性阈值列表中的最中间的用于筛选知识元的中介中心性阈值。
    [0177]
    该实施例中,第三阈值即为正向梯度中心性阈值列表中的最中间的用于筛选知识元的接近中心性阈值。
    [0178]
    该实施例中,第一知识元即为知识元集合中筛选出的第一度中心性值大于第一阈值且第一中介中心性值大于第二阈值且第一接近中心性值大于第三阈值的知识元。
    [0179]
    该实施例中,第一知识元网络即为基于第一知识元和知识元融合网络中的连接关系构建出的知识元网络。
    [0180]
    该实施例中,第二度中心性值即为第一知识元在第一知识元网络中对应的度中心性值。
    [0181]
    该实施例中,第二中介中心性值即为第一知识元在第一知识元网络中对应的中介中心性值。
    [0182]
    该实施例中,第二接近中心性值即为第一知识元在第一知识元网络中对应的接近中心性值。
    [0183]
    该实施例中,度中心性差值即为最新确定的度中心性值和上一次确定的度中心性值之间的差值。
    [0184]
    该实施例中,中介中心性差值即为最新确定的中介中心性值和上一次确定的中介中心性值之间的差值。
    [0185]
    该实施例中,接近中心性差值即为最新确定的接近中心性值和上一次确定的接近中心性值之间的差值。
    [0186]
    该实施例中,正向梯度中心性阈值列表即为包含依次增大的中心性阈值(度中心性阈值、中介中心性阈值、接近中心性阈值)的列表。
    [0187]
    该实施例中,逆向梯度中心性阈值列表即为包含依次减小的中心性阈值(度中心性阈值、中介中心性阈值、接近中心性阈值)的列表。
    [0188]
    以上技术的有益效果为:基于预设的中心性阈值梯度对知识元集合进行筛选,进而可以获得微观层面特征的中心性满足筛选要求的目标知识元,为获得对应的目标知识元网络提供了基础。
    [0189]
    实施例9:
    [0190]
    在实施例6的基础上,所述的一种基于文本挖掘的黄河流域演进分析方法,对所述目标知识元网络进行分析,获得黄河流域的演进分析路径,包括:
    [0191]
    基于所述目标知识元网络构建出对应的有向图;
    [0192]
    计算出所述有向图中每个有向链接的权重,包括:
    [0193][0194]
    式中,为所述有向图中第p个目标知识元至第q个目标知识元之间的有向链接的权重,out_d
    p
    为所述有向图中第p个目标知识元在所述目标知识元网络中的出度,out_dq为所述有向图中第q个目标知识元在所述目标知识元网络中的出度;
    [0195]
    将最大权重对应的有向链接指向的目标知识元作为所述目标知识元网络中的核心知识元;
    [0196]
    基于不同时间切片下对应的核心知识元在所述目标知识元网络中的位置,耦合形成核心知识元路径;
    [0197]
    计算出所述核心知识元路径中每个核心知识元和对应的前一相邻核心知识元之间的第一连接趋势值以及每个核心知识元和对应的后一相邻核心知识元之间的第二连接趋势值,包括:
    [0198][0199][0200]
    式中,i为所述核心知识元路径中第i个核心知识元,为所述核心知识元路径中第i个核心知识元和对应的前一相邻核心知识元之间的第一连接趋势值,distance
    i1
    为所述核心知识元路径中第i个核心知识元和对应的前一相邻核心知识元之间的相对距离,distance
    i2
    为所述核心知识元路径中第i个核心知识元和对应的后一相邻核心知识元之间的相对距离,distance
    imax
    为在所述目标知识元网络中所有与第i个核心知识元直接相连的目标知识元和第i个核心知识元之间的最大距离,distance
    imin
    为在所述目标知识元网络中所有与第i个核心知识元直接相连的目标知识元和第i个核心知识元之间的最小距离,in_di0
    为第i个核心知识元在所述目标知识元网络中的入度,out_d
    i0
    为第i个核心知识元在所述目标知识元网络中的出度,in_d
    i1
    为第i个核心知识元对应的前一相邻核心知识元在所述目标知识元网络中的入度,out_d
    i1
    为第i个核心知识元对应的前一相邻核心知识元在所述目标知识元网络中的出度,为所述核心知识元路径中第i个核心知识元和对应的后一相邻核心知识元之间的第二连接趋势值,in_d
    i2
    为第i个核心知识元对应的后一相邻核心知识元在所述目标知识元网络中的入度,out_d
    i2
    为第i个核心知识元对应的后一相邻核心知识元在所述目标知识元网络中的出度;
    [0201]
    基于所述第一连接趋势值和所述第二连接趋势值,判断对应的核心知识元是否满足要求,若是,则基于所述核心知识元路径中包含的核心知识元在所述目标知识元网络中对应的连接关系和在所述核心知识元路径中对应的连接方向,构建出对应的有向路径,将所述有向路径作为黄河流域的演进分析路径;
    [0202]
    否则,将第二大权重对应的目标知识元替换所述核心知识元路径中的对应目标知识元,获得最新的核心知识元路径,直至最新获得的核心知识元满足要求时,基于最新获得的核心知识元路径构建出新的有向路径,将新的有向路径作为黄河流域的演进分析路径。
    [0203]
    该实施例中,有向图即为将目标知识元网络中的引用关系用有向链接(有向箭头)表现出来的图像。
    [0204]
    该实施例中,核心知识元即为最大权重对应的有向链接指向的目标知识元。
    [0205]
    该实施例中,核心知识元路径即为基于不同时间切片下对应的核心知识元在所述目标知识元网络中的位置耦合形成的路径。
    [0206]
    该实施例中,有向链接即为目标知识元网络中两个知识元之间的有向连接路径或有向连接箭头。
    [0207]
    该实施例中,第一连接趋势值即为核心知识元路径中每个核心知识元与对应的前一相邻核心知识元相比的连接属性的变化率。
    [0208]
    该实施例中,第二连接趋势值即为核心知识元路径中每个核心知识元与对应的后一相邻核心知识元相比的连接属性的变化率。
    [0209]
    该实施例中,有向路径即为基于最新获得的满足要求的核心知识元路径在目标知识元网络中的位置构建出的表征知识元之间连接方向的路径。
    [0210]
    以上技术的有益效果为:通过对目标知识元网络对应的有向图中的有向链接的权重的计算,可以筛选出目标知识元网络中的核心知识元,进而为构建出黄河演进分析路径提供了基础。
    [0211]
    实施例10:
    [0212]
    在实施例1的基础上,所述的一种基于文本挖掘的黄河流域演进分析方法,s5:确定出每个目标知识元在所述目标知识元网络中和对应核心知识元的共现集群度,基于所述演进分析路径和所述共现集群度获得对应的演进分析结果,包括:
    [0213]
    确定出每个目标知识元在所述目标知识元网络中和对应核心知识元的共现集群度;
    [0214]
    基于所述共线集群度识别出在当前时间切片下频繁共现的目标知识元集群;
    [0215]
    将不同时间切片下对应的目标知识元集群与所述演进分析路径进行绑定,获得演进分析结果。
    [0216]
    该实施例中,目标知识元集群即为:共现集群度满足集群度要求(具体根据对黄河流域演进分析的结果丰富度决定)的目标知识元和对应的核心知识元构成的知识元集群。
    [0217]
    以上技术的有益效果为:通过基于共现集群度这个指标对目标知识元网络中与核心知识元的共现次数满足要求的知识元筛选出来,获得知识元集群可以作为对应时间切片下的黄河流域的分析研究热点,为获得最终的演进分析结果提供了基础。
    [0218]
    显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
    转载请注明原文地址:https://tc.8miu.com/read-4060.html

    最新回复(0)