1.本技术涉及舆情数据分析技术领域,特别是涉及一种企业舆情环境监测方法和系统。
背景技术:
2.一家企业如果想要长久发展,需要持续关注企业的舆情环境。
3.大部分企业舆情监测与风险预警的解决方案中,是利用爬虫搜集网络舆情数据,然后使用关键词进行筛选,进而使用开源语义库对筛选后的数据进行简单的正负面判定,从而初步对非结构化数据进行加工并做出可视化展示。
4.然而,上述传统的这种解决方案,无法做到与当期舆论环境结合,也难以深度结合行业来处理非结构化数据。另外,由于此类系统的主要用户是企业的公关从业者,他们普遍缺乏行业专业知识,也不具备数据处理经验,难以通过基于原数据的可视化结果提炼出有用信息,从而难以做出准确判断,因此企业最终对风险的判断还需要依据负责人自身经验来评估。
技术实现要素:
5.基于此,针对上述技术问题,提供一种基于大数据的企业舆情环境监测方法和系统。
6.为了达到上述发明目的,本发明采用以下技术方案:
7.第一方面,一种基于大数据的企业舆情环境监测方法,包括:
8.步骤一,搜集和记录互联网上的舆情数据,并通过自然语言处理算法将所述舆情数据分为热点话题事件和企业主体相关事件;
9.步骤二,对所述热点话题事件进行整理,按照社会科学研究的分类方法进行分类,并统计同一类事件公众的主流观点、态度、情绪强度,然后根据统计结果,整理出公众信念图谱;对所述企业主体相关事件进行统计分析,学习企业舆情发酵的数据变化特点,并构造企业的行业知识图谱;
10.步骤三,通过定制的标签,获取相应舆情事件的相关数据,结合所述公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱,分析和预测舆情事件的变化趋势,并对舆情事件进行观点聚类和情绪判定;基于持续搜集和记录的每日互联网上的舆情数据,不断更新所述公众信念图谱、所述学习结果以及所述行业知识图谱,训练分析和预测舆情事件的变化趋势、对舆情事件进行观点聚类和情绪判定的能力,从而为企业日常内部管理和事件研判提供启示;
11.步骤四,根据所述公众信念图谱判断企业活动时容易激发公众情绪的要素,为企业日常内部管理提供指导;在判断企业出现舆情风险时,根据所述公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱,分析舆情事件性质,预测舆情事件的变化趋势,以及分析得出舆情事件发生后企业受到的影响,进而为企业提供应对措施的
建议。
12.优选地,步骤二所述整理出公众信念图谱具体包括:
13.对所述热点话题事件进行整理,按照社会科学研究的分类方法分为六种类别,然后从不同类别的事件中观察和统计公众的主流观点、态度、情绪强度;当统计结果显示公众支持一个观点与态度的数据达到预设规模,并能够在预设时间长度内持续具备讨论热度时,将此观点与态度标记为信念;然后将所有符合条件的信念按照持续时间、数据规模和情绪强度进行可视化展现,形成所述公众信念图谱。
14.进一步优选地,所述六种类别包括社会问题类、生活问题类、企业与消费类、国际关系类、文化娱乐类和新闻事件类。
15.优选地,步骤二所述对所述企业主体相关事件进行统计分析具体包括:
16.对所述企业主体相关事件中的企业负面事件进行统计和分析,记录舆情发酵过程、舆情造成的负面影响、事件本身的性质以及企业主体在事件发生后受到的影响,从而为进行企业舆情发酵的数据变化特点的学习提供依据。
17.进一步优选地,所述事件本身的性质包括涉事的企业主体是否存在违法犯罪行为、是否造成人身伤害、是否造成经济损失、是否造成精神伤害以及是否触犯公众信念,将企业负面事件按照性质分类存储;所述企业主体在事件发生后受到的影响包括企业营收损失、股价变动、关键人物形象受损程度、线上抵制行为以及线下抵制行为。
18.可选地,所述方法还包括,将企业的自身属性量化,结合所述公众信念图谱,计算舆论场对企业的好感度。
19.进一步可选地,所述企业的自身属性包括所属国家、行业、产品与服务可代替性、商业模式、企业文化、对外互动行为和社会责任。
20.进一步可选地,步骤四所述的分析舆情事件性质,具体包括,分析事件是否违背公众信念、事件对消费群体造成的伤害的范围和程度以及事件是否涉及违法犯罪;分析得出舆情事件发生后企业受到的影响,具体是,在企业好感度的基础上,结合数据特征,分析得出企业营收损失、股价变动、关键人物形象受损程度、线上抵制行为以及线下抵制行为;所述数据特征包括舆情情感强度和舆情持续时间。
21.可选地,在所述步骤一前还包括:通过行业研究与商业分析手段,对企业所处行业进行特征判断,并结合企业历史舆情数据判断企业的舆情特征和舆情重心。
22.第二方面,一种基于大数据的企业舆情环境监测系统,包括:
23.数据模块,用于搜集和记录互联网上的舆情数据,并通过自然语言处理算法将所述舆情数据分为热点话题事件和企业主体相关事件;
24.知识工程模块,用于对所述热点话题事件进行整理,按照社会科学研究的分类方法进行分类,并统计同一类事件公众的主流观点、态度、情绪强度,然后根据统计结果,整理出公众信念图谱;对所述企业主体相关事件进行统计分析,学习企业舆情发酵的数据变化特点,并构造企业的行业知识图谱;
25.人工智能模块,用于通过定制的标签,获取相应舆情事件的相关数据,结合所述公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱,分析和预测舆情事件的变化趋势,并对舆情事件进行观点聚类和情绪判定;基于持续搜集和记录的每日互联网上的舆情数据,不断更新所述公众信念图谱、所述学习结果以及所述行业知识图
谱,训练分析和预测舆情事件的变化趋势、对舆情事件进行观点聚类和情绪判定的能力,从而为企业日常内部管理和事件研判提供启示;
26.预警模块,用于根据所述公众信念图谱判断企业活动时容易激发公众情绪的要素,为企业日常内部管理提供指导;在判断企业出现舆情风险时,根据所述公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱,分析舆情事件性质,预测舆情事件的变化趋势,以及分析得出舆情事件发生后企业受到的影响,进而为企业提供应对措施的建议。
27.本发明至少具有以下有益效果:
28.本发明通过进一步研究和分析,认识到公众如何看待一家企业,往往取决于公众平台发声群体的特点以及企业自身的特点和历史行为;因此在对企业舆情环境进行监测时,应该充分考虑和结合这两方面因素,只有这样才能准确、有效地把握企业的舆论情况;本发明提供的一种基于大数据的企业舆情环境监测方法和系统,通过对全网舆情数据进行持续性统计分析,辅以社会科学研究方法,构建了我国社会舆情环境的公众信念图谱,来了解公众平台发声群体的特点,该公众信念图谱对各行各业的公关、市场部门都可以提供参考信息;此外,本发明继承了行业的知识图谱和企业历史舆情事件发酵过程的数据,来了解企业自身的特点和历史行为所产生的影响,从而结合公关信念图谱,能够准确的把握企业的舆论环境,进而能够为企业日常内部管理和舆情事件研判提供指导;在有舆情事件发生时,能够快速从大量数据中筛选出真正值得关注的信息,预测出舆情事件发展趋势,从而迅速形成解决方案;同时,借助行业知识图谱,本发明使关于解决方案的展现结果更加贴合行业特征,数据可以更加展现具体的涵义,降低了企业公关阅读数据时的难度,从而能够帮助他们快速提取展现结果中的有用信息,进而基于数据作出准确判断,决定企业应如何处理事件。
附图说明
29.图1为本发明一个实施例提供的一种基于大数据的企业舆情环境监测方法的流程示意图;
30.图2为本发明一个实施例提供的一种基于大数据的企业舆情环境监测方法的整体流程示意图;
31.图3为本发明一个实施例提供的一种基于大数据的企业舆情环境监测系统的模块架构框图;
32.图4为一个实施例中计算机设备的内部结构图。
具体实施方式
33.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
34.在互联网高度发展的今天,企业的舆论情况或者说是公众对于企业的看法,对于企业的长久发展来说至关重要,因此企业在日常运营中需要持续关注自己的舆论情况。本
发明通过进一步研究和分析,认识到公众如何看待一家企业,往往取决于公众平台发声群体的特点以及企业自身的特点和历史行为。因此在对企业舆情监测环境进行监测时,应该充分考虑和结合这两方面因素,只有这样才能准确、有效地把握企业的舆论情况,从而可以使企业在日常运营中,避免作出会引起公众负面情绪的行为,以及使得企业在发生舆情事件后,可以准确预测事件的发展趋势,从而快速形成解决方案、降低舆情事件的影响。所以,对企业舆情监测环境进行监测时,对公众平台发声群体的特点以及企业自身的特点和历史行为的研究,是很及其重要的环节。
35.综上,在本实施例中,在思考如何研究公众平台发声群体的特点以及企业自身的特点和历史行为的基础上,如图1所示,提供了一种基于大数据的企业舆情环境监测方法,包括以下步骤:
36.步骤s101,搜集和记录互联网上的舆情数据,并通过自然语言处理算法将所述舆情数据分为热点话题事件和企业主体相关事件;
37.步骤s102,对所述热点话题事件进行整理,按照社会科学研究的分类方法进行分类,并统计同一类事件公众的主流观点、态度、情绪强度,然后根据统计结果,整理出公众信念图谱;对所述企业主体相关事件进行统计分析,学习企业舆情发酵的数据变化特点,并构造企业的行业知识图谱;
38.步骤s103,通过定制的标签,获取相应舆情事件的相关数据,结合所述公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱,分析和预测舆情事件的变化趋势,并对舆情事件进行观点聚类和情绪判定;基于持续搜集和记录的每日互联网上的舆情数据,不断更新所述公众信念图谱、所述学习结果以及所述行业知识图谱,训练分析和预测舆情事件的变化趋势、对舆情事件进行观点聚类和情绪判定的能力,从而为企业日常内部管理和事件研判提供启示;
39.步骤s104,根据所述公众信念图谱判断企业活动时容易激发公众情绪的要素,为企业日常内部管理提供指导;在判断企业出现舆情风险时,根据所述公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱,分析舆情事件性质,预测舆情事件的变化趋势,以及分析得出舆情事件发生后企业受到的影响,进而为企业提供应对措施的建议。
40.其中,步骤s101所搜集的互联网上的舆情数据包括媒体、主流门户网站、论坛、博客、公众号、短视频等多种平台的舆情数据。搜集和记录数据是通过在指定url的网址上采用网页分析算法,经过过滤、筛选等步骤得到目标数据,并进行结构化储存。支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。也就是说,当获取到数据后,会使用pandas和sklearn等函数库,进行数据清理、数据集成、数据规约和数据变换,以及匹配删除重复内容、查询指定内容进行标注。
41.进一步地,步骤s102所述的整理出公众信念图谱具体包括:对每日的热点话题事件进行整理,按照一套基于社会科学研究的分类方法将热点话题分为六种类别,然后从不同类型的事件中观察和统计公众的主流观点、态度、情绪强度;将观察到的结果用表格来进行统计,同时表格中统计对每个话题公众讨论的持续时间、影响力、话题规模、新闻报道力度、规模、关键词等指标,同一类别下可以看到公众对多个话题表现出相似的态度和倾向。其中,规模指的是信息数,包括通过文章、评论、转发数等任意形式所表达的信息。当统计结
果显示公众支持一个观点与态度的数据达到预设规模,并能够在预设时间长度内持续具备讨论热度时,将此观点与态度标记为信念;也就是当公众共有的态度和倾向达到15万以上的数据规模,且稳定保持180天后,就将该态度和倾向标记为“信念”;通过不断追踪统计,可以获得一组稳定的“信念”,称为“公众信念”。然后将“公众信念”按照持续时间、数据规模和情绪强度进行可视化展现,成为公众信念图谱。进行可视化展示所用到的技术包括matplotlib和seaborn算法。
42.进一步地,所分的六种类别分别为社会问题类、生活问题类、企业与消费类、国际关系类、文化娱乐类和新闻事件类。举例来说,社会问题类可以是男女问题的讨论,企业与消费类可以是对加班和加班费的讨论,文化娱乐类可以是对娱乐明星的讨论。
43.进一步地,所述自然语言处理算法(national language processing nlp)涉及:
①
多模匹配技术(例如正则表达式的聚类),使用了ac自动机技术(python的ahocorasick算法);
②
数据的分类聚类统计,使用了分词及统计计数技术(python的jieba算法、机器学习的支持向量机技术svm、神经网络的textcnn模型等等,可以不同的层次维度分析数据);
③
情感分析,使用了文本向量化的技术(较新颖的是python的bert算法,还有snownlp算法)。
44.进一步地,步骤s102所述对所述企业主体相关事件进行统计分析具体包括:对所述企业主体相关事件中具有一定数据规模的企业负面事件进行统计、分析,记录舆情的舆情发酵过程、舆情造成的负面影响、事件本身的性质以及企业主体在事件发生后受到的影响,从而为进行企业舆情发酵的数据变化特点的学习提供依据,进而通过大量事件可以学习企业舆情发酵的数据变化特点,并按照商业分析方法构造企业的行业知识图谱。其中,不同行业的企业的负面事件往往达到的数据规模是不同的,例如,地产、金融行业负面事件会达到两万以上数据规模。所述事件本身的性质包括涉事的企业主体是否存在违法犯罪行为、是否造成人身伤害、是否造成经济损失、是否造成精神伤害以及是否违背公众信念,并将企业负面事件按照性质分类存储;所述企业主体在事件发生后受到的影响包括企业营收损失、股价变动、关键人物形象受损程度、线上抵制行为、线下抵制行为等。
45.也就是说,整理出的所述公众信念图谱,代表了公众平台发声群体的特点;企业舆情发酵的数据变化特点,反映着企业历史行为所带来的影响;而构造的行业知识图谱,能够体现企业的自身的特点。因此,结合这几个方面,能够准确地把握企业的舆论环境。
46.进一步地,在得到初始的公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱后,可以通过某个标签获取到相应舆情事件的相关数据,然后结合初始的公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱,来分析和预测该舆情事件的性质和变化趋势,获得初始的分析舆情事件变化趋势的能力。因为搜集和记录互联网上的舆情数据的行为是持续不断进行的,因此初始的公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱也是在不断更新的,从而对舆情事件变化趋势的分析和预测能力也是在不断增强的。
47.具体来说,通过构建的行业知识图谱,使得在企业负面事件发生时,能够分清责任方,以及清楚该负面事件可能造成的伤害和损失。进一步地,当企业有新的负面事件出现时,在通过定制的与此负面事件相关的标签来获取该负面事件的舆情数据后,能够根据公众信念图谱、对舆情发酵的数据变化特点的学习结果和行业知识图谱,分析出舆情事件性质、预测出舆情事件的变化趋势,进而可以分析出舆情事件发生后企业可能受到的影响,同
时也可以对此负面事件进行观点聚类和情绪判定。进行观点聚类和情绪判定也就是判断公众政治倾向、对此事件的反应程度和审美偏好等,同时观察公众对此事件事实的关注程度,公众越关注事实,理性程度越高;公众不关注事实,偏好直接下标签式结论,情绪化程度越高。结合分析和预测的结果,以及进行观点聚类和情绪判定的结果,能够为企业提供解决此负面事件的解决方案;另外,能够找出历史舆情事件中和此负面事件类似的事件,该类似的事件的解决方案,也能够为企业公关解决此负面事件提供启示。
48.进一步地,所述方法还包括,将企业的自身属性量化,包括所属国家、行业、产品与服务可代替性、商业模式、企业文化、对外互动行为、社会责任等,每个属性维度设置相应系数,结合当前公众信念判断公众对这些属性的态度,加权计算得到舆论场对企业好感度的基础分数。此外,将企业主体相关事件进行分析,通过设计的表达式判断舆情数据中理性与非理性成分,将数据的理性程度与公众信念结合,按照不同档位划分友好、平和、冷漠和敌视四种企业好感度。
49.进一步地,步骤s104所述的分析舆情事件性质,具体包括,分析事件是否违背公众信念、事件对消费群体造成的伤害的范围和程度、事件是否涉及违法犯罪;分析得出舆情事件发生后企业受到的影响,具体是,在企业好感度的基础上,结合数据特征,分析企业营收损失、股价变动、关键人物形象受损程度、线上抵制行为以及线下抵制行为;所述数据特征包括舆情情感强度和舆情持续时间。
50.也就是说,通过不断更新公众信念图谱、对舆情发酵的数据变化特点的学习结果和行业知识图谱,能够为企业日常内部管理和事件研判提供依据。具体来说:
51.对于企业的日常内部管理,能够根据公众信念图谱判断企业活动时容易激发公众情绪的要素,进而使企业在日常经营、开展市场活动、各部门人员对外沟通时规避这些要素,从而减少爆发事件的风险;企业曝出事件、出现舆情风险时,能够以公众信念图谱和行业知识图谱提供的信息为依据,分析出舆情事件性质和舆情事件发生后企业可能受到的影响,进而结合企业自身属性和事件性质实现基于数据的风险预判的能力。
52.综上,所述方法的一个详细流程图如图2所示。
53.进一步地,在步骤s101之前还包括客户背景数据准备的准备工作,也就是通过行业研究与商业分析手段,对客户所处行业进行特征判断,并结合企业历史舆情数据判断企业的舆情特征和舆情重心,并设计企业标签体系,从而为更好的舆情环境分析及预警提供基础。所涉及的企业标签体系可以包含企业舆论环境和商业特征两大类,其中企业舆论环境包含背景和历史形象,背景又进一步包含国籍、所有制类型、关键人物/集团等信息,历史形象又进一步包含过往印象、舆情事件、企业文化、关键人物言行等信息;商业特征包含行业、产业链位置、业务定位、产品与服务等,行业进一步包含舆情重心信息,产业链位置进一步包含研发能力、是否为劳动密集型、生产价值等信息,业务定位进一步包含品牌定位、群体等信息,产品与服务进一步包含是否刚需、可替代性、社会价值等信息。
54.本发明实施例所提供的一种基于大数据的企业舆情环境监测方法,通过对全网舆情数据进行持续性统计分析,辅以社会科学研究方法,构建了我国社会舆情环境的公众信念图谱,来了解公众平台发声群体的特点;该公众信念图谱对各行各业的公关、市场部门都可以提供参考信息。尤其是面向消费者的行业,不仅可以作用于公关,还可根据舆情数据了解消费者的喜好、各竞品口碑、营销活动的反响等,做出战略决策。
55.此外,本方法继承了行业的知识图谱和企业历史舆情事件发酵过程的数据,来了解企业自身的特点和企业历史行为所产生的影响,从而结合公关信念图谱,能够准确的把握企业的舆论环境,进而能够为企业日常内部管理和舆情事件研判提供指导。在有舆情事件发生时,能够快速从大量数据中筛选出真正值得关注的信息,预测出舆情事件发展趋势,从而迅速形成解决方案;同时,借助行业知识图谱,本方法使关于解决方案的展现结果更加贴合行业特征,数据可以更加展现具体的涵义,降低了企业公关阅读数据时的难度,从而能够帮助他们快速提取展现结果中的有用信息,进而基于数据作出准确判断。
56.综上,本发明实施例通过解决两个问题对企业产生效益,降低决策成本:通过研究公众舆论如何看待一家企业,来了解企业自身的舆情环境如何,以此判断企业的每个行为所具备的潜在风险;负面事件发生后,基于企业的行业背景、自身属性来判断严重程度和舆情可能的发酵趋势,由此决定企业应如何处理事件。
57.应该理解的是,虽然图1和2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1和2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
58.在一个实施例中,对应于上述实施例提供的一种基于大数据的企业舆情环境监测方法,如图3所示,提供了一种基于大数据的企业舆情环境监测系统,包括以下程序模块:
59.数据模块301,用于搜集和记录互联网上的舆情数据,并通过自然语言处理算法将所述舆情数据分为热点话题事件和企业主体相关事件;
60.知识工程模块302,用于对所述热点话题事件进行整理,按照社会科学研究的分类方法进行分类,并统计同一类事件公众的主流观点、态度、情绪强度,然后根据统计结果,整理出公众信念图谱;对所述企业主体相关事件进行统计分析,学习企业舆情发酵的数据变化特点,并构造企业的行业知识图谱;
61.人工智能模块303,用于通过定制的标签,获取相应舆情事件的相关数据,结合所述公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱,分析和预测舆情事件的变化趋势,并对舆情事件进行观点聚类和情绪判定;基于数据模块301持续搜集和记录的每日互联网上的舆情数据,不断更新所述公众信念图谱、所述学习结果以及所述行业知识图谱,训练分析和预测舆情事件的变化趋势、对舆情事件进行观点聚类和情绪判定的能力,从而为企业日常内部管理和事件研判提供启示;
62.预警模块304,用于根据所述公众信念图谱判断企业活动时容易激发公众情绪的要素,为企业日常内部管理提供指导;在判断企业出现舆情风险时,根据所述公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱,分析舆情事件性质,预测舆情事件的变化趋势,以及分析得出舆情事件发生后企业受到的影响,进而为企业提供应对措施的建议。
63.其中,数据模块301所搜集的互联网上的舆情数据包括媒体、主流门户网站、论坛、博客、公众号、短视频等多种平台的舆情数据。搜集和记录数据是通过在指定url的网址上采用网页分析算法,经过过滤、筛选等步骤得到目标数据,并进行结构化储存。支持图片、音
频、视频等文件或附件的采集,附件与正文可以自动关联。也就是说,当获取到数据后,会使用pandas和sklearn等函数库,进行数据清理、数据集成、数据规约和数据变换,以及匹配删除重复内容、查询指定内容进行标注。
64.此外,数据模块301还要完成客户背景数据准备的准备工作,实现企业内部数据导入、各类公开数据抓取、抽样采集、存储和维护。也就是通过行业研究与商业分析手段,对客户所处行业进行特征判断,并结合企业历史舆情数据判断企业的舆情特征和舆情重心,并设计企业标签体系,从而为更好的舆情环境分析及预警提供基础。所涉及的企业标签体系可以包含企业舆论环境和商业特征两大类,其中企业舆论环境包含背景和历史形象,背景又进一步包含国籍、所有制类型、关键人物/集团等信息,历史形象又进一步包含过往印象、舆情事件、企业文化、关键人物言行等信息;商业特征包含行业、产业链位置、业务定位、产品与服务等,行业进一步包含舆情重心信息,产业链位置进一步包含研发能力、是否为劳动密集型、生产价值等信息,业务定位进一步包含品牌定位、群体等信息,产品与服务进一步包含是否刚需、可替代性、社会价值等信息。
65.进一步地,知识工程模块302所涉及的整理出公众信念图谱具体包括:对每日的热点话题事件进行整理,按照一套基于社会科学研究的分类方法将热点话题分为六种类别,然后从不同类型的事件中观察和统计公众的主流观点、态度、情绪强度;将观察到的结果用表格来进行统计,同时表格中统计对每个话题公众讨论的持续时间、影响力、话题规模、新闻报道力度、规模、关键词等指标,同一类别下可以看到公众对多个话题表现出相似的态度和倾向。其中,规模指的是信息数,包括通过文章、评论、转发数等任意形式所表达的信息。当统计结果显示公众支持一个观点与态度的数据达到预设规模,并能够在预设时间长度内持续具备讨论热度时,将此观点与态度标记为信念;也就是当公众共有的态度和倾向达到15万以上的数据规模,且稳定保持180天后,就将该态度和倾向标记为“信念”;通过不断追踪统计,可以获得一组稳定的“信念”,称为“公众信念”。然后将“公众信念”按照持续时间、数据规模和情绪强度进行可视化展现,成为公众信念图谱。进行可视化展示所用到的技术包括matplotlib和seaborn算法。
66.进一步地,所分的六种类别分别为社会问题类、生活问题类、企业与消费类、国际关系类、文化娱乐类和新闻事件类。举例来说,社会问题类可以是男女问题的讨论,企业与消费类可以是对加班和加班费的讨论,文化娱乐类可以是对娱乐明星的讨论。
67.进一步地,所述自然语言处理算法(national language processing nlp)涉及:
①
多模匹配技术(例如正则表达式的聚类),使用了ac自动机技术(python的ahocorasick算法);
②
数据的分类聚类统计,使用了分词及统计计数技术(python的jieba算法、机器学习的支持向量机技术svm、神经网络的textcnn模型等等,可以不同的层次维度分析数据);
③
情感分析,使用了文本向量化的技术(较新颖的是python的bert算法,还有snownlp算法)。
68.进一步地,知识工程模块302所涉及的对所述企业主体相关事件进行统计分析具体包括:对所述企业主体相关事件中具有一定数据规模的企业负面事件进行统计、分析,记录舆情的舆情发酵过程、舆情造成的负面影响、事件本身的性质以及企业主体在事件发生后受到的影响,从而为进行企业舆情发酵的数据变化特点的学习提供依据,进而通过大量事件可以学习企业舆情发酵的数据变化特点,并按照商业分析方法构造企业的行业知识图谱。其中,不同行业的企业的负面事件往往达到的数据规模是不同的,例如,地产、金融行业
负面事件会达到两万以上数据规模。所述事件本身的性质包括涉事的企业主体是否存在违法犯罪行为、是否造成人身伤害、是否造成经济损失、是否造成精神伤害以及是否触犯公众信念,并将企业负面事件按照性质分类存储;所述企业主体在事件发生后受到的影响包括企业营收损失、股价变动、关键人物形象受损程度、线上抵制行为、线下抵制行为等。
69.也就是说,整理出的所述公众信念图谱,代表了公众平台发声群体的特点;企业舆情发酵的数据变化特点,反映着企业历史行为所带来的影响;而构造的行业知识图谱,能够体现企业的自身的特点。因此,结合这几个方面,能够准确地把握企业的舆论环境。
70.进一步地,在得到初始的公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱后,可以通过某个标签获取到相应舆情事件的相关数据,然后结合初始的公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱,来分析和预测该舆情事件的性质和变化趋势,获得初始的分析舆情事件变化趋势的能力。因为搜集和记录互联网上的舆情数据的行为是持续不断进行的,因此初始的公众信念图谱、对企业舆情发酵的数据变化特点的学习结果以及行业知识图谱也是在不断更新的,从而对舆情事件变化趋势的分析和预测能力也是在不断增强的。
71.具体来说,通过构建的行业知识图谱,使得在企业负面事件发生时,能够分清责任方,以及清楚该负面事件可能造成的伤害和损失。进一步地,当企业有新的负面事件出现时,在通过定制的与此负面事件相关的标签来获取该负面事件的舆情数据后,能够根据公众信念图谱、对舆情发酵的数据变化特点的学习结果和行业知识图谱,分析出舆情事件性质、预测出舆情事件的变化趋势,进而可以分析出舆情事件发生后企业可能受到的影响,同时也可以对此负面事件进行观点聚类和情绪判定。进行观点聚类和情绪判定也就是判断公众政治倾向、对此事件的反应程度和审美偏好等,同时观察公众对此事件事实的关注程度,公众越关注事实,理性程度越高;公众不关注事实,偏好直接下标签式结论,情绪化程度越高。结合分析和预测的结果,以及进行观点聚类和情绪判定的结果,能够为企业提供解决此负面事件的解决方案;另外,能够找出历史舆情事件中和此负面事件类似的事件,该类似的事件的解决方案,也能够为企业公关解决此负面事件提供启示。
72.另外,所述知识工程模块302工作内容还包括:将企业的自身属性量化,包括所属国家、行业、产品与服务可代替性、商业模式、企业文化、对外互动行为、社会责任等,每个属性维度设置相应系数,结合当前公众信念判断公众对这些属性的态度,加权计算得到舆论场对企业好感度的基础分数。此外,将企业主体相关事件进行分析,通过设计的表达式判断舆情数据中理性与非理性成分,将数据的理性程度与公众信念结合,按照不同档位划分友好、平和、冷漠和敌视四种企业好感度。综上,知识工程模块302使用社会科学研究方法对各平台用户舆论进行分析,并根据同行业舆情特点、企业业务流程、供应链上下游对数据进行清洗。
73.进一步地,人工智能模块303会对舆情数据和热点数据进行初步观点聚类和情绪判定,支持人工设计标签和表达式,使得在学习初期能够通过表达式对舆情数据进行检索;通过知识工程模块302获取的信息会不断提供人工智能模块303的学习素材,强化ai的判断能力,并逐步建立客户的行业知识库。通过人工智能模块303的不断学习,本发明所提供的系统对公众心理、行业特点、客户业务流程的了解逐步加深,提供信息的准确程度也可以不断强化。
74.进一步地,预警模块304所涉及的分析舆情事件性质,具体包括,分析事件是否违背公众信念、事件对消费群体造成的伤害的范围和程度、事件是否涉及违法犯罪;分析得出舆情事件发生后企业受到的影响,具体是,在企业好感度的基础上,结合数据特征,分析企业营收损失、股价变动、关键人物形象受损程度、线上抵制行为以及线下抵制行为;所述数据特征包括舆情情感强度和舆情持续时间。
75.也就是说,通过不断更新公众信念图谱、对舆情发酵的数据变化特点的学习结果和行业知识图谱,能够为企业日常内部管理和事件研判提供依据。具体来说:
76.对于企业的日常内部管理,能够根据公众信念图谱判断企业活动时容易激发公众情绪的要素,进而使企业在日常经营、开展市场活动、各部门人员对外沟通时规避这些要素,从而减少爆发事件的风险;企业曝出事件、出现舆情风险时,能够以公众信念图谱和行业知识图谱提供的信息为依据,分析出舆情事件性质和舆情事件发生后企业可能受到的影响,进而结合企业自身属性和事件性质实现基于数据的风险预判的能力。
77.大部分现行的舆情系统竞争点在于数据抓取的全面性,但现在技术条件下网络舆情数据几乎不可能被全面抓取;此外,在企业不能够充分理解数据而不能提炼出有用信息的的环境下,追求数据全面的意义不大。并且,大部分现行的舆情系统依靠技术和界面优化来改进,少数专业机构可以提供结构化解决方案来对数据进行清洗。
78.对此,本发明实施例所提供的一种基于大数据的企业舆情环境监测系统,通过对全网舆情数据进行持续性统计分析,辅以社会科学研究方法,构建了我国社会舆情环境的公众信念图谱,来了解公众平台发声群体的特点;该公众信念图谱对各行各业的公关、市场部门都可以提供参考信息。尤其是面向消费者的行业,不仅可以作用于公关,还可根据舆情数据了解消费者的喜好、各竞品口碑、营销活动的反响等,做出战略决策。
79.此外,本系统继承了行业的知识图谱和企业历史舆情事件发酵过程的数据,来了解企业自身的特点和企业历史行为所产生的影响,从而结合公关信念图谱,能够准确的把握企业的舆论环境,进而能够为企业日常内部管理和舆情事件研判提供指导。在有舆情事件发生时,能够快速从大量数据中筛选出真正值得关注的信息,预测出舆情事件发展趋势,从而迅速形成解决方案;同时,借助行业知识图谱,本方法使关于解决方案的展现结果更加贴合行业特征,数据可以更加展现具体的涵义,降低了企业公关阅读数据时的难度,从而能够帮助他们快速提取展现结果中的有用信息,进而基于数据作出准确判断。
80.综上,本发明实施例通过解决两个问题,使舆情系统真正对企业产生效益,降低决策成本:通过研究公众舆论如何看待一家企业,来了解企业自身的舆情环境如何,以此判断企业的每个行为所具备的潜在风险;负面事件发生后,基于企业的行业背景、自身属性来判断严重程度和舆情可能的发酵趋势,由此决定企业应如何处理事件。
81.上述一种基于大数据的企业舆情环境监测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
82.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存
储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现上述实施例所提供的一种基于大数据的企业舆情环境监测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
83.本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
84.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,涉及上述实施例一所提供的一种基于大数据的企业舆情环境监测方法中的全部或部分流程。
85.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
86.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
87.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
转载请注明原文地址:https://tc.8miu.com/read-2241.html