本发明涉及大数据分析,尤其涉及基于人工智能的大数据处理分析系统。
背景技术:
1、“大数据”被定义为“需要处理能产生更强决策力、洞察发现力、流程优化能力的海量、高增长率、多样化信息资产”,其战略意义不仅是对大数据海量数据信息技术的掌握,更重要的是如何对这些海量信息进行专业地分析处理。
2、现有技术cn111753170a公开了一种大数据快速检索系统及方法,本发明首先在获得用户终端的授权后通过用户终端采集第一验证信息,其次根据第一信息检索请求进行检索,基于检索到的第一目标信息建立与第一验证信息对应的用户画像,然后在获取到第二信息检索请求时通过用户终端采集第二验证信息,并判断第二验证信息和第一验证信息的一致性,最后基于第二验证信息和第一验证信息的一致性判断结果确定是否基于用户画像进行信息检索。
3、但由于互联网时代的发展,很多商户或博主喜欢在网上对产品进行推广,进而导致用户在网上对信息进行检索时,使检索结果中存在大量的重复信息或广告产品,会对用户造成视觉上的干扰,导致用户无法直接判断信息与自身的适配性,使用户难以找到他们的需求信息,进而降低用户的体验感受。
技术实现思路
1、本发明的目的是为了解决背景技术中的问题,而提出的基于人工智能的大数据处理分析系统。
2、为了实现上述目的,本发明采用了如下技术方案:
3、基于人工智能的大数据处理分析系统,包括:
4、用户信息采集模块,用于对目标用户的历史浏览信息进行采集,并传输至个性分析模块;
5、信息输入模块,用于通过终端设备生成目标检索信息,并传输至数据检索模块;
6、数据检索模块,用于在信息库中对目标检索信息进行检索,得到输入匹配信息,之后数据检索模块将输入匹配信息传输至个性分析模块;
7、个性分析模块,用于根据目标用户的历史浏览信息,对输入匹配信息进行前端干涉处理,包括:
8、对输入匹配信息进行信息识别,并生成信息标签,同时将一个输入匹配信息内的信息标签均作为信息元素,得到匹配标签集合,对目标检索信息进行信息拆解,得到关键信息词组,将关键信息词组作为语义背景,识别信息元素的特征类别,基于特征类别在所有匹配标签集合中出现的次数,计算特征比率,并根据特征比率确定信息分量;
9、基于信息分量与历史浏览信息,确定目标用户的显性分量因子;
10、将显性分量因子作为具象匹配参数,并在输入匹配信息中再次进行匹配,并确定前置适配信息,个性分析模块将前置适配信息传输至内容识别模块;
11、内容识别模块,用于对前置适配信息中出现的产品进行识别,将出现产品的前置适配信息标记为二次运算信息,同时出现的产品标记为信息产品,之后对信息产品的产品片段信息进行截取,然后在二次运算信息中,计算同一信息产品的目标出现频率和文本相似度,再结合二次运算信息中的信息产品数量,计算二次运算信息的信息价值,最后根据信息价值,将二次运算信息分为实质配对信息和虚拟作用信息;
12、终端识别模块,用于识别实质配对信息,并将实质配对信息在目标用户的终端设备上进行显示。
13、作为本发明的进一步方案,信息元素的特征类别的识别方法包括:
14、对输入匹配信息中出现的信息进行识别,并生成信息标签,将一个输入匹配信息中的信息标签均作为信息元素,并形成匹配标签集合,输入匹配信息与匹配标签集合一一对应;
15、对目标检索信息进行信息拆解,信息拆解即为对目标检索信息进行语义分析,并提取关键信息词组,关键信息词组指词组所表示的含义存在实际的特征指向,包括名词和动词;
16、对所有匹配标签集合中的信息元素进行识别处理,若存在信息元素与关键信息词组一致,则将此信息元素在对应的匹配标签集合中进行删除;
17、将关键信息词组作为语义背景,利用自然语言处理技术中的分类任务相关算法对信息元素的词汇类别进行识别,并将所识别的词汇类别标记为特征类别,其中,词汇类别指根据一定的标准和规则对词汇进行分类。
18、作为本发明的进一步方案,根据特征比率确定信息分量的方法包括:
19、以一个特征类别作为目标特征类别,在匹配标签集合中判断是否出现目标特征类别,若匹配标签集合中出现目标特征类别,则在对应的标签集合中设置标记记号;
20、对存在标记记号的匹配标签集合进行数量统计,得到标记数值,然后将标记数值除以匹配标签集合的总数量得到特征比率;
21、将特征比率与比率阈值进行比较,若特征比率<比率阈值,则将目标特征类别标记为无关特征,反之,若特征比率≥比率阈值,则将目标特征类别标记为信息分量。
22、作为本发明的进一步方案,确定目标用户的显性分量因子的方法包括:
23、将信息分量作为用户画像的基础属性,利用卷积神经网络模型,对历史浏览信息进行深度特征提取,进而确定目标用户的用户画像,其中用户画像中的元素即为目标用户的显性分量因子。
24、作为本发明的进一步方案,前置适配信息的确定方法包括:
25、将信息分量中的显性分量因子作为具象匹配参数,并对匹配标签集合中的信息元素进行识别:
26、先识别信息分量在匹配标签集合中对应的信息元素,并标记为个性元素,将个性元素与其信息分量对应的显性分量因子进行一致性识别,若匹配标签集合中的个性元素均与对应的显性分量因子相同时,则将对应的输入匹配信息标记为前置适配信息,反之,若在匹配标签集合的个性元素中,存在任意一个个性元素与显性分量因子不同时,则不对此匹配标签集合对应的输入匹配信息进行标记。
27、作为本发明的进一步方案,目标出现频率的计算方法包括:
28、基于视觉识别技术,对前置适配信息中出现的产品进行识别,若前置适配信息中出现产品时,将对应的前置适配信息标记为二次运算信息,同时将二次运算信息中的产品标记为信息产品i,i∈[1,i],表示一条二次运算信息中共存在i个信息产品;
29、任意选择一个信息产品作为目标产品i,基于公式得到目标出现频率fi,其中目标出现频率fi指目标产品i在二次运算信息中出现的频率,ni表示包含目标产品i的二次运算信息的数量,ns表示二次运算信息的总数量。
30、作为本发明的进一步方案,文本相似度的计算方法包括:
31、根据二次运算信息中的信息产品i,对二次运算信息与信息产品i的相关内容进行片段截取,并标记为产品片段信息,其中,在二次运算信息中,信息产品i与产品片段信息之间相互对应;
32、提取目标产品i在所有的二次运算信息中的产品片段信息,并对所提取的产品片段信息进行预处理,使产品片段信息的信息格式统一,并标记为同产信息,信息格式包括文本格式、图像格式、音频格式和视频格式;
33、基于神经网络模型中的word2vec模型,将同产信息进行词组分离,并计算每个词组的word2vec向量,之后在一条同产信息中,取所有词组的word2vec向量的均值并作为此条同产信息的文本向量;
34、利用余弦相似度算法,对所有同产信息的文本向量进行相似度计算,并将计算结果标记为目标产品i的文本相似值wxi。
35、作为本发明的进一步方案,实质配对信息和虚拟作用信息的确定方法包括:
36、利用公式得到二次运算信息的信息价值xe,其中i表示二次信息中存在的总信息产品,ds表示二次运算信息的信息量,β1和β2均为比例系数,b1和b2分别为固定因子,且0<b1<1,0<b2<1,c1为常数系数,fi和wxi分别表示目标产品i的目标出现频率和文本相似值;
37、将信息价值xe与信息阈值xy进行比较,若xe≥xy,则将对应的二次运算信息标记为实质配对信息,反之,若xe<xy,则将对应的二次运算信息标记为虚拟作用信息。
38、作为本发明的进一步方案,若前置适配信息中未出现产品时,将对应的前置适配信息直接标记为实质配对信息。
39、与现有的技术相比,本发明的优点在于:
40、本发明通过根据用户的目标检索信息,确定对应的输入匹配信息,再对输入匹配信息中的词汇类别进行识别,确定输入匹配信息的信息分量,再以信息分量为用户画像的基础数据,在历史浏览信息中确定目标用户的具体的用户画像,根据目标用户具体的用户画像,在输入匹配信息中确定前置适配信息,进而确保检索结果与目标检索信息的高度相关,能够提高关键词的精准匹配度;
41、本发明通过对前置适配信息中出现的信息产品进行识别,同时通过对信息产品出现的文本相似值与信息产品出现的频率进行计算,再基于前置适配信息中存在的信息产品,确定前置适配信息的信息价值,之后根据信息价值,将前置适配信息分为实质配对信息与虚拟作用信息,然后将实质配对信息在终端设备上进行显示,一方面,保证用户检索结果的内容质量,另一方面,提高信息的检索效率,从而提升用户体验。
1.基于人工智能的大数据处理分析系统,其特征在于,包括:
2.根据权利要求1所述的基于人工智能的大数据处理分析系统,其特征在于,信息元素的特征类别的识别方法包括:
3.根据权利要求2所述的基于人工智能的大数据处理分析系统,其特征在于,根据特征比率确定信息分量的方法包括:
4.根据权利要求1所述的基于人工智能的大数据处理分析系统,其特征在于,确定目标用户的显性分量因子的方法包括:
5.根据权利要求1所述的基于人工智能的大数据处理分析系统,其特征在于,前置适配信息的确定方法包括:
6.根据权利要求1所述的基于人工智能的大数据处理分析系统,其特征在于,目标出现频率的计算方法包括:
7.根据权利要求6所述的基于人工智能的大数据处理分析系统,其特征在于,文本相似度的计算方法包括:
8.根据权利要求6所述的基于人工智能的大数据处理分析系统,其特征在于,实质配对信息和虚拟作用信息的确定方法包括:
9.根据权利要求6所述的基于人工智能的大数据处理分析系统,其特征在于,若前置适配信息中未出现产品时,将对应的前置适配信息直接标记为实质配对信息。
