一种基于深度学习的大数据智能采集方法与流程

    专利查询2025-04-28  18


    本发明涉及数据安全领域,尤其涉及一种基于深度学习的大数据智能采集方法。


    背景技术:

    1、在当今数字化时代,数据被认为是企业和组织的重要资产,对于业务决策、市场分析、产品研发等方面起着至关重要的作用。随着互联网的普及和信息技术的迅速发展,大数据时代已经到来,海量的数据源涌入各个行业,成为企业和组织决策的重要依据。然而,这些数据往往具有高维、异构、动态变化等特点,给数据采集、处理和利用带来了挑战。传统的数据采集方法往往受限于采集效率低、数据质量差等问题,无法满足日益增长的数据需求。传统的爬虫技术虽然能够获取网络上的数据,但面临着数据结构不规范、页面动态化、反爬虫机制等挑战,导致采集效率和质量难以保障。此外,大数据采集过程中还存在数据冗余、信息重复等问题,加剧了数据处理的难度;因此,发明出一种基于深度学习的大数据智能采集方法变得尤为重要。

    2、经检索,中国专利号cn108958957a公开了一种轻量级的大数据智能采集方法,该发明虽然保证了超大规模下采集客户端与缓冲队列之间不会过于频繁的建立连接通道,保证了数据不会丢失,同时减轻被采集侧生产系统压力,但是无法快速定位和访问潜在的数据源,降低数据采集的效率;此外,现有的大数据智能采集方法无法为数据的后续处理和利用提供有力支持,降低对数据的理解能力,数据采集的效率和准确性低下;为此,我们提出一种基于深度学习的大数据智能采集方法。


    技术实现思路

    1、本发明的目的是为了解决现有技术中存在的缺陷,而提出的一种基于深度学习的大数据智能采集方法。

    2、为了实现上述目的,本发明采用了如下技术方案:

    3、一种基于深度学习的大数据智能采集方法,该采集方法具体步骤如下:

    4、(1)通过网络爬虫技术识别并收集潜在数据源;

    5、(2)对各数据源进行分类识别并提取对应的关键信息;

    6、(3)对数据源进行深度优先搜索获取最优数据采集路径;

    7、(4)构建关联知识图谱并寻找全局最优的采集策略;

    8、(5)根据采集路径与策略对数据源进行抓取和存储;

    9、(6)预处理采集的各原始数据并进行数据缓存;

    10、(7)根据采集的数据和知识图谱进行分析预测。

    11、作为本发明的进一步方案,步骤(1)中所述网络爬虫技术具体包括基于http库的请求发送与响应处理、html解析技术、数据存储技术、并发与异步处理以及分布式爬虫。

    12、作为本发明的进一步方案,步骤(3)中所述深度优先搜索具体步骤如下:

    13、步骤1:收集当前的数据采集状态,之后将其作为根节点,并初始化根节点访问次数和收益,之后根据数据源的拓扑结构和采集规则构建初始搜索树;

    14、步骤2:从根节点开始,通过ucb算法对搜索树进行遍历,根据遍历过程中计算得到的每个节点的置信上界值,选择具有最高值的节点作为待扩展子节点,根据可能发生的采集动作或状态生成新的未访问过的子节点;

    15、步骤3:为每个生成的子节点设置初始状态信息,再将生成的子节点添加到当前选择的节点的子节点列表中,从当前选择的子节点开始,模拟状态转移过程,直到达到预设模拟时间后停止,根据模拟过程中达到的最终状态,评估模拟的收益;

    16、步骤4:更新当前选择的节点的信息,并记录已经扩展过的子节点,根据模拟的结果,反向更新经过的各组节点的状态信息、访问次数和收益;

    17、步骤5:重复执行选择、扩展、模拟和回溯步骤,直到达到预定的搜索次数或时间限制,遍历搜索树模拟结果,选择收益最高的节点决策作为最优数据采集路径输出,并将该采集路径应用于实际数据采集过程中。

    18、作为本发明的进一步方案,步骤(4)中所述关联知识图谱构建具体步骤如下:

    19、步骤ⅰ:收集来自不同的网站、文件系统、对象存储系统、内存数据库、列式数据库或文档数据库的数据,对收集到的数据进行清洗和预处理;

    20、步骤ⅱ:识别数据中的实体和实体之间的关系,并通过命名实体识别技术和关系抽取技术从原始数据中抽取出实体和关系的信息,基于实体和关系的抽取结果,将实体作为图谱中的节点,将实体之间的关系作为图谱的边,构建数据之间的关联知识图谱;

    21、步骤ⅲ:将构建好的知识图谱存储到neo4j图数据库,并通过不断地收集新的数据源,将新的实体和关系添加到已有的知识图谱中,以不断扩展和丰富图谱的内容。

    22、作为本发明的进一步方案,步骤(4)中所述最优采集策略具体寻找步骤如果:

    23、步骤①:通过分析关联知识图谱中的实体和关系,调整构建好的采集路径中的节点顺序或添加新的节点,将路径作为解空间中的一个解,设定初始温度、终止温度以及退火速率,将优化后的采集路径作为初始解;

    24、步骤②:通过随机扰动、邻域搜索或基于梯度的搜索在当前解的邻域内生成新的候选解,获取新解对应的采集路径,计算新解与当前解之间的差异δe;

    25、步骤③:根据metropolis准则计算接受概率,并生成一个介于0和1之间的随机数r,若生成的随机数r小于接受概率,则接受新的候选解作为当前解,并更新当前解为新解;否则,保持当前解不变;

    26、步骤④:依据退火速率降低当前温度,重复进行生成新解以及替换当前解,直至当前温度达到终止温度后停止,输出找到的最优解,即优化后的采集策略,并依据该采集策略对采集路径进行进一步优化。

    27、作为本发明的进一步方案,步骤(6)中所述数据缓存具体步骤如下:

    28、步骤一:根据系统的内存资源和性能需求,设置arc缓存的容量大小,初始化arc缓存,当进行数据存储时,首先检查数据是否已经在arc缓存中;

    29、步骤二:若数据已经存在于缓存中,则直接从缓存中读取,若数据不在缓存中,则在数据存储之前,检查arc缓存的状态,若arc缓存已满,根据最近访问的数据和最近未被访问的数据,选择替换数据;

    30、步骤三:将选择的替换数据从缓存中移除,再将新的数据进行缓存分级,并将其存储至arc缓存中,存储完数据后,更新arc缓存的状态信息。

    31、作为本发明的进一步方案,步骤(6)中所述分析预测具体步骤如下:

    32、第一步:将采集到的数据与关联知识图谱相结合,并对结合后的数据进行预处理以及序列化,再将处理后的数据集划分为训练集以及测试集,之后基于keras深度学习框架构建识别分析模型;

    33、第二步:将训练集输入识别分析模型中,之后该模型通过前向传输对各训练数据进行逐层传递获取对应预测结果,通过均方根误差函数计算预测数据与实际值之间的损失值;

    34、第三步:根据链式法则,将损失值从模型的输出层开始反向逐层传递,并计算损失值相对于模型各层参数的梯度,对获取的梯度信息进行裁剪,通过adam优化器,基于各层梯度信息对模型参数进行优化;

    35、第四步:每次训练结束后,通过测试集验证识别分析模型性能,当识别分析模型性能不再提升,或开始下降时,提前停止模型训练,否则继续通过划分后的训练集训练识别分析模型,直至达到预设训练次数后停止;

    36、第五步:获取最新采集的数据,之后对最新采集的数据进行预处理,再将其输入训练好的识别分析模型中,将数据从模型输入层开始逐层进行传递,并调用模型的预测函数,以得到预测结果;

    37、第六步:对预测结果进行解释和分析,并对预测结果进行后处理,根据处理后的预测结果对采集的各组数据中的异常数据进行标记,并对标记的异常数据进行剔除。

    38、相比于现有技术,本发明的有益效果在于:

    39、1、该基于深度学习的大数据智能采集方法通过收集当前的数据采集状态,之后将其作为根节点,并初始化根节点访问次数和收益,之后构建初始搜索树,从根节点开始,选择具有最高值的节点作为待扩展子节点,为每个生成的子节点设置初始状态信息,再将生成的子节点添加到当前选择的节点的子节点列表中,从当前选择的子节点开始,模拟状态转移过程,根据模拟过程中达到的最终状态,评估模拟的收益,更新当前选择的节点的信息,并记录已经扩展过的子节点,根据模拟的结果,反向更新经过的各组节点的状态信息、访问次数和收益,重复执行选择、扩展、模拟和回溯步骤,直到达到预定的搜索次数或时间限制,遍历搜索树模拟结果,选择收益最高的节点决策作为最优数据采集路径输出,并将该采集路径应用于实际数据采集过程中,能够帮助系统快速定位和访问潜在的数据源,提高数据采集的效率,能够根据搜索结果动态调整搜索策略,提高数据采集的性能和适应性,使得采集到的数据更具有价值和意义。

    40、2、该基于深度学习的大数据智能采集方法通过将采集到的数据与关联知识图谱相结合,并对结合后的数据进行预处理以及序列化,再将处理后的数据集划分为训练集以及测试集,之后基于keras深度学习框架构建识别分析模型,通过训练集以及测试集对识别分析模型进行训练验证,获取最新采集的数据,之后对最新采集的数据进行预处理,再将其输入训练好的识别分析模型中,将数据从模型输入层开始逐层进行传递,并调用模型的预测函数,以得到预测结果,对预测结果进行解释和分析,并对预测结果进行后处理,根据处理后的预测结果对采集的各组数据中的异常数据进行标记,并对标记的异常数据进行剔除,能够为数据的后续处理和利用提供有力支持,增强对数据的理解能力,帮助用户更好地理解数据的内在含义和价值,提高数据采集的效率和准确性。


    技术特征:

    1.一种基于深度学习的大数据智能采集方法,其特征在于,该采集方法具体步骤如下:

    2.根据权利要求1所述的一种基于深度学习的大数据智能采集方法,其特征在于,步骤(1)中所述网络爬虫技术具体包括基于http库的请求发送与响应处理、html解析技术、数据存储技术、并发与异步处理以及分布式爬虫。

    3.根据权利要求1所述的一种基于深度学习的大数据智能采集方法,其特征在于,步骤(3)中所述深度优先搜索具体步骤如下:

    4.根据权利要求3所述的一种基于深度学习的大数据智能采集方法,其特征在于,步骤(4)中所述关联知识图谱构建具体步骤如下:

    5.根据权利要求4所述的一种基于深度学习的大数据智能采集方法,其特征在于,步骤(4)中所述最优采集策略具体寻找步骤如果:

    6.根据权利要求1所述的一种基于深度学习的大数据智能采集方法,其特征在于,步骤(6)中所述数据缓存具体步骤如下:

    7.根据权利要求4所述的一种基于深度学习的大数据智能采集方法,其特征在于,步骤(6)中所述分析预测具体步骤如下:


    技术总结
    本发明公开了一种基于深度学习的大数据智能采集方法,属于数据安全领域,该采集方法具体步骤如下:(1)通过网络爬虫技术识别并收集潜在数据源;(2)对各数据源进行分类识别并提取对应的关键信息;(3)对数据源进行深度优先搜索获取最优数据采集路径;(4)构建关联知识图谱并寻找全局最优的采集策略;本发明能够帮助系统快速定位和访问潜在的数据源,提高数据采集的效率,能够根据搜索结果动态调整搜索策略,提高数据采集的性能和适应性,使得采集到的数据更具有价值和意义,能够为数据的后续处理和利用提供有力支持,增强对数据的理解能力,帮助用户更好地理解数据的内在含义和价值,提高数据采集的效率和准确性。

    技术研发人员:许仲秋,张欢
    受保护的技术使用者:深圳朗道智通科技有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-27987.html

    最新回复(0)