一种面向高速网络的DoH服务实时感知方法

    专利查询2025-10-06  6


    本发明涉及一种面向高速网络的doh服务实时感知方法,属于网络空间安全。


    背景技术:

    1、doh(dns over https,doh)作为一种新兴的dns解析方式广泛应用,通过将dns查询加密传输,有效防止了第三方对dns数据包的窃听和篡改,合法使用doh能够有效保护用户隐私。然而,doh的广泛使用也可能带来新的问题。由于doh将dns查询请求封装在https流量中进行传输,第三方如网络运营商和网络安全部门无法直接查看dns数据包的内容,也无法分析加密流量,给网络空间安全监测和防护带来困难。网络运营商无法获得用户的网络活动和访问习惯等信息,可能影响网络运营商的广告投放和用户行为分析等业务,从而影响其商业模式和收入。同时,doh的加密特性使得传统的网络监管手段受到限制,恶意用户或恶意软件可以将恶意活动隐藏在doh流量中,从而绕过传统的网络监管手段,给网络安全治理带来了新的挑战,从而威胁国家的网络空间安全。尽管doh技术为用户隐私提供了更多保护,但在维护社会稳定和安全的前提下,进行doh服务识别仍然是一项必要的举措。通过进行doh服务识别,监管部门可以更好地了解和监控社交媒体平台上的信息传播情况,及时发现不良信息的传播和潜在的威胁社会安全的活动,并采取必要的干预措施,以维护社会秩序和公共安全。

    2、目前,关于doh流量的研究主要分为两个方向:doh隧道流量识别和doh服务识别。

    3、doh隧道流量是指恶意流量利用doh服务作为隧道传输。在doh隧道流量识别方向,研究人员不断探索新的方法来区分良性doh流量和恶意doh隧道流量。现有方法测量doh服务的tls指纹,建立指纹库,通过对比待测流量的tls指纹和指纹库中指纹检测doh隧道流量。然而,基于tls指纹的doh隧道流量检测方法准确度和灵活性都不高。攻击者可以通过改变tls指纹扩展部分的参数或密码套件等信息来逃避基于tls指纹的检测,因此基于tls指纹的检测方法容错性较差。近年一些方法基于cira-cic-dohbrw-2020数据集,使用机器学习算法进行doh隧道流量的检测实验,他们的实验表明,随机森林、决策树、支持向量机、k近邻算法的准确率接近99.9%,但是支持向量机和k近邻算法是训练阶段最慢的算法,高斯朴素贝叶斯算法识别流量类型的速度最快,但在检测阶段效果最差。

    4、目前,已有对doh隧道流量进行识别的发明专利。已有的发明专利“检测恶意doh流量的方法、装置及电子设备”利用由正常doh流量训练所得的自编码器对待检测doh流量进行检测,因其可通过处理正常doh流量准确输出与输入向量均方误差极低的输出向量,从而有效识别出与正常模式显著偏离的流量。但是这类方法在面对攻击者采用高度隐蔽的隧道技术或动态变化的攻击策略时,无法更新和调整以适应新的威胁模式。除此之外,“一种基于双层随机森林的doh恶意隧道流量检测方法”设计一种基于双层随机森林的doh恶意隧道流量检测方法,可以通过分析流量特征,经过双层随机森林分类器,提取出正常https流量中的doh流量,并深入识别doh恶意隧道流量。但这类方法在训练和推理过程中计算开销较大,且模型无法适应新的威胁模式,无法直接在实时监控系统中部署和应用。

    5、虽然对于doh隧道流量识别的研究已经取得了一定成果,然而这些研究主要关注于区分良性doh流量和恶意doh隧道流量,doh服务识别的目标是识别出流量中所有属于doh协议的流量分组,而不是区分这些流量是否具有恶意特征,这与doh隧道流量识别的目标并不一致,因此doh隧道流量识别的方法不能直接应用于doh服务的识别。doh服务识别需要在流量中识别出doh流量的分组,由于doh流量和一般的加密https应用流量都使用tcp的443端口,而且分组载荷被加密,因此无法直接通过对分组载荷的解析识别出doh流量。

    6、目前研究doh服务识别的方法主要可分为三类:基于指纹库、基于有监督机器学习和基于深度学习的识别方法,但均存在一定的局限性。基于指纹库的识别方法,通过利用doh服务器与同一客户端建立tls连接时响应方式总是相同的特性,用指纹识别检测客户端与doh服务器之间的tls协商,确定doh服务器身份。但是这种方法虽然在理论上具有较高的准确性和可靠性,但在实际应用中对指纹库的质量和完整性有着极高的依赖性,并且指纹库的更新和维护需要大量的人力和物力投入,尤其在高并发的网络环境中无法快速准确地完成tls指纹的分析和识别,因此这种方法无法应用于高速网络场景;基于有监督机器学习的识别方法,通过选择适当的基于流的统计特征和时序特征,例如报文长度统计值、报文数量、流持续时间和包间隔时间等,然后采用有监督机器学习方法训练分类器,以此来识别网络中的doh服务流量。这种方法普遍选择了基于双向五元组流的统计特征,然而,主干网中广泛部署了非对称路由,同一条流的上行数据包和下行数据包可能经过不同的网络路径,所以在同一个网络节点上只能观察到某个方向上的流量。因此,上述研究所选择的基于双向五元组流的统计特征并不适用于主干网中的doh服务识别;基于深度学习的识别方法通过学习样本数据的内在规律自动选择特征并提取,训练检测模型,识别doh服务流量。但是这种方法要基于大量数据进行训练和预测,且实现时都只使用了自己采集的样本数据进行训练和测试,而高速网络中流量巨大,若使用深度学习方法不仅计算复杂度高,对系统的存储空间要求也非常大,因此这种方法无法应用于高速网络场景。

    7、目前,已有对doh流量进行识别的发明专利。已有的发明专利“doh服务的识别方法和装置、电子设备和存储介质”通过预设的探测频次,对探测域名执行基于doh的域名解析请求,并接收解析结果,根据这些结果对数据库中的网络地址进行更新。在响应域名解析服务类型查询请求时,通过比较查询请求中的待查询网络地址与数据库中的网络地址,从而确定域名解析服务是否为基于doh的服务。由于网络的动态性和复杂性,域名解析服务器可能会响应大量的解析请求,导致基于doh的解析服务的识别过程出现延迟,影响数据库更新的实时性,因此这类方法无法适用于大规模高速网络场景。除此之外,“一种基于自注意力bilstm的doh检测方法”利用深度学习技术中的自注意力机制和双向长短期记忆网络构建一个能够处理和分析加密https流量的复杂模型,旨在解决传统doh流量检测中面临的数据不平衡问题以及检测难度大、准确率低的挑战。尽管这种方法在提高检测准确性方面取得了一定的进展,但在实际应用中,网络流量的多样性和动态性导致模型的泛化能力受限。且在需要实时响应的高速网络环境中,深度学习所需的时间和计算存储资源都非常庞大,会严重影响整体防护效果,因此无法应用于实际的高速网络场景。

    8、此外,现有的方法对模型的训练过程没有考虑到真实网络中存在的数据漂移现象。数据采集和标记通常是在有限的时间范围内进行的,获得的数据集往往只反映了特定时间段内的doh服务特征。然而,真实的网络环境中,doh服务的特征可能会随着时间的推移而变化,导致原有的训练数据可能不能代表当前的网络环境中的映射关系。这会影响到doh服务识别的性能,增加了误报和漏报的概率,从而降低了识别的准确性。

    9、综上所述,现有的doh流量识别研究虽然取得了一定的成果,但都存在以下问题导致方法无法适用于高速网络:(1)现有方法使用双向流数据,未充分考虑广泛存在非对称路由的真实网络场景;(2)现有方法从流量中提取特征所需时间和资源成本过高,在高速网络环境下,组流所需的时间和计算存储资源都非常庞大,从而导致识别过程的延迟和效率问题;(3)现有的方法虽然都达到了较高的识别准确性,但是对识别的速度并不关注,导致现有研究结果还无法实际应用;(4)现有方法对模型的训练过程没有考虑到真实网络中存在的数据漂移现象,影响到doh服务识别的性能,降低了识别的准确性。

    10、本发明给出的doh服务实时感知方法可解决当前网络安全领域中难以在高速网络中对doh服务进行实时识别的的困难。


    技术实现思路

    1、为解决上述问题,本发明公开了一种面向高速网络的doh(dns over https,doh)服务实时感知方法,通过本发明提出的方法可以完成对doh服务的识别。本发明中的识别方法分为离线训练阶段、在线更新阶段和实时识别阶段,离线训练阶段中,采集国内外加密dns服务提供商的doh数据,根据全密文信息和加密dns协议的特点,提取若干种具有代表性的单向流量特征数据并构建对应特征组别;对采集的数据进行系统抽样并结合doh-sketch技术存储数据;最终,使用特定的机器学习方法进行训练,得到doh服务识别模型。在线更新阶段中,利用开放世界的数据对模型进行迭代优化,采用在线分类、主动探测、在线学习技术,设计自动更新机制,不断提升模型的判别性能,实现面向现实网络环境的doh分类识别模型的迭代更新。实时识别阶段中,根据离线训练和在线更新阶段得到的现实网络环境中的doh服务名单,对实际高速网络中捕获到的流量进行数据预处理,使用基于哈希函数映射的名单匹配算法快速识别出doh分组,即可检测当前流量中是否存在doh流量。本发明可以用于高速网络等海量流量场景下的doh服务检测与预警,为网络安全监管提供依据。

    2、为了实现本发明的目的,本方案具体技术步骤如下:一种面向高速网络的doh服务实时感知方法,所述方法包括以下步骤:

    3、步骤(1)以分布式主动探测方式,并行实现doh数据集的高效自动采集,获取国内外加密dns服务提供商的流量数据。根据加密dns服务器的ip地址,得到样本标签,为流量数据添加标签,形成训练数据集;

    4、步骤(2)基于全密文信息,结合高速网络的流量特点,采用基于比例和分布规律的指标构建若干个特征表示方法,提取出若干个能够体现高效辨识doh流量的特征表示,例如数据包中tls分片的个数、tls分片大小、数据包数量占比以及有效载荷的大小分布;

    5、步骤(3)设计自定义的doh-sketch海量流量处理结构并使用hash算法,根据doh-sketch结构的性能表现,确定合适的抽样率。在抽样流量的基础上,存储步骤(2)所述的特征数据并实现快速提取;

    6、步骤(4)为了进一步提高处理速度,选择复杂度较低的机器学习算法,并将步骤(3)得到的特征向量输入到机器学习算法中进行训练,得到doh流量的识别模型;

    7、步骤(5)使用在线分类、主动探测、在线学习技术,利用开放世界的数据对步骤(4)模型设计自动更新机制,不断提升模型判别性能,实现面向高速网络的doh识别模型的迭代更新;

    8、步骤(6)根据步骤(5)得到的现实网络环境中的doh服务名单,对高速网络中的实时数据,根据其三元组信息,使用基于哈希函数映射的名单匹配算法快速判断识别出doh分组。

    9、进一步的,所述步骤(1)中,构建训练使用的数据集的步骤如下:

    10、(1.1)设计并开发面向全球doh服务的样本自动采集程序,通过自动化工具控制浏览器,依次访问国内外doh服务供应名单对应的url列表,大规模采集全球加密dns服务提供商的网络流量作为训练数据集;

    11、(1.2)根据国内外加密dns服务器的ip地址与步骤(1.1)中训练数据集的流量数据进行关联,对步骤(1.1)中的训练数据集添加标签。

    12、进一步的,所述步骤(2)中,根据流量特征构建对应特征组别的步骤如下:

    13、(2.1)分析加密dns协议的原理,提取出若干个与有效载荷相关的可以增强对加密dns协议识别的特征数据,例如含有效载荷的数据包在连接中的占比以及有效载荷的大小等;

    14、(2.2)采用基于比例和分布规律的指标,提取出若干个与数据包中tls分片长度相关的可以增强对加密dns协议识别的特征数据,例如数据分组中tls分片的长度和分组长度等;

    15、(2.3)为了降低对分组的处理时延,对数据包特征提取进行优化。

    16、进一步的,所述步骤(3)中,高效提取特征并处理的步骤如下:

    17、(3.1)自定义的doh-sketch结构中有多个存储单元,每个存储单元包含多个计数器,以同时记录多个流量特征数据;每获取一个数据包,doh-sketch结构就会更新一次,图2展示了自定义的doh-sketch结构存储doh特征的统计值;

    18、(3.2)为了减少哈希冲突对统计结果造成影响,对步骤(1)采集到的训练数据集按照的比例进行系统抽样,得到抽样后的流量数据;

    19、(3.3)由于doh使用tcp的443端口,当分组的源地址或者宿地址使用tcp的443端口时,使用对应ip地址、443端口和tcp协议这三个值作为键值进行hash计算。为了提高处理速度并降低对分组处理的消耗,doh-sketch只使用一个hash函数来定位桶,将该哈希值分成多个部分,定位到响应的位置后对计数器进行递增;

    20、(3.4)当一个桶里的记录报文数目的计数器总和达到阈值时,饱和事件发生,执行提取特征向量的操作,即包累积特征。

    21、进一步的,所述步骤(4)中,在进行特征数据的机器学习训练过程中,需综合考量算法的处理速度、分类精度以及抗过拟合能力。本方法选择随机森林算法对步骤(3)中的样本特征进行训练,得到doh流量的识别模型,该算法以其出色的分类性能和稳健性而著称。

    22、进一步的,所述步骤(5)中,对离线模型进行在线更新迭代的步骤如下:

    23、(5.1)从真实的主干网节点中捕获实时的流量,根据步骤(3)的流程对其进行流量抽样与特征数据存储统计,达到阈值后提取特征数据;

    24、(5.2)将步骤(5.1)提取的特征输入步骤(4)训练的doh流量识别模型中,得到预测结果;

    25、(5.3)对步骤(5.1)得到的分组,使用分布式主动探测机制对其发送请求,结合步骤(5.2)得到的预测结果和主动探测响应流量类型判断是否为真正的doh服务提供商。若为真正的doh服务提供商,则将doh服务名单信息以三元组(ip,port,protocol)的格式更新到doh数据库中;若不为doh服务提供商,对其分组进行重标记,产生更新的样本数据;

    26、(5.4)对步骤(5.3)得到的验证结果,使用基于机器学习的增量学习方法对步骤(4)中的识别模型进行在线更新迭代,以适应现实网络环境中不断产生的新数据。图3展示了面向海量数据的doh流量识别模型构建与优化。

    27、进一步的,所述步骤(6)中,对高速网络中的数据实时识别doh服务并进行监管的步骤如下:

    28、(6.1)初始化一个长度为m的位向量,所有位设置为0。从doh数据库中读取所有的doh名单,对于每个要加入的doh服务条目,使用k个独立的哈希函数h1,h2,…,hk计算得到k个范围在0~m-1的位置,并将这些位置上的位设置为1;

    29、(6.2)当从高速网络捕获到流量样本s时,使用步骤(6.1)中k个哈希函数计算s的三元组信息,检查步骤(6.1)中m对应位向量的位是否都为1,若其中有任何一位为0,则可以确定样本一定不在集合中;若所有位都为1,则该样本存在于doh名单中,并对该样本实施监管对策。

    30、一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行程序时实现所述的面向高速网络的doh服务实时感知方法。

    31、一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现所述的面向高速网络的doh服务实时感知方法。

    32、与现有技术相比,本发明的技术方案具有以下有益技术效果:

    33、(1)本发明提出了一种面向高速网络的场景下实时感知doh服务的方法,该方法能够抽取高效的doh流量特征,设计面向海量加密流量数据的高效数据处理结构,并构建和优化面向海量数据的doh流量实时识别模型,从而进行海量数据的doh分组快速识别,为网络安全人员提供数据依据。

    34、(2)本发明针对当前缺乏对分组特征在线实时抽取方法的问题,基于全密文信息和加密dns协议特征,设计高效、高辨识度的doh流量特征表示方法,结合高速网络的流量特点,本发明使用了自定义的doh-sketch结构来记录流量信息,为高速现实网络环境中的doh识别提供基础支持。

    35、(3)本发明提取的方法不仅关注提高doh流量识别的准确性,同时也重视识别速度。通过设计一种高效的概率数据结构,解决资源限定条件下名单匹配与设备性能之间的潜在冲突,提出基于哈希函数映射的名单匹配算法,满足高速网络环境下对实时性的要求,使得研究成果能够真正应用于实际的网络安全防护中。

    36、(4)本发明针对现有识别方法无法应对现实网络环境中概念漂移的问题,设计了面向真实环境的doh流量识别模型优化方法,基于主动探测模块对样本进行增量更新,并通过增量学习的方式来对doh模型进行更新迭代,确保模型在现实开放网络环境中的准确性。


    技术特征:

    1.一种面向高速网络的doh服务实时感知方法,其特征在于,该方法包括以下步骤:

    2.根据权利要求1所述的一种面向高速网络的doh服务实时感知方法,其特征在于,所述步骤(1)具体包含如下子步骤:

    3.根据权利要求1所述的一种面向高速网络的doh服务实时感知方法,其特征在于,所述步骤(2)具体包含如下子步骤:

    4.根据权利要求1所述的一种面向高速网络的doh服务实时感知方法,其特征在于,所述步骤(3)具体包含如下子步骤:

    5.根据权利要求1所述的一种面向高速网络的doh服务实时感知方法,其特征在于,所述步骤(4)中,在进行特征数据的机器学习训练过程中,需综合考量算法的处理速度、分类精度以及抗过拟合能力,选择随机森林算法对步骤(3)中的样本特征进行训练,得到doh流量的识别模型。

    6.根据权利要求1所述的一种面向高速网络的doh服务实时感知方法,其特征在于,所述步骤(5)具体包含如下子步骤:

    7.根据权利要求1所述的一种面向高速网络的doh服务实时感知方法,其特征在于,所述步骤(6)具体包含如下子步骤:

    8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行程序时实现如上述权利要求1至7中的任意一项所述的面向高速网络的doh服务实时感知方法。

    9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于:该计算机指令被处理器执行时实现如权利要求1-7中任一项所述的面向高速网络的doh服务实时感知方法。


    技术总结
    本发明公开了一种面向高速网络的DoH服务实时感知方法,分为离线训练阶段、在线更新阶段和实时识别阶段,离线训练阶段中,采集国内外加密DNS服务提供商的DoH数据,根据加密DNS协议的特点,提取若干种具有代表性的单向流量特征;对采集的数据进行抽样并结合DoH‑Sketch技术存储数据;训练得到DoH服务识别模型。在线更新阶段中,利用开放世界数据对模型迭代优化,采用在线分类、主动探测、在线学习技术,实现面向现实网络环境DoH分类识别模型的迭代更新。实时识别阶段中,根据离线训练和在线更新阶段得到的现实网络中的DoH服务名单,对高速网络中捕获到的流量快速识别DoH分组。本发明用于高速网络等海量流量场景下的DoH服务检测与预警,为网络安全监管提供依据。

    技术研发人员:吴桦,汪晓慧,刘嵩涛,杜加加,赵琛
    受保护的技术使用者:东南大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-31302.html

    最新回复(0)