网页内容提取方法、装置、计算机设备和存储介质与流程

    专利查询2022-07-09  146



    1.本技术涉及计算机技术领域,特别是涉及一种网页内容提取方法、装置、计算机设备和存储介质。


    背景技术:

    2.随着计算机技术与机器学习的发展,出现了深度学习技术,这深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
    3.目前在网页内容识别领域,一般是针对不同的网站配置不同的html标签提取规则,但是由于网站种类繁多,而针对每一个网站都需要进行特定的配置,因此在需要针对多种网页进行内容提取时,提取效率较低。


    技术实现要素:

    4.基于此,有必要针对上述技术问题,提供一种能够有效提高内容提取效率的网页内容提取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
    5.第一方面,本技术提供了一种网页内容提取方法。所述方法包括:
    6.获取网页内容提取请求,所述网页内容提取请求包括网页信息;
    7.查找根据所述网页信息获取所述网页内容提取请求对应的待处理网页;
    8.依次提取所述待处理网页中节点对应的内容特征向量;
    9.通过深度学习技术对所述内容特征向量进行二分类处理,获取二分类结果,所述二分类处理用于识别当前节点是否包含目标内容数据;
    10.当所述二分类结果表征当前节点包含目标内容数据时,从所述当前节点提取所述目标内容数据。
    11.第二方面,本技术还提供了一种网页内容提取装置。所述装置包括:
    12.请求获取模块,用于获取网页内容提取请求;
    13.数据获取模块,用于查找所述网页内容提取请求对应的待处理网页;
    14.特征提取模块,用于依次提取所述待处理网页中节点对应的内容特征向量;
    15.内容提取模块,用于当基于当前内容特征向量通过深度学习技术识别出所述待提取网页数据中包含目标内容数据时,从所述当前内容特征向量对应的节点提取所述目标内容数据。
    16.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
    17.获取网页内容提取请求,所述网页内容提取请求包括网页信息;
    18.查找根据所述网页信息获取所述网页内容提取请求对应的待处理网页;
    19.依次提取所述待处理网页中节点对应的内容特征向量;
    20.通过深度学习技术对所述内容特征向量进行二分类处理,获取二分类结果,所述二分类处理用于识别当前节点是否包含目标内容数据;
    21.当所述二分类结果表征当前节点包含目标内容数据时,从所述当前节点提取所述目标内容数据。
    22.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
    23.获取网页内容提取请求,所述网页内容提取请求包括网页信息;
    24.查找根据所述网页信息获取所述网页内容提取请求对应的待处理网页;
    25.依次提取所述待处理网页中节点对应的内容特征向量;
    26.通过深度学习技术对所述内容特征向量进行二分类处理,获取二分类结果,所述二分类处理用于识别当前节点是否包含目标内容数据;
    27.当所述二分类结果表征当前节点包含目标内容数据时,从所述当前节点提取所述目标内容数据。
    28.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
    29.获取网页内容提取请求,所述网页内容提取请求包括网页信息;
    30.查找根据所述网页信息获取所述网页内容提取请求对应的待处理网页;
    31.依次提取所述待处理网页中节点对应的内容特征向量;
    32.通过深度学习技术对所述内容特征向量进行二分类处理,获取二分类结果,所述二分类处理用于识别当前节点是否包含目标内容数据;
    33.当所述二分类结果表征当前节点包含目标内容数据时,从所述当前节点提取所述目标内容数据。
    34.上述网页内容提取方法、装置、计算机设备、存储介质和计算机程序产品,其中方法通过获取网页内容提取请求,所述网页内容提取请求包括网页信息;根据所述网页信息获取所述网页内容提取请求对应的待处理网页;依次提取所述待处理网页中节点对应的内容特征向量;通过深度学习技术对所述内容特征向量进行二分类处理,获取二分类结果,所述二分类处理用于识别当前节点是否包含目标内容数据;当所述二分类结果表征当前节点包含目标内容数据时,从所述当前节点提取所述目标内容数据。本技术通过抽取待处理网页节点对应的内容特征向量,以深度学习的方式来确定待提取网页数据中是否包含有目标内容数据,并在包含时直接从内容特征向量对应的节点提取目标内容数据,可以保证网页内容提取的提取结果不受网页结构变化的影响,提高网页内容提取的提取效率。
    附图说明
    35.图1为一个实施例中网页内容提取方法的应用环境图;
    36.图2为一个实施例中网页内容提取方法的流程示意图;
    37.图3为一个实施例中构建内容块节点对应的节点内容特征向量步骤的流程示意图;
    38.图4为一个实施例中获取折叠文档对象模型树步骤的流程示意图;
    39.图5为另一个实施例中构建内容块节点对应的节点内容特征向量步骤的流程示意图;
    40.图6为一个实施例中从内容特征向量对应的节点提取目标内容数据步骤的流程示意图;
    41.图7为一个实施例中预设深度神经网络模型的训练步骤的流程示意图;
    42.图8为一个实施例中网页内容提取方法所提取的目标网页示意图;
    43.图9为一个实施例中网页内容提取装置的结构框图;
    44.图10为一个实施例中计算机设备的内部结构图。
    具体实施方式
    45.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
    46.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
    47.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
    48.本技术主要涉及人工智能中的深度学习技术,机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。而深度学习(deep learning)是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
    49.申请人发现,在互联网数据获取过程中,一般需要对抓取到的网页相关信息进行进一步的拆解分析提取,比如文章的标题,文章的作者,发文时间,内容等等,而目前针对这些内容数据的提取,常规的做法有两种。一是针对不同的网站配置不同的html(hyper text markup language,超文本标记语言)选择器提取规则,但是现存的网站有万千种,因此就需
    要针对每一个网站都进行特定的配置,这种html选择器提取规则一方面增加了复杂度,另外手动配置的过程还非常容易出错,还有就是如果涉及到网站的结果细微的调整都会影响到抓取的准确性;二是像某些提取框架一下定制一些特定的正则表达式或者其他规则,这种方式一般都是通过正则表达式的穷举,比如说对于发布时间,就完全穷举各种时间正则,比如“yyyy-mm-dd hh:mm:ss”、“mm-dd hh:mm:ss”等等,但是像这种枚举方式也有弊端,发文时间可能会有明显的正则分类匹配,像发文作者可能就比较麻烦,另外强制的正则匹配也可能会出错,比如正文内容出现一个时间就会被匹配出来。因此针对网页中这些内容数据的提取,本文提出一种基于深度学习的网页内容提取方法,通过深度学习来训练出用于提取目标网页内容的深度神经网络模型,而后通过模型来提取出对应的目标内容数据。
    50.本技术实施例提供的网页内容提取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。当终端102方的工作人员需要提取出指定网页内的指定内容时,可以通过向服务器104发送网页内容提取请求,以请求服务器104来进行网页内容提取的操作。具体地,终端102可以发送网页内容请求至服务器104。服务器104获取网页内容提取请求,根据网页信息获取网页内容提取请求对应的待处理网页;依次提取待处理网页中节点对应的内容特征向量;通过深度学习技术对内容特征向量进行二分类处理,获取二分类结果,二分类处理用于识别当前节点是否包含目标内容数据;当二分类结果表征当前节点包含目标内容数据时,从当前节点提取目标内容数据。最后将提取得到的目标内容数据反馈给到终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
    51.在一个实施例中,如图2所示,提供了一种网页内容提取方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
    52.步骤201,获取网页内容提取请求,网页内容提取请求包括网页信息。
    53.步骤203,根据网页信息获取网页内容提取请求对应的待处理网页。
    54.其中,网页内容提取请求由终端102生成,用于向服务器104请求提取指定网页内指定的目标内容数据。其中指定的目标内容数据具体可以至网页中网页内容的发文作者、发文时间以及文章主题等类型的数据。网页内容提取请求中可以携带有待处理网页对应的网页信息,比如网页地址,以帮助服务器104查找相应的网页,得到待处理网页。网页内容提取请求对应的待处理网页则是指本技术网页内容提取方法的提取对象,服务器可以通过深度学习技术,从待处理网页提取出对应的目标内容数据。待处理网页具体可以为基于html结构的内容数据,每一个网页都包含有多个不同的html内容节点。在其中一个实施例中,待处理网页具体可以为新闻网页,服务器可以在查找到待处理网页后,从中提取出相应的新闻发文作者或者新闻发文时间等目标内容数据。
    55.具体地,当终端102端需要进行网页中指定内容的提取工作时,终端102可以根据目标内容数据所在的网页地址来生成网页内容提取请求,并将网页内容提取请求发送至服务器104,以请求服务器104来提取这些网页中所包含的目标内容数据。而服务器104在接收
    到终端102发送的网页内容提取请求后,可以直接查找网页内容提取请求对应的网页,并从这些网页中抽取出待处理网页。比如在其中一个实施例中,终端102方的用户可能在工作过程中需要进行网页中指定内容数据的提取,提取出某个新闻网站中,今天所发布的所有新闻对应的发文作者。此时,终端102可以通过网页内容提取请求来请求服务器104来提取出这些发文作者。首先,终端102可以根据今天所发布的所有新闻对应的网页地址生成网页内容提取请求,并将网页内容提取请求发送至服务器104端,以通过服务器104来进行发文作者的提取。服务器104在接收到网页内容提取请求,可以解析出网页内容提取请求中所包含的网页地址,而后基于网页地址查找到相应的待处理网页。
    56.步骤205,依次提取待处理网页中节点对应的内容特征向量。
    57.其中,节点具体是待处理网页对应的dom(document object model,文档对象模型)树中的节点,dom树是指html页面内容结构节点自上而下组成的一棵树,dom树中的每一个元素都称为一个节点,对应html页面中的内容节点。在其中一个实施例中,待处理网页中节点还可以是指多个节点构成的节点集合。比如,可以将多个联系紧密的节点合并,构建节点组合。而对于内容特征向量,其中特征向量是指数据或信息经过计算机模型处理后的高维度数值表示。服务器可以通过内容抽取的操作,将待处理网页中各个节点的数据抽取为内容特征向量,而后基于内容特征向量来进行目标内容数据的识别与提取操作。
    58.具体地,由于目前的互联网网页内容基本都是基于html结构,并且html结构中含有非常多的非重点内容,比如广告、引导、导航等等相关内容,因此首先要对html正文内容进行重点内容抽取,得到待处理网页中节点对应的内容特征向量。
    59.在其中一个实施例中,步骤205具体包括:通过预设特征提取算法依次提取待处理网页中节点对应的内容特征向量。内容特征向量中的特征点包括所述目标内容数据对应的特征点。
    60.其中,预设特征提取算法用于进行节点对应的内容特征向量的提取,通过预设特征提取算法来提取出节点不同维度的特征,从而构建相应的内容特征向量。具体地,预设特征提取算法具体可以为web2text算法,可以通过web2text算法来提取出待处理网页中节点对应的内容特征向量,web2text算法在进行网页内容提取的时候,不仅仅会保存当前节点的基本信息包括tag、文本内容等,并且还会对父节点、祖父节点信息进行结合保存,内容详实,第二在算法重点内容抽取的数据集实践后,所获得数据验证结果表征算法的正确率远远高于其他普通算法。在其中一个实施例中,抽取出的内容特征向量可以保存至csv(comma-separated values,字符分隔值)文件中,横向为内容特征向量的维度数,纵向为抽取出的节点数。web2text算法提取的特征点包括目标内容数据对应的特征点则具体是指在web2text算法自带的128个特征的基础上,添加上目标内容数据对应的特征点,得到129个特征点,而构建出的内容特征向量即为129维的特征向量。
    61.步骤207,通过深度学习技术对内容特征向量进行二分类处理,获取二分类结果,二分类处理用于识别当前节点是否包含目标内容数据。
    62.步骤209,当二分类结果表征当前节点包含目标内容数据时,从当前节点提取目标内容数据。
    63.其中,由于待处理网页的节点中可能会不包含某些信息,如新闻网页中的正文内容节点不一定有发文作者或者发文时间等信息,因此需要识别待提取网页数据中节点是否
    包含目标内容数据,而识别具体可以基于各个节点对应的内容特征向量来进行识别。
    64.具体地,服务器104在提取出内容特征向量后,可以基于提取出的内容特征向量来进行深度学习的识别处理。而在识别过程中,首先需要确定待提取网页数据中是否包含目标内容数据,因此可以通过深度学习技术对每一个内容特征向量进行二分类处理的识别,获取二分类结果,从而确定出当前内容特征向量对应的节点内是否包含有目标内容数据,当二分类结果表征当前节点所对应的待提取网页数据中包含目标内容数据时,此时可以直接查找到相应节点,并从节点对应网页数据中得到目标内容数据。本技术的网页内容提取方法具有普遍性,可以有效针对大多数不同的网址进行目标内容数据的提取,因此可以大大的减少人工配置工作量,并且减少因为人为失误引起的问题,提高工作效率,基于节点对应的内容特征向量来进行目标内容数据的识别,可以进一步保证结果不再受页面结构变动的影响,相对于普通人为设置以及相关类似正则匹配算法更具备更高的准确度。
    65.上述网页内容提取方法,其中方法通过获取网页内容提取请求,网页内容提取请求包括网页信息;根据网页信息获取网页内容提取请求对应的待处理网页;依次提取待处理网页中节点对应的内容特征向量;通过深度学习技术对内容特征向量进行二分类处理,获取二分类结果,二分类处理用于识别当前节点是否包含目标内容数据;当二分类结果表征当前节点包含目标内容数据时,从当前节点提取目标内容数据。本技术通过抽取待处理网页节点对应的内容特征向量,以深度学习的方式来确定待提取网页数据中是否包含有目标内容数据,并在包含时直接从内容特征向量对应的节点提取目标内容数据,可以保证网页内容提取的提取结果不受网页结构变化的影响,提高网页内容提取的提取效率。
    66.在一个实施例中,如图3所示,待处理网页中节点包括内容块节点,步骤过web2text算法依次提取待处理网页中节点对应的内容特征向量包括:
    67.步骤302,将待处理网页解析为原始文档对象模型树。
    68.步骤304,对原始文档对象模型树进行节点合并处理,获取折叠文档对象模型树。
    69.步骤306,对折叠文档对象模型树进行块分割处理,获取内容块节点。
    70.步骤308,提取内容块节点对应的内容特征点;
    71.步骤310,根据提取得到的内容特征点,构建内容块节点对应的节点内容特征向量。
    72.其中,原始文档对象模型树即为根据待处理网页直接得到的原始dom树,在构建原始文档对象模型树中,以htmldocument为根节点,其余节点为子节点,从而组织成一个树的数据结构。而折叠文档对象模型树则是通过将原始文档对象模型树中部分节点合并后获取,通过节点合并,可以有效提高树的特征表达能力,从而保证网页内容提取的准确性。块分割处理具体是指将网页分割成不同的块(block),从而针对每个块来进行后续的处理。内容块节点中包含有多个节点,而对内容块节点进行特征提取后,可以提取出节点中各维度的内容特征点,将这些内容特征点结合起来,集合得到一个相应的节点内容特征向量,用于表征内容块节点所代表的所有特征。如内容块节点根据得到10维度的内容特征点,则所得到节点内容特征向量则是将这个10维度的内容特征点组合,得到一个10维的节点内容特征向量。
    73.具体地,在进行节点内容特征向量时,具体可以以网页中的内容块作为处理单位。首先,在得到待处理网页后,可以先直接解析出待处理网页对应的原始文档对象模型树。而
    后为了保证树中节点的特征表达能力,使得节点中容纳更多的特征,可以对文档对象模型树进行节点合并处理,将其中可以合并的部分节点折叠在一起,得到折叠文档对象模型树。而后通过对折叠文档对象模型树进行块分割处理,获取相应的内容块节点。最终计算出每个内容块节点在各个维度上的内容特征点,通过将这些内容特征点组合,即可获取得到内容块节点对应的节点内容特征向量。其中一个实施例中,可以在得到原始文档对象模型树的过程中,可以删除空节点或仅包含空格的节点,同时删除没有可提取内容的节点。本实施例中,通过节点合并以及模型树的块分割,可以有效提高待处理网页的特征表达能力,从而得到更有效的节点内容特征向量,保证网页内容提取的准确性。
    74.在其中一个实施例中,如图4所示,步骤304包括:
    75.步骤401,识别文档对象模型树中包含单个子节点的父节点。
    76.步骤403,将父节点与父节点包含的子节点进行节点合并处理,获取折叠节点。
    77.步骤405,根据折叠节点对原始文档对象模型树进行更新,获取折叠文档对象模型树。
    78.其中,节点树中的节点彼此之间都有等级关系。其中,父、子和同级节点用于描述这种关系。父节点拥有子节点,位于相同层级上的子节点称为同级节点(兄弟或姐妹)。在节点树中,顶端的节点成为根节点。根节点之外的每个节点都有一个父节点。节点可以有任何数量的子节点。叶子是没有子节点的节点。同级节点是拥有相同父节点的节点。包含单个子节点的父节点中,子节点的特征表现力较为一般,此时为了提高基于树的特征的表现力,可以将子节点与父节点合并。
    79.具体地,在原始文档对象模型树中,节点之间的等级关系并不总是有意义的,如存在两个相邻节点共享相同的语义,但不是同一个父节点的情况。为了提高基于树的特征的表现力,可以递归地将单个子父节点与其各自的子节点合并。因此,可以先识别文档对象模型树中包含单个子节点的父节点;将父节点与父节点包含的子节点进行节点合并处理,获取折叠节点;而后将原始文档对象模型树中对应部分的节点更新为折叠处理后的折叠节点,即可获取得到折叠文档对象模型树。本实施例中,通过节点合并处理,可以有效提高折叠文档对象模型树中节点的特征表现力,内容详实,从而得到更有效的节点内容特征向量,保证网页内容提取的准确性。
    80.在其中一个实施例中,如图5所示,步骤308包括:
    81.步骤502,获取内容块节点中各个节点对应文本内容统计信息。
    82.步骤504,根据预设内容提取规则对文本内容统计信息进行特征提取,获取内容块节点对应各维度的内容特征点。
    83.步骤506,根据提取得到各维度的内容特征点,构建内容块节点对应的节点内容特征向量。
    84.其中,特征是节点的属性,用于表征对应节点属于网页主体内容或者是网页模板。因此在提取内容块节点的内容特征点,可以先获取得到上每个内容块节点的信息,而内容块节点的信是根据块中的折叠节点、父节点、祖父节点和根节点等节点的信息综合统计得到。预设内容提取规则可以根据内容提取算法进行设置,在应用web2text算法时,web2text算法中自带128个特征,因此可以用这128个特征加上目标内容数据对应的特征,得到129维的特征。则预设内容提取规则包含有129种特征的提取方法,每一个提取方法都可以提取出
    内容块节点对应的一个内容特征点。
    85.具体地,在进行内容块节点对应的节点内容特征向量提取时,具体可以以内容块节点对应的折叠文档对象模型树中各个节点的信息作为构建依据。首先,需要获取到这些节点包含的信息,获取内容块节点中各个节点对应文本内容统计信息,并将其综合起来。而后基于预设内容提取规则,对这些文本内容统计信息进行特征提取,每一条预设内容提取规则都可以提取出一个对应维度的内容特征点,最后则可以综合各维度的内容特征点,构建内容块节点对应的多维节点内容特征向量。本实施例中,先通过内容块节点中各个节点对应文本内容统计信息,而后基于预设内容提取规则来对这些文本内容统计信息进行特征提取,可以有效地提取出内容块节点对应的各维度内容特征点,保证节点内容特征向量构建的准确性。
    86.在其中一个实施例中,如图6所示,步骤207包括:
    87.步骤601,将内容特征向量输入预设神经网络模型,获取内容特征向量对应的二分类结果,预设神经网络模型为单隐藏层的二分类深度神经网络,预设神经网络模型的输入层与内容特征向量对应,预设神经网络模型的隐藏层与目标内容数据对应的特征点对应。
    88.步骤603,当二分类结果表征待提取网页数据中包含目标内容数据时,从内容特征向量对应的节点提取目标内容数据。
    89.其中,预设深度神经网络模型是指基于深度神经网络构建的模型,具体地,本技术中主要通过深度学习来构建识别模型,从而完成对内容特征向量的识别。因为需要基于内容特征向量来识别节点是否包含有目标内容数据。因此抽象该问题即可视为基础的二分类问题,即节点包含有目标内容数据以及节点不包含目标内容数据两种类型,因此本技术中的预设深度神经网络具体可以为包含单隐藏层的神经网络算法。对于web2text算法提取的129维特征,预设深度神经网络模型的输入层即web2text特征抽取之后的129(自带的128维加上扩展的目标内容节点对应维度)维特征向量,隐藏层则采用基础神经网络算法思路即129-1=128维特征向量,输出层即二分类,当输出的结果表征节点含有目标内容数据时,即可直接从该内容特征向量对应的节点提取目标内容数据。而若是不包含目标内容数据,则直接处理下一节点对应的内容特征向量。本实施例中,通过单隐藏层的二分类深度神经网络可以有效地对内容特征向量是否包含有目标内容数据进行识别,从而保证目标内容数据识别的有效性。
    90.在其中一个实施例中,如图7所示,步骤601之前,还包括:
    91.步骤702,获取历史数据中样本内容网页,并获取随机内容网页中的目标内容数据。
    92.步骤704,提取随机内容网页对应的内容特征向量。
    93.步骤706,对目标内容数据对应的内容特征向量进行标记,获取模型训练数据。
    94.步骤708,通过模型训练数据对初始深度神经网络模型进行训练,获取预设深度神经网络模型。
    95.其中,历史数据中的样本内容网页用于作为模型训练数据,以完成对预设深度神经网络模型的训练。在提取随机内容网页对应的内容特征向量时,具体提取操作可以参照步骤203中,依次提取待处理网页中节点对应的内容特征向量的过程。
    96.具体地,在应用预设深度神经网络模型之前,还需要完成对该预设深度神经网络
    模型的训练,因此需要先获取历史数据中随机内容网页来作为模型训练的基础数据,同时还需要获取随机内容网页中的目标内容数据,这些数据可以由模型训练的工作人员人工标注得到。而后在提取出随机内容网页对应的内容特征向量,即可对目标内容数据对应的内容特征向量进行标记,获取模型训练数据。得到模型训练数据,而后通过这些模型训练数据对初始深度神经网络模型进行训练,获取预设深度神经网络模型。模型训练具体包括了训练、验证以及测试三个过程,当训练得到的模型通过测试后,得到的即为预设深度神经网络模型。在其中一个实施例中,本技术的网页内容提取方法用于网页发文作者的提取,在训练预设深度神经网络模型的过程中,设置训练、验证、测试比例分别为6:2:2,并且epochs为50,批次50,dropout率0.2,同时选取网页文章的发文作者作为目标内容数据来对预设深度神经网络模型进行训练,该深度神经网络的输入层输入的数据为从网页的节点中提取得到的129维的特征向量(通过web2text算法提取,包括基础的128维加上拓展的containsauthor维度),输出的数据为节点内是否包含有网页发文作者的二分类结果。通过实际测试,选取一万篇网页文章作为训练数据,训练时长累计75.5分钟,结合训练结果f1值约为95.54%。本实施例中,通过历史数据中随机内容网页来完成对初始深度神经网络模型的训练,可以有效保证预设深度神经网络模型的识别效果。
    97.本技术还提供一种应用场景,该应用场景应用上述的网页内容提取方法。
    98.具体地,该网页内容提取方法在该应用场景的应用如下:
    99.当用户需要大批量地识别出指定网页文章对应发文作者时,可以通过本技术的网页内容提取方法来提取网页中的发文作者信息。首先用户可以根据指定网页文章对应的网址生成网页内容提取请求,并将网页内容提取请求发送至搭载有本技术网页内容提取方法的服务器,服务器获取网页内容提取请求,根据网址查找到网页内容提取请求对应的待处理网页,而后需要提取出待处理网页中的节点,并得到节点对应的内容特征向量,此时可以将待处理网页解析为原始文档对象模型树;对原始文档对象模型树进行节点合并处理,获取折叠文档对象模型树包括:识别文档对象模型树中包含单个子节点的父节点;将父节点与父节点包含的子节点进行节点合并处理,获取折叠节点;根据折叠节点对原始文档对象模型树进行更新,获取折叠文档对象模型树;对折叠文档对象模型树进行块分割处理,获取内容块节点;获取内容块节点中各个节点对应文本内容统计信息;根据预设内容提取规则对文本内容统计信息进行特征提取,获取内容块节点对应各维度的内容特征点;根据提取得到各维度的内容特征点,构建内容块节点对应的节点内容特征向量。最终,将内容特征向量输入预设神经网络模型,获取内容特征向量对应的二分类结果,预设神经网络模型为单隐藏层的二分类深度神经网络,预设神经网络模型的输入层与内容特征向量对应,预设神经网络模型的隐藏层与目标内容数据对应的特征点对应;当二分类结果表征待提取网页数据中包含目标内容数据时,从内容特征向量对应的节点提取目标内容数据。其中将内容特征向量输入预设深度神经网络模型之前,还包括:获取历史数据中样本内容网页,并获取随机内容网页中的目标内容数据;提取随机内容网页对应的内容特征向量;对目标内容数据对应的内容特征向量进行标记,获取模型训练数据;通过模型训练数据对初始深度神经网络模型进行训练,获取预设深度神经网络模型。如对于图8所示的网页,在通过本技术的网页内容提取方法提取后,可以确定其中对应的发文作者为网页左侧国际在线下面的“某某某”。
    100.应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
    101.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的网页内容提取方法的网页内容提取装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个网页内容提取装置实施例中的具体限定可以参见上文中对于网页内容提取方法的限定,在此不再赘述。
    102.在一个实施例中,如图9所示,提供了一种网页内容提取装置,包括:
    103.请求获取模块902,用于获取网页内容提取请求,网页内容提取请求包括网页信息。
    104.数据获取模块904,用于根据网页信息获取网页内容提取请求对应的待处理网页。
    105.特征提取模块906,用于依次提取待处理网页中节点对应的内容特征向量。
    106.内容识别模块908,用于通过深度学习技术对内容特征向量进行二分类处理,获取二分类结果,二分类处理用于识别当前节点是否包含目标内容数据。
    107.内容提取模块910,用于当二分类结果表征当前节点包含目标内容数据时,从当前节点提取目标内容数据。
    108.在其中一个实施例中,特征提取模块906具体用于:通过预设特征提取算法依次提取待处理网页中节点对应的内容特征向量,内容特征向量中的特征点包括目标内容数据对应的特征点。
    109.在其中一个实施例中,特征提取模块906具体用于:将待处理网页解析为原始文档对象模型树;对原始文档对象模型树进行节点合并处理,获取折叠文档对象模型树;对折叠文档对象模型树进行块分割处理,获取内容块节点;提取内容块节点各维度的内容特征点;根据提取得到的内容特征点,构建内容块节点对应的节点内容特征向量。
    110.在其中一个实施例中,特征提取模块906还用于:识别文档对象模型树中包含单个子节点的父节点;将父节点与父节点包含的子节点进行节点合并处理,获取折叠节点;根据折叠节点对原始文档对象模型树进行更新,获取折叠文档对象模型树。
    111.在其中一个实施例中,特征提取模块906还用于:获取内容块节点中各个节点对应文本内容统计信息;根据预设内容提取规则对文本内容统计信息进行特征提取,获取内容块节点对应各维度的内容特征点;根据提取得到各维度的内容特征点,构建内容块节点对应的节点内容特征向量。
    112.在其中一个实施例中,内容识别模块908具体用于:将内容特征向量输入预设神经网络模型,获取内容特征向量对应的二分类结果,预设神经网络模型为单隐藏层的二分类深度神经网络,预设神经网络模型的输入层与内容特征向量对应,预设神经网络模型的隐藏层与目标内容数据对应的特征点对应;当二分类结果表征待提取网页数据中包含目标内容数据时,从内容特征向量对应的节点提取目标内容数据。
    113.在其中一个实施例中,还包括模型训练模块,用于:获取历史数据中样本内容网页,并获取随机内容网页中的目标内容数据;提取随机内容网页对应的内容特征向量;对目标内容数据对应的内容特征向量进行标记,获取模型训练数据;通过模型训练数据对初始深度神经网络模型进行训练,获取预设深度神经网络模型。
    114.上述网页内容提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
    115.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储网页内容提取相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网页内容提取方法。
    116.本领域技术人员可以理解,图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
    117.在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
    118.在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
    119.在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
    120.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
    121.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器
    (ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
    122.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
    123.以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
    转载请注明原文地址:https://tc.8miu.com/read-3529.html

    最新回复(0)