抓取标签更新方法、装置、设备及存储介质与流程

    专利查询2022-07-06  164



    1.本发明涉及标签更新领域,尤其涉及一种抓取标签更新方法、装置、设备及存储介质。


    背景技术:

    2.目前使用rpa抓取某些工具小程序数据进行分析,会遇到一个问题:rpa是基于一个固定的标签来进行小程序各元素内容抓取的,如果这个标签发生了变化(可能是小程序版本更新等原因),那么rpa就无法再抓取到任何内容。此时需要先通过工具查出现在小程序最新的标签是什么,然后再将这个新标签重新写入抓取程序中,再重新运行抓取程序,才能正确的再次抓取数据。
    3.这种由人工手动处理问题存在以下几个缺点:
    4.1、一旦标签变化,完全依赖于人工进行处理,一旦遇到节假日或者深夜出现问题的情况,很难保证程序能及时恢复正常。
    5.2、在人工处理问题期间,数据会丢失掉,如果恰好是比较关键重要的数据,影响就比较大,而且丢失的数据也很难补。
    6.因此,需要一种解决人工处理标签更新过程中造成的数据抓取丢失的技术问题。


    技术实现要素:

    7.本发明的主要目的在于解决人工处理标签更新过程中造成的数据抓取丢失的技术问题。
    8.本发明第一方面提供了一种抓取标签更新方法,所述抓取标签更新方法包括:
    9.基于预置比对周期,对预置目标小程序的标签信息进行抓取处理,得到抓取比对标签集;
    10.读取预置rap抓取系统存储的周期分析标签集,其中,所述rap抓取系统用于周期抓取所述目标小程序的推送数据;
    11.判断所述抓取比对标签集与所述周期分析标签集是否存在差异;
    12.若存在差异,则发送分析停止指令至所述rap抓取系统中,将所述抓取比对标签集替换所述rap抓取系统中的所述周期分析标签集,以及发送分析激活指令至所述rap抓取系统中;
    13.若不存在差异,则获取比对时间戳,将所述比对时间戳与比对无差异信息上传至预置云端数据库中。
    14.可选的,在本发明第一方面的第一种实现方式中,所述基于预置比对周期,对预置目标小程序的标签信息进行抓取处理,得到抓取比对标签集包括:
    15.基于预置比对周期,通过wechat-agent探针对预置目标小程序的根目录进行标签查询处理,得到查询标签集;
    16.根据预置标签比对项目表,筛选所述查询标签集中所述标签比对项目表对应的标
    签,得到抓取比对标签集。
    17.可选的,在本发明第一方面的第二种实现方式中,所述判断所述抓取比对标签集与所述周期分析标签集是否存在差异包括:
    18.根据预置字符顺序表,对所述抓取比对标签集进行排序处理,得到排序比对标签集;
    19.根据所述字符顺序表,对所述周期分析标签集进行排序处理,得到排序周期分析标签集;
    20.按照元素的顺序,将所述排序比对标签集与所述序周期分析标签集进行元素的一一比对处理,得到比对结果;
    21.判断所述比对结果是否存在差异结果。
    22.可选的,在本发明第一方面的第三种实现方式中,所述获取比对时间戳,将所述比对时间戳与比对无差异信息上传至预置云端数据库中包括:
    23.获取比对时间戳,将所述比对时间戳与比对无差异信息进行组合处理,得到无差异反馈数据;
    24.将所述无差异反馈数据上传至预置云端数据库中。
    25.可选的,在本发明第一方面的第四种实现方式中,所述将所述抓取比对标签集替换所述rap抓取系统中的所述周期分析标签集包括:
    26.将所述抓取比对标签集对应的替换指令发送至所述rap抓取系统中;
    27.接收所述rap抓取系统反馈的替换结果,判断所述替换结果是否为成功;
    28.若不为成功,则再次发送所述替换指令至所述rap抓取系统中;
    29.若为成功,则将所述抓取比对标签集确定为新的周期分析标签集。
    30.可选的,在本发明第一方面的第五种实现方式中,所述再次发送所述替换指令至所述rap抓取系统中包括:
    31.分析所述替换结果的替换率;
    32.判断所述替换率是否大于预置最低替换阈值;
    33.若大于最低替换阈值,则基于原有的网络传输链路,将所述替换指令发送至所述rap抓取系统中;
    34.若小于最低替换阈值,则更换网络传输链路,基于新的网络传输链路,将所述替换指令发送至所述rap抓取系统中。
    35.可选的,在本发明第一方面的第六种实现方式中,所述更换网络传输链路,基于新的网络传输链路,将所述替换指令发送至所述rap抓取系统中包括:
    36.访问预置链路选择表;
    37.发送时长探测数据至所述链路选择表中的所有网络传输链路,得到反馈时长集;
    38.筛选出所述反馈时长集中最小的反馈时长;
    39.在所述链路选择表中匹配出所述最小的反馈时长对应网络传输链路;
    40.将所述网络传输链路确定为新的网络传输链路,基于新的网络传输链路,将所述替换指令发送至所述rap抓取系统中。
    41.本发明第二方面提供了一种抓取标签更新装置,所述抓取标签更新装置包括:
    42.抓取模块,用于基于预置比对周期,对预置目标小程序的标签信息进行抓取处理,
    得到抓取比对标签集;
    43.读取模块,用于读取预置rap抓取系统存储的周期分析标签集,其中,所述rap抓取系统用于周期抓取所述目标小程序的推送数据;
    44.判断模块,用于判断所述抓取比对标签集与所述周期分析标签集是否存在差异;
    45.替换模块,用于若存在差异,则发送分析停止指令至所述rap抓取系统中,将所述抓取比对标签集替换所述rap抓取系统中的所述周期分析标签集,以及发送分析激活指令至所述rap抓取系统中;
    46.云端上传模块,用于若不存在差异,则获取比对时间戳,将所述比对时间戳与比对无差异信息上传至预置云端数据库中。
    47.本发明第三方面提供了一种抓取标签更新设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述抓取标签更新设备执行上述的抓取标签更新方法。
    48.本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的抓取标签更新方法。
    49.在本发明实施例中,通过可持续稳定的抓取小程序数据的标签更新,将rap中抓取数据的目标自动进行转换,无需人工干预,也不会出现丢失数据的情况。
    附图说明
    50.图1为本发明实施例中抓取标签更新方法的一个实施例示意图;
    51.图2为本发明实施例中抓取标签更新装置的一个实施例示意图;
    52.图3为本发明实施例中抓取标签更新装置的另一个实施例示意图;
    53.图4为本发明实施例中抓取标签更新设备的一个实施例示意图。
    具体实施方式
    54.本发明实施例提供了一种抓取标签更新方法、装置、设备及存储介质。
    55.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
    56.为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中抓取标签更新方法的一个实施例包括:
    57.101、基于预置比对周期,对预置目标小程序的标签信息进行抓取处理,得到抓取比对标签集;
    58.在本实施例中,再启动一个自动检测小程序最新标签的程序,检测程序定时根据小程序中固定的内容来反查小程序当前最新的标签,间隔检测的时间根据抓取程序抓取一
    次数据的时间来定。只要检测的频率高于抓取的频率就可以。比如抓取一次需要10秒,只要低于10秒检测一次最新标签即可。
    59.进一步的,在101可以执行以下步骤:
    60.1011、基于预置比对周期,通过wechat-agent探针对预置目标小程序的根目录进行标签查询处理,得到查询标签集;
    61.1012、根据预置标签比对项目表,筛选查询标签集中标签比对项目表对应的标签,得到抓取比对标签集。
    62.在1011-1012步骤中,如果目标小程序为微信app的程序,则利用微信带有的wechat-agent探针对目标小程序的根目录进行逐步探查,将探查出所有根目录的标签全部拿取,产生查询标签集。
    63.但是,查询标签集中并非所有的标签都是比对的内容,标签比对项目表中有程序占用率、运行内存占比、校验令牌等一系列需要比对的标签,将查询标签集中属于标签比对项目表中的标签筛选出来,得到抓取比对标签集。
    64.102、读取预置rap抓取系统存储的周期分析标签集,其中,rap抓取系统用于周期抓取目标小程序的推送数据;
    65.在本实施例中,在rap抓取系统中存在抓取依据的标签数据,每次从目标小程序中抓取数据都是依据rap抓取系统中的周期分析标签集。
    66.103、判断抓取比对标签集与周期分析标签集是否存在差异;
    67.在本实施例中,抓取比对标签集与周期分析标签集进行对比,如果一致,则说明标签无变化;如果不一致,则将新标签通知给rap抓取系统,同时将新标签标记为比对标签集。等待一段间隔时间后,继续重复该步骤。
    68.进一步的,在103可以执行以下步骤:
    69.1031、根据预置字符顺序表,对抓取比对标签集进行排序处理,得到排序比对标签集;
    70.1032、根据字符顺序表,对周期分析标签集进行排序处理,得到排序周期分析标签集;
    71.1033、按照元素的顺序,将排序比对标签集与序周期分析标签集进行元素的一一比对处理,得到比对结果;
    72.1034、判断比对结果是否存在差异结果。
    73.在1031、1032步骤中将抓取比对标签集和周期分析标签集,根据预先排序出来的字符表,将每个元素开头字符先排序,如果开头字符相同则后一个字符进行排序,直至出现元素的排序结果。在1033-1034步骤中,两个排序依据是相同的集合,按照顺序对元素进行比对,如果比对是匹配的记为1,不匹配的记为0,这样产生了一串比对结果的字符。再判断字符串是否存在0,即可知道两个集合是否一致。
    74.104、若存在差异,则发送分析停止指令至rap抓取系统中,将抓取比对标签集替换rap抓取系统中的周期分析标签集,以及发送分析激活指令至rap抓取系统中;
    75.在本实施例中,抓取程序一旦收到rap抓取系统发来的标签更新通知,则中断当前的抓取流程,以最新的标签从头到尾再重新对小程序进行抓取。这样整个抓取流程可以在无人工干预的情况下持续稳定的运行。
    76.进一步的,“将抓取比对标签集替换rap抓取系统中的周期分析标签集”可以执行以下步骤:
    77.1041、将抓取比对标签集对应的替换指令发送至rap抓取系统中;
    78.1042、接收rap抓取系统反馈的替换结果,判断替换结果是否为成功;
    79.1043、若不为成功,则再次发送替换指令至rap抓取系统中;
    80.1044、若为成功,则将抓取比对标签集确定为新的周期分析标签集。
    81.在1041-1044步骤中,rap抓取系统中的反馈数据数据要替换成新的比对标签集,先发送替换指令,然后接收到rap抓取系统反馈的替换结果,如果替换结果不成功,则需要重新再次发送替换指令至rap抓取系统中循环查看。而如果替换结果是成功的,则将抓取比对标签集确定为新的周期分析标签集,以便从最开始比对过程101又可以进行循环比对不会卡死。
    82.进一步的,1043可以执行以下步骤:
    83.10431、分析替换结果的替换率;
    84.10432、判断替换率是否大于预置最低替换阈值;
    85.10433、若大于最低替换阈值,则基于原有的网络传输链路,将替换指令发送至rap抓取系统中;
    86.10434、若小于最低替换阈值,则更换网络传输链路,基于新的网络传输链路,将替换指令发送至rap抓取系统中。
    87.在10431-10434步骤中,有时需要考虑网络传输对替换产生的影响,替换率可以判断是否网络过于堵塞而导致的替换失败,替换率低于最低替换阈值90%,则说明需要更换一个新的网络重新发送替换指令。当替换率大于最低替换阈值90%,就认定是替换处理的rap抓取系统出现了卡死或者执行错误,根据原有的网络传输链路,将替换指令发送至rap抓取系统中。
    88.进一步的,在10434可以执行以下步骤:
    89.104341、访问预置链路选择表;
    90.104342、发送时长探测数据至链路选择表中的所有网络传输链路,得到反馈时长集;
    91.104343、筛选出反馈时长集中最小的反馈时长;
    92.104344、在链路选择表中匹配出最小的反馈时长对应网络传输链路;
    93.104345、将网络传输链路确定为新的网络传输链路,基于新的网络传输链路,将替换指令发送至rap抓取系统中。
    94.在104341-104345步骤中,替换网络链路上,是固定的几条线路进行切换,而固定的线路写入在链路选择表中,先发送2个字节的时长探测数据到链路选择表中的所有链路上,得到反馈的时长。对反馈时长进行排序或者比对,找到最短的反馈时长,从链路选择表中找到最短的反馈时长的网络链路路径,然后基于选择出的网络链路路径,将替换指令发送至rap抓取系统中。
    95.105、若不存在差异,则获取比对时间戳,将比对时间戳与比对无差异信息上传至预置云端数据库中。
    96.在本实施例中,不存在标签的差异则将本次比对结果和比对的时间戳合并,上传
    至云端数据库中,保证后期可以查询内容。
    97.进一步的,在105可以执行以下步骤:
    98.1051、获取比对时间戳,将比对时间戳与比对无差异信息进行组合处理,得到无差异反馈数据;
    99.1052、将无差异反馈数据上传至预置云端数据库中。
    100.在1051-1052步骤中,比对时间戳为bbbb:22:xx,无差异信息可以定义为ll56645的字符码,将两个进行组合得到无差异反馈数据{ll56645:bbbb:22:xx:},然后将{ll56645:bbbb:22:xx:}上传至云端数据库中。
    101.在本发明实施例中,通过可持续稳定的抓取小程序数据的标签更新,将rap中抓取数据的目标自动进行转换,无需人工干预,也不会出现丢失数据的情况。
    102.上面对本发明实施例中抓取标签更新方法进行了描述,下面对本发明实施例中抓取标签更新装置进行描述,请参阅图2,本发明实施例中抓取标签更新装置一个实施例包括:
    103.抓取模块201,用于基于预置比对周期,对预置目标小程序的标签信息进行抓取处理,得到抓取比对标签集;
    104.读取模块202,用于读取预置rap抓取系统存储的周期分析标签集,其中,所述rap抓取系统用于周期抓取所述目标小程序的推送数据;
    105.判断模块203,用于判断所述抓取比对标签集与所述周期分析标签集是否存在差异;
    106.替换模块204,用于若存在差异,则发送分析停止指令至所述rap抓取系统中,将所述抓取比对标签集替换所述rap抓取系统中的所述周期分析标签集,以及发送分析激活指令至所述rap抓取系统中;
    107.云端上传模块205,用于若不存在差异,则获取比对时间戳,将所述比对时间戳与比对无差异信息上传至预置云端数据库中。
    108.在本发明实施例中,通过可持续稳定的抓取小程序数据的标签更新,将rap中抓取数据的目标自动进行转换,无需人工干预,也不会出现丢失数据的情况。
    109.请参阅图3,本发明实施例中抓取标签更新装置另一个实施例包括:
    110.抓取模块201,用于基于预置比对周期,对预置目标小程序的标签信息进行抓取处理,得到抓取比对标签集;
    111.读取模块202,用于读取预置rap抓取系统存储的周期分析标签集,其中,所述rap抓取系统用于周期抓取所述目标小程序的推送数据;
    112.判断模块203,用于判断所述抓取比对标签集与所述周期分析标签集是否存在差异;
    113.替换模块204,用于若存在差异,则发送分析停止指令至所述rap抓取系统中,将所述抓取比对标签集替换所述rap抓取系统中的所述周期分析标签集,以及发送分析激活指令至所述rap抓取系统中;
    114.云端上传模块205,用于若不存在差异,则获取比对时间戳,将所述比对时间戳与比对无差异信息上传至预置云端数据库中。
    115.其中,所述抓取模块201具体用于:
    116.基于预置比对周期,通过wechat-agent探针对预置目标小程序的根目录进行标签查询处理,得到查询标签集;
    117.根据预置标签比对项目表,筛选所述查询标签集中所述标签比对项目表对应的标签,得到抓取比对标签集。
    118.其中,所述判断模块203具体用于:
    119.根据预置字符顺序表,对所述抓取比对标签集进行排序处理,得到排序比对标签集;
    120.根据所述字符顺序表,对所述周期分析标签集进行排序处理,得到排序周期分析标签集;
    121.按照元素的顺序,将所述排序比对标签集与所述序周期分析标签集进行元素的一一比对处理,得到比对结果;
    122.判断所述比对结果是否存在差异结果。
    123.其中,所述云端上传模块205具体用于:
    124.获取比对时间戳,将所述比对时间戳与比对无差异信息进行组合处理,得到无差异反馈数据;
    125.将所述无差异反馈数据上传至预置云端数据库中。
    126.其中,所述替换模块204包括:
    127.指令发送单元2041,用于将所述抓取比对标签集对应的替换指令发送至所述rap抓取系统中;
    128.结果判断单元2042,用于接收所述rap抓取系统反馈的替换结果,判断所述替换结果是否为成功;
    129.发送循环单元2043,用于若不为成功,则再次发送所述替换指令至所述rap抓取系统中;
    130.确认单元2044,用于若为成功,则将所述抓取比对标签集确定为新的周期分析标签集。
    131.其中,所述发送循环单元2043具体用于:
    132.分析所述替换结果的替换率;
    133.判断所述替换率是否大于预置最低替换阈值;
    134.若大于最低替换阈值,则基于原有的网络传输链路,将所述替换指令发送至所述rap抓取系统中;
    135.若小于最低替换阈值,则更换网络传输链路,基于新的网络传输链路,将所述替换指令发送至所述rap抓取系统中。
    136.其中,所述发送循环单元2043还具体用于:
    137.访问预置链路选择表;
    138.发送时长探测数据至所述链路选择表中的所有网络传输链路,得到反馈时长集;
    139.筛选出所述反馈时长集中最小的反馈时长;
    140.在所述链路选择表中匹配出所述最小的反馈时长对应网络传输链路;
    141.将所述网络传输链路确定为新的网络传输链路,基于新的网络传输链路,将所述替换指令发送至所述rap抓取系统中。
    142.上面图2和图3从模块化功能实体的角度对本发明实施例中的抓取标签更新装置进行详细描述,下面从硬件处理的角度对本发明实施例中抓取标签更新设备进行详细描述。
    143.图4是本发明实施例提供的一种抓取标签更新设备的结构示意图,该抓取标签更新设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)410(例如,一个或一个以上处理器)和存储器420,一个或一个以上存储应用程序433或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对抓取标签更新设备400中的一系列指令操作。更进一步地,处理器410可以设置为与存储介质430通信,在抓取标签更新设备400上执行存储介质430中的一系列指令操作。
    144.基于抓取标签更新设备400还可以包括一个或一个以上电源440,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口460,和/或,一个或一个以上操作系统431,例如windows serve,mac os x,unix,linux,freebsd等等。本领域技术人员可以理解,图4示出的抓取标签更新设备结构并不构成对基于抓取标签更新设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
    145.本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述抓取标签更新方法的步骤。
    146.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
    147.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
    148.以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
    转载请注明原文地址:https://tc.8miu.com/read-182.html

    最新回复(0)