本申请涉及互联网,具体而言,涉及一种基于动态关键词库的网站检索方法及装置。
背景技术:
1、随着互联网技术的迅速发展,各种公共服务网站在互联网中层出不穷,例如:在线视频类网站、小说类网站、资讯类网站等,在极大丰富互联网内容的同时也带来了安全隐患。因此,迫切需求一种高效、快速获取大量公共服务网站的方法,以收集检索到的公共服务网站中是否含有不良信息、传播非法广告等内容。现有技术中,主要以静态关键词库为基础,通过输入单一关键词与搜索引擎进行交互的方式来获取公共服务网站。
2、然而,上述公共服务网站检索方式是以静态关键词库进行单一关键词检索,由于单一关键词缺乏对特定网站专业语言环境的深度理解和针对性筛选,造成检索结果存在泛化倾向,检索准确性低。同时,由于静态关键词库需要人工干预管理,无法对静态关键词库进行及时更新,存在静态关键词库时效性滞后的问题。
技术实现思路
1、有鉴于此,本申请的目的在于提供一种基于动态关键词库的网站检索方法及装置,以解决网站检索过程中,检索准确性低及关键词库时效性差的问题。
2、第一方面,本申请实施例提供了一种基于动态关键词库的网站检索方法,包括:
3、在本轮检索过程中,利用检索关键词从动态关键词库中选取不同类型的目标第一关键词,并根据目标第一关键词构建关键词组;
4、利用关键词组进行网站检索,获取检索关键词对应的新增有效网站,并从新增有效网站中获取第二关键词;
5、利用第二关键词对动态关键词库进行更新,以利用更新后的动态关键词库进行下一轮检索过程;
6、将满足检索结束条件时,所有轮次检索到的新增有效网站作为最终的检索结果。
7、可选地,第二关键词包括至少一个,利用第二关键词对动态关键词库进行更新,包括:确定每个第二关键词在新增有效网站中的词频;根据每个第二关键词的词频,对动态关键词库进行更新。
8、可选地,根据每个第二关键词的词频,对动态关键词库进行更新,包括:从第二关键词中选取出动态关键词库中已有的待更新第二关键词;根据待更新第二关键词的词频,对待更新第一关键词的词频进行更新,待更新第一关键词为待更新第二关键词对应的第一关键词;按照词频高低对所有其他第二关键词进行排序,并选取排名靠前的预设数量的其他第二关键词加入到动态关键词库中,其他第二关键词为第二关键词中除待更新第二关键词外的关键词。
9、可选地,方法还包括:确定在更新后的动态关键词库中第一关键词的数量是否满足关键词数量条件;若未满足关键词数量条件,则将词频最小的至少一个第一关键词从动态关键词库中删除,以使动态关键词库中第一关键词的数量满足关键词数量条件。
10、可选地,不同类型的目标第一关键词包括目标第一通用关键词、目标第一热门关键词及目标第一分类关键词,利用检索关键词从动态关键词库中选取不同类型的目标第一关键词,包括:根据第一关键词在动态关键词库中的词频,确定第一关键词的选取概率;根据选取概率,从动态关键词库中随机选取目标第一通用关键词、目标第一热门关键词及与检索关键词对应的第一目标分类关键词。
11、可选地,利用关键词组进行网站检索获取检索关键词对应的新增有效网站,包括:利用多个搜索引擎分别对关键词组对应的网站进行检索,以获取至少一个候选网站;确定每个候选网站是否满足预设条件,以将满足预设条件的候选网站作为新增有效网站。
12、可选地,确定每个候选网站是否满足预设条件,包括:针对每个候选网站,确定候选网站是否为可访问网站、候选网站中的关键词是否满足关键词占比条件、候选网站是否为官方网站;若候选网站为可访问网站、候选网站中的关键词满足关键词占比条件、候选网站非官方网站,则确定候选网站满足预设条件。
13、可选地,在利用更新后的动态关键词库进行下一轮检索过程之前,还包括:确定新增有效网站的数量是否满足设定数量条件;若不满足设定数量条件,则进行下一轮检索过程;若满足设定数量条件,则整个检索过程全部结束。
14、可选地,在利用检索关键词从动态关键词库中选取不同类型的目标关键词之前,还包括:根据每个设定网站类型下的初始检索关键词进行初步检索,构建初始动态关键词库,以基于初始动态关键词库进行网站检索。
15、第二方面,本申请实施例还提供了一种基于动态关键词库的网站检索装置,所述装置包括:
16、关键词组构建模块,用于在本轮检索过程中,利用检索关键词从动态关键词库中选取不同类型的目标第一关键词,并根据目标第一关键词构建关键词组;
17、新增关键词获取模块,利用关键词组进行网站检索,获取检索关键词对应的新增有效网站,并从新增有效网站中获取第二关键词;
18、关键词库更新模块,用于利用第二关键词对动态关键词库进行更新,以利用更新后的动态关键词库进行下一轮检索过程;
19、检索结果确定模块,用于将满足检索结束条件时,所有轮次检索到的新增有效网站作为最终的检索结果。
20、本申请实施例带来了以下有益效果:
21、本申请实施例提供的一种基于动态关键词库的网站检索方法及装置,能够将动态关键词库中的关键词进行灵活组合,形成多元素复合查询,提高检索准确度。同时,能够根据每轮的检索结果获取第二关键词,通过第二关键词体现出哪些关键词当前更容易出现,然后利用第二关键词对关键词库进行动态更新,提高了关键词库的时效性,避免了静态关键词库无法及时更新的问题,与现有技术中的网站检索方法相比,解决了网站检索过程中,检索准确性低及关键词库时效性差的问题。
22、为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
1.一种基于动态关键词库的网站检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第二关键词包括至少一个,所述利用所述第二关键词对所述动态关键词库进行更新,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据每个第二关键词的词频,对所述动态关键词库进行更新,包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述不同类型的目标第一关键词包括目标第一通用关键词、目标第一热门关键词及目标第一分类关键词,所述利用检索关键词从动态关键词库中选取不同类型的目标第一关键词,包括:
6.根据权利要求1所述的方法,其特征在于,所述利用所述关键词组进行网站检索获取所述检索关键词对应的新增有效网站,包括:
7.根据权利要求6所述的方法,其特征在于,所述确定每个候选网站是否满足预设条件,包括:
8.根据权利要求1所述的方法,其特征在于,在利用更新后的动态关键词库进行下一轮检索过程之前,还包括:
9.根据权利要求1所述的方法,其特征在于,在所述利用检索关键词从动态关键词库中选取不同类型的目标关键词之前,还包括:
10.一种基于动态关键词库的网站检索装置,其特征在于,包括:
