本发明属于数据处理的,特别是涉及一种基于互联网的科技文献元数据获取方法、系统及电子设备。
背景技术:
1、互联网开放获取的科技文献一般包括开放获取的期刊文献和会议文献,其中,期刊文献一般可通过商业化学术资源数据库获取,大多数商业化学术资源数据库已开发相关功能和提供相关服务,以便用户获取多种储存格式的科技文献元数据。
2、会议文献主要包括会议论文和学术海报,一般通过学术会议宣读或以海报等形式展示。仅少部分学术会议参考期刊出版要求形成会议论文集并可通过商业化学术资源数据库获取;大多数学术会议文献不正式初版、无法通过商业化学术资源数据库获取。近年来随着互联网技术的普及和发展,越来越来越多会议文献通过互联网开放共享。会议文献与正式出版的期刊论文相比,篇幅更短、形式更灵活,同时也存在元数据不统一不完整的缺点。由于学术会议信息交流分享的本质属性,且受会议主办方或组织者的技术能力影响,多数未实现文献元数据管理和服务,暂未见互联网开放共享的会议文献元数据获取专利。
技术实现思路
1、鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于互联网的科技文献元数据获取方法、系统及电子设备,用于解决上述科技文献元数据获取途径难以及内容少的问题。
2、第一方面,本发明提供一种基于互联网的科技文献元数据获取方法,所述方法包括以下步骤:
3、建立互联网开放的科技文献网页的网络连接,其中,所述科技文献网页中的文献包括期刊文献和会议文献;
4、基于所述科技文献网页解析元数据标签以识别目标网页元素,其中,利用解析工具或者网页开发者模式进行解析;
5、基于所述元数据标签结合目标编程语言触发任务管理机制,其中,任务管理机制用于对所述元数据标签进行数据处理;
6、对所述任务管理机制的任务输出结果进行数据提取以得到目标元数据。
7、在本申请一个可能的实现方式中,所述建立互联网开放的科技文献网页的网络连接,具体包括:
8、获取目标网址,所述目标网址包括第一网址和第二网址;
9、基于所述第一网址通过预设的网络浏览器建立网络连接以识别得到所述期刊文献;
10、基于所述第二网址预设的网络浏览器建立网络连接以识别得到所述会议文献。
11、在本申请一个可能的实现方式中,所述基于所述科技文献网页解析元数据标签以识别目标网页元素,具体包括:
12、基于预设的第三方解析工具或者当前网络浏览器自带的所述网页开发者模式对所述科技文献网页内所有的网页元素进行解析,并利用元数据标签确定所述目标网页元素,其中,
13、所述元数据标签包括期刊元数据标签和会议元数据标签,所述目标网页元素包括期刊文献网页元素和会议文献网页元素;
14、对所述期刊文献网页元素内的期刊元数据标签进行识别解析得到期刊文献网页元素;
15、对所述会议文献网页元素内的会议元数据标签进行识别解析得到会议文献网页元素。
16、在本申请一个可能的实现方式中,利用元数据标签确定所述目标网页元素具体包括调用对照关系进行确定,其中,调用期刊文献元数据与网页元素对照表识别得到所述期刊文献网页元素,调用会议文献元数据与网页元素对照表识别得到所述会议文献网页元素。
17、在本申请一个可能的实现方式中,所述基于所述元数据标签结合目标编程语言触发任务管理机制,具体包括:
18、基于编程语言库获取所述目标编程语言;
19、基于所述目标编程语言对所有的网页元素进行调度管理,结合所述元数据标签对所述网页元素进行分类区分得到目标集合,其中,
20、所述目标集合包括期刊文献网页元素集合、会议文献网页元素集合以及其他数据集合。
21、在本申请一个可能的实现方式中,所述对所述任务管理机制的任务输出结果进行数据提取以得到目标元数据,具体包括:
22、获取目标标签内容,其中,所述目标标签内容包括科技文献元数据标签内容;
23、基于所述目标标签内容遍历所述目标集合,提取符合当前科技文献元数据标签内容的数据得到所述目标元数据。
24、在本申请一个可能的实现方式中,所述方法还包括存储所述目标元数据,其中,采用电子表格文件和/或文本文件对所述目标元数据进行存储。
25、第二方面,本发明提供一种基于互联网的科技文献元数据获取系统,所述系统包括:
26、连接模块,用于建立互联网开放的科技文献网页的网络连接,其中,所述科技文献网页中的文献包括期刊文献和会议文献;
27、解析模块,用于基于所述科技文献网页解析元数据标签以获取目标网页元素,其中,利用解析工具或者网页开发者模式进行解析;
28、处理模块,用于基于所述元数据标签结合目标编程语言触发任务管理机制,其中,任务管理机制用于对所述元数据标签进行数据处理;
29、提取模块,用于对所述任务管理机制的任务输出结果进行数据提取以得到目标元数据。
30、第三方面,本发明提供一种电子设备,所述电子设备包括:处理器和存储器;
31、所述存储器用于存储计算机程序;
32、所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的基于互联网的科技文献元数据获取方法。
33、第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被电子设备执行时实现上述的基于互联网的科技文献元数据获取方法。
34、如上所述,本发明所述的基于互联网的科技文献元数据获取方法、系统及电子设备,具有以下有益效果:可以根据需求配置后自动采集开放获取的科技文献元数据,并按规则自动存储至计算机设备和介质中,所采集的科技文献元数据,可以丰富科技信息资源供科技人员阅读学习,亦可基于科技文献元数据,开展文献计量分析和绘制知识图谱,进行文献知识价值挖掘应用。
1.一种基于互联网的科技文献元数据获取方法,其特征在于,包括:
2.根据权利要求1所述的基于互联网的科技文献元数据获取方法,其特征在于,所述建立互联网开放的科技文献网页的网络连接,具体包括:
3.根据权利要求2所述的基于互联网的科技文献元数据获取方法,其特征在于,所述基于所述科技文献网页解析元数据标签以识别目标网页元素,具体包括:
4.根据权利要求3所述的基于互联网的科技文献元数据获取方法,其特征在于,利用元数据标签确定所述目标网页元素具体包括调用对照关系进行确定,其中,调用期刊文献元数据与网页元素对照表识别得到所述期刊文献网页元素,调用会议文献元数据与网页元素对照表识别得到所述会议文献网页元素。
5.根据权利要求4所述的基于互联网的科技文献元数据获取方法,其特征在于,所述基于所述元数据标签结合目标编程语言触发任务管理机制,具体包括:
6.根据权利要求5所述的基于互联网的科技文献元数据获取方法,其特征在于,所述对所述任务管理机制的任务输出结果进行数据提取以得到目标元数据,具体包括:
7.根据权利要求6所述的基于互联网的科技文献元数据获取方法,其特征在于,所述方法还包括存储所述目标元数据,其中,采用电子表格文件和/或文本文件对所述目标元数据进行存储。
8.一种基于互联网的科技文献元数据获取系统,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任一项所述基于互联网的科技文献元数据获取方法。
10.一种电子设备,其特征在于,所述电子设备包括:处理器及存储器;其中,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权利要求1至7中任一项所述基于互联网的科技文献元数据获取方法。
