本技术涉及图像处理,具体地涉及一种地学文献图片零样本分类方法、装置及电子设备。
背景技术:
1、在地学文献图片的理解与分类研究中,首先需要对pdf文献进行解析,然后才能对解析得到的文本、图片、表格等数据进行深入分析,如科研文献图片分类。目前pdf文件的解析技术已经得到了较成熟的发展,例如science parse、pdffigures 2.0和grobi等结构化解析工具可以非常便捷地提取pdf文献中的图文数信息。
2、在图片分类的相关研究中,基于监督学习的方法取得了不错的结果。申请号为cn202210350617.0的中国发明专利申请中,提出了一种基于多模态的场馆识别方法、系统、设备及存储介质,该发明能够基于攻略线上海量图片,利用多模态检索,实现了一个对开放场景自动识别的机制,大大减少人工成本,便于后续对其他场景的应用。申请号为cn202111465039.7的中国发明专利申请中,提出了一种基于多模态算法的图像搜索方法及装置。该方法使用多模态算法实现了一种快速准确图像搜索方法,但是额外使用了数据库存储多模态特征,这在大规模多分类的图片识别中用处不大。申请号为cn201910836905.5的中国发明专利申请中,提出了一种基于多分类器的零样本深海生物图片分类方法。该发明在一定程度上降低了映射域漂移的影响,准确易行,但是该方法仍需要构建图像特征数据集,在地学文献图片的情况下不适用。申请号为cn201910449243.6的中国发明专利申请中,提出了一种基于faster-rcnn的科技文献图片提取方法。该发明检测速度快和准确率高,有助于对科技文献图片进行进一步分析与理解,具有较高的实际应用价值。但是需要构建数据集训练卷积神经网络模型,且不支持图片分类,不能用于实现地学科研文献的图片识别。
3、由上述可以看出,现有的监督学习方法在图片分类任务上的成功离不开两个关键点:大量标注数据和大模型训练。但是,基于监督学习的图片分类使用给定标签的标注数据进行模型训练,在一组预定的物体类别中对新样本进行分类,这种受限的监督形式限制了它们的通用性和可用性,也使得该方法的泛化性能较差。第二,监督学习需要大量的人为标注数据参与模型训练,才能达到比较好的效果。大量标注数据意味着需要投入很多人力和物力进行标注,然而像地学这样的专业领域的标注对于参与者的专业知识又有一定的要求,这也导致科研文献中尤其是地球科学文献中的高质量标注数据极其缺乏,因此难以有效准确地进行地学文献图片分类。
技术实现思路
1、有鉴于此,本技术提供了一种文献图片零样本分类方法、装置及电子设备,以利于解决现有技术中地学文献图片分类需要大量标注数据,由于标注数据的准确性影响地学文献图片分类效果的问题。
2、第一方面,本技术实施例提供了一种地学文献图片零样本分类方法,包括:
3、从地学文献中解析出地理图片和文本描述的数据对,所述文本描述为所述地学文献中所述地理图片对应的描述语句;
4、根据所述数据对获得图像特征向量和文本特征向量;
5、分别将所述图像特征向量作为横向输入向量,文本特征向量作为纵向输入向量获得n个正样本对和n(n-1)个负样本对,所述n个正样本对和n(n-1)个负样本对用于训练预先建立的geo-clip模型,n为地理图片的个数;
6、将待识别的文献图片输入所述geo-clip模型,所述geo-clip模型根据所述待识别的文献图片生成文本描述,所述文本描述表征所述文献图片的分类结果。
7、在一种可能的实现方式中,所述从地学文献中解析出地理图片和文本描述的数据对,包括:
8、将所述地学文献进行pdf解析确定出(地理图片,文本描述)对,其中每个(地理图片,文本描述)对中的文本描述对应当前对中的地理图片;
9、将所述(地理图片,文本描述)对中的地理图片和文本描述进行拆分。
10、在一种可能的实现方式中,所述geo-clip模型包括图片编辑器和文本编辑器,所述根据所述数据对获得图像特征向量和文本特征向量,包括:
11、将所述地学文献中的地理图片输入所述图片编辑器映射到第一特征空间获得第一图像特征向量;
12、将所述地学文献中的文本描述输入所述文本编辑器映射到第二特征空间获得第一文本特征向量,所述文本特征向量和所述图像特征向量的数量相同。
13、在一种可能的实现方式中,图片编码器和文本编码器输出的特征向量长度不同,采用额外的线性映射将所述第一图像特征向量和第一文特征向量映射到统一长度。
14、在一种可能的实现方式中,n个正样本对和n(n-1)个负样本对组成的损失函数,然后通过对比学习的方式训练所述geo-clip模型。
15、在一种可能的实现方式中,所述将待识别的文献图片输入所述geo-clip模型,所述geo-clip模型根据所述待识别的文献图片生成文本描述,包括:
16、将待识别的文献图片经过图片编码器映射获得第二图像特征向量;
17、将候选类别标签通过文本编码器映射获得文本特征向量组;
18、确定所述文本特征向量组中与所述第二图片特征向量相似度最大的第二文本特征向量,所述第二文本特征向量的文本描述即为所述待识别的文献图片的分类结果。
19、在一种可能的实现方式中,确定所述文本特征向量组中与所述第二图片特征向量相似度最大的第二文本特征向量,包括:
20、将所述文本特征向量组的每个文本特征向量与所述第二图片特征向量进行比对获得置信度值;
21、将所述置信度值最高的文本特征向量作为所述第二图片特征向量的分类文本特征向量。
22、第二方面,本技术实施例提供了一种地学文献图片零样本分类装置,包括:
23、解析模块,用于从地学文献中解析出地理图片和文本描述的数据对,所述文本描述为所述地学文献中所述地理图片对应的描述语句;
24、获取模块,用于根据所述数据对获得图像特征向量和文本特征向量;
25、模型训练模块,用于分别将所述图像特征向量作为横向输入向量,文本特征向量作为纵向输入向量获得n个正样本对和n(n-1)个负样本对,所述n个正样本对和n(n-1)个负样本对用于训练预先建立的geo-clip模型,n为地理图片的个数;
26、图片分类模块,用于将待识别的文献图片输入所述geo-clip模型,所述geo-clip模型根据所述待识别的文献图片生成文本描述,所述文本描述表征所述文献图片的分类结果。
27、第三方面,本技术实施例提供了一种电子设备,包括:
28、处理器;
29、存储器;
30、以及计算机程序,其中所述计算机程序被存储在所述存储器中,所述计算机程序包括指令,当所述指令被所述处理器执行时,使得所述电子设备执行第一方面任一可能实现方式所述的方法。
31、第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行第一方面任一可能实现方式所述的方法。
32、在本技术实施例中,利用地学文献文件本身确定出训练模型的图像和文本特征向量,对建立的模型进行训练,然后利用训练完成的模型实现根据文献图片确定出分类结果。不需要进行大规模标注数据,避免了因标注数据不准确,导致后续地学文献图片识别不准确的问题。
1.一种地学文献图片零样本分类方法,其特征在于,包括:
2.根据权利要求1所述的地学文献图片零样本分类方法,其特征在于,所述从地学文献中解析出地理图片和文本描述的数据对,包括:
3.根据权利要求2所述的地学文献图片零样本分类方法,其特征在于,所述geo-clip模型包括图片编辑器和文本编辑器,所述根据所述数据对获得图像特征向量和文本特征向量,包括:
4.根据权利要求3所述的地学文献图片零样本分类方法,其特征在于,图片编码器和文本编码器输出的特征向量长度不同,采用额外的线性映射将所述第一图像特征向量和第一文特征向量映射到统一长度。
5.根据权利要求4所述的地学文献图片零样本分类方法,其特征在于,n个正样本对和n(n-1)个负样本对组成的损失函数,然后通过对比学习的方式训练所述geo-clip模型。
6.根据权利要求1所述的地学文献图片零样本分类方法,其特征在于,所述将待识别的文献图片输入所述geo-clip模型,所述geo-clip模型根据所述待识别的文献图片生成文本描述,包括:
7.根据权利要求6所述的地学文献图片零样本分类方法,其特征在于,确定所述文本特征向量组中与所述第二图片特征向量相似度最大的第二文本特征向量,包括:
8.一种地学文献图片零样本分类装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的方法。
