1.本公开大体上涉及计算机视觉,更具体地涉及使用机器学习来分割文本图案。
背景技术:
2.计算机视觉是指获取、处理、分析和理解数字图像的技术。例如,数字图像可以被输入到可以提取信息的人工系统。计算机视觉包括诸如图像处理、图像分割和对象检测等任务。
3.分割是将数字图像划分为多个片段或图像对象的过程。在一些情况下,片段或对象由像素集合和对应的类别标签(即,像素所属类别的语义描述)表示。因此,图像分割网络的输出可以是对应于一个或多个类别的图像掩模的形式。图像分割有助于简化数字图像的表示,并将其改变为用户可以进一步分析和修改的已处理图像。图像分割在诸如图像搜索和取回、图像合成、图像编辑和人机交互等领域都有应用。
4.多种工具可以被用于执行图像分割。然而,传统的分割工具不知道文本的独特可视属性。因此,这些工具在标识文本时容易出错。例如,文本周围的曲线和装饰可能会被错误地分割为文本,或者可能只有一部分文本被正确标识,并且具有类似颜色和纹理的其他部分可能会丢失。因此,本领域需要一种改进的图像分割工具,其能够准确地对图像中的前景文本信息进行分类和解析。
技术实现要素:
5.本公开描述了用于执行文本分割的系统和方法。本公开的实施例执行初始分割,然后通过标识图像的被标识为文本的部分共有的特征来细化分割。在一些示例中,表示共有特征的密钥向量是使用注意力组件与图像特征组合的。根据某些实施例,机器学习模型是基于初始分割和细化分割使用多个训练任务训练的。
6.描述了一种用于文本分割的方法、装置和非瞬态计算机可读介质。该方法、装置和非瞬态计算机可读介质的实施例被配置为:接收图像,图像包括前景文本部分和背景部分;使用神经网络将图像的每个像素分类为前景文本或背景,该神经网络使用表示前景文本部分的特征的密钥向量来细化分割预测,其中密钥向量基于分割预测;以及基于分类来标识前景文本部分。
7.描述了一种用于针对文本分割训练神经网络的方法、装置和非瞬态计算机可读介质。该方法、装置和非瞬态计算机可读介质的实施例被配置为:标识训练集合,该训练集合包括训练图像和训练图像中的每个训练图像的地面实况分割信息,其中地面实况分割信息标识前景文本部分和背景部分;将训练图像的每个像素分类为前景文本或背景,以针对训练图像中的每个训练图像产生分割预测;基于分割预测和地面实况分割信息的比较来计算第一损失函数;基于分割预测来标识表示前景文本部分的特征的密钥向量;基于密钥向量将训练图像的每个像素分类为前景文本或背景,以针对训练图像中的每个训练图像产生细化分割预测;基于细化分割预测和地面实况分割信息的比较来计算第二损失函数;以及基
于第一损失函数和第二损失函数来更新神经网络的参数。
8.描述了一种用于文本分割的装置和方法。该装置和方法的实施例包括:编码器,被配置为对图像进行编码以产生特征图,其中该图像包括前景文本部分和背景部分;第一译码器,被配置为对特征图进行译码以产生分割预测;密钥生成器,被配置为基于分割预测来标识表示前景文本部分的特征的密钥向量;注意力组件,被配置为基于密钥向量来产生组合特征图;以及第二译码器,被配置为基于组合特征图来产生细化分割预测。
附图说明
9.图1示出了根据本公开的各个方面的用于文本分割的系统的示例。
10.图2示出了根据本公开的各个方面的用于文本分割的过程的示例。
11.图3和图4示出了根据本公开的各个方面的文本分割的示例。
12.图5示出了根据本公开的各个方面的文本分割装置的示例。
13.图6示出了根据本公开的各个方面的用于文本分割的过程的示例。
14.图7示出了根据本公开的各个方面的用于生成分割预测的过程的示例。
15.图8至图9示出了根据本公开的各个方面的用于生成密钥向量的过程的示例。
16.图10示出了根据本公开的各个方面的用于生成细化分割预测的过程的示例。
17.图11示出了根据本公开的各个方面的用于针对文本分割训练神经网络的过程的示例。
18.图12示出了根据本公开的各个方面的用于扩大训练集合的过程的示例。
具体实施方式
19.本公开描述了用于执行文本分割的系统和方法。本公开的实施例执行初始分割,然后通过标识图像的被临时标识为文本的部分共有的特征(例如纹理)来细化分割。在一些示例中,表示文本特征的密钥向量是使用注意力组件与编码图像(即,整个图像的特征)组合的。根据某些实施例,机器学习模型是基于初始分割和细化分割使用多个训练任务训练的。
20.图像分割是计算机视觉的重要组成部分。文本分割是专注于标识文本的图像分割的子集,其具有许多重要的应用。例如,光学字符识别(ocr)工具在标识文本内容之前定位文本部分。
21.一些图像分割工具生成边界框,从而标识包括文本的区域。然而,针对与文本相关的下游应用,诸如样式转换、文本去除和图像编辑,仅知道文本的粗略地点(即,使用边界框)可能还不够。这种应用取决于更复杂的后续图像处理步骤。因此,需要在像素级别对图像进行分割的文本分割工具。
22.此外,传统的分割模型不是专门为文本分割设计的,因此不知道文本的独特可视属性。即,文本具有不同于其他对象(例如面部、身体部位、建筑物或自然对象)的独特可视属性。例如,与常规对象相比,文本可能具有较弱的空间连接。另外,与文本前景纹理相关的语义信息可能因图像而不同。因此,不同图像之间的文本特征的相似度可能小于其他对象,而一个图像内文本特征的相似度可能大于其他对象。
23.因此,传统的图像分割工具在对文本进行分类或分割时容易出错。例如,文本周围
的曲线和装饰可能会被错误地分割为文本,或者可能只有一部分文本被正确标识,并且具有类似颜色和纹理的其他部分可能会丢失。
24.本公开的实施例包括解决传统网络的技术问题的改进的文本分割工具。例如,本公开的文本分割工具采用标识与图像的文本部分相关联的密钥特征,然后使用这些特征来产生细化文本分割的非传统步骤。通过标识图像的文本部分共有的特征,改进的文本分割工具可以在像素级别提供更准确的结果。例如,将被传统分割工具遗漏的文本部分被正确地分类为文本,并且图像的不是文本的非文本部分不被分类为文本。
25.本公开的实施例包括:神经网络,具有用于文本分割的深度学习骨干网络;以及网络扩展,使用来自骨干网络的输出,并且使用定制的查询密钥注意力机制细化其输出以提高分类的准确度。本公开的实施例处理被嵌入到图像中的常规字体和艺术设计的文本图案(即,而不是专门处理日常场景中的常规对象)。取决于应用和用户,文本图案可以是各种类型和纹理。
26.在一些实施例中,神经网络包括可互换的编码器网络和定制的查询密钥注意力机制,其比较图像上的前景文本信息。本公开的神经网络克服了识别文本图像的挑战。例如,一些文本区域没有很强的空间先验知识,并且其纹理的语义意义相对较小。在一些实施例中,神经网络包括集成通道方向余弦相似度重新阈值化、前景特征池化和查询密钥注意力的非传统技术。因此,改进的神经网络提高了文本分割的准确度。
27.系统概述
28.图1示出了根据本公开的各个方面的用于文本分割的系统的示例。所示出的示例包括用户100、用户设备105、文本分割装置110、云135和数据库140。在一个实施例中,文本分割装置110包括处理器单元115、存储器单元120、图像应用125和神经网络130。然而,在一些实施例中,文本分割装置110的组件和功能位于用户设备105上。
29.用户100可以选择包括前景文本的图像,并且文本分割装置110可以标识前景文本(例如使用机器学习模型)。用户100然后可以编辑或以其他方式使用由文本分割装置110标识的文本。
30.用户100可以经由用户设备105和云135与文本分割装置110通信。用户设备105可以是个人计算机、膝上型计算机、大型计算机、掌上计算机、个人助理、移动设备或者任何其他适合的处理装置。
31.处理器单元115是智能硬件设备(例如通用处理组件、数字信号处理器(dsp)、中央处理单元(cpu)、图形处理单元(gpu)、微控制器、专用集成电路(asic)、现场可编程门阵列(fpga)、可编程逻辑设备、离散门或晶体管逻辑组件、离散硬件组件或其任何组合)。在一些情况下,处理器单元115被配置为使用存储器控制器操作存储器阵列。在其他情况下,存储器控制器被集成到处理器单元115中。在一些情况下,处理器单元115被配置为执行存储在存储器中的计算机可读指令以执行各种功能。在一些实施例中,处理器单元115包括用于调制解调器处理、基带处理、数字信号处理或传输处理的专用组件。
32.存储器单元120的示例包括随机存取存储器(ram)、只读存储器(rom)或硬盘。存储器单元120的示例包括固态存储器和硬盘驱动器。在一些示例中,存储器单元120被用于存储包括指令的计算机可读、计算机可执行软件,该指令在被执行时使处理器执行本文描述的各种功能。在一些情况下,存储器单元120包含控制基础硬件或软件操作(诸如与外围组
件或设备的交互)的基础输入/输出系统(bios)等。在一些情况下,存储器控制器操作存储器单元。例如,存储器控制器可以包括行译码器、列译码器或两者。在一些情况下,存储器单元120内的存储器单元以逻辑状态的形式存储信息。
33.云135是被配置为提供计算机系统资源的按需可用性(诸如数据存储和计算功率)的计算机网络。在一些示例中,云135提供资源,而没有由用户主动管理。术语云135有时被用于描述许多用户通过互联网可用的数据中心。一些大型云网络具有从中央服务器分布在多个地点上的功能。如果服务器与用户具有直接或紧密连接,则它被特指为边缘服务器。在一些情况下,云135被限于单个组织。在其他示例中,云135可用于许多组织。在一个示例中,云135包括多层通信网络,其包括多个边缘路由器和核心路由器。在另一示例中,云135基于单个物理地点中的交换机的局部集合。
34.数据库140是数据的组织集合。例如,数据库140以称为图式的指定格式来存储数据。数据库140可以被结构化为单个数据库、分布式数据库、多个分布式数据库或者紧急备份数据库。在一些情况下,数据库控制器可以管理数据库140中的数据存储和处理。在一些情况下,用户100与数据库140控制器交互。在其他情况下,数据库控制器可以自动操作,而没有用户交互。在一些示例中,数据库140包括对包括前景文本的图像的选择。
35.根据一些实施例,图像应用125接收包括前景文本部分和背景部分的图像。文本分割装置110基于来自神经网络130的分类来标识前景文本部分。在一些示例中,图像应用125修改前景文本部分的纹理,以产生修改的图像。
36.根据一些实施例,图像应用125标识初始训练图像。在一些示例中,图像应用125针对初始训练图像中的每个初始训练图像标识前景文本部分和背景部分。在一些示例中,图像应用125基于所标识的前景文本部分来修改初始训练图像,以产生附加训练图像,其中训练集合包括初始训练图像和附加训练图像。在一些示例中,图像应用125替换背景文本部分,同时保留前景文本部分。
37.在一些示例中,图像应用125包括图形编辑器(例如paint或photoshop)。用户可以选择数字图像,并且将图像输入到神经网络以用于使用图像应用125进行文本分割。用户还可以使用图像应用125来编辑来自神经网络的输出图像(即,前景文本已经被标识的已处理图像)。
38.在一些实施例中,文本分割装置110包括人工神经网络(ann)。ann是硬件或软件组件,其包括许多连接节点(即,人工神经元),这些节点与人脑中的神经元松散对应。每个连接或边缘都将信号从一个节点发送给另一节点(就像大脑中的物理突触)。当节点接收到信号时,它会处理该信号,然后将处理后的信号发送给其他连接节点。在一些情况下,节点之间的信号包括实数,并且每个节点的输出由其输入的总和的函数计算。每个节点和边缘都与一个或多个节点权重相关联,这些权重确定了信号的处理和发送方式。
39.在训练过程期间,这些权重被调整以提高结果的准确度(即,通过最小化以某种方式对应于当前结果和目标结果之间的差异的损失函数)。边缘的权重提高或降低节点之间发送的信号强度。在一些情况下,节点具有阈值,信号低于该阈值根本不被发送。在一些示例中,节点被聚合为层。不同的层对其输入执行不同的变换。初始层被称为输入层,并且最后一层被称为输出层。在一些情况下,信号会多次遍历某些层。
40.在一些实施例中,文本分割装置110包括卷积神经网络(cnn)。例如,用于标识图像
特征的编码器可以包括卷积层。cnn是通常被用于计算机视觉或图像分类系统的一类神经网络。在一些情况下,cnn可以利用最少的预处理来处理数字图像。cnn的特点可能在于使用卷积(或互相关)隐藏层。这些层在将结果发信号通知下一层之前对输入应用卷积操作。每个卷积节点可以处理有限输入域(即,感受野)的数据。在cnn的前向传递期间,每层的滤波器可能会在输入体积上进行卷积,计算滤波器和输入之间的点积。在训练过程期间,滤波器可以被修改,使得它们在检测到输入内的特定特征时启动。
41.根据一些实施例,神经网络130将图像的每个像素分类为前景文本或背景,其使用表示前景文本部分的特征的密钥向量来细化分割预测,其中密钥向量基于分割预测。
42.根据一些实施例,神经网络130将训练图像的每个像素分类为前景文本或背景,以针对训练图像中的每个训练图像产生分割预测。在一些示例中,神经网络130基于分割预测和地面实况分割信息的比较来计算第一损失函数。神经网络130基于细化分割预测和地面实况分割信息的比较来计算第二损失函数。神经网络130的参数基于第一损失函数和第二损失函数来更新。在一些情况下,神经网络也被称为文本细化网络。
43.本公开的实施例提供了一种深度学习神经网络。神经网络包括可互换的编码器网络和定制的查询密钥注意力机制,其在一个图像上传播和比较文本前景信息。在实施例中,神经网络包括集成通道方向余弦相似度重新阈值化、前景特征池化和查询密钥注意力。因此,神经网络提高了分类和分割预测结果的准确度。
44.根据实施例,神经网络包括两个组件,用于分割预测的骨干网络和利用来自骨干网络的输出并使用定制的查询密钥注意力机制细化其预测的网络扩展。骨干网络是可互换的编码器网络,并且提供文本区域的分割结果。在一些示例中,骨干网络包括resnet101、deeplabv3 或另一合适的图像处理网络。然而,本公开的实施例不被限于骨干网络的选择。神经网络对选择骨干网络没有限制,并且用户可以根据其下划任务和计算环境来选择一个骨干网络。
45.图2示出了根据本公开的各个方面的用于文本分割的过程的示例。在一些示例中,这些操作由系统执行,该系统包括执行代码集合以控制装置的功能元件的处理器。附加地或备选地,某些过程是使用专用硬件执行的。通常,这些操作是根据根据本公开的各个方面描述的方法和过程执行的。在一些情况下,本文描述的操作由各种子步骤组成,或者结合其他操作执行。
46.在操作200中,用户选择包括文本前景的图像。用户可以将数字图像上传到图像应用(例如photoshop)。在一些示例中,用户从数据库或云中选择数字图像。文本前景被嵌入到场景中,并且包括诸如英文字母等文本图案。根据示例,文本前景包括艺术字体或曲线字体,其中该定制字体的字母是匀称、平滑且流动的。在一些情况下,该步骤的操作涉及参照图1描述的用户,或者可以由其执行。
47.在操作205中,系统对图像执行文本分割。该系统包括神经网络,其可以在像素级别对与文本前景相关的对象进行分类和分割。神经网络能够分割各种类型的文本图案,诸如被嵌入到由用户选择的图像中的常规字体、艺术字体、定制文本设计。在一些情况下,该步骤的操作涉及参照图1描述的神经网络,或者可以由其执行。
48.在操作210中,系统标识文本前景。图像的文本前景由系统分割、保存和输出。神经网络会丢弃非文本信息或不落入文本分割的对象,例如周围环境和未被标记为文本的对
象。与文本和周围环境混合而不明显的输入图像不同,用户可以容易地从系统的输出图像查看文本前景。在一些情况下,该步骤的操作涉及参照图1描述的图像应用,或者可以由其执行。
49.在操作215中,用户编辑图像的文本前景。用户可以使用图像应用(例如photoshop)继续编辑图像的文本前景。在一些示例中,用户基于图像的所标识的文本前景部分来改变文本的内容和/或文本图案(例如使用不同的样式字体)。在一些情况下,该步骤的操作涉及参照图1描述的用户,或者可以由其执行。
50.文本分割
51.图3示出了根据本公开的各个方面的文本分割的示例。所示出的示例包括原始图像300和文本前景305。在一些情况下,原始图像300包括来自场景的对象集合。一些对象包括文本。根据示例,原始图像300包括高速公路出口标志(由于出口标志上张贴的大写字体文本“exit only”,驾驶员知道这是出口标志。出口标志显示指派给三岔路的出口编号(例如20a)以及如果驾驶员在这个三岔路离开(例如likelike hwy)的出口的目的地。除了文字,原始图像还包括关于周围环境的场景,例如房屋的屋顶、树叶、天空和出口标志安装结构。
52.文本前景305仅包括图像中的文本信息。文本前景305不包括场景中的未被标记为文本的周围环境。在上面的示例中,文本前景305包括常规字体、艺术字体或两者的组合(例如“exit 20a”、“north”、“likelike hwy”和“exit only”被示出在文本前景中)。
53.根据一些实施例,原始图像300被用于训练并因此输入到神经网络。文本前景305是地面实况注释。损失函数在基于原始图像的分割预测和地面实况注释之间计算。在一些情况下,原始图像300被输入到神经网络以用于推论。
54.图4示出了根据本公开的各个方面的文本分割的示例。所示出的示例包括原始图像400和文本前景405。原始图像400包括具有来自用户的指定字体的文本或文本图案。在一些情况下,文本图案包括来自用户的艺术设计。根据示例,原始图像400包括人手握有非常规艺术字体的文本。文本包括“假期卡路里不计数”。在一些情况下,文本字体不容易被用户识别为字母,因为文本与场景的其他非文本信息混合和/或字母具有弯曲的形状,使得文本对用户不太明显。在原始图像中存在非文本周围环境,诸如街道、雨伞和房屋。用户有兴趣了解文本的准确内容(例如短语中的每个词语的拼写),并且可以继续编辑来自原始图像的已标识文本。
55.文本前景405仅包括文本信息。文本前景405不具有场景中的未被标记为文本的周围环境信息。在上面的示例中,文本前景405包括声明“假期卡路里不计数”的文本。该文本是艺术字体(例如一些英文字母具有曲线或定制字体,使得字母是匀称、平滑且流动的)。
56.根据一些实施例,原始图像400被用于训练并因此输入到神经网络。文本前景405是地面实况注释。损失函数在基于原始图像的分割预测和地面实况注释之间计算。在一些情况下,原始图像400被输入到神经网络以用于推论。
57.架构
58.图5示出了根据本公开的各个方面的文本分割装置的示例。所示出的示例包括原始图像500、编码器505、特征图510、第一译码器515、分割预测520、密钥生成器525、注意力组件530、组合特征图535、第二译码器540、细化分割预测545、文本前景550、第一损失555和
第二损失560。
59.根据一些实施例,神经网络(即,网络模型)包括骨干网络和细化扩展。骨干网络是由用户基于其任务和计算环境选择的可互换编码器网络。骨干网络也被称为编码器505。细化扩展是处理来自骨干网络的(输出)特征图510的查询密钥注意力机制。根据实施例,神经网络包括编码器505、第一译码器515、密钥生成器525、注意力组件530和第二译码器540。在一些情况下,神经网络也被称为文本细化网络或者模型。
60.原始图像500是编码器505的输入图像。在一些情况下,原始图像被称为输入图像x。原始图像500包括特定字体的文本或文本图案。在一些情况下,文本图案包括来自用户的艺术设计。例如,如图5所图示的,原始图像500包括人手握有非常规的艺术字体的文本,声明“假期卡路里不计数”。在一些情况下,文本的字体无法由用户容易地识别。在原始图像中存在非文本周围环境,诸如街道、雨伞和房屋。用户有兴趣了解文本的准确内容(例如文本的拼写),并且可以继续编辑来自原始图像的已标识文本。原始图像500是参照图3和图4描述的对应元素的示例,或包括其各个方面。
61.根据一些实施例,编码器505对输入图像x进行编码,以产生特征图510。特征图510被表示为xf。编码器505对训练图像的图像进行编码,以产生特征图510。例如,训练图像中的一个训练图像是原始图像500(即,输入图像x)。在一些实施例中,编码器505被配置为对图像进行编码以产生特征图510,其中图像包括前景文本部分和背景部分。在一些示例中,编码器505包括resnet架构。在一些其他示例中,编码器505包括deeplabv3 架构。然而,本公开的实施例不被限于编码器网络的选择。
62.根据一些实施例,第一译码器515对特征图510进行译码,以产生分割预测520。分割预测520被表示为x
sem
。在一些示例中,第一译码器515包括卷积层、第一偏置和第一softmax。第一译码器515将卷积层应用于特征图510。第一译码器515将第一偏置应用于卷积层的输出。第一译码器515将第一softmax应用于第一偏置的输出。
63.根据实施例,该模型经由具有偏置和softmax层的额外卷积层来计算分割预测x
sem
。x
sem
是用使用交叉熵损失l
sem
(即,第一损失555)的地面实况注释y来监督的。由于模型直接使用x
sem
和y计算l
sem
,因此它对编码器505的参数进行强监督。
64.根据一些实施例,密钥生成器525基于分割预测520标识密钥向量。在一些示例中,密钥生成器525计算分割预测520的余弦相似度。密钥生成器525基于余弦相似度来应用第二偏置。密钥生成器525将第二softmax应用于第二偏置的输出。密钥生成器525将第二softmax与特征图510组合。密钥生成器525应用池化层,以产生密钥向量。
65.根据一些实施例,密钥生成器525基于分割预测520来标识表示前景文本部分的特征的密钥向量。在一些示例中,密钥生成器525包括余弦相似度函数、第二偏置、第二softmax,第一乘积函数和池化层。密钥生成器525计算分割预测520的余弦相似度。密钥生成器525基于余弦相似度来应用第二偏置。密钥生成器525将第二softmax应用于第二偏置的输出。密钥生成器525将第二softmax与特征图510组合。密钥生成器525应用池化层,以产生密钥向量。
66.根据实施例,模型重新阈值化x
sem
,并且获得仅具有高置信度的前景预测保持启动的被表示为的修改后的分割预测。通过对生成x
sem
的卷积层增加新偏置,该模型执行该重新阈值化步骤。该新偏置与x
sem
的通道方向余弦相似度成线性比例。
[0067][0068]
根据实施例,x
sem
的通道方向余弦相似度与其预测准确度成反比。因此,当x
sem
变得不准确时,其通道方向余弦相似度上升,并且背景通道上的偏置上升。当通过softmax时,这等效地减少了对中的前景区域的启动。因此,仅具有高置信度的前景预测在中保持启动。
[0069]
然后,该模型池化的高置信度区域内的特征向量vk,以表示文本的前景纹理。这种池化是通过特征图xf和之间的加权和来执行的。
[0070][0071]
其中n表示该图的像素数量,因此它仅保持通道维度(c)。通过这样做,该模型不仅将文本前景信息汇总为一个图像内的vk,而且降低了vk与不同图像之间的骨干(即,编码器)参数的相关性。
[0072]
根据一些实施例,注意力组件530基于密钥向量将训练图像的每个像素分类为前景文本或背景,以针对训练图像中的每个训练图像产生细化分割预测545。在一些示例中,注意力组件530组合密钥向量和特征图510,以产生注意力图。在一些示例中,注意力组件530组合注意力图和特征图510,以产生组合特征图535。在一些示例中,组合特征图535包括图像的每个像素的颜色信息。根据一些实施例,注意力组件530被配置为基于密钥向量来产生组合特征图535。在一些示例中,注意力组件530包括第二乘积函数和级联函数。
[0073]
根据实施例,该模型使用vk作为密钥,使用xf作为查询,并且通过点积计算注意力x
att
。由于点积是对所有像素地点执行的,纹理信息被全局地传播到图像的所有部分。
[0074]
根据一些实施例,第二译码器540对组合特征图535进行译码,以产生细化分割预测545,其中前景文本部分是基于细化分割预测545标识的。根据一些实施例,第二译码器540被配置为基于组合特征图535产生细化分割预测545。在一些例如,第二译码器540包括卷积层、批量归一化层和relu层。细化分割预测545被表示为x
rfn
。
[0075]
根据实施例,该模型级联输入图像x、特征图xf和新计算的注意力x
att
,并使该新矩阵通过两个附加conv5x5层和一个conv1x1层,以获得最终的细化结果x
rfn
。x
rfn
是在训练时间期间用使用交叉熵损失l
rfn
(即,第二损失560)的地面实况注释y监督的。x
rfn
在推论时间期间(即,使用模型进行预测时)充当模型的最终输出。最终损失l(即,第二损失560)是l
sem
和l
rfn
的加权和。
[0076][0077][0078]
l=w
sem
l
sem
w
rfn
l
rfn
ꢀꢀꢀ
(5)
[0079]
根据实施例,该模型可以被端到端训练。在训练过程期间,超参数被设置如下,例如l
sem
和l
rfn
的权重为1。训练长度被设置为20500次总迭代。学习率是0.01,并且它使用0.9多边形规则从0.01缓慢衰减到0。在训练开始时,500次迭代预热被使用。本公开的一个实施例使用imagenet预训练模型作为初始模型。在推论时间期间不需要超参数。
[0080]
在一些情况下,文本前景550是地面实况图像(表示为y)。例如,文本前景550包括声明“假期卡路里不计数”的文本信息(或查询)。文本前景550包括常规字体、艺术字体或两者的组合。与原始图像不同,文本前景550不具有非文本信息(例如上下文信息、周围环境)。文本前景550是参照图3和图4描述的对应元素的示例,或包括其各个方面。
[0081]
推论
[0082]
图6示出了根据本公开的各个方面的用于文本分割的过程的示例。在一些示例中,这些操作由系统执行,该系统包括执行代码集合以控制装置的功能元件的处理器。附加地或备选地,某些过程是使用专用硬件执行的。通常,这些操作是根据根据本公开的各个方面描述的方法和过程执行的。在一些情况下,本文描述的操作由各种子步骤组成,或者结合其他操作执行。
[0083]
在操作600中,系统接收包括前景文本部分和背景部分的图像。在一些情况下,该步骤的操作涉及参照图1描述的图像应用,或者可以由其执行。图像应用包括图形编辑器(例如paint或photoshop)。
[0084]
根据一些实施例,接收到的图像包括被嵌入图像中的常规字体和/或艺术设计的文本图案。在一些情况下,图像可以被用于在训练阶段训练神经网络,因此输入到神经网络。在一些情况下,图像被用于推论,并且神经网络基于图像来产生文本分割结果。
[0085]
在操作605中,系统使用神经网络将图像的每个像素分类为前景文本或背景,该神经网络使用表示前景文本部分的特征的密钥向量来细化分割预测,其中密钥向量基于分割预测。在一些情况下,该步骤的操作涉及参照图1描述的神经网络,或者可以由其执行。
[0086]
根据实施例,神经网络包括骨干网络以及在来自骨干网络的输出上构建的网络扩展。骨干网络包括cnn模型(例如resnet-101、deeplabv3 )。deeplabv3 是用于语义分割的cnn模型,包括编码器-译码器网络。resnet-101是101层深的cnn模型。在一些示例中,resnet-101网络是在imagenet数据库上预训练的。然而,本公开的实施例不被限于骨干网络的选择。神经网络对选择骨干网络没有限制,并且用户可以根据其下划任务和计算环境来选择骨干网络。
[0087]
在一些情况下,骨干网络被称为编码器。网络扩展使用查询密钥注意力机制细化来自骨干网络的分割预测。神经网络可以在像素级别解析来自图像的文本前景。因此,文本分割的准确度被提高。
[0088]
根据实施例,神经网络包括编码器(即,骨干网络)、第一译码器、密钥生成器、注意力组件和第二译码器。编码器被配置为对图像进行编码以产生特征图,其中图像包括前景文本部分和背景部分。第一译码器被配置为对特征图进行译码以产生分割预测。密钥生成器被配置为基于分割预测来标识表示前景文本部分的特征的密钥向量。注意力组件被配置为基于密钥向量来产生组合特征图。第二译码器被配置为基于组合特征图来产生细化分割预测。
[0089]
在操作610中,系统基于分类来标识前景文本部分。用户能够使用图形编辑器(例
如paint或photoshop)来继续编辑前景文本部分。在一些情况下,该步骤的操作涉及参照图1描述的图像应用,或者可以由其执行。
[0090]
初始分割
[0091]
图7示出了根据本公开的各个方面的用于生成分割预测的过程的示例。在一些示例中,这些操作由系统执行,该系统包括执行代码集合以控制装置的功能元件的处理器。附加地或备选地,某些过程是使用专用硬件执行的。通常,这些操作是根据根据本公开的各个方面描述的方法和过程执行的。在一些情况下,本文描述的操作由各种子步骤组成,或者结合其他操作执行。
[0092]
在操作700中,系统将一个或多个卷积层应用于特征图。卷积神经网络中的卷积层将学习后的滤波器应用于输入图像,以生成特征图。在一些情况下,该步骤的操作涉及参照图5描述的第一译码器,或者可以由其执行。根据一些实施例,编码器被配置为对图像进行编码以产生特征图,其中图像包括前景文本部分和背景部分。第一译码器被配置为对特征图进行译码以产生分割预测。在一些情况下,编码器包括resnet架构。第一译码器包括卷积层、第一偏置和第一softmax。
[0093]
在操作705中,系统将第一偏置应用于卷积层的输出。一个或多个第一偏置值被用于使神经网络的启动函数偏移到左侧或右侧,以用于学习模型。在一些示例中,改变模型的权重可以改变启动函数的陡度。启动函数的整个曲线可以使用第一偏置被偏移到左侧或右侧。在一些情况下,该步骤的操作涉及参照图5描述的第一译码器,或者可以由其执行。
[0094]
在操作710中,系统将第一softmax应用于第一偏置的输出。第一softmax也被称为第一softmax函数。根据实施例,第一softmax函数被用作神经网络的启动函数,以将网络的输出归一化为预测输出类别上的概率分布。在应用第一softmax函数之后,特征图的每个分量都在间隔(0,1)中,并且分量合计为1。这些值被解释为概率。在一些情况下,该步骤的操作涉及参照图5描述的第一译码器,或者可以由其执行。
[0095]
文本特征标识
[0096]
图8示出了根据本公开的各个方面的用于生成密钥向量的过程的示例。在一些示例中,这些操作由系统执行,该系统包括执行代码集合以控制装置的功能元件的处理器。附加地或备选地,某些过程是使用专用硬件执行的。通常,这些操作是根据方法和过程执行的,方法和过程是根据本公开的各个方面描述的。在一些情况下,本文描述的操作由各种子步骤组成,或者结合其他操作执行。
[0097]
在操作800中,系统对图像进行编码以产生特征图。神经网络包括骨干网络(即,也表示为编码器)。编码器从输入图像提取特征图。在一些情况下,该步骤的操作涉及参照图5描述的编码器,或者可以由其执行。
[0098]
在操作805中,系统对特征图进行译码以产生分割预测。编码器通过第一译码器来计算分割预测。第一译码器包括卷积层、第一偏置和第一softmax。在一些情况下,该步骤的操作涉及参照图5描述的第一译码器,或者可以由其执行。
[0099]
在操作810中,系统基于分割预测来标识密钥向量。密钥生成器被配置为基于分割预测来标识表示前景文本部分的特征的密钥向量。根据实施例,密钥生成器包括余弦相似度函数、第二偏置、第二softmax、第一乘积函数和池化层。
[0100]
根据实施例,神经网络复杂地重新阈值化分割预测,并且获得修改后的分割预测。
通过对生成分割预测的卷积层增加新偏置,神经网络执行该重新阈值化步骤。该新偏置与分割预测的通道方向余弦相似度成线性比例。根据实施例,分割预测的通道方向余弦相似度与其预测准确度成反比。因此,当分割预测变得不准确时,其通道方向余弦相似度上升,并且背景通道上的偏置上升。当通过softmax时,这等效地减少了对修改后的分割预测中的前景区域的启动。因此,仅具有高置信度的前景预测在修改后的分割预测中保持启动。
[0101]
然后,神经网络池化修改后的分割预测的高置信度区域内的特征向量,以表示文本的前景纹理。这种池化是通过特征图与修改后的分割预测之间的简单加权和执行的。神经网络不仅将文本前景信息汇总为一个图像内的特征向量,而且降低了特征向量与不同图像之间的骨干参数的相关性。在一些情况下,特征向量也被表示为参照图5描述的密钥向量。在一些情况下,该步骤的操作涉及参照图5描述的密钥生成器,或者可以由其执行。
[0102]
图9示出了根据本公开的各个方面的用于生成密钥向量的过程的示例。在一些示例中,这些操作由系统执行,该系统包括执行代码集合以控制装置的功能元件的处理器。附加地或备选地,某些过程是使用专用硬件执行的。通常,这些操作是根据方法和过程执行的,方法和过程是根据本公开的各个方面描述的。在一些情况下,本文描述的操作由各种子步骤组成,或者结合其他操作执行。
[0103]
在操作900中,系统计算分割预测的余弦相似度。在一些情况下,该步骤的操作涉及参照图5描述的密钥生成器,或者可以由其执行。
[0104]
根据实施例,神经网络复杂地重新阈值化分割预测,并且获得仅具有高置信度的前景预测保持启动的修改后的分割预测。通过对生成分割预测的卷积层增加新偏置,神经网络执行该重新阈值化。该新偏置与分割预测的通道方向余弦相似度成线性比例。
[0105]
根据实施例,分割预测的通道方向余弦相似度与其预测准确度成反比。因此,当分割预测变得不准确时,其通道方向余弦相似度提高,并且背景通道上的偏置增加。当通过softmax函数时,这等效地减少了对修改后的分割预测中的前景区域的启动。因此,仅具有高置信度的前景预测在修改后的分割预测中保持启动。
[0106]
在操作905中,系统基于余弦相似度来应用第二偏置。在一些情况下,该步骤的操作涉及参照图5描述的密钥生成器,或者可以由其执行。
[0107]
在操作910中,系统将第二softmax应用于第二偏置的输出。在一些情况下,该步骤的操作涉及参照图5描述的密钥生成器,或者可以由其执行。
[0108]
在操作915中,系统将第二softmax与特征图组合。根据实施例,修改后的分割预测和特征图被组合并且输入到池化层。在一些情况下,该步骤的操作涉及参照图5描述的密钥生成器,或者可以由其执行。
[0109]
在操作920中,系统应用池化层以产生密钥向量。池化层是在卷积层之后添加的新层。池化层被用于对卷积神经网络内的层进行排序,其可以在神经网络模型内重复一次或多次。池化层对每个特征图单独操作,以创建相同数量的池化特征图的新集合。池化包括选择池化操作。在一些情况下,池化操作的大小小于特征图的大小。例如,池化操作的大小是步幅为2个像素的2x2个像素。平均池化或最大池化操作可以被使用。在一些情况下,该步骤的操作涉及参照图5描述的密钥生成器,或者可以由其执行。
[0110]
根据实施例,模型池化修改后的分割预测的高置信度区域内的特征向量vk(即,密钥向量),以表示文本的前景纹理。这种池化是通过特征图与修改后的分割预测之间的简单
加权和执行的。加权和被公式化为其中n表示该图的像素数量,因此它仅保持通道尺寸(c)。神经网络不仅将文本前景信息汇总为一个图像内的vk,而且降低了vk与不同图像之间的骨干参数的相关性。
[0111]
细化分割
[0112]
图10示出了根据本公开的各个方面的用于生成细化分割预测的过程的示例。在一些示例中,这些操作由系统执行,该系统包括执行代码集合以控制装置的功能元件的处理器。附加地或备选地,某些过程是使用专用硬件执行的。通常,这些操作是根据根据本公开的各个方面描述的方法和过程执行的。在一些情况下,本文描述的操作由各种子步骤组成,或者结合其他操作执行。
[0113]
在操作1000中,系统组合密钥向量和特征图以产生注意力图。根据实施例,神经网络使用vk作为密钥向量并使用特征图作为查询,并且通过点积计算注意力图。在一些情况下,点积是对所有像素地点执行的,并且纹理信息被全局地应用于图像的所有部分,以强调图像的特征与文本特征类似的部分。在一些情况下,该步骤的操作涉及参照图5描述的注意力组件,或者可以由其执行。
[0114]
在操作1005中,系统组合注意力图和特征图,以产生组合特征图。根据实施例,注意力组件被配置为基于密钥向量来产生组合特征图。注意力组件包括第二乘积函数和级联函数。根据实施例,神经网络级联输入图像(即,原始图像)、特征图和新计算的注意力图。所得的矩阵是组合特征图。在一些情况下,该步骤的操作涉及参照图5描述的注意力组件,或者可以由其执行。
[0115]
在操作1010中,系统对组合特征图进行译码以产生细化分割预测,其中前景文本部分是基于细化分割预测标识的。根据实施例,第二译码器被配置为基于组合特征图来产生细化分割预测。第二译码器包括卷积层、批量归一化层和relu层。
[0116]
根据实施例,神经网络使组合特征图通过两个附加conv5x5层和一个conv1x1层,以获得最终的细化结果。最终的细化结果也被称为细化分割预测。在一些情况下,该步骤的操作涉及参照图5描述的第二译码器,或者可以由其执行。
[0117]
训练
[0118]
图11示出了根据本公开的各个方面的用于针对文本分割训练神经网络的过程的示例。在一些示例中,这些操作由系统执行,该系统包括执行代码集合以控制装置的功能元件的处理器。附加地或备选地,某些过程是使用专用硬件执行的。通常,这些操作是根据根据本公开的各个方面描述的方法和过程执行的。在一些情况下,本文描述的操作由各种子步骤组成,或者结合其他操作执行。
[0119]
在操作1100中,系统标识训练集合,该训练集合包括训练图像和训练图像中的每个训练图像的地面实况分割信息,其中地面实况分割信息标识前景文本部分和背景部分。在一些情况下,前景文本部分仅包括文本信息。根据示例,前景文本部分声明“假期卡路里不计数”。该文本具有非常规的艺术字体。文本的一些字母具有弯曲形状。在一些情况下,该步骤的操作涉及参照图1描述的图像应用,或者可以由其执行。
[0120]
在操作1105中,系统将训练图像的每个像素分类为前景文本或背景,以针对训练图像中的每个训练图像产生分割预测。在一些情况下,该步骤的操作涉及参照图1描述的神
经网络,或者可以由其执行。
[0121]
根据实施例,神经网络使用编码器从输入图像提取特征图,并且还经由具有偏置的附加卷积层和softmax层来计算分割预测。softmax层或softmax函数的输出是分割预测,其中分割预测的每个分量(或元素)在间隔(0,1)中。对应于相应分量的这些(0,1)值被解释为概率,例如训练图像的像素的概率被认为是前景文本或背景。
[0122]
在操作1110中,系统基于分割预测和地面实况分割信息的比较来计算第一损失函数。分割预测是用使用交叉熵损失l
sem
(即,第一损失函数)的地面实况注释来监督的。由于神经网络直接使用分割预测和地面实况分割信息来计算第一损失函数l
sem
,因此它对所有骨干参数进行了强监督。在一些情况下,该步骤的操作涉及参照图1描述的神经网络,或者可以由其执行。
[0123]
在操作1115中,系统基于分割预测来标识表示前景文本部分的特征的密钥向量。根据实施例,密钥生成器被配置为基于分割预测来标识表示前景文本部分的特征的密钥向量。密钥生成器包括余弦相似度函数、第二偏置、第二softmax、第一乘积函数和池化层。在一些情况下,该步骤的操作涉及参照图5描述的密钥生成器,或者可以由其执行。
[0124]
在操作1120中,系统基于密钥向量将训练图像的每个像素分类为前景文本或背景,以针对训练图像中的每个训练图像产生细化分割预测。在一些情况下,该步骤的操作涉及参照图5描述的注意力组件,或者可以由其执行。
[0125]
根据实施例,神经网络使用密钥向量、特征图作为查询,并且通过密钥向量和特征图的点积来计算注意力图。在一些情况下,点积是对所有像素地点执行的,纹理信息被全局地应用于图像的所有部分,以强调图像的特征与文本特征类似的部分。模型级联输入图像、特征图和新计算的注意力图,并且使该新矩阵通过两个附加conv5x5层和一个附加conv1x1层,以获得细化分割预测。
[0126]
在操作1125中,系统基于细化分割预测和地面实况分割信息的比较来计算第二损失函数。根据实施例,细化分割预测在训练时间期间使用交叉熵损失l
rfn
(即,第二损失函数)来监督,并且它在推论时间期间充当神经网络的第一输出(即,用于预测)。最终损失l是l
sem
和l
rfn
(即,第一损失函数和第二损失函数)的加权和。在一些情况下,该步骤的操作涉及参照图1描述的神经网络,或者可以由其执行。
[0127]
在操作1130中,系统基于第一损失函数和第二损失函数来更新神经网络的参数。在一些情况下,该步骤的操作涉及参照图1描述的神经网络,或者可以由其执行。
[0128]
根据实施例,神经网络可以被端到端训练。在训练阶段期间,超参数被设置如下,例如l
sem
和l
rfn
的权重是1。训练长度被设置为20500次总迭代。学习率是0.01,并且它使用0.9多边形规则从0.01缓慢衰减到0。在训练开始时,500次迭代预热被使用。在一些情况下,神经网络使用imagenet预训练的模型作为用于文本分割的初始模型。神经网络的编码器是预训练的骨干网络(即,imagenet的权重和参数被预训练用于分割分类)。根据实施例,神经网络的编码器已经被训练以标识纹理、边缘等。在神经网络的端到端训练期间,编码器的权重被更新(即,imagenet骨干网络的权重不固定)。在推论时间期间不需要超参数。
[0129]
图12示出了根据本公开的各个方面的用于扩大训练集合的过程的示例。在一些示例中,这些操作由系统执行,该系统包括执行代码集合以控制装置的功能元件的处理器。附加地或备选地,某些过程是使用专用硬件执行的。通常,这些操作是根据根据本公开的各个
方面描述的方法和过程执行的。在一些情况下,本文描述的操作由各种子步骤组成,或者结合其他操作执行。
[0130]
在操作1200中,系统标识初始训练图像。在一些情况下,初始训练图像中的每个图像在场景(例如日常场景,诸如高速公路出口)中具有一个或多个对象。例如,每个图像包括各种类型的纹理、边缘、文本图案。文本图案可以具有常规字体、艺术字体、定制文本设计或其组合。在一些情况下,该步骤的操作涉及参照图1描述的图像应用,或者可以由其执行。
[0131]
在操作1205中,系统针对初始训练图像中的每个初始训练图像标识前景文本部分和背景部分。仅具有前景文本部分的图像被称为地面实况图像或者地面实况注释。在一些情况下,来自神经网络的分割预测是用使用交叉熵损失函数的地面实况图像监督的。在一些情况下,该步骤的操作涉及参照图1描述的图像应用,或者可以由其执行。
[0132]
在操作1210中,系统基于所标识的前景文本部分来修改初始训练图像,以产生附加训练图像,其中训练集合包括初始训练图像和附加训练图像。在一些示例中,附加训练图像不具有与初始训练图像相同的文本图案。例如,附加训练图像具有不同的纹理和背景颜色。随机背景调换是修改初始训练图像的另一方式。在一些情况下,多标度训练被应用,以创建大小很大的训练集合。在一些情况下,该步骤的操作涉及参照图1描述的图像应用,或者可以由其执行。
[0133]
评估
[0134]
神经网络(即,文本细化网络)的结果与基线模型deeplabv3 进行比较。当与来自deeplabv3 的结果进行比较时,来自神经网络的分割结果在预测准确度上具有实质性的定性提高。评估度量包括前景交叉优于联合(fgiou),以评估分割模型。使用神经网络的定量结果的增大被记录。神经网络的不同部分的有效性被展示的消融研究。使用两个其他公共文本分割数据集(cocots和icdar17)的更多实验结果被记录。例如,基线模型在定制的文本分割数据集文本分割数据集上具有85.25%的fgiou分数。本公开的神经网络将fgiou分数提高到88.58%。在示例中,基线模型在cocots数据集上具有71.13%的fgiou分数。本公开的神经网络将fgiou分数提高到73.89%。在另一示例中,基线模型在icdar17数据集上具有80.77%的fgiou分数。本公开的神经网络将fgiou分数提高到85.09%。
[0135]
示例实施例
[0136]
因此,本公开至少包括以下实施例。
[0137]
描述了一种用于文本分割的方法。该方法的实施例被配置为:接收包括前景文本部分和背景部分的图像;使用神经网络将图像的每个像素分类为前景文本或背景,该神经网络使用表示前景文本部分的特征的密钥向量来细化分割预测,其中密钥向量基于分割预测;以及基于分类来标识前景文本部分。
[0138]
描述了一种用于文本分割的装置。该装置包括处理器、与处理器进行电子通信的存储器以及存储在存储器中的指令。该指令可操作以使处理器:接收包括前景文本部分和背景部分的图像;使用神经网络将图像的每个像素分类为前景文本或背景,该神经网络使用表示前景文本部分的特征的密钥向量来细化分割预测,其中密钥向量基于分割预测;以及基于分类来标识前景文本部分。
[0139]
描述了一种存储用于文本分割的代码的非瞬态计算机可读介质。在一些示例中,代码包括以下指令,由处理器可执行以:接收包括前景文本部分和背景部分的图像;使用神
经网络将图像的每个像素分类为前景文本或背景,该神经网络使用表示前景文本部分的特征的密钥向量来细化分割预测,其中密钥向量基于分割预测;以及基于分类来标识前景文本部分。
[0140]
上述方法、装置和非瞬态计算机可读介质的一些示例还包括:对图像进行编码以产生特征图。一些示例还包括:对特征图进行译码,以产生分割预测。一些示例还包括:基于分割预测来标识密钥向量。
[0141]
上述用于对特征图进行译码的方法、装置和非瞬态计算机可读介质的一些示例还包括:将卷积层应用于特征图。一些示例还包括:将第一偏置应用于卷积层的输出。一些示例还包括:将第一softmax应用于第一偏置的输出。
[0142]
上述用于标识密钥向量的方法、装置和非瞬态计算机可读介质的一些示例还包括:计算分割预测的余弦相似度。一些示例还包括:基于余弦相似度来应用第二偏置。一些示例还包括:将第二softmax应用于第二偏置的输出。一些示例还包括:将第二softmax与特征图组合。一些示例还包括:应用池化层以产生密钥向量。
[0143]
上述方法、装置和非瞬态计算机可读介质的一些示例还包括:组合密钥向量和特征图以产生注意力图。一些示例还包括:组合注意力图和特征图,以产生组合特征图。一些示例还包括:对组合特征图进行译码以产生细化分割预测,其中前景文本部分是基于细化分割预测标识的。
[0144]
上述方法、装置和非瞬态计算机可读介质的一些示例还包括:修改前景文本部分的纹理以产生修改的图像。
[0145]
描述了一种针对文本分割训练神经网络的方法。该方法的实施例被配置为:标识训练集合,该训练集合包括训练图像和训练图像中的每个训练图像的地面实况分割信息,其中地面实况分割信息标识前景文本部分和背景部分;将训练图像的每个像素分类为前景文本或背景,以针对训练图像中的每个训练图像产生分割预测;基于分割预测和地面实况分割信息的比较来计算第一损失函数;基于分割预测来标识表示前景文本部分的特征的密钥向量;基于密钥向量将训练图像的每个像素分类为前景文本或背景,以针对训练图像中的每个训练图像产生细化分割预测;基于细化分割预测和地面实况分割信息的比较来计算第二损失函数;以及基于第一损失函数和第二损失函数来更新神经网络的参数。
[0146]
描述了一种针对文本分割训练神经网络的装置。该装置包括处理器、与处理器进行电子通信的存储器以及存储在存储器中的指令。该指令可操作以使处理器:标识训练集合,该训练集合包括训练图像和训练图像中的每个训练图像的地面实况分割信息,其中地面实况分割信息标识前景文本部分和背景部分;将训练图像的每个像素分类为前景文本或背景,以针对训练图像中的每个训练图像产生分割预测;基于分割预测和地面实况分割信息的比较来计算第一损失函数;基于分割预测来标识表示前景文本部分的特征的密钥向量;基于密钥向量将训练图像的每个像素分类为前景文本或背景,以针对训练图像中的每个训练图像产生细化分割预测;基于细化分割预测和地面实况分割信息的比较来计算第二损失函数;以及基于第一损失函数和第二损失函数来更新神经网络的参数。
[0147]
描述了一种存储用于针对文本分割训练神经网络的代码的非瞬态计算机可读介质。在一些示例中,代码包括以下指令,由处理器可执行以:标识训练集合,该训练集合包括训练图像和训练图像中的每个训练图像的地面实况分割信息,其中地面实况分割信息标识
前景文本部分和背景部分;将训练图像的每个像素分类为前景文本或背景,以针对训练图像中的每个训练图像产生分割预测;基于分割预测和地面实况分割信息的比较来计算第一损失函数;基于分割预测来标识表示前景文本部分的特征的密钥向量;基于密钥向量将训练图像的每个像素分类为前景文本或背景,以针对训练图像中的每个训练图像产生细化分割预测;基于细化分割预测和地面实况分割信息的比较来计算第二损失函数;以及基于第一损失函数和第二损失函数来更新神经网络的参数。
[0148]
上述方法、装置和非瞬态计算机可读介质的一些示例还包括:对训练图像的图像进行编码以产生特征图。一些示例还包括:对特征图进行译码,以产生分割预测。
[0149]
上述用于对特征图进行译码的方法、装置和非瞬态计算机可读介质的一些示例还包括:将卷积层应用于特征图。一些示例还包括:将第一偏置应用于卷积层的输出。一些示例还包括:将第一softmax应用于第一偏置的输出。
[0150]
上述用于标识密钥向量的方法、装置和非瞬态计算机可读介质的一些示例还包括:计算分割预测的余弦相似度。一些示例还包括:基于余弦相似度来应用第二偏置。一些示例还包括:将第二softmax应用于第二偏置的输出。一些示例还包括:将第二softmax与特征图组合。一些示例还包括:应用池化层以产生密钥向量。
[0151]
上述方法、装置和非瞬态计算机可读介质的一些示例还包括:组合密钥向量和特征图以产生注意力图。一些示例还包括:组合注意力图和特征图,以产生组合特征图。一些示例还包括:对组合特征图进行译码以产生细化分割预测,其中前景文本部分是基于细化分割预测标识的。
[0152]
在一些示例中,组合特征图包括图像的每个像素的颜色信息。
[0153]
上述方法、装置和非瞬态计算机可读介质的一些示例还包括:标识初始训练图像。一些示例还包括:针对初始训练图像中的每个初始训练图像,标识前景文本部分和背景部分。一些示例还包括:基于所标识的前景文本部分来修改初始训练图像,以产生附加训练图像,其中训练集合包括初始训练图像和附加训练图像。
[0154]
上述用于修改初始训练图像的方法、装置和非瞬态计算机可读介质的一些示例还包括:替换背景文本部分,同时保留前景文本部分。
[0155]
描述了一种用于文本分割的装置。该装置的实施例包括:编码器,被配置为对图像进行编码以产生特征图,其中该图像包括前景文本部分和背景部分;第一译码器,被配置为对特征图进行译码以产生分割预测;密钥生成器,被配置为基于分割预测来标识表示前景文本部分的特征的密钥向量;注意力组件,被配置为基于密钥向量来产生组合特征图;以及第二译码器,被配置为基于组合特征图来产生细化分割预测。
[0156]
描述了一种提供用于文本分割的装置的方法。该方法包括提供:编码器,被配置为对图像进行编码以产生特征图,其中该图像包括前景文本部分和背景部分;第一译码器,被配置为对特征图进行译码以产生分割预测;密钥生成器,被配置为基于分割预测来标识表示前景文本部分的特征的密钥向量;注意力组件,被配置为基于密钥向量来产生组合特征图;以及第二译码器,被配置为基于组合特征图来产生细化分割预测。
[0157]
在一些示例中,编码器包括resnet架构。在一些示例中,第一译码器包括卷积层、第一偏置和第一softmax。在一些示例中,密钥生成器包括余弦相似度函数、第二偏置、第二softmax、第一乘积函数和池化层。在一些示例中,注意力组件包括第二乘积函数和级联函
数。在一些示例中,第二译码器包括卷积层、批量归一化层和relu层。
[0158]
本文描述的描述和附图表示示例配置,并且不表示权利要求的范围内的所有实现。例如,操作和步骤可以被重新布置、组合或以其他方式修改。而且,结构和设备可以以框图的形式表示,以表示组件之间的关系并避免混淆所描述的概念。类似的组件或特征可以具有相同的名称,但是可以具有对应于不同附图的不同附图标记。
[0159]
对本公开的一些修改对于本领域技术人员来说可能是显而易见的,并且在不脱离本公开的范围的情况下,本文定义的原理可以被应用于其他变型。因此,本公开不被限于本文描述的示例和设计,而是被赋予与本文公开的原理和新颖特征一致的最广泛的范围。
[0160]
所描述的方法可以由设备实现或执行,该设备包括通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件组件或其任何组合。通用处理器可以是微处理器、传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备(例如dsp和微处理器的组合、多个微处理器、结合dsp核心的一个或多个微处理器或者任何其他这种配置)的组合。因此,本文描述的功能可以以硬件或软件来实现,并且可以由处理器、固件或其任何组合来执行。如果以由处理器执行的软件实现,则功能可以以指令或代码的形式被存储在计算机可读介质上。
[0161]
计算机可读介质包括非瞬态计算机存储介质和通信介质,包括促进代码或数据传送的任何介质。非瞬态存储介质可以是可以由计算机访问的任何可用介质。例如,非瞬态计算机可读介质可以包括随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、压缩盘(cd)或者其他光盘存储装置、磁盘存储装置或者用于携带或存储数据或代码的任何其他非瞬态介质。
[0162]
而且,连接组件可以被适当地称为计算机可读介质。例如,如果代码或数据是使用同轴电缆、光纤电缆、双绞线、数字订户线(dsl)或无线技术(诸如红外线、无线电或微波信号)从网站、服务器或其他远程源发送的,那么同轴电缆、光纤电缆、双绞线、dsl或无线技术被包括在介质的定义中。介质的组合也被包括在计算机可读介质的范围内。
[0163]
在本公开和以下权利要求中,词语“或者”指示包括性列表,使得例如x、y或z的列表表示x或y或z或xy或xz或yz或xyz。而且,短语“基于”不被用于表示条件闭集。例如,被描述为“基于条件a”的步骤可以基于条件a和条件b。换言之,短语“基于”应被解释为表示“至少部分地基于”。而且,词语“一”或“一个”指示“至少一个”。
技术特征:
1.一种用于文本分割的方法,包括:接收图像,所述图像包括前景文本部分和背景部分;使用神经网络将所述图像的每个像素分类为前景文本或背景,所述神经网络使用表示所述前景文本部分的特征的密钥向量来细化分割预测,其中所述密钥向量基于所述分割预测;以及基于所述分类来标识所述前景文本部分。2.根据权利要求1所述的方法,还包括:对所述图像进行编码,以产生特征图;对所述特征图进行译码,以产生所述分割预测;以及基于所述分割预测来标识所述密钥向量。3.根据权利要求2所述的方法,其中对所述特征图进行译码包括:将卷积层应用于所述特征图;将第一偏置应用于所述卷积层的输出;以及将第一softmax应用于所述第一偏置的输出。4.根据权利要求2所述的方法,其中标识所述密钥向量包括:计算所述分割预测的余弦相似度;基于所述余弦相似度来应用第二偏置;将第二softmax应用于所述第二偏置的输出;将所述第二softmax与所述特征图组合;以及应用池化层以产生所述密钥向量。5.根据权利要求2所述的方法,还包括:组合所述密钥向量和所述特征图,以产生注意力图;组合所述注意力图和所述特征图,以产生组合特征图;以及对所述组合特征图进行译码以产生细化分割预测,其中所述前景文本部分是基于所述细化分割预测而被标识的。6.根据权利要求1所述的方法,还包括:修改所述前景文本部分的纹理,以产生修改的图像。7.一种用于针对文本分割训练神经网络的方法,包括:标识训练集合,所述训练集合包括训练图像和针对所述训练图像中的每个训练图像的地面实况分割信息,其中所述地面实况分割信息标识前景文本部分和背景部分;将所述训练图像的每个像素分类为前景文本或背景,以针对所述训练图像中的每个训练图像产生分割预测;基于所述分割预测和所述地面实况分割信息的比较来计算第一损失函数;基于所述分割预测来标识表示所述前景文本部分的特征的密钥向量;基于所述密钥向量来将所述训练图像的每个像素分类为前景文本或背景,以针对所述训练图像中的每个训练图像产生细化分割预测;基于所述细化分割预测和所述地面实况分割信息的比较来计算第二损失函数;以及基于所述第一损失函数和所述第二损失函数来更新所述神经网络的参数。8.根据权利要求7所述的方法,还包括:
对所述训练图像的图像进行编码,以产生特征图;以及对所述特征图进行译码,以产生所述分割预测。9.根据权利要求8所述的方法,其中对所述特征图进行译码包括:将卷积层应用于所述特征图;将第一偏置应用于所述卷积层的输出;以及将第一softmax应用于所述第一偏置的输出。10.根据权利要求8所述的方法,其中标识所述密钥向量包括:计算所述分割预测的余弦相似度;基于所述余弦相似度来应用第二偏置;将第二softmax应用于所述第二偏置的输出;将所述第二softmax与所述特征图组合;以及应用池化层以产生所述密钥向量。11.根据权利要求8所述的方法,还包括:组合所述密钥向量和所述特征图,以产生注意力图;组合所述注意力图和所述特征图,以产生组合特征图;以及对所述组合特征图进行译码以产生所述细化分割预测,其中所述前景文本部分是基于所述细化分割预测而被标识的。12.根据权利要求11所述的方法,其中:所述组合特征图包括针对所述图像的每个像素的颜色信息。13.根据权利要求7所述的方法,还包括:标识初始训练图像;针对所述初始训练图像中的每个初始训练图像,标识所述前景文本部分和所述背景部分;以及基于所标识的所述前景文本部分来修改所述初始训练图像,以产生附加训练图像,其中所述训练集合包括所述初始训练图像和所述附加训练图像。14.根据权利要求13所述的方法,其中修改所述初始训练图像包括:替换所述背景文本部分,同时保留所述前景文本部分。15.一种用于文本分割的装置,包括:编码器,被配置为对图像进行编码以产生特征图,其中所述图像包括前景文本部分和背景部分;第一译码器,被配置为对所述特征图进行译码以产生分割预测;密钥生成器,被配置为基于所述分割预测来标识表示所述前景文本部分的特征的密钥向量;注意力组件,被配置为基于密钥向量来产生组合特征图;以及第二译码器,被配置为基于所述组合特征图来产生细化分割预测。16.根据权利要求15所述的装置,其中:所述编码器包括resnet架构。17.根据权利要求15所述的装置,其中:所述第一译码器包括卷积层、第一偏置和第一softmax。
18.根据权利要求15所述的装置,其中:所述密钥生成器包括余弦相似度函数、第二偏置、第二softmax、第一乘积函数和池化层。19.根据权利要求15所述的装置,其中:所述注意力组件包括第二乘积函数和级联函数。20.根据权利要求15所述的装置,其中:所述第二译码器包括卷积层、批量归一化层和relu层。
技术总结
本公开的实施例涉及文本细化网络。描述了用于文本分割的系统和方法。本发明概念的实施例被配置为:接收包括前景文本部分和背景部分的图像;使用神经网络将图像的每个像素分类为前景文本或背景,该神经网络使用表示前景文本部分的特征的密钥向量来细化分割预测,其中密钥向量基于分割预测;以及基于分类来标识前景文本部分。文本部分。文本部分。
技术研发人员:张志飞 徐兴乾 王兆闻 B
受保护的技术使用者:奥多比公司
技术研发日:2021.08.12
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-12251.html