1.本发明涉及图像情感预测技术领域,尤其涉及一种小样本细粒度图像情感预测方法,具体来说涉及一种图像细粒度情感预测方法、电子设备及存储介质。
背景技术:
2.伴随着多媒体与互联网等产业的迅猛发展,人们倾向于将图像上传到各网络平台来分享自己的经历与感受。图像作为载体,比文本蕴藏更多信息,图像本身更易超越文化和时间的障碍,向人们传递着更加丰富的情感信息以及意境。对图像数据进行检测,获取相关信息,建立起有意义的内容描述,是图像理解与计算机视觉的重要研究内容,而如何解释和提取图像中蕴含的情感信息,成为近年来的一项研究热点。从用户的体验角度出发,情感的类别可能是多样的,尤其是同艺术表达相关的图像,例如抽象画、影视剧照、美术插图等。
3.在实现本发明构思的过程中,发明人发现相关技术中至少存在如下问题:相关技术中图像情感预测往往采用的是正负向的分类情感或基于人类基本情感的6类或8类情感类型,而且给出的多为情感标签,缺少对情感激发程度的有效预测。
技术实现要素:
4.有鉴于此,本发明要解决的技术问题在于提供一种图像细粒度情感预测方法、设备及介质,解决了相关技术中图像情感预测中不能有效预测图像的情感激发程度的问题。
5.为了解决上述技术问题,本发明的具体实施方式提供一种图像细粒度情感预测方法,包括:基于情感词之间的相关性对描述图像情感的多个情感词进行分组,获得多个情感词集合,其中,每个情感词集合具有一个代表情感词;预测目标图像的每个代表情感词对应的代表情感值;以及基于每个情感词集合的代表情感词的代表情感值预测所述目标图像的该情感词集合中剩余情感词对应的情感值。
6.根据本发明的可选实施例,基于情感词之间的相关性对描述图像情感的多个情感词进行分组,获得多个情感词集合的步骤,包括:采用主成分分析法获得多个情感词的因子载荷矩阵,其中,所述因子载荷矩阵由因子载荷值组成;根据所述因子载荷矩阵确定多个因子和多个情感词集合,其中,多个情感词的最大因子载荷值对应的因子与情感词一一对应;以及采用随机森林算法确定每个情感词集合的代表情感词。
7.根据本发明的可选实施例,确定每个情感词集合的代表情感词的步骤,包括:采用随机森林算法为每个情感词分别构建初始图像情感预测模型;根据所述初始图像情感预测模型确定每个情感词集合内情感词的预测准确率;以及基于所述预测准确率确定每个情感词集合的代表情感词。
8.根据本发明的可选实施例,预测目标图像的每个代表情感词对应的代表情感值的步骤,包括:提取所述目标图像的多维初始图像特征;针对每个情感词,基于最小绝对收缩选择算子和随机森林特征重要性组合降维方式对多维初始图像特征进行降维获得降维图像特征;以及基于降维图像特征预测每个代表情感词对应的代表情感值。
9.根据本发明的可选实施例,所述初始图像特征包括底层特征、高层特征和关键区域特征,所述底层特征包括颜色特征和纹理特征,所述高层特征包括美学特征和构图特征,所述关键区域特征包括颜色矩特征和形状对比度特征。
10.根据本发明的可选实施例,基于降维图像特征预测每个代表情感词对应的代表情感值的步骤,包括:基于集成学习方法建立每个代表情感词对应的图像情感预测模型;以及将降维图像特征输入每个代表情感词对应的图像情感预测模型获得该代表情感词对应的代表情感值。
11.根据本发明的可选实施例,基于集成学习方法建立每个代表情感词对应的图像情感预测模型的步骤,包括:构建包含多张图像且覆盖所有原始情感的场景图像库;将所述场景图像库中的绝大部分图像作为初始准确度训练集,并将所述场景图像库中的剩余图像作为初始准确度测试集;以及利用所述初始准确度训练集和所述初始准确度测试集训练每个代表情感词对应的图像情感预测模型,从而构建每个代表情感词对应的图像情感预测模型。
12.根据本发明的可选实施例,将降维图像特征输入每个代表情感词对应的图像情感预测模型获得该代表情感词对应的代表情感值的步骤,包括:将降维图像特征输入图像情感预测模型的每个一级学习器,获得与该一级学习器对应的一级预测结果,其中,每个图像情感预测模型包括多个一级学习器、多个二级学习器和一个线性回归模型;将所有一级学习器输出的一级预测结果输入每个二级学习器,获得与该二级学习器对应的二级预测结果;以及将所有二级学习器输出的二级预测结果输入所述线性回归模型,获得与所述图像情感预测模型对应的代表情感值。
13.根据本发明的可选实施例,基于每个情感词集合的代表情感值预测所述目标图像的该情感词集合中剩余情感词对应的情感值的步骤,包括:针对每个情感词集合,利用最小二乘法构建该情感词集合的代表情感词与该情感词集合的每个剩余情感词之间的多元线性回归模型;以及根据该情感词集合的代表情感词的代表情感值和多元线性回归模型预测该多元线性回归模型对应的剩余情感词的情感值。
14.本发明实施例的另一方面提供了一种电子设备,包括一个或多个处理器以及存储装置,其中,上述存储装置用于存储可执行指令,上述可执行指令在被上述处理器执行时,实现本发明实施例的方法。
15.本发明实施例的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,上述指令在被处理器执行时用于实现本发明实施例的方法。
16.本发明的另一方面提供了一种计算机程序,上述计算机程序包括计算机可执行指令,上述指令在被执行时用于实现本发明实施例的方法。
17.根据本发明的实施例,基于相关性对多个情感形容词(即情感词)进行分组,利用w-stacking(权重分配-堆叠)模型获得每组情感形容词中的一个情感形容词的预测结果,并采用多元线性回归方法再获得每组情感形容词中剩余情感形容词的预测结果,可以至少部分地解决相关技术中图像情感预测中不能有效预测图像的情感激发程度的问题,并因此可以实现精准预测图像情感激发程度的技术效果。
18.应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本发明所欲主张的范围。
附图说明
19.下面的所附附图是本发明的说明书的一部分,其绘示了本发明的示例实施例,所附附图与说明书的描述一起用来说明本发明的原理。
20.图1为本发明具体实施方式提供的一种图像细粒度情感预测方法的流程示意图。
21.图2为本发明具体实施方式提供的一种获得多个情感词集合的流程示意图。
22.图3为本发明具体实施方式提供的一种预测目标图像的每个代表情感词对应的代表情感值的流程示意图。
23.图4为本发明具体实施方式提供的一种基于降维图像特征预测每个代表情感词对应的代表情感值的流程示意图。
24.图5为本发明具体实施方式提供的一种基于集成学习方法建立每个代表情感词对应的图像情感预测模型的流程示意图。
25.图6为本发明具体实施方式提供的一种获得代表情感词对应的代表情感值的流程示意图。
26.图7为本发明具体实施方式提供的一种图像情感预测模型的结构示意图。
27.图8为本发明具体实施方式提供的一种预测目标图像的情感词集合中剩余情感词对应的情感值的流程示意图。
28.图9为本发明具体实施方式提供的一种图像细粒度情感预测的电子设备的框图。
29.附图标记说明:
30.s101~s103操作s1011~s1013操作
31.s1021~s1023操作s10231~s10232操作
32.s102311~s102313操作s102321~s102323操作
33.s1031~s1032操作
34.900电子设备901处理器
35.902rom903ram
36.904总线905i/o接口
37.906输入部分907输出部分
38.908存储部分909通信部分
39.910驱动器911可拆卸介质
具体实施方式
40.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本发明所揭示内容的精神,任何所属技术领域技术人员在了解本发明内容的实施例后,当可由本发明内容所教示的技术,加以改变及修饰,其并不脱离本发明内容的精神与范围。
41.本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
42.关于本文中所使用的“第一”、“第二”、
…
等,并非特别指称次序或顺位的意思,也非用以限定本发明,其仅为了区别以相同技术用语描述的元件或操作。
43.关于本文中所使用的方向用语,例如:上、下、左、右、前或后等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本创作。
44.关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
45.关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
46.关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。
47.关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以微变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言,此类用语所修饰的微变化或误差的范围在部分实施例中可为20%,在部分实施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员应当了解,前述提及的数值可依实际需求而调整,并不以此为限。
48.某些用以描述本技术的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本技术的描述上额外的引导。
49.图1为本发明具体实施方式提供的一种图像细粒度情感预测方法的流程示意图。
50.本发明的可选实施例中,如图1所示,图像细粒度情感预测方法可以包括以下操作s101~s103:
51.在操作s101,基于情感词之间的相关性对描述图像情感的多个情感词进行分组,获得多个情感词集合,其中,每个情感词集合具有一个代表情感词。
52.本发明的可选实施例中,情感词亦称情感形容词,可以包括正向情感形容词和负向情感形容词。例如,本发明可以采用18个情感词,包括11个正向情感词和7个负向情感词。11个正向情感词可以包括:舒服、大气、快乐、轻松、梦幻、阳光、温暖、浪漫、希望、清新和温馨。7个负向情感词可以包括:孤独、消沉、忧虑、压抑、恐惧、伤感和失落。对于每张图像,可以采用5级量表表示每个情感词的激发程度,1级表示没有激发该类情感,2级表示情感激发不明显,3级表示能够感受到情感激发,4级表示情感激发程度明显,5级表示情感激发程度非常强烈。因此,对于每张图像,都能获得18个情感词的激发程度(即细粒度情感激发程度感知量)。
53.本发明的可选实施例中,本发明采用主成分分析法获得因子载荷矩阵,再根据因子载荷矩阵确定多个因子和多个情感词集合,因子可以解释所有情感词90%以上的信息,能够较全面解释所有情感词。例如,浪漫、温暖、温馨、快乐、希望、轻松、舒服、清新和梦幻这9个情感词与第一因子的相关性较强;失落、消沉、孤独、忧虑和压抑这5个情感词与第二因子的相关性较强;伤感、阳光与第三因子的相关性较强;恐惧与第四因子的相关性较强;大气与第五个因子的相关性较强。相关性较强的情感词可以作为一个集合,因此,可以获得5个情感词集合,第1个情感词集合是梦幻、浪漫、温暖、温馨、快乐、希望、轻松、舒服和清新,第2个情感词集合是压抑、失落、消沉、孤独和忧虑,第3个情感词集合是阳光和伤感,第4个情感词集合是恐惧,第5个情感词集合是大气。可以再根据每个情感词的预测准确率确定每个情感词集合的代表情感词,因此,可以确定第1个情感词集合的代表情感词是梦幻,第2个情感词集合的代表情感词是压抑,第3个情感词集合的代表情感词是阳光,第4个情感词集合的代表情感词是恐惧,第5个情感词集合的代表情感词是大气。因此,从18个情感词中确定代表情感词为梦幻、压抑、阳光、恐惧和大气。
54.接下来,在操作s102,预测目标图像的每个代表情感词对应的代表情感值。
55.本发明的可选实施例中,可以利用目标图像的初始图像特征直接进行情感预测,获得每个代表情感词对应的情感值。考虑到直接利用多维初始图像特征进行情感预测,会因为初始图像特征的冗余造成预测结果不准确,可以对初始图像特征进行降维,利用降维后的图像特征进行情感预测。
56.然后,在操作s103,基于每个情感词集合的代表情感词的代表情感值预测所述目标图像的该情感词集合中剩余情感词对应的情感值。
57.本发明的可选实施例中,可以根据每个情感词集合内的代表情感词与剩余情感词之间的相关度预测目标图像的剩余情感词对应的情感值。
58.本发明的可选实施例中,基于情感词之间的相关性对多个情感词进行分组,利用图像情感预测模型(即w-stacking模型)获得每个情感词集合(即情感词组合)中的代表情感词的代表情感值,并采用多元线性回归方法获得每个情感词集合中剩余情感词的情感值,从而获得所有情感词对应的情感值,符合中国人的情感认知体系,适用于更丰富的情感内容感知,可以精准预测目标图像不同情感的激发程度。
59.下面参考图2~图8,结合本发明具体实施例对图1所示的方法做进一步说明。
60.图2为本发明具体实施方式提供的一种获得多个情感词集合的流程示意图。
61.本发明的可选实施例中,如图2所示,操作s101基于情感词之间的相关性对描述图像情感的多个情感词进行分组,获得多个情感词集合,可以包括以下操作s1011~s1013:
62.在操作s1011,采用主成分分析法获得多个情感词的因子载荷矩阵,其中,所述因子载荷矩阵由因子载荷值组成。
63.本发明的可选实施例中,采用主成分分析法获得因子载荷矩阵,再根据因子载荷矩阵确定多个因子和多个情感词集合,这些因子可以解释18个情感词信息的92.498%,能够较全面地解释18个情感词。
64.然后,在操作s1012,根据因子载荷矩阵确定多个因子和多个情感词集合,其中,多个情感词的最大绝对因子载荷值对应的因子与情感词集合一一对应。
65.本发明的可选实施例中,通过因子载荷矩阵可以确定哪些情感词之间具有相关性,从而可以将多个情感词分成多个情感词集合。因子载荷矩阵由因子载荷值组成,因子载荷矩阵的每列因子载荷值对应一个因子,因子载荷值用来反映各个变量的变异可以主要由哪些因子解释,即反映出18个情感词与因子之间的相关系数。情感词最大的绝对因子载荷值对应的因子与情感词集合一一对应。因子载荷值的绝对值越大,18个情感词与因子载荷值对应因子的关系越密切,18个情感词的因子载荷值形成因子载荷矩阵。如下表1所示,因子载荷矩阵由5列因子载荷值组成,对应5个因子。浪漫的最大的绝对因子载荷值为0.862(即因子载荷值绝对值最大的数),对应因子1;温暖的最大的绝对因子载荷值为0.850,对应因子1;温馨的最大的绝对因子载荷值为0.810,对应因子1;快乐的最大的绝对因子载荷值为0.723,对应因子1;希望的最大的绝对因子载荷值为0.738,对应因子1;轻松的最大的绝对因子载荷值为0732,对应因子1;舒服的最大的绝对因子载荷值为0.739,对应因子1;清新的最大的绝对因子载荷值为0.718,对应因子1;梦幻的最大的绝对因子载荷值为0.663,对应因子1,可见浪漫、温暖、温馨、快乐、希望、轻松、舒服、清新和梦幻这9个情感词与因子1的相关性较强,因此,可以说浪漫、温暖、温馨、快乐、希望、轻松、舒服、清新和梦幻这9个情感
词之间具有较强的相关性。失落的最大的绝对因子载荷值为0.820,对应因子2;消沉的最大的绝对因子载荷值为0.780,对应因子2;孤独的最大的绝对因子载荷值为0.859,对应因子2;忧虑的最大的绝对因子载荷值为0.683,对应因子2;压抑的最大的绝对因子载荷值为0.600,对应因子2,可见失落、消沉、孤独、忧虑和压抑这5个情感词与因子2的相关性较强,因此,失落、消沉、孤独、忧虑和压抑这5个情感词之间具有较强的相关性。伤感的最大的绝对因子载荷值为0.787,对应因子4;阳光的最大的绝对因子载荷值为0.821,对应因子4,伤感与阳光这2个情感词与因子4的相关性较强,因此,伤感与阳光这2个情感词之间具有较强的相关性。恐惧的最大的绝对因子载荷值为0.765,对应因子3,因此,恐惧与因子3的相关性较强,没有与恐惧具有较强相关性的情感词。大气的最大的绝对因子载荷值为0.944,对应因子5,因此,大气与因子5的相关性较强,没有与大气具有较强相关性的情感词。因此,可以确定第1个情感词集合是梦幻、浪漫、温暖、温馨、快乐、希望、轻松、舒服和清新,可以被因子1较好地解释;第2个情感词集合是压抑、失落、消沉、孤独和忧虑,可以被因子2较好地解释;第3个情感词集合是阳光和伤感,可以被因子4较好地解释;第4个情感词集合是恐惧,可以被因子3较好地解释;第5个情感词集合是大气,可以被因子5较好地解释;。
66.表1
[0067][0068]
接下来,在操作s1013,确定每个情感词集合的代表情感词。
[0069]
本发明的可选实施例中,操作s1013确定每个情感词集合的代表情感词可以包括以下操作:采用随机森林算法为每个情感词分别构建初始图像情感预测模型;根据所述初始图像情感预测模型确定每个情感词集合内情感词的预测准确率;以及基于所述预测准确率确定每个情感词集合的代表情感词。最终确定梦幻、压抑、阳光、恐惧和大气在其对应的
情感词集合中,预测准确率最高。因此,第1个情感词集合的代表情感词是梦幻,第2个情感词集合的代表情感词是压抑,第3个情感词集合的代表情感词是阳光,第4个情感词集合的代表情感词是恐惧,第5个情感词集合的代表情感词是大气。
[0070]
本发明的可选实施例中,操作s1013确定每个情感词集合的代表情感词还可以包括以下操作:利用最小绝对收缩选择算子(lasso)和重要性降维筛选每个情感词集合中特征最多的情感词;以及将特征最多的情感词确定为对应情感词集合的代表情感词。
[0071]
本发明的可选实施例中,如果直接使用每个情感词对应的图像情感预测模型预测所有情感词对应的情感值,整体计算量过于庞大,对设备的配置要求过高,而且预测效率低下。如果采用一个图像情感预测模型同时预测所有情感词对应的情感值,预测的准确度无法保证。因此,对于每个情感词集合的代表情感词,直接使用每个代表情感词对应的图像情感预测模型预测代表情感词对应的代表情感值;对于每个情感词集合的剩余情感词,利用代表情感词与剩余情感词之间的多元线性回归模型预测剩余情感词的情感值。既能降低设备配置,减少数据计算量,又能保证预测的准确度。
[0072]
图3为本发明具体实施方式提供的一种预测目标图像的每个代表情感词对应的代表情感值的流程示意图。
[0073]
本发明的可选实施例中,如图3所示,操作s102预测目标图像的每个代表情感词对应的代表情感值,可以包括以下操作s1021~s1023:
[0074]
在操作s1021,提取所述目标图像的多维初始图像特征。
[0075]
本发明的可选实施例中,为了提高图像情感预测模型的性能,本发明结合艺术、心理、摄像等相关理论,提取符合场景图像表达特点的底层特征、高层特征以及关键区域特征,共计250维。各维度提取方法如下:
[0076]
底层特征可以包括颜色特征和纹理特征,选取颜色矩、颜色对比度去描述图像的颜色特征,一张图像可以利用160维底层颜色特征向量s1~s160来描述。提取图像的灰度共生矩阵(glcm)、tamura纹理特征来描述场景图像的纹理信息。在glcm特征提取过程中,本发明根据各特征的意义和实验效果,选取五种可以代表图像纹理的特征,分别为能量(二阶矩)、熵、惯性矩(对比度)、相关度、均匀度,共形成20维纹理特征向量,记为g1~g20。tamura纹理特征是根据人们关于纹理视觉感知的心理学研究理论而提出的,本发明根据各特征的含义选择提取图像的粗糙度、对比度和方向度这3维tamura纹理特征,并记作t1~t3。
[0077]
高层特征可以包括美学特征和构图特征,图像高层特征可以描述与情感关联性更强的图像语义信息,在一定程度上可以弥补只基于底层特征进行研究而产生的“语义鸿沟”现象。本发明提取图像的美学特征和构图特征来描述场景图像的高层特征。其中,美学特征包括图像的纹理复杂度(记作m)、色彩复杂度(记作c1~c6)、能量特征(记作e1~e12)、多样性特征(记作v1~v11)、渐变特征(记作g1~g5)、移动特征(记作m1~m10)。构图特征包括图像的三分法则特征(记作rt1~rt3)、景深特征(记作ld1~ld3)和动态特征(记作d1~d6)。
[0078]
关键区域特征包括颜色矩特征和形状对比度特征,同一幅图像的不同区域会激发观看者产生不同的情感类别以及情感程度,在观看图像的过程中,观看者往往将注意力集中在自己感兴趣的区域而不是图像全局。基于此,对图像关键区域的特征进行提取是极其重要的。本发明采用ig算法计算图像的显著性,并基于mean-shift算法完成对图像的区域分割,得到关键区域。在此基础上提取图像关键区域的颜色矩特征和形状对比度特征。其
中,颜色矩特征是图像在hsv颜色空间里三个通道的一、二、三阶矩,形状对比度特征是图像关键区域的像素总数占原图像全部像素的比例值。最终,本发明得到场景图像的10维关键区域特征,包含9维颜色矩特征和1维形状比特征,并记作r1~r10。
[0079]
接下来,在操作s1022,针对每个情感词,基于最小绝对收缩选择算子和随机森林特征重要性组合降维方式对多维初始图像特征进行降维获得降维图像特征。
[0080]
本发明的可选实施例中,考虑到直接利用多维初始图像特征进行情感预测,会因为初始图像特征的冗余造成预测结果不准确,可以对初始图像特征进行降维,利用降维后的图像特征进行情感预测。针对每个情感词,基于最小绝对收缩选择算子(lasso,least absolute shrinkage and selection operator)和随机森林(rf)特征重要性组合降维方式对多维初始图像特征进行降维获得降维图像特征。针对场景图像的特点所提取的代表性特征,涵盖了更多的情感分布因素,能够更全面地描述图像的情感信息,提高预测准确率。
[0081]
以情感词“梦幻”为例,经过lasso回归分析后,将250维初始图像特征减少到61维图像特征;在此基础上,经过随机森林重要性分析,再将61维图像特征进一步减少到53维降维图像特征。同理,以情感词“伤感”为例,经过lasso回归分析后,将250维初始图像特征减少到8维图像特征;在此基础上,经过随机森林重要性分析,将8维图像特征进一步减少到7维降维图像特征。经过上述操作,得到18组与情感词对应的降维图像特征,其包含的特征数量各不相同,具体如下表2所示。
[0082]
表2
[0083][0084][0085]
然后,在操作s1023,基于降维图像特征预测每个代表情感词对应的代表情感值。
[0086]
本发明的可选实施例中,利用集成学习方法构建每个代表情感词对应的图像情感预测模型,基于降维图像特征利用图像情感预测模型获得每个代表情感词对应的代表情感
值。
[0087]
本发明的可选实施例中,利用降维图像特征预测每个代表情感词对应的代表情感值,可以避免图像特征冗余造成预测结果不准确,提高预测结果的准确度。
[0088]
图4为本发明具体实施方式提供的一种基于降维图像特征预测每个代表情感词对应的代表情感值的流程示意图。
[0089]
本发明的可选实施例中,如图4所示,操作s1023基于降维图像特征预测每个代表情感词对应的代表情感值,例如可以包括以下操作s10231~s10232:
[0090]
在操作s10231,基于集成学习方法建立每个代表情感词对应的图像情感预测模型。
[0091]
本发明的可选实施例中,目前集成学习方法是一种非常流行的机器学习策略,能够训练多个学习器并组合它们的不同输出来解决一个问题。一个集成算法可以由多个学习器组合构成,具有比单一学习器更强的泛化能力,能够将弱学习器变成可以精确预测的强学习器。例如,随机森林算法就可以看作是一种单一的弱学习器,可以用来比较各个情感词的初始情感值。而本操作构建的图像情感预测模型则可以看作是一种强学习器,可以精准预测情感词对应的情感值。
[0092]
接下来,在操作s10232,将降维图像特征输入每个代表情感词对应的图像情感预测模型获得该代表情感词对应的代表情感值。
[0093]
本发明的可选实施例中,每个代表情感词对应一个图像情感预测模型,将降维图像特征输入代表情感词对应的图像情感预测模型,可以获得该代表情感词对应的代表情感值。
[0094]
本发明的可选实施例中,采用集成学习方法训练每个代表情感词对应的图像情感预测模型,可以精准预测代表情感词对应的代表情感值。
[0095]
图5为本发明具体实施方式提供的一种基于集成学习方法建立每个代表情感词对应的图像情感预测模型的流程示意图。
[0096]
本发明的可选实施例中,如图5所示,操作s10231基于集成学习方法建立每个代表情感词对应的图像情感预测模型,可以包括以下操作s102311~s102313:
[0097]
在操作s102311,构建包含多张图像且覆盖所有原始情感的场景图像库。
[0098]
本发明的可选实施例中,可以参照iaps(国际情绪图片系统)以及caps(中国情绪图片系统)的建立标准和原则,利用豆瓣等影评网站选取了涉及多种类型的影视场景图像,并从色彩、人物、动物、建筑、自然风景等多方面进行均衡,最终建立了包含700张且覆盖所有情感的场景图像库。所有场景图像分辨率统一处理为1280
×
720,图像格式为jpg。
[0099]
接下来,在操作s102312,将所述场景图像库中的绝大部分图像作为初始准确度训练集,并将所述场景图像库中的剩余图像作为初始准确度测试集。
[0100]
本发明的可选实施例中,图像情感预测模型例如可以包括4个一级学习器和3个二级学习器。可以将700张场景图像中的325张场景图像作为一级学习器的训练集,训练4个一级学习器,700张场景图像中的325张场景图像作为二级学习器的训练集,训练3个二级学习器和一个线性回归模型,剩余50张场景图像作为总体的测试集。
[0101]
然后,在操作s102313,利用所述初始准确度训练集和所述初始准确度测试集训练每个代表情感词对应的图像情感预测模型,从而构建每个代表情感词对应的图像情感预测
(表示第4维多样性特征)来表示。在构建线性回归模型的过程中,为了最大程度体现不同情感之间的关联,增强模型的拟合性能,可以采用场景图像库中除初始准确度测试集之外的650张图像的情感值(非预测情感值)来建立模型,即建立如下方程:
[0121]
y'
伤感
=β0 β1y’阳光
β2s3 β3s
39
β4s
63
β5s
90
β6rt3 β7c1 β8c3 β
9v4
[0122]
式中,y'
阳光
表示代表情感词“阳光”的情感值真值;y'
伤感
表示剩余情感词“伤感”的情感值线性回归结果;β0,β1,...β9表示各个自变量的回归系数。使用该模型进行“伤感”的情感值预测的方法为,对于初始准确度测试集中的每一张测试图像,均有:
[0123]y伤感
=β0 β1x
阳光
β2s3 β3s
39
β4s
63
β5s
90
β6rt3 β7c1 β8c3 β
9v4
[0124]
式中,x
阳光
表示经过w-stacking模型获得的代表情感词“阳光”的代表情感值;y
伤感
表示预测剩余情感词“伤感”获得的最终情感值。
[0125]
然后,在操作s1032,根据该情感词集合的代表情感词的代表情感值和多元线性回归模型预测该多元线性回归模型对应的剩余情感词的情感值。
[0126]
本发明的可选实施例中,对于每一个依赖情感相关度进行情感预测的剩余情感词而言,由于降维后的降维图像特征的特征数量不同,在此基础上建立的线性回归模型中,自变量的个数都是不同的,其中剩余情感词“浪漫”的自变量个数为40,而剩余情感词“温馨”自变量个数为34。这些自变量的维数依然较高,不利于线性回归模型的预测。因此对这些降维图像特征的特征数量建立的初始线性回归模型进一步优化。具体过程为:采用线性回归中的“逐步回归”方法对自变量进行筛选。当单一自变量的显著性取值高于某一标准时,将其剔除。最终保留的变量满足两个条件:1)各个自变量对因变量的贡献度显著;2)当线性回归模型存在以上自变量时,其显著性概率值远远小于0.01。基于上述方法,对“浪漫、温馨、温暖、舒服、希望、轻松、快乐、清新、孤独、失落、消沉、忧虑和伤感”这13个情感词的初始线性回归模型分别经过逐步回归优化,得到简化后的线性回归模型。
[0127]
本发明的可选实施例中,在已知代表情感词“梦幻”的代表情感值的基础上,同一个情感词集合中剩余情感词:“浪漫、温馨、温暖、舒服、希望、轻松、快乐、清新”与“梦幻”对应的多元线性回归模型如下述表4所示。表中,d1,d2,...d8表示“梦幻”的代表情感值在各线性回归模型中的回归方程系数;e1,e2,...e8表示色彩复杂度特征c1在各线性回归模型中的回归方程系数;g1,g2,...g8表示各各线性回归模型的常数项;表示颜色特征向量s在各线性回归模型中的系数,其中,m∈{2,3,4,5,6,7,8},n∈{18,21,45,57,63,81,88,97,111,120,129}。例如,表示颜色特征向量s45在“温馨”的线性回归预测模型中的回归系数;h1表示色彩复杂度c2在“舒服”的情感感知量预测模型中的回归系数。
[0128]
表4
[0129][0130][0131]
下述表5是在已知代表情感词“梦幻”代表情感值的基础上,其他根据相关度计算剩余情感词:“浪漫、温馨、温暖、舒服、希望、轻松、快乐、清新”与代表情感词“梦幻”对应的多元线性回归模型实例。
[0132]
表5
[0133]
剩余情感词线性回归模型浪漫y
浪漫
=0.878x
梦幻
0.287c
1-0.160温馨y
温馨
=0.652x
梦幻
0.406c1 0.277s
45
0.144s
88-0.255温暖y
温暖
=0.633x
梦幻
0.494*c1 0.264s
63
0.193s
81-0.288舒服y
舒服
=0.695x
梦幻
0.165c1 0.182s
21
0.169s
120
0.246c
2-0.177希望y
希望
=0.658x
梦幻
0.333c1 0.179s
21
0.153s
81-0.160轻松y
轻松
=0.660x
梦幻
0.385c1 0.191s
57
0.174s
45-0.186快乐y
快乐
=0.535x
梦幻
0.323c1 0.188s
18
0.189s
129
0.125s
97-0.217清新y
清新
=0.650x
梦幻
0.175s
111
0.320c1 0.168s
57-0.169
[0134]
本发明的可选实施例中,在已知代表情感词“压抑”的情感预测结果基础上,根据相关度计算的剩余情感词:“孤独、失落、消沉和忧虑”与代表情感词“压抑”对应的多元线性回归模型如下表6所示。表6中,d9,d
10
,d
11
,d
12
表示代表情感词“压抑”的代表情感值在各线性回归模型中的回归方程系数;g9,g
10
,g
11
,g
12
表示各线性回归方程的常数项;表示颜色特征向量s83在“失落”的线性回归方程中的回归系数;h2表示色彩复杂度特征c2在剩余情感词“孤独”的线性回归方程中的回归系数。
[0135]
表6
[0136][0137]
本发明的可选实施例中,下述表7是在已知代表情感词“压抑”的代表情感值的基础上,根据相关度(相关性)计算的剩余情感词:“孤独、失落、消沉和忧虑”与“压抑”对应的多元线性回归模型实例。
[0138]
表7
[0139]
剩余情感词线性回归模型孤独y
孤独
=0.684x
压抑-0.180c2 0.301失落y
失落
=0.898x
压抑-0.092s
83
0.064消沉y
消沉
=0.887x
压抑
0.029忧虑y
忧虑
=0.979x
压抑
0.037
[0140]
发明的可选实施例中,在已知代表情感词“阳光”的代表情感值的基础上,根据情感词之间的相关性计算的剩余情感词“伤感”与代表情感词“阳光”之间对应的线性回归模型如下面的公式。公式中,d
13
表示代表情感词“阳光”的代表情感值在线性回归模型中的回归方程系数;g
13
表示线性回归方程的常数项;表示颜色特征向量s109的回归系数;h3表示能量特征e1的回归系数。
[0141][0142]
根据相关性计算的剩余情感词“伤感”与代表情感词“阳光”之间对应的线性回归模型实例如下式所示:
[0143]y伤感
=-0.750x
阳光-0.359e
1-0.112s
109
0.771
[0144]
整体而言,本发明采用的w-stacking 多元线性回归的图像细粒度情感预测模型,能够有效地利用图像视觉特征以及情感词之间的关联特性,在降低模型表示复杂度的同时获得较高的预测准确度。在同一小样本数据集上的测试结果显示,本发明提出的方法在18类情感的情感值平均值优于采用单一机器学习模型或部分深度迁移学习模型(如vgg16 svr,inception svr,resnet50 svr等)的细粒度情感预测结果。结合情感词之间的相关性使用的线性回归模型,提升了不容易直接通过图像特征观测的情感词的预测准确性,适用于小样本数据的细粒度情感预测与分析。
[0145]
图9为本发明具体实施方式提供的一种图像细粒度情感预测的电子设备的框图。图9示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0146]
如图9所示,根据本发明实施例的电子设备900包括处理器901,其可以根据存储在
只读存储器(rom)902中的程序或者从存储部分加载到随机访问存储器(ram)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0147]
在ram 903中,存储有电子设备900操作所需的各种程序和数据。处理器901、rom 902以及ram 903通过总线904彼此相连。处理器901通过执行rom 902和/或ram 903中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,程序也可以存储在除rom 902和ram 903以外的一个或多个存储器中。处理器901也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
[0148]
根据本发明的实施例,电子设备900还可以包括输入/输出(i/o)接口905,输入/输出(i/o)接口905也连接至总线904。电子设备900还可以包括连接至i/o接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
[0149]
根据本发明的实施例,根据本发明实施例的方法流程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时,执行本发明实施例的电子设备中限定的上述功能。根据本发明的实施例,上文描述的电子设备、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0150]
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
[0151]
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的rom 902和/或ram 903和/或rom 902和ram 903以外的一个或多个存储器。
[0152]
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个
用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0153]
本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
[0154]
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。
技术特征:
1.一种图像细粒度情感预测方法,其特征在于,该方法包括:基于情感词之间的相关性对描述图像情感的多个情感词进行分组,获得多个情感词集合,其中,每个情感词集合具有一个代表情感词;预测目标图像的每个代表情感词对应的代表情感值;以及基于每个情感词集合的代表情感词的代表情感值预测所述目标图像的该情感词集合中剩余情感词对应的情感值。2.根据权利要求1所述的图像细粒度情感预测方法,其特征在于,基于情感词之间的相关性对描述图像情感的多个情感词进行分组,获得多个情感词集合的步骤,包括:采用主成分分析法获得多个情感词的因子载荷矩阵,其中,所述因子载荷矩阵由因子载荷值组成;根据所述因子载荷矩阵确定多个因子和多个情感词集合,其中,多个情感词的最大绝对因子载荷值对应的因子与情感词集合一一对应;以及确定每个情感词集合的代表情感词。3.根据权利要求2所述的图像细粒度情感预测方法,其特征在于,确定每个情感词集合的代表情感词的步骤,包括:采用随机森林算法为每个情感词分别构建初始图像情感预测模型;根据所述初始图像情感预测模型确定每个情感词集合内情感词的预测准确率;以及基于所述预测准确率确定每个情感词集合的代表情感词。4.根据权利要求1所述的图像细粒度情感预测方法,其特征在于,预测目标图像的每个代表情感词对应的代表情感值的步骤,包括:提取所述目标图像的多维初始图像特征;针对每个情感词,基于最小绝对收缩选择算子和随机森林特征重要性组合降维方式对多维初始图像特征进行降维获得降维图像特征;以及基于降维图像特征预测每个代表情感词对应的代表情感值。5.根据权利要求4所述的图像细粒度情感预测方法,其特征在于,基于降维图像特征预测每个代表情感词对应的代表情感值的步骤,包括:基于集成学习方法建立每个代表情感词对应的图像情感预测模型;以及将降维图像特征输入每个代表情感词对应的图像情感预测模型获得该代表情感词对应的代表情感值。6.根据权利要求5所述的图像细粒度情感预测方法,其特征在于,基于集成学习方法建立每个代表情感词对应的图像情感预测模型的步骤,包括:构建包含多张图像且覆盖所有原始情感的场景图像库;将所述场景图像库中的绝大部分图像作为初始准确度训练集,并将所述场景图像库中的剩余图像作为初始准确度测试集;以及利用所述初始准确度训练集和所述初始准确度测试集训练每个代表情感词对应的图像情感预测模型,从而构建每个代表情感词对应的图像情感预测模型。7.根据权利要求5所述的图像细粒度情感预测方法,其特征在于,将降维图像特征输入每个代表情感词对应的图像情感预测模型获得该代表情感词对应的代表情感值的步骤,包括:
将降维图像特征输入图像情感预测模型的每个一级学习器,获得与该一级学习器对应的一级预测结果,其中,每个图像情感预测模型包括多个一级学习器、多个二级学习器和一个线性回归模型;将所有一级学习器输出的一级预测结果输入每个二级学习器,获得与该二级学习器对应的二级预测结果;以及将所有二级学习器输出的二级预测结果输入所述线性回归模型,获得与所述图像情感预测模型对应的代表情感值。8.根据权利要求1所述的图像细粒度情感预测方法,其特征在于,基于每个情感词集合的代表情感词的代表情感值预测所述目标图像的该情感词集合中剩余情感词对应的情感值的步骤,包括:针对每个情感词集合,利用最小二乘法构建该情感词集合的代表情感词与该情感词集合的每个剩余情感词之间的多元线性回归模型;以及根据该情感词集合的代表情感词的代表情感值和多元线性回归模型预测该多元线性回归模型对应的剩余情感词的情感值。9.一种电子设备,包括:一个或多个处理器;存储装置,用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现根据权利要求1~8中任一项所述的方法。10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时实现根据权利要求1~8中任一项所述的方法。
技术总结
本发明的实施例提供一种图像细粒度情感预测方法,该方法包括:基于情感词之间的相关性对描述图像情感的多个情感词进行分组,获得多个情感词集合,其中,每个情感词集合具有一个代表情感词;预测目标图像的每个代表情感词对应的代表情感值;以及基于每个情感词集合的代表情感词的代表情感值预测所述目标图像的该情感词集合中剩余情感词对应的情感值。本发明的另一实施例还提供一种电子设备和一种计算机可读存储介质。算机可读存储介质。算机可读存储介质。
技术研发人员:苏志斌 刘冰 周璇烨 任慧
受保护的技术使用者:中国传媒大学
技术研发日:2022.02.18
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-9155.html