一种基于情感视觉单词的图像分类算法



《一种基于情感视觉单词的图像分类算法》由会员分享,可在线阅读,更多相关《一种基于情感视觉单词的图像分类算法(8页珍藏版)》请在装配图网上搜索。
1、 一种基于情感视觉单词的图像分类算法# 吕微微,宋泽海,冯松鹤* (北京交通大学计算机与信息技术学院,北京 100044) 5 10 15 20 25 摘要:提出了一种基于 bag of emotional words 模型的图像情感分类算法。该算法基于视 觉心理学的研究成果,采用显著区域加权的方式建立图像的情感视觉单词表示, 实现图像情 感语义的分类。首先,提取图像集的彩色描述子 CSIFT 特征,随后搭建情感视觉单词(检测 显著区域、加权、
2、Emotional words 向量的建立),最后将该情感视觉单词出现的加权频率 作为图像的情感表示,采用多类别分类器 SVM 完成情感分类任务。仿真实验结果表明,该算 法比以往的图像情感分类方法分类效果明显提高,为今后继续研究图像的情感分类奠定了基 础。 关键词:图像情感分类;bag of emotional words;显著区域;加权;CSIFT 中图分类号:TP391 A novel emotional words based images classification algorithm Lv Weiwei, Song Zehai, Feng Songhe (In
3、stitute of Computer & Information Technology, Beijing Jiaotong University, Beijing 100044) Abstract: We propose a novel emotional words based images classification algorithm. Based on the research on visual psychology, the proposed model applies the salient regions weighted method to create emoti
4、onal semantic words and achieve the classification of image emotional semantics. The color descriptor CSIFT is first extracted, after which we create emotional visual words through salient regions detection, weight choosing and vector creation of the emotional words. Finally, the weighted frequen
5、cy of those emotional visual words is used to present the emotion of the image, and we use multi-classifier SVM to do the classification. The simulation results show that the model is more effective than the previous methods, laying a new foundation for future research on image emotional classi
6、fication. Keywords: image emotional classification; bag of emotional words; salient regions; Weight; CSIFT 30 0 引言 随着互联网图像的海量增长及计算机技术的飞速发展,图像的有效组织和检索手段逐渐 引起人们的重视。目前基于内容的图像检索系统主要关注于图像低层视觉特征的处理,对人 的爱好、情感等因素考虑较少,忽略了情感的影响和作用。然而,在实际应用中很多图像不 35 仅携带大量的表象信息,还蕴含着丰富的情感信息。如何有效的表达和描述人观察图像后所 引起的情感感觉
7、并加以量化,从而实现基于情感语义的图像分类,是一个崭新且具有挑战性 的前沿课题。Yoshida [1] 并将它们组成的矢量作为图像颜色特征,用线性映射(linear mapping)策略完成图像的情感识 别;清华大学的 Li Shuo [2] 应用 David Lowe [3] 提出的尺度不变特征变换(Scale—Invariant 40 Feature Transform, SIFT) SIFT 描述子作为图像的特征,完成图像的情感识别;Wang 等人[4] 分别提取图像的亮度、颜色温度、饱和度和对比度作为物理特性,然后采用回归支持向量机
8、学习情感类别;Chen 等人[5]基于 HSV 颜色空间的 non-uniform 量化直方图利用 Bayesian 分 基金项目:国家自然科学基金项目(61100142) 作者简介:吕微微,(1985-),女,硕士研究生,多媒体信息处理。 E-mail: china_lvwei@ 通信联系人:宋泽海,(1956-),男,高级技工,多媒体信息处理。E-mail: zhsong@ -1-等学者将图像分为多个子块,计算每个图像子块的平均颜色强度, 类器算法识别情感类别。这些算法虽然在一定程度上能够弥合底层视觉特征和
9、高层语义之间 的语义鸿沟,但是分类效果却并不理想。原因在于图像的情感语义是通过人的感知获得的, 45 50 55 60 65 因此忽略视觉和心理学效应,单纯地通过统计的方式获取情感语义显然是不合适的。在物体 视觉传达的各种因素中,人们往往首先注意到物体的颜色,然后是是形状、纹理或其他特性。 这使人们普遍认识到,颜色具有召唤情感的力量,色彩可以说是最具有情感号召力的特征, 并且根据视觉
10、心理学的研究成果,人在观察图像时往往会被其中个别显著物体所吸引,人们 对图像的理解往往也基于这些显著物体。可见图像中显著物体对人的情感的影响要远远大于 其它区域,其更能反映一幅图像的情感。基于上述发现,本论文提出一种基于情感视觉单词 的分类算法(bag of emotional words, BOEW)如图 1 所示,首先采用密度采样提取图像集 的 CSIFT(Colored scale invariant feature transform)[6]特征,该特征是一种基于彩色图像的 SIFT 方法,先计算彩色不变量再用 SIFT 方法计算特征点,克服了 SIFT 特征忽略颜色信息的缺
11、 点。其次,检测图像的显著区域,确定不同区域对图像反映情感的“贡献”率(权值)。然后 用 K-Means[8]聚类产生情感视觉单词词典,并使用一种全新的自顶向下的加权方式,对情感 视觉单词进行加权,完成图像的矢量表示,最后采用多分类 SVM 完成图像的情感分类。该 算法结合视觉心理学的研究成果,更符合人们对图像情感的认识过程。 图1 基于情感单词的图像情感分类算法流程图 Fig.1 Image emotional classification algorithm flow based emotion
12、al words 1 情感视觉单词生成 图像中含有大量的信息,不同的颜色、形状和纹理等特征会使人产生不同的心理反应, 如高兴、激动、伤心等。因此选择与情感紧密相关的特征来描述图像是提高分类准确率的前 提,本论文采用包含颜色和形状信息的 CSIFT 作为描述图像的特征。 1.1 CSIFT 彩色描述子 颜色不变量 Kubelka—Munk 理论[7]描述了物体的光谱辐射特性,其模型表达为: E(ë, x) = e(ë, x)[1− ñ f (x)]2 R∝(ë, x) + e(ë, x)ñ f (x) (1) 式中 ë 表示波长, x 为二维矢量,表示观
13、测位置, e(ë , x) 表示光谱强度, ñ f ( x) 表示 x -2- 70 的 Fresnel 反射系数, R∝ (ë, x) 表示材料反射率, E(ë, x) 为观测处的反射谱。 多数情况下,e(ë, x) 在各波长上保持不变而与位置有关,将 e(ë, x) 写成 i(x) 的形式,则 (1)式变为: E (ë, x) = i(ë , x) R∝ (ë, x) 对 ë 分别求一阶、二阶导数,然后相除得: (2) 75 H = Eë Eëë ∂ E / ∂ë
14、 ∂ R∝ (ë , x) / ∂ë = H 为颜色不变量,表征物体的反射特性,它同视点、表面朝向、光强大小、方向、反 射系数均无关。在符合人眼视觉系统和 CIE-1964-XYZ 标准的条件下,通过 RGB 到 XYZ 和 XYZ 到高斯颜色模型的两次线性变换,可得到 RGB 的高斯颜色模型 (E, Eë , Eëë ) : ⎡ E ⎤ ⎡0.06 0.63 0.27 ⎤ ⎡ R ⎤ ë ⎢ Eëë ⎥ ⎣0.34 −0.60 −0.17⎦ ⎣ B ⎦ (4) 80 85 9
15、0 所以彩色图像的颜色不变量 H 表示函数可由(3)式和(4)式导出。 CSIFT 算法和传统的 SIFT 算法接下来的基本步骤都相同,包括:尺度空间极值检测、 关键点筛选、关键点定向和特征点描述。其区别在于:尺度空间检测过程中,CSIFT 算法用 图像的颜色不变量 H ( x, y) 代替 SIFT 算法中的 I ( x, y) 图像函数,因此并没有改变 SIFT 描述 原子的结构方式,而是用各自区域内颜色模型分量的均值来形成特征向量,建立了对颜色变 化和几何变化都具有鲁棒性的描述符,弥补了 SIFT 算法丢失色彩信息的缺陷。 为了合理地表示图像情感,本论文采用稠密化采样,对
16、图像进行均匀分块,图像块大小 为 8×8 像素,间隔为 4 像素。相较于稀疏采样,使用稠密采样更能充分显示图像所要表达的 情感信息,提高情感分类的正确率。 1.2 K-Means 聚类 K-Means 算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为 两个对象的距离越近,其相似度就越大,该算法认为簇是由距离靠近的对象组成的,因此把 得到紧凑且独立的簇作为最终目标。 利用 K-Means 算法将训练集提取的 CSIFT 特征 X = {x1, x2 ,⋅ ⋅ ⋅, xn}进行聚类,根据 CSIFT 描述子集中元素的个数,选取聚类中心数目,其中聚类中心为:
17、 95 Cr = 1 nr n 聚类的目标函数是: c nr i ) r =1 j =1 式中,i = 1, 2, ⋅ ⋅ ⋅nr ,nr 为属于第 r 类的样本个数,X i( r ) 表示样本 X i 属于 r 类;r = 1, 2, ⋅ ⋅ ⋅, c , c = 600 为聚类中心数, n 为样本数,最终得到一个有 600 个聚类中心(情感视觉单词词典)。 -3-= 2 2 2 2 (3) ∂E / ∂ë ∂R∝ (ë, x) / ∂ë ⎢ E ⎥ = ⎢0.30 0
18、.04 −0.35⎥ × ⎢G ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ ⎢ ⎥ ⎢ ⎥ ∑=i 1 X i( r ) value = min ∑ ∑ | X (j i |2 − C 100 1.3 加权情感视觉向量的生成 1.3.1 显著区域的提取 人对图像的感知和理解是主观的。图像情感语义研究的目的是希望计算机能够描述和表 达人观察图像所引起的情感反应,使用带有主观感情色彩的语义表述图像。目前的算法大部 分侧重于考虑图
19、像的全局信息,忽略了图像的目标和背景所携带的信息量不同。对于一幅图 105 110 像来说,不是所有的区域都可以使人们产生感觉,人的感受可能更多地取决于图像的某些区 域,图像中最能引起用户兴趣,最能表现图像内容的区域即显著性区域或感兴趣区域 (Regions of Interest 简称 ROI),如能提取出这些区域并基于显著区域对图像描述,则既利用 了图像的局部重要特征,又消除了次要信息的干扰,将会大大提高图像处理和分析的效率和 准确度。论文采用 Itti[10]模型,根据人类视网膜成像理论,采用高斯金字塔对图像的各个特 征采用多尺度、多通道
20、滤波器进行非均匀采样。首先对输入图像 I ( x, y) 用高斯金字塔 G( x, y,ó ) 进行非均匀采样,定义如下: R( x, y,ó ) = I ( x, y) ⊗ G( x, y,ó ) G( x, y,ó ) = 1 2ðó 2 exp(− x 2 + y 2 2ó 2 ) 其中,ó 是尺度因子,即高斯金字塔 G( x, y.ó ) 的带宽。其次对金字塔的亮度、 红色、 115 ï ï o 斯差分 DOG 计算图像 I ( x, y) 的特征显著度,公式如下: DOG(x, y) =
21、 1 x2 + y2 1 x2 + y2 2 2 2 2 ) 其中,ó c 是中心 c 的尺度因子,ó s 是周边 s 的尺度因子。然后将各尺度层上的特征变 换为同一尺度多个级别的特征。计算中央周边差,归一化得到三个特征的关注图。最终融合 120 125 所有特征的关注图生成显著图。 如图 2 所示,为了用情感视觉单词和显著区域获得图像的表示,论文提出了自顶向下的 显著区域加权算法,通过检测情感视觉单词的显著度,对相应的情感单词进行加权累加。图 中
22、的蓝色直方图表示图像情感单词加权累加结果,红色部分表示未加权的图像直方图表示。 该算法的情感视觉单词采用基本的 bag of words 方法获得,然后通过对图像的视觉单词块所 对应的区域显著性的检测,确定情感视觉单词的权值,从而局部影响图像特征的表示。计算 图像加权视觉向量的公式为: 其中 Hist(wm ) = M k =1 M N k =1 m =1 m | I k )ó (wk ) m | I k )ó (wk ) (5) p(wm | I k ) ∝ ∑ n(I i , wm )
23、Q( I k | I , wm ) k (6) 130 其中 wm 为视觉词典中的单词, I k 为图像的第 k 个视觉单词块, M 为图像 I 的视觉单 词块总数,N 为视觉单词词典的大小,式 6 中各项的定义可参考 bag of words 模型。ó (wk ) -4-{ } 绿色、蓝色、黄色、方向:è = 0 ,45 ,90 ,135o 提取视觉特征。利用中心 c 和周边 s 的高 exp(− ) − exp(− 2ðóc 2óc 2ðóc 2óc ∑ p(w ∑ ∑ p(w
24、 为图像视觉单词 wk 的权值,如果 wk 在显著区域内,则增大ó (wk ) 的值,否则减小。最终得 到图像的加权矢量表示。通过这种自顶向下的加权得到的图像的矢量表示更符合人们对图像 情感认知的过程。 135 140 145 150 图 2
25、基于 bag of emotional words 模型的加权 Fig.2 Weight based bag of emotional words 2 多分类 SVM 论文采用多分类器 SVM 分类器,它利用一定的策略对二值分类法进行扩展应用,该结 构的思想是,对于 N 类的训练样本,需要训练 N −1个支持向量机。第 1 个支持向量机 SVMi 以第一类样本为正样本,将第 2,3,L , N 类训练样本作为负的训练样本来训练,第 i 个支持向 量机 SVMi 以第 i 类样本为正的训练样本,将第 i + 1, i + 2,⋅ ⋅ ⋅, N 类训练样本作为负的训练样 本训练,
26、直到第 N −1个支持向量机 SVM N −1 以第 N −1类样本作为正样本,以第 N 类样本为 负样本训练。在决策时,首先将 SVM1 作为二又树的根节点,将属于第一类的测试样本决策 出来,不属于第一类的测试样本通过 SVM2 进行分类,如此直到 SVM N −1 将第 N −1类和 N 类 样本决策出来。 3 实验及分析 为了验证论文所述情感分类算法的有效性,并同其它相关方法进行客观比较,论文采用 由美国 NIMH 研究院的情绪与注意研究中心提供的国际情绪图片系统(International Affective Picture System,IAPS)作为实验基准集,如
27、图 2 所示。IAPS 图像库是该研究中心历时数年编 制而成的一套经过量化评定的情绪刺激图片系统,它涉及到的图像内容相当广泛,包括获胜、 娱乐旅游、可爱动物、美丽风光、鬼怪、自然灾害、亲情等等。该图像集中的图像均为彩色 图像且平均尺寸大小均为1024 × 768 像素,其中 396 幅图像子集被 Mikels 等人[11]手工划分为: -5- 155 160 165 17
28、0 175 amusement(Am),anger(A),awe(Aw),sadness(S),excitement(E),contentment(C),fear(F)和 disgust(D)8 类情感类别。这 8 类情感类别组成的图像子集目前已经成为图像情感分类领域中 最常用的基准测试集。 图 3 IAPS 图像集 Fig.3 IAPS image database 3.1 情感分类性能分析 论文采用了工作中
29、最常用的混淆矩阵来衡量,为分类性能的评价指标,评价图像情感分 类算法的性能,BOEW 模型的情感分类算法的平均性能为 58.9%,图 4 的混淆矩阵给出了该 方法在情感语义概念上的分类准确率,其中 X 轴表示图像预测的图像情感类别, Y 轴表示 真实的图像情感类别。主对角线给出了每一类正确分类样本所占的比例,非主对角线上的数 据则表示未被正确分类的样本所占的比例。由图 4 可知,disgust 和 excitement 情感类别取得 了最高的分类正确率,而 angst 类别的情感分类性能最差。分析可知,disgust 和 excitement 均属于高唤醒度的情感类别,由于图像唤醒
30、人们的情感强度越高,其所需的视觉单词越容易 表示。 图 4 基于 bag of emotional words 模型的图像情感分类性能混淆矩阵 Fig.4 Image Emotional Classification based bag of emotional words model performance confusion matrix 这一点已经被艺术图像领域中的相关研究所论证,如 action 情感只有当图像中同时出现 冷暖度对比和色调对比时才可以激起;相反地,只要图像出现了亮度对比时一般就可以唤起 人们
31、的“relax”情感[12]。高唤醒度的情感类别,情感类内的图像差异性较小,因此较易捕获情 -6- 感视觉单词 [13] 180 185 190 力的情感视觉单词以提高低唤醒度情感图像的分类性能打下基础。 3.2 相关方法的比较与分析 为了证明所提算法的有效性,论文实现了以前的一些相关算法,并通过在 IAPS 数据集 上的实验来进行比较分析。这里涉及到的相关工作主要有两个:基于“词包模型”的情感分类 算法[2]和基于 bra
32、in activity 数据的情感分类算法[14]。这两种图像情感分类算法都是采用 SVM 作为分类器。具体的性能比较结果如表 1 所示。从表中容易得出,Li Shuo 的基于“词包模型” 的情感分类算法表现最差,BOEW 算法其正确率明显高于 Li Shuo 的算法,这说明不考虑图 像的颜色特征以及人们对图像情感的认识过程,单纯通过统计的方式实现图像情感分类的方 法是不合适的。基于 brain activity 数据的情感分类性能明显优于其他两种方法的性能。然而 brain activity 数据需要通过特定的仪器才能采集到,它是以探测到的生理学、心理学信号, 借助情感模型的映射
33、关系,判断人们当前的情感体验状态,而本算法所使用的数据是计算机 从图像上获取的视觉特征,是由客观对象的物理特征分析,借助情感特征模型的映射关系, 预测该对象可能引起的人类情感体验,因此本算法虽然在性能上较 brain activity 算法[14]略有 逊色,但是 BOEW 算法适应性更广。 195 表 1 实验结果对比 Tab. 1 Comparison of experiment result algorithm Zhang[14] Li Shuo[2] We model Brain activity Bag of words B
34、OEW Number 2 8 8 Correct 76% 55.4% 58.9% 综上所述,论文对在基于 bag of emotional words 加权模型的图像情感分类算法中所涉及 的几个子问题进行了实验比较与分析,有力的验证了 BOEW 算法在图像情感分类任务中所 200 205 210 215 起到的重要作用,并为今后在图像情感分类领域中的研究工作提出了有价值的指导与启发。 4 总结 图像情感分类的研究涉及心理学、美学等诸多领域,符合计算机以
35、人为本、个性化发展 方向,是一个崭新且具有很大挑战性的研究方向。目前,基于情感语义的图像分类还处于探 索和起步阶段。本文主要研究如何设计一种模拟人类感知图像情感过程的映射函数,以视觉 心理学的相关研究为理论基础,通过 bag of emotional words 模型,生成符合人类情感感知规 则的情感视觉加权向量,并以此完成图像的情感分类任务。相较于以往的只是用图像形状特 征[2]或简单利用机器学习的方法[4,5],本算法成功加入了图像颜色信息,即彩色描述子 CSIFT 特征,并且对图像的显著区域情感单词进行了自顶向下的加权处理。该模型更符合人类对图 像的认知过程,实验结果表明其
36、分类准确率明显提高,为图像情感分类开辟了一个新的思路。 单一的特征描述,通常只捕获单方面的情感视觉信息,因此可以在以后的工作中通过多 特征融合,进一步提高图像情感分类的精准度。 [参考文献] (References) [1] Yoshida K, Kato T, Yanaru T. Image Retrieval System Using Impression Words[J].IEEE International Conference System, Man and Cybernetics,1998:2780-2784 [2] Li Shuo, Zhang Jin Y
37、u, Tan Chun Hua. Discovering Latent Semantic Factors for Emotional Picture Categorization[J].17th IEEE International Conference on Image Processing,2010:1065-1068 -7-从而获取图像的情感主题。这一发现将为后续的工作中致力于寻找更有判别 [3] Lowe D. Distinctive image features from scale-invariant keypoint
38、s[J].the 7th International Journal on 220 225 230 235 240 Computer Vision,2004:91-110 [4] Wang W N, Yu Y L, Jiang S M. Image retrieval by emotional semantics: a study of emotional space and feature extraction[A].IEEE International Conference on SMC'06[C].Taip
39、ei:IEEE,2006:3534-3539 SMC'06,2006:3534-3539 [5] Chen C H, Weng M F, Jeng S K, Chuang Y Y. Emotion based music visualization using photos[A].Int. Conf. on Multimedia Modeling.Kyoto[C].Kyoto.Japan:IEEE.2008,49(03):358-368 [6] Geusebroek J M,Boogaard R,Smeulders A W M,et a1.Color invariance[J].IEE
40、E Transactions on Pattern Analysis and Machine Intelligence,2001,23(12):1338-1350 [7] Fei-fei Li, Perona P. A Bayesian hierarchical model for learning natural scene categories[A].IEEE Int. Conf. on CVPR'05[C].Los Alamitos: IEEE Computer Society ,2005.524-531 [8] Cawie R, Savvidou, E. Emotion Rec
41、ognition in Human-Computer Interaction[J].IEEE signal processing Magazine,2001,18(1):32-80 [9] Van de Sande K E A, Gevers T, Snoek, C G M. Evaluating Color Descriptors for Object and Scene Recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9): 1582 - 1596 [10]
42、Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,1998, 20(11): 1254-1259 [11] Mikels J A, Fredrickson B L, Larkin G R, Lindberg C M, Maglio S J, Reuter-Lorenz P A. mikels2005negativenorms.txt.
43、 Psychonomic Society Web Archive [2005-1-25]. http://psychonomic.org/archive/ [12] Colombo C, Bimbo A, Pala P. Semantics in visual information retrieval[J]. IEEE Trans. on Multimedia,1999, 6(3):38-53 [13] Liu shuoyan Xu de Songhe Feng. Emotion Categorization using affective-pLSA[J].Optical Engin
44、eering,2010,49(12):5-8 [14] Zhang Q, Lee M. Emotion recognition in natural scene images based on brain activity and gist[J]. IEEE Int. Joint Conf. on Computational Intelligence[C].Hong Kong,2008.3050-3057 -8-
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专题党课讲稿:以高质量党建保障国有企业高质量发展
- 廉政党课讲稿材料:坚决打好反腐败斗争攻坚战持久战总体战涵养风清气正的政治生态
- 在新录用选调生公务员座谈会上和基层单位调研座谈会上的发言材料
- 总工会关于2025年维护劳动领域政治安全的工作汇报材料
- 基层党建工作交流研讨会上的讲话发言材料
- 粮食和物资储备学习教育工作部署会上的讲话发言材料
- 市工业园区、市直机关单位、市纪委监委2025年工作计划
- 检察院政治部关于2025年工作计划
- 办公室主任2025年现实表现材料
- 2025年~村农村保洁员规范管理工作方案
- 在深入贯彻中央8项规定精神学习教育工作部署会议上的讲话发言材料4篇
- 开展深入贯彻规定精神学习教育动员部署会上的讲话发言材料3篇
- 在司法党组中心学习组学习会上的发言材料
- 国企党委关于推动基层党建与生产经营深度融合工作情况的报告材料
- 副书记在2025年工作务虚会上的发言材料2篇