2. 南通先进通信技术研究院, 江苏 南通 226019
2. Nantong Research Institute for Advanced Communication Technologies, Nantong 226019, China
1 引言
行人再识别(person re-identification)指在非重叠的多摄像头监控系统中,根据输入的行人图像,从其他监控摄像头中检索出该行人[1].该技术在刑侦、行人检索等智能监控领域都有着重要的应用,因而受到研究者的广泛关注[2].然而同一个人在不同的摄像机中的图像外观存在很大的差异,这极大地增加了行人再识别的难度.如何克服光照影响、视角变化、姿态变化等因素的干扰,建立有效的鲁棒的行人再识别方法,研究人员提出了很多解决方法.简单划分,研究人员的关注点集中在两个方面:一是鲁棒的行人特征描述算子,二是有效的匹配算法.
针对鲁棒的行人特征算子的研究,目的是提取一种在不同摄像头环境下具备良好的区分性的特征,这种特征通常都是研究者根据经验设计出来的.基本出发点是设计出具有区分性的行人描述特征,利用这些特征来计算两幅行人图像之间的相似性.其中颜色特征是一种被广泛使用的特征[3],文[4]首次提出通过颜色直方图来识别不同的目标.文[5]将行人划分为头部、上半身和下半身,然后串联三部分的颜色直方图来描述行人.此外被广泛使用的还有LBP特征[6]和BiCov特征[7].文[8]通过提取行人的显著性特征来度量两个行人的相似性.随着深度学习在计算机视觉得到广泛应用,不少学者尝试使用深度神经网络来解决行人再识别问题.Li等提出了一个6层的神经网络FPNN来提取行人特征,取得了较高的识别率[9].但是深度学习需要大量的样本,需要针对特定问题搭建相应的模型,其参数调试也缺乏一定的理论指导,限制了该方法的推广.
提取特征之后,研究者通常采用诸如马氏距离、余弦距离等相似度算法来度量他们之间的距离,根据距离大小来判断是否为同一个目标.这就是所谓的无监督再识别方法,不需要使用带标签的训练数据集.使用带标记的行人对来训练的方法则是有监督的再识别方法,即事先标记出一对行人图像为同一个人,该类研究主要集中在度量距离函数学习[10-16]和常见子空间投影,如文[15]提出了一种KISSME的算法,从统计学角度考虑特征对之间的相似性,但是该算法对特征的PCA维度非常敏感.文[16]结合了距离学习和相似度学习两类方法并将其应用于人脸验证,取得了比只采用一种度量方式更好的结果.近几年的研究也倾向于先将原始特征通过核函数映射到非线性高维空间,再解决再识别问题[17-18].
综上所述,特征提取和度量算法是行人再识别的两个核心问题.本文针对这两个关键问题进行研究,在特征提取方面,作者认为颜色的空间分布特性也非常重要,因此提取颜色聚合向量取代常规的颜色直方图;文[16]提出了一种结合了相似函数和距离函数的人脸验证算法,但是人脸特征比行人特征更具备可区分性,因此本文将原算法中的特征空间从线性特征空间投影到非线性空间,在更具区分性的非线性特征空间进行度量学习,这样得到度量矩阵能够更好地匹配行人.实验结果表明,本文算法在公共数据集上取得了较好的匹配率.
2 基于核学习的行人再识别算法本章节主要介绍本文提出的方法:首先,提取图像的颜色特征和LBP特征,然后使用WPCA将融合的特征进行降维以去除特征冗余度,并映射到核空间,并将低维度的线性特征空间通过核函数投影到易区分的非线性空间,最后在投影后的特征空间训练得到测度矩阵.
2.1 行人图像特征描述本文采用颜色特征和LBP特征来描述行人图像,与多数文献一样,本文将行人图像按垂直方向划分为6个区域,从RGB、YUV、HSV多个颜色空间提取颜色特征和LBP特征[19-20].
多数文献提取颜色直方图作为颜色特征,但颜色聚合向量解决了颜色直方图无法表达图像色彩的空间位置的缺点,具备更好的检索性能,因此本文选择颜色聚合向量作为颜色特征.在RGB、YUV、HSV三种颜色空间中,从每个颜色通道提取32维的颜色聚合向量,将所有的颜色特征进行归一化处理后串联形成行人图像的颜色特征,特征维数为1 728(3×6×3×32),表示为Fcolor.
(1) |
LBP特征提取方式采用了文[17]提出的方法,提取等价模式中邻域点数为8半径为1和邻域点数为16半径为2两种模式的特征,特征维数分别是59维和243维.同样,将6个区域的LBP特征归一化后串联,得到1 812维的行人特征.
最终将颜色特征和LBP特征级联得到行人图像的特征描述算子:
(2) |
由于原始特征维数较高并且存在较多冗余信息,实验中采用WPCA对原始特征进行降维处理,WPCA比PCA具有更好的效果[21],令xi为输入样本,有协方差矩阵如下:
(3) |
对Σ进行SVD分解,得到主方向U,对样本进行PCA之后为
(4) |
用λi来缩放每个特征,即可得到WPCA特征,如式(5) 所示.
(5) |
文[16]结合了特征间的相似函数sM和距离函数dM来度量特征对(xi,xj)之间的相似度:
(6) |
定义P=S∪D为所有的行人特征对集合,S表示相同的行人对集合,D表示不同的行人对集合,行人特征对(xi,xj)属于集合S,则令yij=1否则为-1,那么需要从已知数据集P中学习得到M和G使得f(M,G)(xi,xj)在yij=1时值大,而yij=-1时值小,基于此,文[15]提出了如下损失函数:
(7) |
通过最小化ε,即可得到M和G,此时(xi,xj)∈S时f(M,G)(xi,xj)值大,(xi,xj)∈D时值小.
文[16]直接在原始线性特征空间中学习得到M和G并应用于人脸验证,由于人类特征较行人特征更具区分性.因此本文通过核函数将行人特征从线性空间投影到更易区分的非线性空间,然后再训练得到测度矩阵M和G,这样得到的矩阵M和G具备更好的区分性,能使同类样本值更大,异类值更小,可以更好地应用于行人再识别.
核学习主要思想就是将区分性差的线性空间特征投影到区分性好的非线性特征空间,特征xi经过核函数Φ投影到非线性特征空间表示为特征Φ(xi),定义为ki,则式(6) 则可以描述为
(8) |
损失函数则变更为
(9) |
最小化式(9) 中的损失函数即可求得测度矩阵.常用的核函数有linear、χ2和RBF-χ2[17],本文将在这三种核空间进行实验.
3 实验结果与分析本章节将对本文提出的算法进行评估,首先介绍算法性能的评价准则和实验所采用的数据集,然后介绍本文算法在不同数据集上测试结果,并与已有的算法进行比较.
3.1 算法评价准则累积匹配特性(cumulative match characteristic,CMC)曲线是现有的行人再识别算法性能常用的评价指标,该指标描述了在图像库中搜索待查询行人时,在前r个搜索结果中包含待查询人的比率.比如r=1时表示第1匹配率,该指标非常重要,代表了算法的识别能力.在刑事侦查中,通过前r个检索结果,可以大大减少人工搜索的时间,特别当r比较小时,意义非常重大.本文实验将给出第1匹配率、第5匹配率、第10匹配率和第20匹配率4种结果.
3.2 实验框架实验过程遵循了现有工作普遍采用的实验框架,即随机选取h对行人图像对作为测试集,其余作为训练集.测试过程中,从测试集选择一张行人图片作为查询检索输入,验证算法从测试集找到该行人的能力.h取值越大,用于训练的数据越少,测试的数据越多,则难度越大.每组实验,测试集和训练集随机产生10次,然后取这10次结果的平均值作为最终实验结果.
3.3 不同数据集上的结果对比本文的实验将在VIPeR[22]数据集、iLIDS[23]数据集、ETHZ[24]数据集和CUHK01[25]数据集这4个数据集上完成.
VIPeR数据集中的行人对图像采集自两个不同的摄像机,一共包含了632对行人,图像经过裁剪后大小都是48×128像素,行人对在姿态、视角、光照和背景等外观方面差异比较大.iLIDS数据集采集自机场,共包含119个行人的476张图像,每个行人的图像数量从2到8不等,图像没有经过裁剪,大小不一.该数据集有较为严重的遮挡和光照变化等问题.ETHZ数据集开始是用来做行人检测和跟踪的,其图像来自车载摄像头拍摄的3个视频序列,包含146个行人共8 555张图像.由于该数据集采集自同一个摄像机,因此行人的姿态变化和视角变化不是特别明显,相对难度较小.CUHK01数据集包含了971个行人共3 884张图片,每个行人4张图片.前两张拍摄的是前后景图片,行人只是在姿态上稍有区别,后两张是行人侧面图像,因此与前两张图像在视角、姿态和光照等方面都有较大的差异和变化.
3.3.1 VIPeR数据集VIPeR数据集包含了632对行人,大小固定为48×128像素,如图 1所示,同一列中的行人图像为来自不同摄像头的同一个人.
首先选择h=316,即用316对行人做测试,316对做训练,测试三种核函数下的实验结果,结果如表 1所示.
kernel | rank1(%) | rank5(%) | rank10(%) | rank20(%) |
linear | 26.4 | 54.8 | 68.9 | 81.6 |
χ2 | 39.7 | 71.6 | 84.1 | 92.9 |
RBF-χ2 | 42.2 | 73.8 | 85.4 | 92.9 |
从表 1可以看出,核函数采用RBF-χ2时,效果最好,因此在下文的对比实验中都采用RBF-χ2核函数,表 2给出了本文算法与当前主流算法的对比.
method | rank1(%) | rank5(%) | rank10(%) | rank20(%) |
PCCA[19] | 19.6 | 51.5 | 68.2 | 82.9 |
LFDA[20] | 19.7 | 46.7 | 62.1 | 77.0 |
SVMML[27] | 27.0 | 60.9 | 75.4 | 87.3 |
KISSME[15] | 23.8 | 54.8 | 71.0 | 85.3 |
rPCCA[18] | 22.0 | 54.8 | 71.0 | 85.3 |
kLFDA[18] | 32.3 | 65.8 | 79.7 | 90.9 |
MFA[18] | 32.2 | 66.0 | 79.7 | 90.6 |
RDC[26] | 15.66 | 38.42 | 53.86 | 70.09 |
eSDC_knn[8] | 26.31 | 46.61 | 58.86 | 72.77 |
eSDC_ocsvm[8] | 26.74 | 50.70 | 62.37 | 76.36 |
k-KISSME[17] | 40.7 | 72.37 | 83.95 | 92.08 |
ours | 42.2 | 73.8 | 85.4 | 92.9 |
从表 2可以看出,本文的算法明显优于当前主流算法,与同为基于核学习的rPCCA、kLFDA、MFA和k-KISSME相比,由于本文采用的测度算法结合了距离度量和相似度度量,因此取得了更好的结果.
接下来分别设置h=432和h=532,即测试规模为432对行人,训练集为200和测试集为532对行人,训练集为100,实验结果分别如表 3和表 4所示,可见本文算法在训练集较少的情况下,仍然能达到较好的效果.
iLIDS数据集包含行人对比较少,只有119对行人,实验中,从每队行人中随机选择两张作为实验样本,图像大小都设置为48×128像素.从样本集中取59对行人用于训练,60对用于测试.实验结果如表 5所示.基于核学习的方法,如rPCCA相对于PCCA、kLFDA相对于LFDA,识别率都有较大提升,本文的测度函数结合了距离测度函数和相似度测度函数,因此效果要更好一些.
method | rank1(%) | rank5(%) | rank10(%) | rank20(%) |
KISSME[15] | 28.0 | 54.2 | 67.9 | 81.6 |
PCCA[19] | 24.1 | 53.3 | 69.2 | 84.8 |
LFDA[20] | 32.2 | 56.0 | 68.7 | 81.6 |
SVMML[27] | 20.8 | 49.1 | 65.4 | 81.7 |
rPCCA[18] | 28.0 | 56.5 | 71.8 | 85.9 |
kLFDA[18] | 36.9 | 65.3 | 78.3 | 89.4 |
MFA[18] | 32.1 | 58.8 | 72.2 | 85.9 |
k-KISSME[17] | 38.3 | 66.5 | 79.0 | 88.3 |
ours | 39.8 | 67.8 | 80.6 | 89.0 |
ETHZ数据集包含的行人对也比较少,只有146对,实验中,图像大小统一设置为48×128像素,选用76对行人做训练集,剩余的70对作为测试集,随机重复10次,得到结果如表 6所示.由于ETHZ数据集采集自同一个摄像机,行人的姿态变化和视角变化不是特别明显,因此从表 6可以看出算法的识别率都比较高,差别并不是特别大,但是本文的算法整体上还是略好一点.
method | rank1(%) | rank5(%) | rank10(%) | rank20(%) |
KISSME[15] | 48.6 | 65.2 | 76.4 | 87.8 |
PCCA[19] | 40.2 | 64.4 | 76.1 | 88.5 |
LFDA[20] | 52.8 | 68.3 | 78.1 | 90.8 |
SVMML[27] | 37.5 | 65.8 | 77.6 | 90.6 |
rPCCA[18] | 45.5 | 65.6 | 76.3 | 90.1 |
kLFDA[18] | 53.5 | 73.3 | 82.6 | 91.5 |
MFA[18] | 52.6 | 70.2 | 79.3 | 90.1 |
k-KISSME[17] | 61.1 | 74.8 | 82.0 | 91.8 |
ours | 62.3 | 76.4 | 83.7 | 92.2 |
CUHK01数据集一共包含了971对行人,实验中,图像大小统一设置为48×128像素,选用486对行人做训练集,剩余的485对作为测试集,随机重复10次,得到结果如表 7所示.可见,相对于只采用一种测度函数的方法,本文的方法更具优势.
method | rank1(%) | rank5(%) | rank10(%) | rank20(%) |
KISSME[15] | 12.5 | 31.5 | 42.5 | 54.9 |
PCCA[19] | 17.8 | 42.4 | 55.9 | 69.1 |
LFDA[20] | 13.3 | 31.1 | 42.2 | 54.3 |
SVMML[27] | 18.0 | 42.3 | 55.4 | 68.8 |
rPCCA[18] | 21.6 | 47.4 | 59.8 | 72.6 |
kLFDA[18] | 29.1 | 55.2 | 66.4 | 77.3 |
MFA[18] | 29.6 | 55.8 | 66.4 | 77.3 |
k-KISSME[17] | 36.1 | 62.7 | 72.6 | 81.9 |
ours | 37.0 | 63.7 | 73.7 | 82.5 |
从4个数据集上的实验结果来看,本文的算法都取得了较好的效果,特别是第1匹配率达到了较高的准确率.第1匹配率体现了算法真正的识别能力,因此非常重要,只有第1匹配率达到了较高的水平,才能将算法推广到实际应用中.
4 结论本文提出了一种基于核学习和测度学习的行人再识别方法,相比于一般的行人再识别方法只采用一种度量函数,本文的测度函数结合了距离度量函数和相似度度量函数,并结合核学习,取得了较好的效果.4个公共数据集的图像都存在行人姿态变化、光照变化、遮挡和视角变化等困难,本文的算法都取得了比主流算法要好的效果,可见本文算法具有明显的优势.从研究结果来看,特征和测度矩阵对于识别结果都有很大的影响,下一步的工作考虑提取更好的特征、更优的测度矩阵,达到更好的行人再识别效果.
[1] | Doretto G, Sebastian T, Tu P, et al. Appearance-based person reidentification in camera networks:Problem overview and current approaches[J]. Journal of Ambient Intelligence & Humanized Computing, 2011, 2(2): 127–151. |
[2] | Ma B, Su Y, Jurie F. Covariance descriptor based on bio-inspired features for person re-identification and face verification[J]. Image & Vision Computing, 2014, 32(6/7): 379–390. |
[3] |
杨大为, 丛杨, 唐延东.
基于结构化的加权联合特征表观模型的目标跟踪方法[J]. 信息与控制, 2015, 44(3): 372–378.
Yang D W, Cong Y, Tang Y D. Object tracking method based on structural appearance model with weighted associated features[J]. Information and Control, 2015, 44(3): 372–378. |
[4] | Swain M J, Ballard D H. Indexing via color histograms[C]//3th International Conference on Computer Vision. Piscataway, NJ, USA:IEEE, 1991:390-393. |
[5] | Gray D, Brennan S, Tao H. Evaluating appearance models for recognition, reacquisition, and tracking[C]//Proceedings of the 2007 IEEE International Workshop on Performance Evaluation of Tracking and Surveillance. Piscataway, NJ, USA:IEEE, 2007:41-47. |
[6] | Liu C, Gong S, Chen C L, et al. Person re-identification:What features are important?[C]//European Conference on Computer Vision, International Workshop on Re-Identification. Berlin, German:Springer, 2012:391-401. |
[7] | Ma B P, Su Y, Jurie F. BiCov:A novel image representation for person re-identification and face verification[C]//Proceedings of the 23rd British Machine Vision Conference. Piscataway, NJ, USA:IEEE, 2012:1-6. |
[8] | Zhao R, Ouyang W, Wang X. Unsupervised salience learning for person re-identification[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA:IEEE, 2013:3586-3593. |
[9] | Li W, Zhao R, Xiao T, et al. DeepReID:Deep filter pairing neural network for person re-identification[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA:IEEE, 2014:152-159. http://ieeexplore.ieee.org/document/6909421/ |
[10] | Chopra S, Hadsell R, Lecun Y. Learning a similarity metric discriminatively, with application to face verification[C]//2005 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA:IEEE, 2005:539-546. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1467314 |
[11] | Davis J V, Kulis B, Jain P, et al. Information-theoretic metric learning[C]//Proceedings of the Twenty-Fourth International Conference on Machine Learning. New York, NY, USA:ACM, 2007:209-216. |
[12] | Chechik G, Sharma V, Shalit U, et al. Large scale online learning of image similarity through ranking[C]//Iberian Conference on Pattern Recognition and Image Analysis. Berlin, Germany:Springer, 2009:1109-1135. |
[13] | Shalit U, Weinshall D, Chechik G. Online learning in the manifold of low-rank matrices[J]. Journal of Machine Learning Research, 2010, 13(1): 2128–2136. |
[14] | Nguyen H V, Bai L. Cosine similarity metric learning for face verification[C]//Asian Conference on Computer Vision, Berlin, Germany:Springer, 2010:709-720. |
[15] | Köstinger M, Hirzer M, Wohlhart P, et al. Large scale metric learning from equivalence constraints[C]//2012 IEEE Conference on Computer Vision & Pattern Recognition. Piscataway, NJ, USA:IEEE, 2012:2288-2295. |
[16] | Cao Q, Ying Y, Li P. Similarity metric learning for face recognition[C]//IEEE International Conference on Computer Vision. Piscataway, NJ, USA:IEEE 2013:2408-2415. |
[17] |
齐美彬, 檀胜顺, 王运侠, 等.
基于多特征子空间与核学习的行人再识别[J]. 自动化学报, 2016, 42(2): 299–308.
Qi M B, Tan S S, Wang Y X, et al. Multi-feature subspace and kernel learning for person re-identification[J]. Acta Automatica Sinica, 2016, 42(2): 299–308. |
[18] | Xiong F, Gou M, Camps O, et al. Person re-identification using kernel-based metric learning methods[C]//European Conference on Computer Vision. Berlin, Germany:Springer, 2014:1-16. |
[19] | Mignon A. PCCA:A new approach for distance learning from sparse pairwise constraints[C]//2012 IEEE Conference on Computer Vision & Pattern Recognition. Piscataway, NJ, USA:IEEE, 2012:2666-2672. |
[20] | Pedagadi S, Orwell J, Velastin S, et al. Local fisher discriminant analysis for pedestrian re-identification[C]//2013 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA:IEEE, 2013:3318-3325. |
[21] | Deng W, Hu J, Guo J. Gabor-eigen-whiten-cosine:A robust scheme for face recognition[M]. Berlin, Germany: Springer, 2005: 336-349. |
[22] | Gray D, Tao H. Viewpoint invariant pedestrian recognition with an ensemble of localized features[C]//European Conference on Computer Vision. Berlin, Germany:Springer, 2008:262-275. |
[23] | Zheng W S, Gong S G, Xiang T. Associating groups of people[C]//Proceedings of the 20th British Machine Vision Conference. Piscataway, NJ, USA:IEEE, 2009:1-11. |
[24] | Zhou T, Qi M, Jiang J, et al. Person re-identification based on nonlinear ranking with difference vectors[J]. Information Sciences, 2014, 279: 604–614. DOI:10.1016/j.ins.2014.04.014 |
[25] | Zhao R, Ouyang W, Wang X. Learning mid-level filters for person re-identification[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA:IEEE, 2014:144-151. http://ieeexplore.ieee.org/document/6909420/ |
[26] | Zheng W S, Gong S, Xiang T. Re-identification by relative distance comparison[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(3): 653–68. |
[27] | Li Z, Chang S Y, Liang F, et al. Learning locally-adaptive decision functions for person verification[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA:IEEE, 2013:3610-3617. |
[28] | Weinberger K Q, Saul L K. Distance metric learning for large margin nearest neighbor classification[J]. Journal of Machine Learning Research, 2006, 10(1): 207–244. |
[29] | Hirzer M, Roth P M, Köstinger M, et al. Relaxed pairwise learned metric for person re-identification[C]//European Conference on Computer Vision. Berlin, Germany:Springer, 2012:780-793. |