-
Abstract
In this paper, aiming at the application of target tracking, an improved convolutional network Siamese-MF (multi-feature Siamese networks) based on Siamese-FC (fully-convolutional Siamese networks) is proposed to further improve the tracking speed and accuracy to meet the requirements of target tracking in engineering applications. For tracking networks, considering the trade-off between speed and accuracy, reducing computational complexity and increasing the receptive field of convolution feature are the directions to improve the speed and accuracy of tracking networks. There are two main points to improve the structure of convolution network: 1) introducing feature fusion to enrich features; 2) introducing dilated convolution to reduce the amount of computation and enhance the field of perception. Siamese-MF algorithm achieves real-time and accurate tracking of targets in complex scenes. The average speed of testing on OTB of public data sets reaches 76 f/s, the average value of overlap reaches 0.44, and the average value of accuracy reaches 0.61. The real-time, accuracy and stability are improved to meet the requirement in real-time target tracking application.
Keywords
-
1. 引言
目标跟踪作为计算机视觉的重要方向之一[1],应用领域广泛,包括空域目标跟踪、刑侦罪犯监控、交通车辆监控、小区安防监控等[2-4]。目标跟踪在工业应用上面临着场景复杂、目标形态多变、长时跟踪等一系列挑战,如何提取更鲁棒的特征,减少计算量是实时稳定跟踪目标的思考方向。传统的目标跟踪采用人为设定如颜色特征、灰度特征等;用核方法结合直方图特征[5]具有较好的准确性但是计算量大;用L-K光流算法[6]只在背景静止以及物体运动速度慢的情况下才能较好地发挥目标跟踪作用;使用均值法结合金字塔特征[7]是基于颜色对目标进行识别,跟踪速度较快,但是当背景存在和目标相似颜色的时候影响跟踪结果,使用场景受限;而核相关滤波(kernel correlation filter,KCF)[8]采用相关特征,实时性好,但是在目标发生尺度变化以及遮挡等情况时会跟丢目标。
手工特征的缺点在于提取特征有限,无法适应普遍场景,泛化能力较差[9-10],由此引入深度学习来解决特征提取遇到的问题。2012年卷积网络AlexNet[11]首次被提出,后期基于卷积网络的结构相继产生,如VGGNet[12]、Google Incepetion Net[13]、ResNet[14]、DenseNet[15]等。卷积网络往更深层发展,解决了反向传播过程中的梯度消失或梯度弥散相关问题,提取到的语义信息更丰富、更鲁棒,应用在ImageNet[16]图像分类[17-19]、语义分割[20]、目标检测与识别[21]等方面取得显著成效,但是在目标跟踪上,却因为实时性和数据集较小等受到限制。鉴于此,本文提出基于卷积神经网络的扩展目标跟踪算法Siamese-MF,通过对卷积层提取的特征进行融合以及引入空洞卷积的措施,达到增强特征表征并且减少计算量的作用,使算法在实时性和准确性上都有提升;在跟踪策略上进行限制,针对尺度变换、遮挡和模糊等状态具有良好的鲁棒性,有着较好的应用价值。
2. 研究现状
基于分类的目标跟踪算法(如DLT[23])属于无监督学习算法,是深度学习在目标跟踪的早期应用,但是算法采用自编码器完成重构工作,对分类任务没有很大的贡献,是深度学习在目标跟踪任务上的探索,是基于深度学习的目标跟踪算法的启程。MDNet (multi-domain convolutional neural networks)[24]采用卷积网络提取特征,全连接网络输出背景和目标的分类得分,跟踪精度较高,但在GPU上运行速度也只能达到1 f/s左右。而MDNet的研究团队再次提出TCNN(CNNs in a tree structure)[25],算法的核心在于使用了树状CNN结构,模型较为复杂,精度得到提升,但速度还有待提高。
使用深度学习的目标跟踪网络研究越来越多,总体可分为基于候选目标分类的目标跟踪和基于结构化回归的目标跟踪[22],基于分类的目标跟踪算法类似于检测,即在搜索区域选取候选框,对候选框进行分类,计算量大,导致速度无法满足实时性要求,而基于结构化回归的算法则是通过概率来判断位置和尺度。
本文针对扩展目标,提出了基于Siamese-FC的改进网络的Siamese-MF。Siamese-MF的卷积层为AlexNet[11]的前五层卷积层,用于提取目标特征,同时通过空洞卷积融合第一层、第三层以及第五层卷积层的特征作为提取到的特征。卷积层的浅层特征提取边缘和位置信息,高层特征提取语义特征。Siamese-MF结合低中高层的特征融合得到更鲁棒的特征,同时引入空洞卷积减少计算量,增加感受野。Siamese-MF采用离线训练,在线跟踪,通过特征融合提高跟踪准确性,空洞卷积提高速度,多尺度克服跟踪过程中的尺度变化,同时采用模板积累来适应长时跟踪。
基于结构化回归的目标跟踪算法主要有2015年提出的FCNT(fully convolutional networks)[26],文章中利用大量数据集来预训练卷积网络,用于提取一般特征,然后用第一帧目标信息训练全卷积网络,用于回归目标位置。同年提出的HCFT(hierarchical convolutional features for visual tracking)[27]结合了深度学习算法的特征提取能力和传统跟踪算法的跟踪速度。2016年David提出的GOTURN(generic object tracking using regression networks)[28]算法,采用了一种离线训练的方式,能够实现100 f/s的实时跟踪,但只适用于短时跟踪。而在2016年提出的孪生网络Siamese-FC (fully-convolutional siamese networks)[29],算法采用相似性来实现目标跟踪,在精度上面表现良好,速度达到58 f/s,但有待提升卷积层特征提取能力。
3. Siamese-MF跟踪网络
Siamese-FC跟踪网络在实时性上表现较好,精度有待提高。提高精度需要提升特征鲁棒性,获取更丰富的语义特征,同时需要考虑获取特征的计算量。Siamese-MF则是基于Siamese-FC改进的扩展目标跟踪网络,在提升精度的同时保证了实时性。
3.1 基础网络Siamese-FC
Siamese-FC[29]的跟踪结构很简单,由Conv1~Conv5五个卷积层提取目标和搜索区域的特征,然后通过目标特征和搜索区域特征进行全卷积得到得分图,得分最高点则为搜索区域中目标所在位置。
3.2 改进网络Siamese-MF
1) 使用特征融合获取更全面的特征。将Conv1、Conv3和Conv5的输出进行特征融合,获取更丰富的目标特征,提高跟踪精度。
2) 引入空洞卷积。空洞卷积在增加感受野的同时减少计算量,提升跟踪速度和精度。
本文提出的Siamese-MF网络的前馈网络通过训练得到,在训练过程中使用AlexNet[11]的5个卷积层Conv1~Conv5,同时添加空洞卷积层[30]Skip1和Skip2分别用于Conv1和Conv3的输出和Conv5的特征融合。空洞卷积的作用是在不经过下采样损失信息的情况下,增加特征感受野,保证卷积后的特征包含较大范围的信息。与普通卷积相比,空洞卷积的卷积核在普通卷积核的基础上补零,也就是稀疏化的普通卷积核,这样计算量减少,信息增加,特征尺度减小。对于卷积层的选择,考虑因素有计算量和特征充分性。低层卷积层表示边缘信息和位置信息,所提取图像当中的线特征和边缘特征,属于底层信息。高层卷积层所提取图像当中的语义信息,属于高层特征。在目标检测和目标识别等操作中一般卷积层较深,能够提取足够的特征用于分类;而对于卷积层越深的网络,计算量越大,实时性则越差。本文的目标跟踪课题,由于只需要提取目标特征,不用于分类,即对于目标的语义特征要求不高。本文选择五层卷积,对Conv1、Conv3和Conv5的输出进行特征融合,获取更丰富的目标特征。
3) 设置模板更新规则,适应于长时跟踪。
对于跟踪过程,将目标模板和搜索区域通过卷积层提取特征,再通过全卷积层进行交叉相关分析,得到目标在搜索区域的得分图,最大值所在即为目标所在位置。改进总结为以下三点:
3.2.1 Siamese-MF网络结构
Siamese-MF网络的前馈网络每一层的操作参数以及操作结果如表 1所示,包括目标和搜索区域的输入、卷积尺度、步长以及输出。卷积层提取目标以及搜索区域的特征。在连接层Skip1和Skip2中加入空洞卷积[30],将Conv1和Conv3的输出和Conv5的输出匹配,增加感受野的同时减少计算量。
Operation Input Filter_size Stride Out Conv1 3@127×127 3@255×255 96@11×11 2 96@59×59 96×123×123 Maxpooling 96@59×59 96×123×123 96@3×3 2 96@29×29 96@61×61 Skip1 96@29×29 96@61×61 32@3×3+3 > 7×7 2 32@12×12 32@28×28 32@12×12 32@28×28 16@3×3+3 > 7×7 1 16@6×6 16×22×22 Conv2 96@29×29 96@61×61 256@5×5 1 256@25×25 256×57×57 Maxpooling 256@25×25 256×57×57 256@3×3 2 256@12×12 256×28×28 Conv3 256@12×12 256×28×28 384@3×3 1 384@10×10 384×26×26 Skip2 384@10×10 384×26×26 16@1×1 1 16@10×10 16×26×26 16@10×10 16×26×26 16@3×3+2 > 5×5 1 16@6×6 16×22×22 Conv4 384@10×10 384@26×26 384@3×3 1 384@8×8 384×24×24 Conv5 384@8×8 384×24×24 32@3×3 1 32@6×6 32×22×22 表 1中涉及的符号较多,此处举例说明,“Input:3@127×127”是指输入通道数为3,输入图像大小为127×127;“Filter_size:96@11×11”是指卷积核数目为96,卷积核大小为11×11;“Filter_size:32@3×3+3 > 7×7”是指空洞卷积的参数,卷积核数目为32,卷积核大小为3×3,空洞为3,得到实际卷积核尺寸为7×7;“Output:96@59×59”是指输出通道数为96,输入图像大小为59×59。
Siamese-MF的前馈网络结构如图 1所示,通过训练得到卷积层参数。网络的输入为预处理后的图片,包括目标模板和搜索区域,搜索区域为上一帧目标所在位置的2×2倍区域,通过对原始图片进行候选框裁剪以及尺寸变换后得到尺寸为127×127×3的模板和255×255×3的搜索区域,经过卷积层进行特征提取,最后经过全卷积得到目标和搜索区域的相关性图。
3.2.2 Siamese-MF算法
在训练过程中,主要是获取卷积层的参数。参数的获取是通过得分图与标签得分的误差进行反向传播,从而修改卷积层的权值。记y为正负样本的真实标签,将正样本标签取值为1,负样本标签取值为0。同时设置一个距离参数,距离为以搜索区域的目标中心位置为圆心的一个半径,搜索区域中大于该值设标签y为0,小于该值y设为1:
本文的训练是在ILSVRC2015数据集上进行,前馈网络中的卷积层采用AlexNet的Conv1~Conv5层。在跟踪视频序列中目标一般不会太大,故目标输入尺寸设定为127×127,而二倍于目标模板的搜索区域的输入尺寸设定为255×255。通过卷积层后分别得到6×6和22×22的特征,进行全卷积之后得到17×17的相关图。
对每一组训练图片的损失(loss),给出如下式:
y={1,d<R0,d>R。 为了节省参数的调试时间,本文网络的训练参数初始值采用Siamese-FC的训练参数,经过参数调试,最终确定使用随机梯度下降法(SGD)进行训练,Momentum为0.9,Weight Decay为0.0005,Learning Rate为0.0001。
以f为训练中得分图的置信结果,那么l(y, f)表示单张图片的逻辑损失函数:
通过SGD最小化误差进行优化从而得到网络参数为
loss=∑log(1+exp(−y.f))。 l(y,f)=log(1+exp(−y.f))。 if loop_time < 50:
input data_set =’ ILSVRC2015’ with16 samples;
compute loss and update {w1, …, w7} with learning_rate =0.0001, then SGD with momentum=0.9 and weight_dacay=0.0005 else:
out pretrained Conv1~Conv5 filters{w1, …, w5}, Skip1~Skip2 filters{w6, w7};算法1给出了Siamese-MF算法前馈网络训练过程,采用伪代码的方式给出网络结构、用于训练的数据、损失计算参数、卷积层需要更新的权值以及更新速率、循环次数、网络的输出结果等。
argmin(W)(loss)。 训练集来自于ILSVRC2015数据集,训练次数为50次。对于每一个训练视频选取16张图片进行训练,每一张图片都有对应的标签,用于求训练误差和损失。
Siamese-MF网络的作用流程为:将目标和搜索区域通过相同的卷积网络,得到目标特征和搜索区域的特征,对目标特征层和搜索区域特征层进行全卷积,得到目标在搜索区域的相关性图,相关性最大的位置即为目标在搜索区域中的位置。根据视频中扩展目标的运动方位设定搜索区域为目标框的2×2倍大小。同时深层的卷积网络导致位置信息丢失,这是在跟踪领域不愿意看到的,所以本文在卷积层中使用了特征融合,结合了浅层的位置信息和深层的语义信息。
3.3 跟踪
3.3.1 多尺度跟踪策略
对于已经训练好的网络,固定网络参数不变,作为前馈网络用于扩展目标跟踪。跟踪过程中,对于输入的视频序列,截取上一帧的目标当作模板,并且以上一帧目标位置中心为标准,在当前帧以该中心位置为中心,截取目标尺寸三个尺度的2×2倍区域作为搜索区域。跟踪时将多个搜索区域特征与模板特征进行全卷积,得到三个相关图。选取最大相关值的尺度smax为当前目标尺度,以最大相关值尺度的最大相关值所在位置pmax为当前帧目标位置。
pmax=max(f(smax))。 smax=max(maxfi(f)), 3.3.2 长时跟踪策略
图 2给出了跟踪过程的算法流程,包括Siamese-MF的图片预处理、特征提取、交叉相关、坐标回归,输出目标响应最大的位置。
Tnew=w⋅Tnew+(1−w)Tlast。 基于相关跟踪算法存在一个缺陷;如果出现目标消失的情况,那么提取到的当前帧模板就为空;如果直接使用第一帧模板作为当前帧跟踪模板,由于时间的漂移和目标形态变换,模板特征与当前帧目标特征会有所差异。即是说:长时跟踪存在一定挑战。本文采用模板累积的方式在时间序列上对模板特征进行累积,设置权值w为当前帧模板(Tnew)的权值,而(1−w)为前一帧模板(Tlast)的权值,从而模板具有一定的时序效应,适用于目标消失或者长时跟踪的情况,累积式:
4. 实验
软件实验环境:Linux Ubuntu 16.04,python 3.5,Pytorch3.0。
硬件实验环境:Intel Core i7-6700 CPU@3.40 GHz×8,GeForce GTX 1080 GPU。
本文提出的Siamese-MF算法需要验证两个方面。第一,在Siamese-FC上面性能的提升,为此将对公开数据集OTB2015进行测试,作为对比实验操作;第二应用价值,将对ILSVRC2015数据集中的飞机测试集进行测试,验证算法在飞机目标跟踪上面的性能表现。其中,测试视频序列中包含不同扩展目标的尺度变换、旋转、运动方向改变等干扰因素,以及隐形、遮挡、光照变化等多个复杂情况,有利于验证Siamese-MF算法的实用价值。
4.1 评价参数
1) 跟踪成功率(Overlap)
跟踪速度表示每秒钟跟踪的帧数(frame per second,FPS,用vFPS表示),12 f/s是连贯图片的最低标准,20 f/s是RPG游戏运行的最低标准。定义式:
vFPS=Nframe/Ltime, 其中:R表示跟踪结果,G表示标识的真实位置,当SOverlap > 0.34可认为跟踪成功。
3) 跟踪中心误差
用表示SOverlap,其定义:
ECLE=√(xR−xG)2+(yR−yG)2, 其中:(xR, yR)表示跟踪的中心坐标,(xG, yG)表示标识的中心坐标。精度(Accuracy)表示测试集中CLE小于某一阈值的比例。
其中:Nframe表示视频中的帧数,Ltime表示跟踪视频时长[31]。
SOverlap=R⋂GR⋃G, 2) 跟踪速度
为了显示Siamese-MF算法的良好性能,将测试集同时经过Siamese-MF和Siamese-FC算法进行测试。本文使用与Siamese-FC评价指标相同的三个指标[31]:
跟踪中心误差(用ECLE表示),定义式:
4.2 实验结果
本文将给出在公开数据集OTB2015综合测试结果和在ILSVRC2015数据集中飞机测试集的测试结果细节。
4.2.1 OTB2015
表 2中跟踪成功率(Overlap)改进后提高0.17,跟踪稳定性(Accuracy)改进后提高0.09,跟踪速度提升了18 f/s。由此可得出,在卷积层上面的改进提升了跟踪算法的速度、精度以及稳定性。算法的改进效果明显。图 3为Siamese-MF算法在部分数据集上的跟踪情况,分别为视频中的第1帧、第50帧、第100帧和第200帧。
Model Overlap Accuracy v/(f/s) Siamese-MF 0.44 0.61 76 Siamese-FC 0.27 0.52 58 对于跟踪算法,现在学术界一般采用公开的数据集进行测试,便于在同一评价条件下对比不同算法的性能优劣程度。在公开数据集OTB2015上对Siamese-MF算法进行测试,对比改进算法和原始算法在评价指标上的性能提升,结果如表 2。
4.2.2 ILSVRC2015飞机测试集
在飞机测试集上面进行测试,是为了验证在实际应用中算法的性能表现,以及观察面临各种跟踪挑战时的跟踪效果。
这里采用4.1中定义的跟踪成功率(Overlap)、跟踪速度、跟踪稳定性即精度(Accuracy)作为定量评价标准,测试集为ILSVRC2015检测数据集的飞机测试集,具有各种飞行环境的19个视频,如图 4为测试视频的定量评价指标折线图分析,横坐标表示视频序列,纵坐标表示评价指标。从图中分析可知,对于同一个跟踪视频Siamese-MF比Siamese-FC的跟踪效果更好,在准确性,实时性以及稳定性上面都有一定程度的提升。
通过柱状图分析可以直观对比Siamese-MF算法和Siamese-FC算法在指定评价参数上跟踪效果,表 3为ILSVRC2015检测数据集的飞机测试视频序列在两种算法上的评价参数值。从表中可以看出,在跟踪精度上,Siamese-MF的平均跟踪准确率比Siamese-FC高6个百分点;在跟踪稳定性上,Siamese-MF比Siamese-FC高10个百分点;而在跟踪速度上,Siamese-MF达到40 f/s,基本满足实时跟踪。
Videos Overlap/(%) Accuracy/(%) v/(f/s) Siam-MF Siam-FC Siam-MF Siam-FC Siam-MF Siam-FC 0034004 43.7 36.9 92.4 61.6 47.8 42.8 0034014 58 56.8 90.7 70.1 44.4 41.7 0034019 55.4 50.6 99.6 99.3 48.9 44.8 0034023 59.1 58.7 100 100 48.6 44.1 0064003 92.4 91.2 88 69.6 15.1 15 0117004 56.8 51.2 100 100 51.4 45.9 0117019 73.4 67.6 100 100 52.4 49.5 0117024 59.4 56.7 71.8 65.6 36.8 32.4 0117041 49.5 48.8 100 100 50.4 47.1 0259004 75.8 37 100 43.9 52.4 48 0259014 90.6 88.3 100 100 31 29.5 0259019 89.5 78.1 100 86.7 18.4 17.5 0321003 60.2 58.9 70.6 66.7 48.2 43.5 0473003 82.9 80.1 84.4 81 30.3 27.5 0555003 77.3 74.9 100 100 48.7 45.6 743004 52.9 38 100 97.3 49.6 44.7 0899003 79.5 76.9 64.5 59.9 22.5 20.8 1000004 69.5 51.7 71.4 50 52.1 47.2 1035001 84.3 83.8 32.6 32.1 11.6 11.2 Mean 69 62.4 87.7 78.1 40 36.8 5. 总结
本文提出的算法Siamese-MF是在Siamese-FC的卷积层以及跟踪策略上作出的改进,并且在公开数据集OTB2015以及ILSVRC2015检测数据集的飞机测试集上面进行测试。在多个环境下的测试集上的实验证明,该方法在扩展目标跟踪应用中具有较好的鲁棒性,基本满足实时性要求,并且有较高的准确性;同时在对飞机目标的跟踪应用上表现更好。本算法在卷积层中加入了特征融合和空洞卷积,在获取更丰富特征的同时减少计算量,获取更鲁棒的特征,适应变化的环境。对跟踪策略进行改进,加入模板在时间序列的累积,从而长时跟踪表现较好。在测试过程中对于尺度变化、遮挡、隐形、干扰等有良好的表现,速度基本满足实时要求,以飞机目标测试网络,可用于跟踪应用。本文所提出的方法还有进一步的优化和提升空间,如考虑利用频域的特征来进行相关性分析,那么计算量将大大减少,在保证精度的情况下进一步提升跟踪速度。
-
References
Yilmaz A, Javed O, Shah M. Object tracking: a survey[J]. ACM Computing Surveys, 2006, 38(4): 13.
DOI: 10.1145/1177352.1177355Sivanantham S, Paul N N, Iyer R S. Object tracking algorithm implementation for security applications[J]. Far East Journal of Electronics and Communications, 2016, 16(1): 1–13.
DOI: 10.17654/EC016010001Kwak S, Cho M, Laptev I, et al. Unsupervised object discovery and tracking in video collections[C]//Proceedings of 2015 IEEE International Conference on Computer Vision, 2015: 3173–3181.
罗海波, 许凌云, 惠斌, 等.基于深度学习的目标跟踪方法研究现状与展望[J].红外与激光工程, 2017, 46(5): 502002.
DOI: 10.3788/IRLA201746.0502002Luo H B, Xu L Y, Hui B, et al. Status and prospect of target tracking based on deep learning[J]. Infrared and Laser Engineering, 2017, 46(5): 502002.
DOI: 10.3788/IRLA201746.0502002Comaniciu D, Ramesh V, Meer P. Kernel-based object tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(5): 564–575.
DOI: 10.1109/TPAMI.2003.1195991Lucas B D, Kanade T. An iterative image registration technique with an application to stereo vision[C]//Proceedings of the 7th International Joint Conference on Artificial Intelligence, 1981: 674–679.
View full references list -
Cited by
Periodical cited type(8)
1. 彭昊,王婉祺,陈龙,彭先蓉,张建林,徐智勇,魏宇星,李美惠. 在线推断校准的小样本目标检测. 光电工程. 2023(01): 85-99 . 本站查看
2. 王敬坤,丁德锐,梁伟,王永雄. 结合特征金字塔和区域候选网络的视觉目标跟踪. 小型微型计算机系统. 2022(01): 117-123 . 3. 马梁,苟于涛,雷涛,靳雷,宋怡萱. 基于多尺度特征融合的遥感图像小目标检测. 光电工程. 2022(04): 49-65 . 本站查看
4. 张成煜,侯志强,蒲磊,陈立琳,马素刚,余旺盛. 基于在线学习的Siamese网络视觉跟踪算法. 光电工程. 2021(04): 4-14 . 本站查看
5. 张红颖,贺鹏艺,王汇三. 基于改进SiamFC的实时目标跟踪算法. 激光与光电子学进展. 2021(06): 308-316 . 6. 李飚,徐智勇,王琛,张建林,汪相如,樊香所. 基于自适应梯度倒数滤波红外弱小目标场景背景抑制. 光电工程. 2021(08): 47-58 . 本站查看
7. 火元莲,李明,曹鹏飞,石明. 基于深度特征与抗遮挡策略的运动目标跟踪. 西北师范大学学报(自然科学版). 2020(04): 49-56 . 8. 张博,刘刚. 基于相似性特征估计的目标跟踪算法研究. 激光与光电子学进展. 2020(24): 78-87 . Other cited types(11)
-
Author Information
-
Copyright
The copyright belongs to the Institute of Optics and Electronics, Chinese Academy of Sciences, but the article content can be freely downloaded from this website and used for free in academic and research work. -
About this Article
Cite this Article
Zhao Chunmei, Chen Zhongbi, Zhang Jianlin. Research on target tracking based on convolutional networks. Opto-Electronic Engineering 47, 180668 (2020). DOI: 10.12086/oee.2020.180668Download CitationArticle History
- Received Date December 18, 2018
- Revised Date March 21, 2019
- Published Date December 31, 2019
Article Metrics
Article Views(8982) PDF Downloads(2477)