图森未来与中科院自动化所提出GMTracker:一种基于图匹配的多目标跟踪方法
论文链接:
一. 引言
多目标跟踪任务(MOT)是计算机视觉的基础任务之一,核心在于将视频中不同帧之间的同一物体进行关联。目前MOT主流方法基本上都是基于tracking-by-detection的思路,即先做目标检测(object detection)再将检测结果进行帧间关联 (object association) ,比如工业界常用的SORT[1]或者DeepSORT[2],都是tracking-by-detection的方法。另一种最近比较流行的思路是将检测和数据关联放在一个统一的管线中实现,比如CenterTrack[3]。本文所提出的方法是一种tracking-by-detection的方法,并主要关注在object association部分进行改进与提升。tracking-by-detection方法中的object association主要分为两种:一是通过combinatorial graph partition方法,如二分图匹配和min-cost flow,用训练好的特征提取器获得每个detection的特征,再将这些特征作为图中的结点特征进行graph partition解得detection之间的关联关系,如DeepSORT和LifT[4]等; 二是通过数据驱动的深度学习方法进行端到端训练,利用网络强大的数据拟合能力进行特征增强,使得相同物体特征更像,不同物体相似度更小,最终通过一个分类器对两个结点的边进行分类,如MPNTrack[5]。
二、研究动机
在MOT的object association部分,二分图匹配是一种比较常用的获得detection与tracklet关联关系的方法。通常的做法是将当前帧(第t帧)的物体与历史帧(如第t-1帧)的物体构建成一个二分图,每个物体代表二分图中的一个结点,然后通过匈牙利算法去求解二分图的最大权匹配。二分图匹配通常只考虑了跨帧结点之间的关系,如物体与物体之间appearance的相似程度或者几何位置的相近程度,在严重遮挡的情况下,比较容易产生ID Switch。相比于二分图匹配,图匹配(graph matching)方法不仅考虑了跨帧结点之间的关系,更结合了结点与其帧内邻居结点的边的信息来进行匹配,能够更好地建模物体与其周围其他物体的context信息,获得更加鲁棒精确的匹配结果。
因此,我们拓展了图匹配算法的形式,并将其应用到了MOT任务中。我们将通常的两帧之间物体与物体之间的匹配拓展为物体与跟踪轨迹之间的匹配,即detection与tracklet之间的匹配。我们建立了detection graph与tracklet graph,通过求解这两个graph的图匹配,来得到最终的object association结果。同时,为了将图匹配问题可微分地放入神经网络中进行训练,我们将原始的图匹配的数学形式松弛为一个二次规划问题,利用KKT条件以及隐函数定理进行梯度的回传,从而实现了可学习的图匹配模块 。
三、主要方法
1. Graph Matching Formulation
Graph matching在数学上通常被认为是一个二次分配问题(QAP),其数学形式为
其中Π是一个置换矩阵,A1和A2分别是两个graph的带权的邻接矩阵,B是两个graph结点之间的相似度矩阵。直观上看,即需要最小化匹配结点之间的feature相似度差异,以及最小化对应边上权之间的差异。 由于在MOT任务中,graph的边上不仅仅是weight,需要高维的feature,我们首先对上式进行了拓展。对上式在channel维度上相加,得到
利用edge feature做过l2 norm,以及Π是置换矩阵的性质,有
其中pi和b是Π和B拉直后的向量形式,M是一个由edge affinity matrix得到的对称的二次相似度矩阵,这样,通过将置换矩阵松弛到双随机矩阵,可以将原问题转化为凸二次规划问题,并可以借鉴OptNet[6]的方法,利用KKT条件以及隐函数定理对图匹配进行梯度的回传,从而实现了可学习的图匹配模块。具体推导请参考论文中的Sec 3。 2. Graph Matching Network and GMTracker
我们通过一个ReID网络提取各个detection的appearance feature,得到初始的node feature,构建了初始的detection graph和tracklet graph,其中detection graph结点为t帧的detection,tracklet graph中的结点对应t帧之前的匹配生成的轨迹,tracklet graph中的结点特征是通过将轨迹中所有detection的appearance feature进行简单的取平均或者移动平均得到。在完成detection graph与tracklet graph的构建以及结点特征的初始化之后,我们通过一个cross-graph的GCN来加强每个结点的特征,在特征聚合的过程中,我们同时考虑了结点与结点之间appearance相似度以及位置关系。最终,我们得到了最后用于graph matching的detection graph以及tracklet graph,graph中的边特征是通过对每个边相连的两个节点特征进行concat得到。 我们利用OptNet的思想,对graph matching formulation构建的一个可微分的QP layer,求解QP,我们得到最终的matching score map。在训练过程中,由于matching score map较为平滑,需要经过softmax使得score map锐化,我们采用weighted BCE Loss进行网络的训练。在inference时,我们采用选取score map的最大响应作为graph matching的匹配结果。除此之外,与DeepSORT类似,我们采用motion model预测的tracklet位置与当前帧detection之间的距离,node feature相似度以及bounding box是否相交来进行误匹配的过滤,再通过一步IoU匹配来恢复一些误删。
四、实验分析
1. 我们在MOTChallenge benchmark上进行了实验,通过消融实验验证了我们方法的有效性。由于MOTA指标主要受detection的影响,而与association性能关系不大,我们在所有实验中更加关注IDF1和ID switch等association指标。
2. 我们对于最为主要的graph matching layer做了单独的消融实验,对比第1、2行可以发现graph matching相比二分图匹配效果更好;对比第2、3行可以发现,相比仅仅利用独立的网络提取特征后通过graph matching求解最优graph partition,将graph matching作为神经网络的一层进行joint optimization更为有效 3. 另外的一个有趣的现象是我们对比DeepSORT中的二分图匹配与图匹配,发现随着保留更多帧的tracklet matching candidate,二分图匹配与我们的方法差距越来越大,tracklet death的阈值到150帧时,由于二分图匹配不够鲁棒,IDF1会下降,我们的方法则相对更为鲁棒。 4. 我们也在MOTChallenge的test集上提交了我们的结果,相比目前其他SOTA方法,GMTracker在IDF1等显示association的指标上有明显提升。 五、结论
1. 与单独训练feature extractor后解graph partition问题以及完全利用data driven的方式训练得到更discriminative的feature的方式不同,将graph partition作为可学习模块放入网络中联合训练的方式提供了一种新的思路。
2. 利用edge-to-edge的二阶相似度比只用node-to-node一阶相似度的二分图匹配在遮挡等情况下更为鲁棒。
3. 在MOT任务中,graph的构建方式多种多样,我们的graph matching layer也可以作为一个可插入模块嵌入到其他方法中,更加有效的边表示方式也是值得研究的问题。
ref:1. Alex Bewley, Zongyuan Ge, Lionel Ott, Fabio Ramos, and BenUpcroft. Simple online and realtime tracking. In ICIP, 2016.2. Nicolai Wojke, Alex Bewley, and Dietrich Paulus. Simple onlineand realtime tracking with a deep association metric. In ICIP, 2017.3. Xingyi Zhou, Vladlen Koltun, and Philipp Krähenbühl. Trackingobjects as points. In ECCV, 2020.4. Andrea Hornakova,Roberto Henschel, Bodo Rosenhahn, and Paul Swoboda. Lifted disjoint paths withapplication in multiple object tracking. In ICML, 2020.5. Guillem Brasó and LauraLeal-Taixé. Learning a neural solver for multiple object tracking. In CVPR,2020.6. Brandon Amos and J. Zico Kolter. OptNet: Differentiableoptimization as a layer in neural networks. In ICML, 2017.
二是通过数据驱动的深度学习方法进行端到端训练,利用网络强大的数据拟合能力进行特征增强,使得相同物体特征更像,不同物体相似度更小,最终通过一个分类器对两个结点的边进行分类,如MPNTrack[5]。
二、研究动机
在MOT的object association部分,二分图匹配是一种比较常用的获得detection与tracklet关联关系的方法。通常的做法是将当前帧(第t帧)的物体与历史帧(如第t-1帧)的物体构建成一个二分图,每个物体代表二分图中的一个结点,然后通过匈牙利算法去求解二分图的最大权匹配。二分图匹配通常只考虑了跨帧结点之间的关系,如物体与物体之间appearance的相似程度或者几何位置的相近程度,在严重遮挡的情况下,比较容易产生ID Switch。相比于二分图匹配,图匹配(graph matching)方法不仅考虑了跨帧结点之间的关系,更结合了结点与其帧内邻居结点的边的信息来进行匹配,能够更好地建模物体与其周围其他物体的context信息,获得更加鲁棒精确的匹配结果。
三、主要方法
1. Graph Matching Formulation
Graph matching在数学上通常被认为是一个二次分配问题(QAP),其数学形式为
其中Π是一个置换矩阵,A1和A2分别是两个graph的带权的邻接矩阵,B是两个graph结点之间的相似度矩阵。直观上看,即需要最小化匹配结点之间的feature相似度差异,以及最小化对应边上权之间的差异。
我们利用OptNet的思想,对graph matching formulation构建的一个可微分的QP layer,求解QP,我们得到最终的matching score map。在训练过程中,由于matching score map较为平滑,需要经过softmax使得score map锐化,我们采用weighted BCE Loss进行网络的训练。在inference时,我们采用选取score map的最大响应作为graph matching的匹配结果。除此之外,与DeepSORT类似,我们采用motion model预测的tracklet位置与当前帧detection之间的距离,node feature相似度以及bounding box是否相交来进行误匹配的过滤,再通过一步IoU匹配来恢复一些误删。
四、实验分析
1. 我们在MOTChallenge benchmark上进行了实验,通过消融实验验证了我们方法的有效性。由于MOTA指标主要受detection的影响,而与association性能关系不大,我们在所有实验中更加关注IDF1和ID switch等association指标。
五、结论
1. 与单独训练feature extractor后解graph partition问题以及完全利用data driven的方式训练得到更discriminative的feature的方式不同,将graph partition作为可学习模块放入网络中联合训练的方式提供了一种新的思路。
2. 利用edge-to-edge的二阶相似度比只用node-to-node一阶相似度的二分图匹配在遮挡等情况下更为鲁棒。
3. 在MOT任务中,graph的构建方式多种多样,我们的graph matching layer也可以作为一个可插入模块嵌入到其他方法中,更加有效的边表示方式也是值得研究的问题。
ref:1. Alex Bewley, Zongyuan Ge, Lionel Ott, Fabio Ramos, and BenUpcroft. Simple online and realtime tracking. In ICIP, 2016.2. Nicolai Wojke, Alex Bewley, and Dietrich Paulus. Simple onlineand realtime tracking with a deep association metric. In ICIP, 2017.3. Xingyi Zhou, Vladlen Koltun, and Philipp Krähenbühl. Trackingobjects as points. In ECCV, 2020.4. Andrea Hornakova,Roberto Henschel, Bodo Rosenhahn, and Paul Swoboda. Lifted disjoint paths withapplication in multiple object tracking. In ICML, 2020.5. Guillem Brasó and LauraLeal-Taixé. Learning a neural solver for multiple object tracking. In CVPR,2020.6. Brandon Amos and J. Zico Kolter. OptNet: Differentiableoptimization as a layer in neural networks. In ICML, 2017.
全部评论
(1) 回帖