融合Swin Transformer的立体匹配方法STransMNet

融合Swin Transformer的立体匹配方法STransMNet

STransMNet: a stereo matching method with swin transformer fusion

  • 针对基于CNN的立体匹配方法中特征提取难以较好学习全局和远程上下文信息的问题,提出一种基于Swin Transformer的立体匹配网络改进模型 (stereo matching net with swin transformer fusion, STransMNet)。分析了在立体匹配过程中,聚合局部和全局上下文信息的必要性和匹配特征的差异性。改进了特征提取模块,把基于CNN的方法替换为基于Transformer的Swin Transformer方法;并在Swin Transformer中加入多尺度特征融合模块,使得输出特征同时包含浅层和深层语义信息;通过提出特征差异化损失改进了损失函数,以增强模型对细节的注意力。最后,在多个公开数据集上与STTR-light模型进行了对比实验,误差(End-Point-Error, EPE) 和匹配错误率3 px error均有明显降低。

  • 图 1  STTR-light网络结构

    Figure 1.  The network structure of STTR-light

    图 2  (a) STransMNet网络结构;(b) 特征提取器的结构

    Figure 2.  (a) The network structure of STransMNet; (b) The structure of extractor

    图 3  左图像上的像素特征之间的欧式距离。(a) 加入特征差异化损失;(b) 未加入特征差异化损失

    Figure 3.  Euclidean distance between the pixel features on the left image. (a) There is a feature differentiation loss; (b) No a feature differentiation loss

    图 4  不同方法在Sceneflow数据集上的估计的视差图

    Figure 4.  Disparity map estimated by different methods on the Sceneflow datasets

    图 5  不同方法在KITTI数据集上的估计的视差图

    Figure 5.  Disparity map estimated by different methods on the KITTI datasets

    表 1  消融实验

    Table 1.  Ablation study

    实验基于Swin Transformer模块相关运算特征差异化损失3 px error / % ↓EPE Occ IOU ↑
    表 2  不同的损失权重实验结果

    Table 2.  Experimental results of different loss weights

    Ld1,rLd1,fLrrLbe,fLdiff3 px error /%EPE Occ IOU ↑
    表 3  模型泛化性能实验结果(一)

    Table 3.  Test results Ⅰ of model generalization performance

    模型MPI SintelKITTI
    3 px error /% ↓EPE ↓Occ IOU ↑3 px error /% ↓EPE ↓Occ IOU ↑
    表 4  模型泛化性能实验结果(二)

    Table 4.  Test results Ⅱ of model generalization performance

    3 px error /% ↓EPE ↓Occ IOU ↑3 px error /% ↓EPE ↓Occ IOU ↑
    表 5  对比试验结果

    Table 5.  Comparative experiments

    3 px error / % ↓EPE ↓Occ IOU ↑3 px error / % ↓EPE ↓Occ IOU ↑
    表 6  模型运行效率对比

    Table 6.  Comparison of model operation efficiency

    模型Params ↓ / MFLOPs ↓ / GMemory ↓ / GRuntime ↓ / s
