Table of content (short-version) [paper] [github]


Summary

  • High-resolution stereo matching 논문
  • Supervised learning (Left, right, ground truth image)
  • 기존의 SOTA들은 KITTI기준이지만 이는 저화질이기에 고화질에서는 성능이 좋질 못하다.
  • Contribution
    • Hierarchical network
      • Spatial pyramid pooling으로 메모리 줄임
      • 3D convolution이 disparity 차원으로 strided
      • GCNet과 다른 점은 Multi-scale loss
      • 구조
        • Pyramid encoder
        • Feature volume
        • Hierarchical feature volume decoder
          • 중간에 화질을 세가지로 나누어 coarse-to-fine 접근
    • High resolution data 제공
      • 그나마 있는 고화질 데이터세트는 Middlebury (실내, 양이 적음)
      • HR-VS(virtual), HR-RS(real) 제공
    • Stereo augmentation 기술 제공 (데이터 양이 적기 때문에)


[제안하는 방법 결과 예시]

picture


[전체 프레임워크]

picture


[Hierarchical feature volume decoder]

picture


[데이터셋]

picture


[고화질 영상에서 테스트]

picture


References

[1] Yang, Gengshan, et al. “Hierarchical Deep Stereo Matching on High-Resolution Images.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.