Table of content (full-version) [paper] [github]


Summary

  • Multi-label image recognition 분야 (영상마다 다수의 label 존재)
    • Object는 서로 복잡한 topology를 가지고 있어, lable dependency를 모델링하는 것이 중요한 분야 GCN


[Multi-label image recognition 개념]

picture

  • 전체 프레임워크
    • Representation learning
      • 입력: (448 448) 영상
      • 모듈: ResNet101 에 의해서 (2048 14 14) feature vector (ImageNet pretrained), GAP 적용
      • 출력: 2048-dim feature vector
    • Graph convolutional network
      • 입력: (C 300) word embedding features (pretrained, GLoVe [2])
      • 모듈: GCN 2개 (1024, 2048 dimension)
        • 수식: ,
        • : learnable transformation network
        • : correlation matrix ( normalized)
          • Data-driven way: 학습 셋에 있는 label pair를 이용, 확률로 변환
          • Assymetric: 영상에 사람이 있을 때 테니스 라켓까지 포함되는 것이, 테니스 라켓있을 때 사람이 포함될 확률보다 적다.
          • Binary correlation matrix: 희귀한 label pair는 오히려 noise가 될 수 있기에 임계값을 통한 (0,1) 이산화
          • Re-weighted correlation matrix: clustering된 것처럼 over-smoothing 될 수 있기 때문에 0에 일정한 값 부여
        • : non-linear operator (LeakyReLU)
      • 출력: (C 2048) inter dependent object classifier
    • 최종
      • Dot product, predicted score, sigmoid, multi-label classification loss


[전체 프레임워크]

picture


Experimental results

  • Dataset
    • MS-COCO, VOC2017
  • Ablation studies
    • Word embedding 종류
    • 임계값 변화
    • Re-weighted A의 일정한 값 변화
    • GCN의 layer 수
  • 추가 실험
    • Vanilla ResNet과 ML-GCN의 class별 t-SNE비교
    • Image retrieval 분야 관점에서의 실험

References

[1] Chen, Zhao-Min, et al. “Multi-Label Image Recognition with Graph Convolutional Networks.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[2] Pennington, Jeffrey, Richard Socher, and Christopher Manning. “Glove: Global vectors for word representation.” Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014.