Table of content (full-version) [paper] [github]


Summary

  • Joint learning (end-to-end) (첫 시도)
    • Data generation(generative module) appearance/structure 구분하여 인코딩
    • Re-id learning(discriminative module) appearance와 structure에 대한 심화학습

Motivation

  • Re-ID에서 대표적인 문제: cross camera 사이의 intra class variation
  • 기존 방법: data augmentation을 위한 여러가지 generative pipeline
  • 문제점: Generative pipeline은 보통 discriminative re-id learning 단계와 분리되어 있음
  • 해결책: 이 논문에서는 생성된 데이터들을 더 잘 이용함으로써 학습된 re-id embedding을 향상시키기 위해서 re-id learning과 data generation을 동시에 학습하는 end-to-end 구조를 제안한다. (처음)
  • Unconditional GAN과 다른점: more controllable generation with better quality
  • Pose-guided GAN과 다른점: 가지고 있는 데이터셋의 pose-variation을 이용하기에 추가적인 보조 데이터(3d pose)가 필요하지 않음

Architecture


[전체 프레임워크]

picture

Generative module

  • 사람의 영상을 appearance()와 structure()로 분리하여 인코딩 후 디코딩 (a/s변경가능)
  • Self-identity generation: generator를 regularization하는 역할
    • - 하나의 영상에서 인코딩된 로 생성된 영상과 와의 복원오차 (L1)
    • - (같은 ID지만 다른영상)와 로 생성된 영상과 와의 복원오차 (L1)
    • - 입력 영상에 appearance로 인코딩된 특징벡터의 identification loss
  • Cross-identity generation: a와 s를 명확히 구분하여 생성된 이미지를 제어 가능하게 하고 실제 데이터 분포에 맞게 생성
    • - 를 appearance 인코딩 했을 때 structure에 상관없이 의 특징벡터 복원 (L1)
    • - 를 structure 인코딩 했을 때 appearance에 상관없이 의 특징벡터 복원 (L1)
    • - 새롭게 생성된 영상에 appearance로 인코딩된 특징벡터의 ID loss (의 레이블)
    • - 입력 영상과 생성된 영상 를 D에 통과 했을 때 각각 real/fake 결과가 나오도록
  • Discussion
    • 기존 방법들은 random noise나 pose factor를 사용하는 반면에 명확하게 a/s 코드를 분리하여 생성한다.
    • a/s로 분리된 latent vector가 설명 가능하다.
    • 만큼의 영상을 생성할 수 있다.


[Generative module]

picture

Discriminative module

  • 생성된 영상을 실제 학습 데이터셋과 부합시키면서 어떻게 잘 학습시킬지에 대한 모듈
  • Primary feature learning: focusing on structure-invariant clothing information
    • Teacher-student type supervision with dynamic soft labeling을 채택 (student가 teature의 확률분포를 따라가게끔 KL divergence 최소화)
      • Teacher: baseline CNN과 ID loss로 기존의 training set 학습 후 생성된 영상 에 대한 one-hot vector를 할당하는 것이 아닌 teacher에 의한 soft label을 채택
      • Student: discriminative module(즉, 기존 학습셋과 생성된 영상 모두로 학습된 모듈)에 의한 예측 값
  • Fine-grained feature mining: focusing on appearance-invariant structural cue
    • 기존에는 로 분류했지만 반대되는 성격을 얻기 위해 로 분류
    • 따라서 appearance(보통 옷 색깔)에 무관하며 fine-grained id-related attributes (hair, hat, body size, bad)등이 학습
    • 기존의 방법들은 수동으로 attribute를 주거나 hard sampling policy를 수행한 반면, 미묘한 ID 특성에 주의하는 학습법을 통해 추가적인 identity supervision을 주입한다.
  • Discussion
    • 실제로 re-ID testing 때 사용할 특징벡터는 두 모듈의 결과를 concat해서 사용 (512+512 dim)
    • Appearance encoder를 Generative module과 공유
    • 해당 loss는 generative module이 어느정도 수렴한 다음에 같이 학습


[Discriminative module]

picture


Experimental results

  • Image generation


[다른 방법들과 image generation 결과 비교]

picture


[Appearance와 structure 융합 예시]

picture

  • Ablation study


[Ablation study (image generation)]

picture


[Ablation study (discriminative module)]

picture

  • Performance


[Re-ID performance (Market-1501, DukeMTMC-reID)]

picture


[Re-ID performance (MSMT17)]

picture

  • Failure case
    • 단색옷이 많아서 텍스쳐 로고 잘 반영이 안된다.


[Failure case]

picture


Comments

  • 색만 입힌 느낌이 난다. 텍스쳐가 잘 안잡히는 느낌

References

[1] Zheng, Zhedong, et al. “Joint discriminative and generative learning for person re-identification.” arXiv preprint arXiv:1904.07223 (2019).