Table of content (full-version) [paper] [project page]


Summary


[요약]

picture

  • Unsupervised 방식(파트정보 x, label x)으로 물체의 파트를 분할하여 모양과 외형을 분리하는 방법 (자동으로 물체의 구조적인 파트들을 구분지음)
  • 여러가지 응용에서 사용가능
    • Shape: interpretable shape representation, shape transfer, landmark discovery
    • Appearance: local appearance transfer, video-to-video translation
  • image pair 대신에 인위적인 변형으로 a/p를 구분할 수 있다는 장점

Architecture

[Notation]

Symbol Mean
image transformation (changes in brightness, contrast, hue)
spatial image transformation (thin plate spline transformation)
part-based factorization
disentangled representation
part appearance (feature vector)
part shape (activation map)
appearance hourglass network
shape hourglass network
decoder


[전체 프레임워크]

picture

Shape stream

$$\sigma_i (a(x)) = \sigma_i (x)$$

  • 영상의 appearance 변화시켜도 shape 관련 특징 유지 (invariant to appearance)
  • 영상의 appearance를 에 의해 변화시킨 다음 shape hourglass network를 통과시켜 part shape activation map을 생성
  • Hourglass network는 pixel-wise locality를 보존하고 multiple scale로 부터 정보를 통합한다는 점에서 이 task에 적합하다.

Appearance stream

$$\alpha_i (x \circ s) = \alpha_i (x)$$

  • 영상의 shape 변해도 appearance 관련 특징 유지 (invariant to shape)
  • 영상의 shape를 에 의해 변화시킨 다음 shape hourglass network를 통과시켜 part shape activation map을 생성
  • 정규화된 part shape activation map과 영상의 일부 인코딩된 것(의 첫번째 conv filter의 출력 값)을 합친 다음 appearance hourglass network를 통과시켜 localized image appearance encoding 을 얻는다.

$$\alpha_i (x \circ s) = \frac{\sum_{u \in I} f_{x \circ s} [u] \sigma_i (x \circ s)[u]}{\sum_{u \in I} \sigma_i (x \circ s)[u]}$$

  • 이를 average pool 하여 최종 part appearance feature vector를 얻는다.

Decoder

  • U-Net을 사용 (인코더는 고정, 디코더만 학습)

$$\tilde{\sigma}_i (a(x)) [u] = \frac{1}{1 + (u - \mu_i)^T \Sigma^{-1}_i (u - \mu_i)}$$

  • (첫 번째 입력) 부가정보를 무시하고 모호하지않은 part localization에 집중하기 위해서 part activation approximation

$$f_x [u] = \sum_i \frac{\alpha_i (x \circ s) \cdot \tilde{\sigma}_i (a(x))[u]}{1 + \sum_j \tilde{\sigma}_j (a(x))[u]} $$

  • (두 번째 입력) 위의 part activation approximation을 이용하여 part appearance feature 의 위치를 잡아준다. (part appearance feature는 part별 average pooling 과정에 의해서 위치 정보가 없기 때문)
  • 결국 shape stream의 위치 정보(invariant to appearance)와 appearance stream의 외형 정보(invariant to shape)를 통합하고 이를 U-Net에 거쳐 원래 영상으로 복원시킨다.

Equivalance loss

$$L_{equiv} = \sum_i \lambda_{\mu} \left \| \mu[\sigma_i (x \circ s)] - \mu[\sigma_i (a(x)) \circ s] \right \|_2 + \lambda_{\Sigma} \left \| \Sigma[\sigma_i (x \circ s)] - \Sigma[\sigma_i (a(x)) \circ s] \right \|_1 $$

  • Equivariance:
  • 각 파트별로 shape 변화시키면 shape 관련 특징 도 그만큼 변화해야 한다는 성질
  • 각 파트별로 엑티베이션 평균 위치와 공분산 이용

Reconstruction loss

$$L_{rec} = \left \| x - D([\alpha_i (x \circ s), \sigma_i (a(x))]_{i=1,...} ) \right \|$$

  • Invariance: and
  • Invariance constraint 하에서 복원이 잘 되는지

Experimental results

  • 파트의 수를 정하는 것은 중요하다.
  • Landmark를 regression을 위한 분야가 아닌 이미지 합성을 하는 task에서는 영상을 진짜같이 만드는 것이 중요하므로 decoder에 adversarial loss를 추가한다. (real/fake 판단)


[Unsupervised landmark discovery]

picture


[사람의 Pose/appearance 디코딩 시각화(이미지)]

picture

  • Video-to-video translation
    • Temporal consistency constraint가 없는데도 불구하고 시간축으로 움직임이 부드러우며 강인하다.


[사람의 Pose/appearance 디코딩 시각화(비디오)]

picture


[사람의 일부 part만 변형 시각화]

picture

  • Re-identification 으로의 적용
    • Pretrained Inception-Net with [2] via triplet loss to Deep fashion DB
    • Test set도 deep fashion
    • VU-NET은 supervised 방식


[Re-Identification으로의 적용 결과]

picture


Comments

  • Image pair가 없어도 된다는점, unsupervised manner라는 점이 큰 장점

References

[1] Lorenz, Dominik, et al. “Unsupervised Part-Based Disentangling of Object Shape and Appearance.” arXiv preprint arXiv:1903.06946 (2019).

[2] T. Xiao, S. Li, B. Wang, L. Lin, and X. Wang. Joint detection and identification feature learning for person search. In CVPR. IEEE, 2017.