CNN 논문

[논문 리뷰] X3D: Expanding Architectures for Efficient Video Recognition

green333 2022. 1. 5. 20:02
728x90
SMALL

paper : https://arxiv.org/pdf/2004.04730.pdf

Abstract

  • X3D는 tiny 2D 이미지 분류기를 여러가지 축에 따라 점진적으로 확장하는 것이다.
    • multiple network axes, in space, time, width and depth 등
  • 간단한 stepwise network expansion 방법이 적용되었다.
    • 한번의 step에 single axis를 확장
  • X3D를 구체적인 target complexity로 확장하기 위해 점직적인 forward expansion을 하고 이어서 backward contraction을 수행한다.
  • 가장 의미있는 발견은 high spatiotemporal resolution을 가진 네트워크가 폭과 매개변수 측에서 매우 가볍고, 잘 수행된다는 점이다.

Introduction

  • video recognition 영역에서 neural network는 주로 2D image architecture를 space time으로 확장하면서 수행된다.
  • 전형적으로 이러한 확장은 2D network로부터 temporal 축을 따라 수행된다.
  • 시간 축을 따라 확장하면 일반적으로 정확도는 증가하지만 연산량이 많다는 점에서 최선책이라고는 할 수 없다.
  • 본 논문은 연산량과 정확도의 trade-off 관계에서 low-computation에 초점을 맞춘다.
  • 디자인은 image recognition에서 개발된 mobile-regime을 베이스로 한다.
  • 핵심 아이디어는 시간 축이 아닌 다른 축을 확장하면서도 정확도가 빠르게 올라갈 수 있다는 것이다.
  • 본 논문에서 tiny한 image base의 2D 모델을 다양한 possible한 축을 따라 확장하면서 spatiotemporal로 확장한다.

  • 확장하는 과정은 architecture가 desired computational budget에 도달할때까지 반복된다.
  • 본 network는 depth, resolution, width를 확장하는 image ConvNet 디자인으로부터 영감을 받았다.
  • X3D는 small, medium, large로 complexity 정도에 따라 나뉜다.
  • 가장 놀라운 발견은 매우 시공간 해상도와 깊이만 확장하여 만들어진 매우 얇은 비디오 모델이 매우 가벼우면서도 우수한 성능을 발휘할 수 있다는 것이다.

Related Work

Spatiotemporal (3D) networks

  • 비디오 인식 architecture는 시간적 차원으로 이미지 분류 네트워크를 확장하고 공간 특성을 보존함으로써 설계된다.
  • SlowFast의 경우에는 Fast pathway를 얇게 하여 연산량을 줄일 수 있으나 isolation이 낮다.

X3D Networks

  • 비디오 architecture는 이미지 모델의 직접적인 temporal 확장에 기반했기 때문에 유사한 진전이 관찰되지 않았다.
  • “2D에서 3D로 확장할때, 고정된 축이 좋을까? 아니면 다른 축을 따라 확장하거나 축소하는 것이 좋을까?

Questions

  • 3D network에서 가장 좋은 temporal sampling strategy는 무엇일까
  • 짧은 지속시간 클립의 빠른 샘플링 VS 긴 입력 지속시간의 sparse한 샘플링
  • heavy한 layer를 가진 네트워크 VS light한 layer를 가진 네트워크
  • ResNet block에서 network width를 global하게 증가시키는 것 VS inner(bottleneck) width를 증가시키는 것

Basis instantiation

  • 시공간으로 확장되는 기준선의 역할을 하는 기본 네트워크 구조인 X2D를 설명하는 것으로 시작한다.
  • 기본 basis network는 ResNet구조와 single frame을 가진 SlowFast net의 Fast pathway 디자인을 따른다.

 

  • X2D는 single frame을 input으로 사용하면서 network width가 fast pathway와 비슷함으로 Slow pathway로 해석 될 수 있다.
  • image net 디자인을 따르는 전형적인 3D ConvNet보다 가볍다.
  • X2D가 6가지 축을 따라 확장된다.

Expansion operations

  • X-Fast : frame-rate를 증가시킴으로써 temporal activation size를 확장
  • X-Temporal : 긴 temporal clip을 샘플링하고 frame-rate를 증가시킴으로써 temporal size를 확장
  • X-Spatial : spatial sampling resolution을 확장
  • X-Depth : layer의 개수를 증가시킴으로써 network depth를 확장
  • X-Width : 모든 layer의 채널 수를 확장
  • X-Bottleneck : 각 residual block의 inner channel width를 확장

Expanded networks

  • accuracy/complexity trade-off 커브 on Kinetics-400

 

  • X2D부터 확장 시작
  1. 여러 후보 중 한가지 축을 확장하는 것은 정확도를 높인다.
  2. → multiple axes를 취하는 것에 대한 motivation이 된다.
  3. expansion algorithm에 의해 첫번째로 선택된 축은 temporal이 아니다.
  4. 첫번째 축이라고 예상했던 temporal axis는 두번째로 선택되었다.
  5. 세번째 단계는 spatial resolution을 높인다. 그리고 그래프에서 흥미로운 패턴을 보이기 시작한다. 그리고 깊이를 증가시킨다.

 


Result


Conclusion

  • 본 논문에서 소개된 X3D는 tiny spatial network에서 점진적으로 확장된 spatiotemporal 구조이다.
  • 여러가지의 candidate axis가 computation/accuracy trade-off 아래에서 확장에 사용되었다.
  • 놀라운 발견은 점진적 확장을 통해 얻은 얇은 channel dimension, high spatiotemporal resolution을 가진 네트워크가 video recognition에서 효과적일 수 있다는 것이다.
LIST