paper : https://arxiv.org/pdf/1711.10305.pdf Abstract Convolutional Neural Networks(CNN)은 이미지 분류 문제에서 powerful한 모델로 여겨져왔다. 몇 연구에서 비디오 데이터에 3D convolution을 수행하는 것이 spatial(공간)과 temporal(시간) 정보를 저장하는 것에 의미있는 것임을 보였다. 그러나 3D CNN을 수행하는 것은 연산량이 매우 많고 메모리가 많이 필요하다. 그래서 생길 수 있는 의문점은 다음과 같다. “3D CNN을 수행할때 2D network의 정보를 재사용하면 되지 않을까?” 해당 논문에서는 3 x 3 x 3 convolution을 1 x 3 x 3 convolution filter와 3 x 1 ..