Abstract 대용량 스케일의 비디오 데이터 셋에 대하여 3-dimensional convolutional networks(3D ConvsNets)을 사용한 spatiotemporal feature learning을 하는 간단하지만 효과적인 방법을 제안한다. 세가지 Findings 3D ConvNets은 2D ConvNets에 비해 시공간 학습에 더 적합하다. 3D ConvNets을 수행할때 3 x 3 x 3 convolution kernel이 모든 레이어에서 가장 좋은 performance를 보임 C3D(Convolutional 3D)는 간단한 linear classifier으로 네가지 벤치마크에서의 state-of-the-art를 능가한다. 그리고 다른 두가지 벤치마크에서 가장 좋은 성능과 견줄 수..