작심삼일

[STResNet 리뷰] Spatial-temporal residue network based in-loop filter for video coding (VCIP 17) 본문

Deep Learning/Video

[STResNet 리뷰] Spatial-temporal residue network based in-loop filter for video coding (VCIP 17)

yun_s 2021. 6. 8. 13:12
728x90
반응형

My Summary & Opinion

Video codec 중 in-loop filter에 CNN을 좀 더 적절하게 가공해서 넣은 논문이다.

Video라는 데이터의 가장 큰 특징은 앞뒤 프레인의 연관성이 매우 크다는 것이다.

단순히 이미지를 압축할 때와 달리 영상은 앞뒤에 비슷한 프레임이 존재하기 때문에 이를 이용하면 압축 효율을 향상시킬 수 있다.

그렇기 때문에 이런 특성을 이용한 STResNet의 구조는 codec에 맞다고 생각한다.


Introduction

CNN은 image processing 분야 뿐 아니라 video compression 분야에서도 좋은 성능을 내고 있다.

본 논문에서는 HEVC inter coding을 위한 Spatial-Temporal residue network (STResNet) based in-loop filter를 제안한다.

Video coding에 사용되는 기존의 CNN-based filter(IFCNN, VRCNN)들과 달리 compressed frame의 quality를 높이기 위해 temporal information도 사용했다.


Spatial Temporal Residue Network

Network Structure

STResNet의 구조는 아래 그림과 같다.

STResNet은 input이 두 개인데, 하나는 현재 block이고 다른 하나는 이전 frame에 있는 현재 block의 co-located block이다.

이를 통해 temporal한 정보를 사용하게 된다.

그 후에 간단히 4 layer를 쌓았다.

STResNet in HEVC

STResNet은 SAO 뒤에 붙여서 사용했다.

$64 \times 64$ CTU를 filtering unit으로 삼음으로써 STResNet이 CTU와 co-located CTU를 이용하도록 했다.

STResNet의 사용 여부를 결정하는 것은 rate-distortion (R-D) optimization을 사용했다.

$J_1  = D_1 + \lambda R_1, J_2 = D_2 + \lambda R_2$


Network Training

DF와 SAO 모두 키고 실험을 진행했다.

MSE loss를 사용했다.

각각의 QP (QP 22, 27, 32, 37) 별로 따로 학습했다.


Experimental Results


Conclusion

본 논문에서는 STResNet based in-loop filter를 소개한다.

Temporal한 정보도 추가로 사용함으로써 성능을 더 높였다.


Reference

Jia, Chuanmin, et al. "Spatial-temporal residue network based in-loop filter for video coding." 2017 IEEE Visual Communications and Image Processing (VCIP). IEEE, 2017.

728x90
반응형
Comments