- Today
- Total
작심삼일
[STResNet 리뷰] Spatial-temporal residue network based in-loop filter for video coding (VCIP 17) 본문
[STResNet 리뷰] Spatial-temporal residue network based in-loop filter for video coding (VCIP 17)
yun_s 2021. 6. 8. 13:12My Summary & Opinion
Video codec 중 in-loop filter에 CNN을 좀 더 적절하게 가공해서 넣은 논문이다.
Video라는 데이터의 가장 큰 특징은 앞뒤 프레인의 연관성이 매우 크다는 것이다.
단순히 이미지를 압축할 때와 달리 영상은 앞뒤에 비슷한 프레임이 존재하기 때문에 이를 이용하면 압축 효율을 향상시킬 수 있다.
그렇기 때문에 이런 특성을 이용한 STResNet의 구조는 codec에 맞다고 생각한다.
Introduction
CNN은 image processing 분야 뿐 아니라 video compression 분야에서도 좋은 성능을 내고 있다.
본 논문에서는 HEVC inter coding을 위한 Spatial-Temporal residue network (STResNet) based in-loop filter를 제안한다.
Video coding에 사용되는 기존의 CNN-based filter(IFCNN, VRCNN)들과 달리 compressed frame의 quality를 높이기 위해 temporal information도 사용했다.
Spatial Temporal Residue Network
Network Structure
STResNet의 구조는 아래 그림과 같다.
STResNet은 input이 두 개인데, 하나는 현재 block이고 다른 하나는 이전 frame에 있는 현재 block의 co-located block이다.
이를 통해 temporal한 정보를 사용하게 된다.
그 후에 간단히 4 layer를 쌓았다.
STResNet in HEVC
STResNet은 SAO 뒤에 붙여서 사용했다.
$64 \times 64$ CTU를 filtering unit으로 삼음으로써 STResNet이 CTU와 co-located CTU를 이용하도록 했다.
STResNet의 사용 여부를 결정하는 것은 rate-distortion (R-D) optimization을 사용했다.
$J_1 = D_1 + \lambda R_1, J_2 = D_2 + \lambda R_2$
Network Training
DF와 SAO 모두 키고 실험을 진행했다.
MSE loss를 사용했다.
각각의 QP (QP 22, 27, 32, 37) 별로 따로 학습했다.
Experimental Results
Conclusion
본 논문에서는 STResNet based in-loop filter를 소개한다.
Temporal한 정보도 추가로 사용함으로써 성능을 더 높였다.
Reference
Jia, Chuanmin, et al. "Spatial-temporal residue network based in-loop filter for video coding." 2017 IEEE Visual Communications and Image Processing (VCIP). IEEE, 2017.