[VRCNN 리뷰] A convolutional neural network approach for post-processing in HEVC intra coding (MMM 2017)

Notice

Recent Posts

Recent Comments

Today

Total

작심삼일

[VRCNN 리뷰] A convolutional neural network approach for post-processing in HEVC intra coding (MMM 2017) 본문

Deep Learning/Video

[VRCNN 리뷰] A convolutional neural network approach for post-processing in HEVC intra coding (MMM 2017)

yun_s 2021. 6. 3. 15:41

728x90

My Summary & Opinion

단순히 SRCNN을 HEVC에 적용했던 IFCNN 과 달리 VRCNN은 다양한 filter size를 가진 네트워크를 설계했다.

HEVC는 압축할 때 다양한 크기의 block을 사용하기 때문에 그 특성을 살리기 위해 다양한 filter size를 사용했다.

하지만 난 variable filter size를 사용한 것은 codec의 특성을 살린 것이 아니라 생각한다.

다양한 filter size를 사용하면 다양한 feature map을 뽑을 수 있기 때문에 단순히 codec에만 적용되는 것이 아니라 SR 문제에도 적용할 수 있다고 생각한다.

비교실험을 할 때 다른 마땅한 네트워크가 없었기 때문에 AR-CNN랑 비교했다고 생각하지만, 왜 IFCNN이랑 비교하지 않았는지 의문이고, SR을 위해 설계된 VDSR이랑은 왜 비교했는지 의문이다.

Introduction

HEVC는 SOTA인 비디오 코덱이고, CCN은 vision task에서 뛰어난 성능을 보이고 있다.

본 논문에서는 HEVC intra coding의 artifact를 줄이는 CNN을 제안한다.

CNN은 variable filter size를 가지도록 설계됐다.

Our Designed CNN

AR-CNN은 JPEG artifact를 없애기 위해 설계된 네트워크다.

먼저 AR-CNN을 설명하고 그 뒤에 제안하는 네트워크인 VRCNN을 설명하겠다.

1. AR-CNN

AR-CNN은 4층으로 이루어진 CNN이다.

Pooling layer와 FC layer 모두 없기 때문에 output은 input과 같은 크기가 될 수 있다.

2. VRCNN

AR-CNN은 JPEG에 맞춰 설계되었지만, 우리의 목표는 HEVC의 artifact를 줄이는 것이기 때문에 CNN 구조를 다르게 설계하고 VRCNN이라고 이름지었다.

이 구조는 아래 그림과 같다.

AR-CNN처럼 4층으로 이루어져있지만 차이점이 있다.

JPEG과 HEVC의 compression artifact의 원인은 quantization이다.

JPEG은 고정된 $8 \times 8$ DCT를 하지만 HEVC는 다양한 크기로 transform을 진행한다.

그렇기 때문에 다양한 크기의 필터를 사용했다.

Training and Using VRCNN

MSE loss를 사용했다.

HEVC에 VRCNN을 사용할 때 DF와 SAO는 껐다.

SAO와 달리 VRCNN은 추가 bit를 사용하지 않고서도 compression artifact를 줄일 수 있다.

Experimental Results

QP 22, 27, 32, 37에 대해 실험을 진행했고, 각각의 QP에 따라 각각의 네트워크를 사용했다.

Conclusion

HEVC intra coding에 post-process로 작용하는 CNN을 제안한다.

제안하는 네트워크인 VRCNN은 기존의 AR-CNN이나 VDSR보다 성능이 뛰어나다.

이제는 VRCNN을 HEVC inter coding까지 확장시킬 계획이다.

Reference

Dai, Yuanying, Dong Liu, and Feng Wu. "A convolutional neural network approach for post-processing in HEVC intra coding." International Conference on Multimedia Modeling. Springer, Cham, 2017.

728x90

'Deep Learning > Video' 카테고리의 다른 글

[C3D 리뷰] Learning Spatiotemporal Features with 3D Convolutional Networks (ICCV 15) (0)	2022.08.16
[content-aware CNN 리뷰] Content-Aware Convolutional Neural Network for In-Loop Filtering in High Efficiency Video Coding (ITIP 2019) (0)	2021.06.30
[STResNet 리뷰] Spatial-temporal residue network based in-loop filter for video coding (VCIP 17) (0)	2021.06.08
[IFCNN 리뷰] CNN-based in-loop filtering for coding efficiency improvement (IVMSP 16) (0)	2021.05.26