작심삼일

Unpaired Image Super-Resolution using Pseudo-Supervision (CVPR 20) 본문

Deep Learning/Image Enhancement

Unpaired Image Super-Resolution using Pseudo-Supervision (CVPR 20)

yun_s 2021. 8. 20. 10:02
728x90
반응형

My Summary & Opinion

어느 순간부터 SR를 풀기 위한 네트워크들은, 네트워크의 구조를 바꾸기보다 획기적인 loss function을 사용해왔다. (MSE loss가 SR과 맞지 않는다는 것은 이미 널리 알려진 지 오래다.)

그러면서 점점 loss를 하나만 사용하는 것이 아닌, 여러 다양한 loss들을 합친 것이 더 뛰어난 성능을 보였고, 이 논문도 그중 하나다.

이 논문이 만든 새로운 loss는 cycle consistency loss와 geometric ensemble loss가 있다.

Cycle consistency loss는 CycleGAN의 one-to-one mapping으로 인한 한계를 뛰어넘기위해 만들어졌고, geometric ensemble loss는 flip과 rotation 된 input을 사용할 수 있도록 고안됐다.

Real-world SR에서 뛰어난 성능을 보였다는 것이 인상깊었다.

 

사실 이 논문을 하기 전에 CycleGAN부터 정리를 해야 했다는 생각이 들었다.

다음 논문은 CycleGAN으로 해야지 


Introduction

최근 여러 논문들은 blind SR이나 GAN처럼 HR-LR 이미지를 쌍으로 사용하지 않고 SR을 하는 방법을 연구하고 있다.

Blind SR은 arbitrary kernel로 만들어진 LR로부터 HR을 복원하는 것이다.

이런 논문들은 이 'blindness'를 bluring과 같은 한정된 방법으로만 사용했는데, 실제 LR은 이런 방법으로 생성되지 않는다.

이와 달리, GAN-based unpaired SR은 degradation 없이 LR과 HR을 mapping 하는 것을 학습한다.

Direct approach

Generator는 LR을 upscale 해서 HR discriminator를 속인다.

이 방법의 단점은, generator를 학습시킬 때 pixel-wise loss function을 사용할 수 없다는 것이다.

Paired SR 방법에서는 pixel-wise loss가 중요한 역할을 했다.

 

Indirect approach

Generator가 HR을 downsampling 해서 LR discriminator를 속였다.

이 방법의 단점은 실제 test 할 때의 성능이 학습할 때만큼 나오지 않는다는 것이다.

 

Our approach

위 두 가지 방법의 단점을 모두 극복하는 방법이다.


Related Work

Paired Image Super-Resolution

대부분 SR 연구들은 HR을 줄여서 만든 paired training dataset을 사용한다.

SRGAN, LapSRN 등이 있다.

 

Blind Image Super-Resolution

ZSSR, IKC 등이 있다. (이 부분은 내가 잘 살펴보지 않아서 현재는 잘 모른다. 앞으로 이쪽 분야도 봐야겠다.)

 

Unpaired Image Super-Resolution

CycleGan, DualGAN 등이 있다.


Proposed Method

우리의 목표는 unpaired training samples $x, y$를 이용해서 LR source domain과 HR target domain을 잇는 mapping $F_{XY}$를 학습하는 것이다.

$y_{\downarrow} (\in Y_{\downarrow})$: downscaled HR (with Gaussian blur & bicubic)

$G_{XY}$: mapping from $X$ to $Y_{\downarrow}$

$U_{XY}$: upscaling mapping from $Y_{\downarrow}$ to $Y$

 

 

Loss functions

1. Adversarial loss

두 generator, $G_{XY_{\downarrow}}, G_{Y_{\downarrow}X}$에 대해서 모두 adverserial loss를 사용했다.

본 논문에서는 두 generator들이 HR discriminator $D_{X_{\uparrow}}$를 이용해 optimize 한다.

 

2. Cycle consistency loss

CycleGAN은 cycle($X \rightarrow Y \rightarrow X$ and $Y \rightarrow X \rightarrow Y$)을 이용해야 하기 때문에 one-to-one mapping으로 학습된다.

우리는 이 한계를 극복하기 위해 cycle consistency를 한쪽에서만 사용하기로 했다.

$L_{cyc}(G_{Y_{\downarrow}X}, G_{XY_{\downarrow}}) = ||G_{XY_{\downarrow}}\circ G_{Y_{downarrow}X}(y_{\downarrow})-y_{\downarrow}||_1$

이렇게 cycle consistency를 한쪽에서만 사용하면, $G_{Y_{\downarrow}X}$는 one-to-many가 가능해진다.

 

3. Identity mapping loss

Identity mapping loss는 painting $\rightarrow$ photo를 할 때 색을 유지하기 위해 CycleGAN에서 처음 소개됐다.

같은 이유로 본 논문에서도 이 loss를 사용했다.

 

4. Geometric ensemble loss

Geometric consistency는 scene geometry를 유지하기 위해 사용됐다.

이에 영감 받아, input image를 flip 하고 rotation해도 그 결과를 바꾸지 않는 geometric ensemble loss를 고안했다.

$L_{geo}(G_{XY_{\downarrow}}) = ||G_{XY_{\downarrow}}(x) - \displaystyle \sum ^8 _{i=1}T_i^{-1} (G_{XY_{\downarrow}}(T_i(x)))/8||_1$

$\{T_i\}^8_{i=1}$: eight disticnt patterns of flip and rotation

 

Network Architecture

1. $G_{XY_{\downarrow}}$ and $U_{Y_{\downarrow}Y}$

$G_{XY_{\downarrow}}$와 $U_{Y_{\downarrow}Y}$는 RCAN-based로 만들었다.

RCAN은 residual groups(RGs) 10개로 만들어졌는데, 각 RG는 residual channel attention block(RCAB) 20개로 이루어져 있다.

우리가 사용한 $G_{XY_{\downarrow}}$와 $U_{Y_{\downarrow}Y}$는 10 RCAB로 이루어진 RG 5개를 사용했다.

 

2. $G_{Y_{\downarrow}X}$

$G_{Y_{\downarrow}X}$는 $5 \times 5$ 필터의 residual block과 $1 \times 1$ 필터의 fusion layers로 구성했다.

각 conv layer 뒤에는 BN과 LeakyReLU를 붙였다.

 

3.$D_X$, $D_{Y_{\downarrow}}$ and $D_{X_{\uparrow}}$

LR discriminator인 $D_X$와 $D_{Y_{\downarrow}}$는 stride를 1로 한 conv layer 5개로 구성했다.

제일 마지막 층 빼고 각 conv layer 뒤에는 LeakyReLU만 사용했다.

HR discriminator인 $D_{X_{\uparrow}}$도 같은 구조를 사용했지만, 처음 층의 stride만 2로 했다.


Experiments

Realistic distortion, synthetic distortion 등 다양한 분야에서 SOTA다.


Conclusion

Unpaired setting에서도 가능한 SR 네트워크를 제안한다.

제안하는 네트워크는 pseudo-clean LR 이미지를 생성해서 학습에 사용한다.

Real-world SR에서도 뛰어난 성능을 보인다.


Reference

Maeda, Shunta. "Unpaired image super-resolution using pseudo-supervision." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.

 

 

 

728x90
반응형
Comments