- Today
- Total
목록Deep Learning (32)
작심삼일
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/c5c5wL/btraaxHfb1n/zRZAUOhBSg86ZvhQ9PBGZ0/img.png)
My Summary & Opinion 이맘때의 논문들은 다양한 형태로 residual을 사용하는 방식들이 많았다. DRRN도 그 중 하나다. 이 residual unit 구조를 찾기 위해 많은 실험들을 했을 것이고, 그 중 하나로 이 구조가 뽑혔을 것이라 짐작된다.성능이 뛰어나고, 깊이가 깊어도 안정적으로 학습이 된다는 것이 이 모델의 장점이라고 생각한다. Introduction SISR는 LR로부터 HR를 만드는 오래된 vision problem이다. 요즈음 powerful한 Deep Learning(DL) 모델들, 특히 CNN 이 주로 쓰였다. 여러 모델들을 살펴보면 SR에서는 "the deeper the better"이다. 그 성능은 뛰어나지만, 깊은 네트워크는 많은 파라미터들이 필요하다. Comp..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/TiMV7/btq84KPI82t/WZKzyiM4LnENIghgle5PkK/img.png)
My Summary & Opinion Vision 분야에 Deep learning이 사용되기 전에는 알고리즘적인 다양한 방법들이 존재했다. Laplacian pyramid가 그중 하나이다. 이전까지의 CNN 모델들은 단순히 층을 쌓는 등의 network 단에서의 성능 향상을 꾀했다면, 이 논문은 Laplacian pyramid의 구조를 본떠서 네트워크 구조를 설계했다. 영상처리를 전공한 입장에서는 친숙한 구조를 네트워크에 녹여냈다는 사실에 반가운 논문이었고, 이런 식으로 다른 vision 알고리즘을 적용하는 논문들이 앞으로 나올 것이라 예상된다. Introduction 딥러닝을 사용해 SR을 하기 위해 SRCNN이 나왔고, 더 깊은 네트워크를 쌓는 등의 방식으로 발전해왔다. 하지만 이런 방법들은 크게 세..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cmQlCQ/btq8rXBpkM4/K5B0VSMS2axVdAsJtLKPM1/img.png)
My Summary & Opinion Introduction Block-based 압축 방식은 JPEG, H.264/AVC, HEVC 등 다양한 이미지/비디오 압축 표준으로 쓰이고 있다. 하지만 block-based prediction과 quantization은 block 경계에서의 불연속성, high frequency detail들의 삭제 등 많은 문제가 있는데, 이 것을 해결하기 위해 in-loop filtering이 쓰이고 있다. Deep learning이 발전함에 따라 image restoration이나 denoising에 많이 사용되고 있다. 본 논문에서는 multiple CNN model들을 사용한 content-aware in-loop filter를 소개한다. 본 논문의 contributio..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/tNH4Q/btq6My4tKZX/veRKl6tcbiifCg9cjsZp7K/img.png)
My Summary & Opinion Video codec 중 in-loop filter에 CNN을 좀 더 적절하게 가공해서 넣은 논문이다. Video라는 데이터의 가장 큰 특징은 앞뒤 프레인의 연관성이 매우 크다는 것이다. 단순히 이미지를 압축할 때와 달리 영상은 앞뒤에 비슷한 프레임이 존재하기 때문에 이를 이용하면 압축 효율을 향상시킬 수 있다. 그렇기 때문에 이런 특성을 이용한 STResNet의 구조는 codec에 맞다고 생각한다. Introduction CNN은 image processing 분야 뿐 아니라 video compression 분야에서도 좋은 성능을 내고 있다. 본 논문에서는 HEVC inter coding을 위한 Spatial-Temporal residue network (STRes..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/xG5l7/btq6qoPt8Ev/W2NsruIXHKYMMXpopOd7m1/img.png)
My Summary & Opinion 단순히 SRCNN을 HEVC에 적용했던 IFCNN 과 달리 VRCNN은 다양한 filter size를 가진 네트워크를 설계했다. HEVC는 압축할 때 다양한 크기의 block을 사용하기 때문에 그 특성을 살리기 위해 다양한 filter size를 사용했다. 하지만 난 variable filter size를 사용한 것은 codec의 특성을 살린 것이 아니라 생각한다. 다양한 filter size를 사용하면 다양한 feature map을 뽑을 수 있기 때문에 단순히 codec에만 적용되는 것이 아니라 SR 문제에도 적용할 수 있다고 생각한다. 비교실험을 할 때 다른 마땅한 네트워크가 없었기 때문에 AR-CNN랑 비교했다고 생각하지만, 왜 IFCNN이랑 비교하지 않았는지 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/EqZgr/btq5L4QJ2mA/h4j4FCkWnNs1BsfXgSr8C1/img.png)
My Summary & Opinion 비디오 코덱의 In-loop 부분을 deep learning으로 대체한, SRCNN와 같이 전형적인 깃발 꼽기 논문이라고 생각된다. SRCNN을 그대로 가져와 SAO를 대체했다. 실험도 작은 크기의 영상에 적용한 결과만 있기 때문에 큰 영상에서는 어떻게 나올 지 궁금하다. AI 모드에서 성능이 제일 뛰어난 것은, SRCNN 자체가 SR 문제를 풀기위해 고안된 모델인데, AI 모드에는 IFCNN이 post-processing으로 들어가 또 다른 SR 문제라고 볼 수 있기 때문이라고 생각된다. Introduction HEVC는 blocking artifacts, ringing artifacts, blurring artifacts를 없애기 위해 in-loop filteri..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/HGnVW/btq5og49IRU/d23lxDWFFEeRA74cbWyFu0/img.png)
My Summary & Opinion 이 논문에서 제일 맘에 드는 점은 이름이 직관적이라는 점이다. Squeeze-and-Excitation이라는 이름을 보면 누구나 이것이 어떻게 작동하는지 와닿을 것이다. Squeeze 하는 부분은 핵심 feature들만 남기는 역할을 하고, Excitation은 그 핵심 feature들의 channel-wise dependency를 사용할 수 있게 하는 역할을 한다. 그 이후에 원래 크기로 다시 rescaling을 진행한다. SE block에서 제일 중요한 부분은 Excitation 부분이라고 생각한다.핵심 feature들을 뽑는 것은 쉽지만, 그것들을 어떻게 사용하느냐에 따라서 성능이 많이 달라지기 때문이다. 그리고 다른 네트워크들에 쉽게 적용할 수 있는 점이 SE..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/vjWLd/btq4spaUpO9/hl5MQke5J2VU2VGRNyiyqk/img.png)
My Summary & Opinion PSNR에 의구심을 갖고 진행되는 연구가 많고, EnhanceNet도 그중 하나다. 기존의 Euclidean loss를 사용해 학습한 네트워크로는 PSNR 기준으로 SOTA를 찍었고, photo-realistic한 이미지를 만들기 위해 adversarial training, perceptual loss, texture transfer loss를 이용했다. Adversarial training과 perceptual loss는 이전의 SRGAN에서 사용했으니 texture transfer loss가 이 논문의 핵심이 되겠다. Texture transfer loss가 style transfer에서 사용되는 loss라는데, 그 영역에 대한 공부는 하지 않았지만, 수식을 보니..