- Today
- Total
목록Deep Learning (32)
작심삼일

My Summary & Opinion YOLO는 bounding box와 classification을 동시에 진행함으로써 그 속도를 매우 빠르게 했다. 또한 이미지 전체를 보고 판단하기 때문에 Fast R-CNN보다 background error가 적다. 왜냐하면 Fast R-CNN는 각 패치별로 classification을 진행하기 때문이다. YOLO의 단점은 명확하다. 박스별로 하나의 class만 예측하기 때문에 겹쳐 있는 물체는 잘 판단하지 못하고, Data에 없던 새로운 형태의 bounding box는 잘 예측하지 못한다. 그렇게 유명한 YOLO 논문을 이제서야 읽었는데, 왜이렇게 사람들이 열광했는지 알 것 같았다. Bounding box와 classification을 동시에 진행하는 아이디어가 ..

My Opinion Glow-TTS 이전의 TTS들, 예를 들면 Transformer TTS 등을 아직 읽어보지 않아서 정확한 차이점은 잘 모르겠다. 하지만 이 논문에서 강조하는 것을 보면, maximum likelihood를 그 자체로 활용해 학습에 사용했다는 사실과 aligmnemt를 잘 찾는다는 것이 Glow-TTS의 novelty일 것 같다. Introduction TTS는 입력 문장을 발화 음성으로 바꾸는 것이며, 딥러닝 기반 TTS가 좋은 성능을 보이고 있다. 본 논문에서는 flow-based generative model for parallel TTS인 Glow-TTS를 제안한다. Glow-TTS는 alignment를 학습한다. Flow와 dynamic programming의 특징을 살려서 ..

My Opinion TTS에서는 주로 text → mel, mel → wav의 두 단계로 나눠서 발화 음성을 생성한다. 물론 그동안 end-to-end 모델이 없던 것은 아니지만, 그 성능이 두단계로 이루어진 모델들보다 좋지 않았다. 하지만 이번에 발표된 VITS는 그 성능이 더 뛰어나, 거의 현재까지의 SOTA로 보인다. 이 모델은 Glow-TTS와 HiFi-GAN을 동시에 학습시킨 모델이라고 볼 수 있다. 이 전까지 이런 시도를 해본 사람이 없던 것은 아닐테니, 이렇게 안정적으로 학습을 시켜서 성능이 뛰어난 end-to-end 모델을 만든 것이 이 논문의 novelty다. Glow-TTS, HiFi-GAN과의 다른점을 본다면, MAS를 그대로 사용할 수 없기 때문에 ELBO를 최대화하는 방식으로 MA..

My Opinion TTS 쪽 논문 중 하나인 HiFi-GAN을 읽다가, HiFi-GAN의 구조 중 하나가 MelGAN을 따라 했다는 부분을 보고 MelGAN을 읽게 되었다. MelGAN 이전의 논문을 읽지않아서 이 논문의 novelty가 뭔지는 잘 모르겠지만, mel-spectrogram에서 audio를 만드는 이 분야에서 GAN을 처음으로 적용했다 하니, 그것이 이 논문의 novelty가 아닐까 싶다. Discriminator에서 multi-scale 구조를 사용했는데, 이것이 vision 쪽의 Laplacian Pyramid와 비슷한 개념인 것 같다. 그렇다면 왜 3단계만 사용했는지에 따른 궁금증이 온다. 파라미터수와 그 성능 사이의 trade off에 관한 실험이 있었다면 더 좋았을 것 같다. I..

My Opinion 발화 음성이 다양한 주기의 신호로 이루어져 있기 때문에 discriminator를 여러 개의 sub-discriminator로 구성했다. Generator는 MRF, discriminator는 MPD와 MSD로 이루어져 있다.또한, 성능을 높이기위해 3종류의 loss를 사용했다. (GAN loss, Mel-spectrogram loss, Feature Matching loss)이 loss들은 자주 사용되는 loss인데도 불구하고 21년이 된 지금까지, 20년에 만들어진 이 HiFI-GAN보다 성능이 좋은 모델이 없다는 것이 대단하다. 그 이유는 아마 discriminator를 sub-discriminators로 만든 것에 있지 않을까 싶다. Introduction 최근 neural n..

My Summary & Opinion Style transfer 영역을 처음 접하게 된 것이 이 CycleGAN이다. 원리는 간단하다. NLP에서 번역을 학습시킬 때 사용하는 것처럼 cycle 하게 학습시키는 것이다. 그 결과는 아래처럼 좋게 나온 것이 많았다. 하지만 예상하지 못한 결과가 나온 것도 많았는데, 이는 uncontrollable한 GAN의 특성도 반영된 것이고, Unpaired 한 데이터를 사용하기 때문에 우리의 생각과 다르게 학습 데이터의 특성을 뽑는 경우도 있었다. 데이터를 매우 다양하게 넣으면 해결될 문제지만, 항상 예외는 존재하기에 이를 해결한 논문을 읽어보고 싶다. Introduction 본 논문에서는, 한 이미지 모음에서의 특성을 뽑아 다른 이미지 모음에 적용시키는 방법을 소개한..

My Summary & Opinion 어느 순간부터 SR를 풀기 위한 네트워크들은, 네트워크의 구조를 바꾸기보다 획기적인 loss function을 사용해왔다. (MSE loss가 SR과 맞지 않는다는 것은 이미 널리 알려진 지 오래다.) 그러면서 점점 loss를 하나만 사용하는 것이 아닌, 여러 다양한 loss들을 합친 것이 더 뛰어난 성능을 보였고, 이 논문도 그중 하나다. 이 논문이 만든 새로운 loss는 cycle consistency loss와 geometric ensemble loss가 있다. Cycle consistency loss는 CycleGAN의 one-to-one mapping으로 인한 한계를 뛰어넘기위해 만들어졌고, geometric ensemble loss는 flip과 rotati..

My Summary & Opinion Gaussian denoising을 기반으로 해서 만든 모델은 처음이라 새로웠다. 다른 모델들처럼 단순히 층만 더 쌓았지만, 이를 수식적으로 풀어내 gaussian denoising으로 이해한 점이 흥미로웠다. 또한, 단순히 SISR뿐 아니라 JPEG artifact 제거도 잘 된다는 점이 흥미로웠는데, 이 둘의 artifact는 특성이 좀 다르기 때문이다. Introduction Image denoising은 오래됐지만 아직도 활발하게 연구되는 주제다. 대부분의 denoising 방법들은 두가지의 큰 단점이 있는데, 첫째는 복잡한 optimization 문제라는 것이고, 둘째는 non-convex하다는 것이다. 이런 문제를 극복하기 위해 다양한 방법들이 연구되었지만..