- Today
- Total
목록Deep Learning/Text-to-Speech (4)
작심삼일
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/BSAaG/btrleqc0aP4/1nbckkkUUsVWVpLOnVLsYK/img.png)
My Opinion Glow-TTS 이전의 TTS들, 예를 들면 Transformer TTS 등을 아직 읽어보지 않아서 정확한 차이점은 잘 모르겠다. 하지만 이 논문에서 강조하는 것을 보면, maximum likelihood를 그 자체로 활용해 학습에 사용했다는 사실과 aligmnemt를 잘 찾는다는 것이 Glow-TTS의 novelty일 것 같다. Introduction TTS는 입력 문장을 발화 음성으로 바꾸는 것이며, 딥러닝 기반 TTS가 좋은 성능을 보이고 있다. 본 논문에서는 flow-based generative model for parallel TTS인 Glow-TTS를 제안한다. Glow-TTS는 alignment를 학습한다. Flow와 dynamic programming의 특징을 살려서 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/xbzys/btrkoGnGyb4/hEOZrpqwQF0DboURZowqI0/img.png)
My Opinion TTS에서는 주로 text → mel, mel → wav의 두 단계로 나눠서 발화 음성을 생성한다. 물론 그동안 end-to-end 모델이 없던 것은 아니지만, 그 성능이 두단계로 이루어진 모델들보다 좋지 않았다. 하지만 이번에 발표된 VITS는 그 성능이 더 뛰어나, 거의 현재까지의 SOTA로 보인다. 이 모델은 Glow-TTS와 HiFi-GAN을 동시에 학습시킨 모델이라고 볼 수 있다. 이 전까지 이런 시도를 해본 사람이 없던 것은 아닐테니, 이렇게 안정적으로 학습을 시켜서 성능이 뛰어난 end-to-end 모델을 만든 것이 이 논문의 novelty다. Glow-TTS, HiFi-GAN과의 다른점을 본다면, MAS를 그대로 사용할 수 없기 때문에 ELBO를 최대화하는 방식으로 MA..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bAyld4/btrh6Jm4r0G/ykITYU0fSNFRB06sbz59M1/img.png)
My Opinion TTS 쪽 논문 중 하나인 HiFi-GAN을 읽다가, HiFi-GAN의 구조 중 하나가 MelGAN을 따라 했다는 부분을 보고 MelGAN을 읽게 되었다. MelGAN 이전의 논문을 읽지않아서 이 논문의 novelty가 뭔지는 잘 모르겠지만, mel-spectrogram에서 audio를 만드는 이 분야에서 GAN을 처음으로 적용했다 하니, 그것이 이 논문의 novelty가 아닐까 싶다. Discriminator에서 multi-scale 구조를 사용했는데, 이것이 vision 쪽의 Laplacian Pyramid와 비슷한 개념인 것 같다. 그렇다면 왜 3단계만 사용했는지에 따른 궁금증이 온다. 파라미터수와 그 성능 사이의 trade off에 관한 실험이 있었다면 더 좋았을 것 같다. I..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/vYImh/btrhzsAvkhn/FWRNzwhJ2f0iaFvun1adK1/img.png)
My Opinion 발화 음성이 다양한 주기의 신호로 이루어져 있기 때문에 discriminator를 여러 개의 sub-discriminator로 구성했다. Generator는 MRF, discriminator는 MPD와 MSD로 이루어져 있다.또한, 성능을 높이기위해 3종류의 loss를 사용했다. (GAN loss, Mel-spectrogram loss, Feature Matching loss)이 loss들은 자주 사용되는 loss인데도 불구하고 21년이 된 지금까지, 20년에 만들어진 이 HiFI-GAN보다 성능이 좋은 모델이 없다는 것이 대단하다. 그 이유는 아마 discriminator를 sub-discriminators로 만든 것에 있지 않을까 싶다. Introduction 최근 neural n..