- Today
- Total
목록Deep Learning/Vision (8)
작심삼일
Introduction Key Insight CNN과 transformer의 장점을 살리자! CNN local한 영역에서 강점을 가짐 Transformer Long-range의 관계를 잘 학습 함 Approach 이미지를 pixel 말고 codebook으로 나타내보자 Learning an Effective Codebook if Image Constituents for Us in Transformers 왜 Codebook을 사용하는가 이미지 영역에 Transformer 구조를 적용하려면, 이미지를 sequence형태로 나타내야 함 이미지 $x \in R^{H \times W \times 3}$ $\rightarrow$ codebook의 원소 $z_q \in R^{h \times w \times n_z}$들..
My Summary & Opinion Introduction Image impainting 문제를 풀기 위해서는 이미지를 잘 이해하고 잘 합성하는 것이 필요하다. Inpainting을 학습시킬때는 주로 real image를 자동으로 masking한 큰 데이터셋을 사용한다. 이미지의 global structure를 이해하기 위해서는 큰 receptive field가 필요하다. 하지만 convolutional architecture는 충분히 큰 receptive field를 가지지 못한다는 문제가 있다. 이런 문제를 해결한 모델인 LaMa를 소개한다. LaMa의 특징은 크게 세가지로 볼 수 있다. 1. Fast Fourier Convolution(FFC)를 사용했다. 2. 큰 receptive field를 ..
My Summary & Opinion 앞의 다른 게시물에서도 말했다싶이, 나는 classic한 방법들을 network에 녹여낸 연구들을 좋아한다. 어떤 의도를 가지고 이러한 구조를 만들었는지가 명확하고, 그 성능도 명확히 보이기 때문이다. 그래서 이 논문을 엄청 재밌게 읽었다. 이 논문에서는 network에서 non-local한 연산을 진행하기 위해 FFT를 이용했다. FFT를 해서 spectral domain으로 보내버리면 이미 그 자체로도 global하기 때문이다. 이처럼 FFC는 non-local할 뿐 아니라 one unit으로 구성되어있어, 기존의 모델들 안의 conv를 아무것도 수정하지 않고 FFC로 바꿀 수 있고, 성능 또한 더 좋아진다. Introduction Fast Fourier Conv..
My Summary & Opinion 요약: Object detection에 쓰이는 여러 방법들을 모두 사용해본 뒤, 제일 좋은 것들만 골라서 사용한 것이 YOLOv4다. 개인적으로 논문을 읽으면서 이것이 YOLOv4의 논문인지, 아니면 ojbect detection에 쓰이는 수많은 방법들을 정리한 summary paper인지 헷갈렸다. (나는 Simple is the best라고 생각하는 사람이라 ㅎㅎ) 이 논문이 arXiv에만 있는 것을 보면 저자가 학회에 제출하지 않았거나, 제출했지만 reject 된 것일텐데, 차라리 이런 것들로 실험해본 summary paper로 주제를 틀고, 더 자세히 적는 것이 어땠을까 하는 생각이 든다. Object detection에서 어떤 방법들이 사용되는지 대충 훑어보..
My Summary & Opinion 이 논문은 어투도 논문같지 않고 보고서같은 느낌이 강하다. 이전처럼 논문을 자세하게 쓰기보다는 간략한 정리만 쓰려고 한다. YOLOv3는 YOLOv2와 많은 것이 비슷하다. 이와 다른 점만 간단히 써보려고 한다. Class Prediction Softmax대신 binary cross-entropy loss를 사용하며 logistic classifier를 사용했다. "Woman"과 "Person"처럼 겹치는 의미가 존재할 때 softmax는 한가지 답만 내놓을 수 있지만, 새로운 방법처럼 학습하게 되면 multi-label에서 더 학습이 잘된다. Predictions Across Scales 3 different scale로 박스를 추측한다. 그래서 output ten..
My Summary & Opinion YOLOv1과 Faster RCNN의 여러 장단점을 결합하고 WordTree라는 hierarchy 구조를 사용해서 그 성능을 더 높였다. 아래 표 왼쪽에 있는 것들이 기존 YOLO에서 수정한 것이다. Batch Normalization Dropout 제거 & model regularize 더 잘하도록 High-resolution Classifier 448x448 크기로 학습 Convolution with Anchor Boxes 448x448 말고 416x416으로 학습 -> center cell이 하나만 존재하도록 Anchor box별로 class를 예측 Dimension Clusters K-means를 사용해 hand-picked box가 아닌 최적의 box를 사용..
My Summary & Opinion YOLO는 bounding box와 classification을 동시에 진행함으로써 그 속도를 매우 빠르게 했다. 또한 이미지 전체를 보고 판단하기 때문에 Fast R-CNN보다 background error가 적다. 왜냐하면 Fast R-CNN는 각 패치별로 classification을 진행하기 때문이다. YOLO의 단점은 명확하다. 박스별로 하나의 class만 예측하기 때문에 겹쳐 있는 물체는 잘 판단하지 못하고, Data에 없던 새로운 형태의 bounding box는 잘 예측하지 못한다. 그렇게 유명한 YOLO 논문을 이제서야 읽었는데, 왜이렇게 사람들이 열광했는지 알 것 같았다. Bounding box와 classification을 동시에 진행하는 아이디어가 ..
My Summary & Opinion Style transfer 영역을 처음 접하게 된 것이 이 CycleGAN이다. 원리는 간단하다. NLP에서 번역을 학습시킬 때 사용하는 것처럼 cycle 하게 학습시키는 것이다. 그 결과는 아래처럼 좋게 나온 것이 많았다. 하지만 예상하지 못한 결과가 나온 것도 많았는데, 이는 uncontrollable한 GAN의 특성도 반영된 것이고, Unpaired 한 데이터를 사용하기 때문에 우리의 생각과 다르게 학습 데이터의 특성을 뽑는 경우도 있었다. 데이터를 매우 다양하게 넣으면 해결될 문제지만, 항상 예외는 존재하기에 이를 해결한 논문을 읽어보고 싶다. Introduction 본 논문에서는, 한 이미지 모음에서의 특성을 뽑아 다른 이미지 모음에 적용시키는 방법을 소개한..