- Today
- Total
목록Deep Learning (32)
작심삼일
Introduction Key Insight CNN과 transformer의 장점을 살리자! CNN local한 영역에서 강점을 가짐 Transformer Long-range의 관계를 잘 학습 함 Approach 이미지를 pixel 말고 codebook으로 나타내보자 Learning an Effective Codebook if Image Constituents for Us in Transformers 왜 Codebook을 사용하는가 이미지 영역에 Transformer 구조를 적용하려면, 이미지를 sequence형태로 나타내야 함 이미지 $x \in R^{H \times W \times 3}$ $\rightarrow$ codebook의 원소 $z_q \in R^{h \times w \times n_z}$들..
Introduction LLM같은 큰 모델을 fine-tuning하는 것은 너무 expensive하다 근래에 사용하는 quantization 방법들은 아직 부족하다 inference단에서만 사용 가능 QLoRA 는 pre-trained model을 4-bit로 quantize하는 high-precision technique이다. QLoRA를 사용하면 큰 모델들을 GPU 단 한개로 fine-tuning할 수 있다. 주요 방법들 4-bit NormalFloat Normally distributed data에 딱 맞는 quantization용 data type DoubleQuantization Quantization constants를 quantization함으로써 메모리 감소 Paged Optimizer O..
My Summary & Opinion 3D conv를 효과적으로 잘 사용할 수 있는 구조를 실험적으로 알아냈다. 또한 많은 실험을 통해 3D conv가 어떻게 성능을 높이는 지 분석했다. 여러 가지를 실험을 통해 분석을 잘한 논문이라고 생각된다. Introduction 비디오를 다루는 모델은 여러 비디오에 잘 동작하기 위해 generic해야하며, 많은 비디오를 다루기 위해 compact해야하고, 많은 비디오를 빨리 다루기 위해 efficient해야하며, 사용하기 편하게 simple해야한다. 그동안은 image based deep featur를 사용했지만, motion modeling이 부족했기 때문에 video에는 적절하지 않았다. 그래서 우리는 spatio-temporal feature를 학습시킬 수 ..
My Summary & Opinion Introduction Image impainting 문제를 풀기 위해서는 이미지를 잘 이해하고 잘 합성하는 것이 필요하다. Inpainting을 학습시킬때는 주로 real image를 자동으로 masking한 큰 데이터셋을 사용한다. 이미지의 global structure를 이해하기 위해서는 큰 receptive field가 필요하다. 하지만 convolutional architecture는 충분히 큰 receptive field를 가지지 못한다는 문제가 있다. 이런 문제를 해결한 모델인 LaMa를 소개한다. LaMa의 특징은 크게 세가지로 볼 수 있다. 1. Fast Fourier Convolution(FFC)를 사용했다. 2. 큰 receptive field를 ..
My Summary & Opinion 앞의 다른 게시물에서도 말했다싶이, 나는 classic한 방법들을 network에 녹여낸 연구들을 좋아한다. 어떤 의도를 가지고 이러한 구조를 만들었는지가 명확하고, 그 성능도 명확히 보이기 때문이다. 그래서 이 논문을 엄청 재밌게 읽었다. 이 논문에서는 network에서 non-local한 연산을 진행하기 위해 FFT를 이용했다. FFT를 해서 spectral domain으로 보내버리면 이미 그 자체로도 global하기 때문이다. 이처럼 FFC는 non-local할 뿐 아니라 one unit으로 구성되어있어, 기존의 모델들 안의 conv를 아무것도 수정하지 않고 FFC로 바꿀 수 있고, 성능 또한 더 좋아진다. Introduction Fast Fourier Conv..
My Summary & Opinion 요약: Object detection에 쓰이는 여러 방법들을 모두 사용해본 뒤, 제일 좋은 것들만 골라서 사용한 것이 YOLOv4다. 개인적으로 논문을 읽으면서 이것이 YOLOv4의 논문인지, 아니면 ojbect detection에 쓰이는 수많은 방법들을 정리한 summary paper인지 헷갈렸다. (나는 Simple is the best라고 생각하는 사람이라 ㅎㅎ) 이 논문이 arXiv에만 있는 것을 보면 저자가 학회에 제출하지 않았거나, 제출했지만 reject 된 것일텐데, 차라리 이런 것들로 실험해본 summary paper로 주제를 틀고, 더 자세히 적는 것이 어땠을까 하는 생각이 든다. Object detection에서 어떤 방법들이 사용되는지 대충 훑어보..
My Summary & Opinion 이 논문은 어투도 논문같지 않고 보고서같은 느낌이 강하다. 이전처럼 논문을 자세하게 쓰기보다는 간략한 정리만 쓰려고 한다. YOLOv3는 YOLOv2와 많은 것이 비슷하다. 이와 다른 점만 간단히 써보려고 한다. Class Prediction Softmax대신 binary cross-entropy loss를 사용하며 logistic classifier를 사용했다. "Woman"과 "Person"처럼 겹치는 의미가 존재할 때 softmax는 한가지 답만 내놓을 수 있지만, 새로운 방법처럼 학습하게 되면 multi-label에서 더 학습이 잘된다. Predictions Across Scales 3 different scale로 박스를 추측한다. 그래서 output ten..
My Summary & Opinion YOLOv1과 Faster RCNN의 여러 장단점을 결합하고 WordTree라는 hierarchy 구조를 사용해서 그 성능을 더 높였다. 아래 표 왼쪽에 있는 것들이 기존 YOLO에서 수정한 것이다. Batch Normalization Dropout 제거 & model regularize 더 잘하도록 High-resolution Classifier 448x448 크기로 학습 Convolution with Anchor Boxes 448x448 말고 416x416으로 학습 -> center cell이 하나만 존재하도록 Anchor box별로 class를 예측 Dimension Clusters K-means를 사용해 hand-picked box가 아닌 최적의 box를 사용..