출처: https://arxiv.org/pdf/2103.00020
History: CLIP -> BLIP -> BLIP2
지난 20년간, 텍스트와 이미지쌍을 이용하여 모델을 학습시킴으로써 콘텐츠 기반의 이미지 retrieval을 계산하는 것에 대해 많은 연구가 있어왔다.
Abstract
이제까지의 SOTA의 Computer vision 시스템들은 미리 정의된 카테고리의 데이터셋에 대해서 예측하도록 훈련되어 왔다. 이런 supervision방식은 generality와 usability를 한정짓게 된다. 다른 visual concept을 특정화지으려면 추가적인 라벨링된 데이터가 필요하기 때문이다. 이를 해결하기 위해, 이 논문에서는 어떠한 캡션이 어떠한 이미지에 붙여지는 지를 예측하는 간단한 사전 학습 task(웹상의 (image,text) 4억개의쌍을 이용)가 SOTA image representation을 학습하는데에 효과적이며 확장가능한 방법임을 보여준다.
사전 학습 후에, 자연어는 학습된 visual concept을 참고하는데 사용되어 downstream task로 zero-shot transfer 하는 것을 가능하게 한다. 이 논문에서는 이러한 접근법을 검증하기 위해 30개의 다른 datasets을 사용하였고 이를 이용하여 OCR, action recognition 등의 task로 확장이 가능하였다.
모델은 대부분의 task에 transfer가 가능했고 기존의 모델보다 때때로 나은 성능을 보여주기도 했다고 한다.
Introduction
질문: static softmax classifiers 을 사용하였는데 어떻게 무한개의 텍스트를 학습할 수 있지?
'Computer Vision > Computer Vision' 카테고리의 다른 글
how to deal with: "Missing or invalid credentials. fatal: Authentication failed for 'https://github.com/username/repo.git'" (0) | 2024.03.06 |
---|---|
how to recover my nvidia driver? (0) | 2024.02.22 |
[논문] Exploiting the Distortion-Semantic Interaction in Fisheye Data (0) | 2023.05.21 |
Optimization (0) | 2022.09.14 |
Least Squares Method (0) | 2022.09.13 |
댓글