본문 바로가기

Computer Vision26

CLIP: Learning Transferable Visual Models From Natural Language Supervision 출처: https://arxiv.org/pdf/2103.00020History: CLIP -> BLIP -> BLIP2지난 20년간, 텍스트와 이미지쌍을 이용하여 모델을 학습시킴으로써 콘텐츠 기반의 이미지 retrieval을 계산하는 것에 대해 많은 연구가 있어왔다.  Abstract이제까지의 SOTA의 Computer vision 시스템들은 미리 정의된 카테고리의 데이터셋에 대해서 예측하도록 훈련되어 왔다. 이런 supervision방식은 generality와 usability를 한정짓게 된다. 다른 visual concept을 특정화지으려면 추가적인 라벨링된 데이터가 필요하기 때문이다. 이를 해결하기 위해, 이 논문에서는 어떠한 캡션이 어떠한 이미지에 붙여지는 지를 예측하는 간단한 사전 학습 task.. 2025. 3. 30.
ImageBind: One Embedding Space To Bind Them All 딥러닝 모델은 어떤 잠재공간에 데이터를 임베딩하는 함수로 볼 수 있다.- ImageBind는 6가지의 서로 다른 modality를 하나의 Joint Embedding space로 임베딩하는 모델이다.- Image, Video, Audio, Text, Thermal image, IMU, Depth를 Joint Embedding space에 임베딩하고 이를 활용해서 다양한 task를 수행한다.Cross-Modal RetrievalImageBind- Image-Paired 데이터들을 이용해 하나의 공통된 Representation Space를 학습한다.- 모델이 학습과정에서 보지 못한 모달리티 쌍들 간의 관계를 추론하는 emergent zero-shot task를 수행할 수 있다. 2024. 11. 21.
how to deal with: "Missing or invalid credentials. fatal: Authentication failed for 'https://github.com/username/repo.git'" Issue: when either "git push" or "git pull" Missing or invalid credentials. fatal: Authentication failed for 'https://github.com/username/repo.git' The problem occurred because of vscode error. I tried below and it went well. 1. Reloading the VSCode window (shift-control-P to open the Command Palette) 2. type in 'Developer: Reload Window' 3. press Enter. 2024. 3. 6.
how to recover my nvidia driver? Issue NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 1st attempt: try to remove nvidia driver sudo apt --purge remove *nvidia* Got this error Unmet dependencies. Try 'apt-get -f install' with no packages (or specify a solution) 2nd attempt: apt-get clean sudo apt-get clean sudo apt-get -f install && .. 2024. 2. 22.
[Multiple View Geometry] Single View Metrology 출처 : (4) 3D Computer Vision | Lecture 6 (Part 2): Single view metrology - YouTube Objective Compute the Homography Matrix which can map the image quadrilateral to a rectangle with the correct aspect ratio. Map the Source image to the Target image using the homography matrix. Implement Planar Mosaicing: Images acquired by a camera rotating about its center are related by a planar homography. For .. 2023. 7. 30.
[논문] D-NeRF: Neural Radiance Fields for Dynamic Scenes 출처 : https://arxiv.org/abs/2011.13961 D-NeRF: Neural Radiance Fields for Dynamic Scenes Neural rendering techniques combining machine learning with geometric reasoning have arisen as one of the most promising approaches for synthesizing novel views of a scene from a sparse set of images. Among these, stands out the Neural radiance fields (NeR arxiv.org D-NeRF는 NeRF 논문의 후속 논문으로써, 움직이는 Scene에서의 Vi.. 2023. 6. 18.