Computer Vision/Rendering
ImageBind: One Embedding Space To Bind Them All
sk_victoria
2024. 11. 21. 00:52
딥러닝 모델은 어떤 잠재공간에 데이터를 임베딩하는 함수로 볼 수 있다.
- ImageBind는 6가지의 서로 다른 modality를 하나의 Joint Embedding space로 임베딩하는 모델이다.
- Image, Video, Audio, Text, Thermal image, IMU, Depth를 Joint Embedding space에 임베딩하고 이를 활용해서 다양한 task를 수행한다.
Cross-Modal Retrieval
ImageBind
- Image-Paired 데이터들을 이용해 하나의 공통된 Representation Space를 학습한다.
- 모델이 학습과정에서 보지 못한 모달리티 쌍들 간의 관계를 추론하는 emergent zero-shot task를 수행할 수 있다.