ImageBind: One Embedding Space To Bind Them All

sk_victoria 2024. 11. 21. 00:52

딥러닝 모델은 어떤 잠재공간에 데이터를 임베딩하는 함수로 볼 수 있다.

- ImageBind는 6가지의 서로 다른 modality를 하나의 Joint Embedding space로 임베딩하는 모델이다.
- Image, Video, Audio, Text, Thermal image, IMU, Depth를 Joint Embedding space에 임베딩하고 이를 활용해서 다양한 task를 수행한다.

Cross-Modal Retrieval

ImageBind
- Image-Paired 데이터들을 이용해 하나의 공통된 Representation Space를 학습한다.
- 모델이 학습과정에서 보지 못한 모달리티 쌍들 간의 관계를 추론하는 emergent zero-shot task를 수행할 수 있다.

저작자표시 비영리 변경금지 (새창열림)