Semantic Segmentation/Transformer Baseline1 [논문] MobileViT : Light-Weight, General-Purpose, and Mobile-Friendly Vision Transformer Abstract [기존] CNN : de-facto for mobile tasks PROS : spatial inductive bias - 적은 파라미터 수로도 training 가능하였다. CONS : global representation을 학습하지 못함 - self-attention이 대두된 배경 논문에서 해결하고자 하는 논지 : CNN과 ViT의 강점들을 모두 합치면서도, light-weight하고 latency가 없는 네트워크를 만들 수 없을까? MobileViT Outperforms CNN based Networks Outperforms ViT based Networks ImageNet top-1 accuracy 3.2% more accurate than MobileNetV3 (CNN based.. 2022. 5. 9. 이전 1 다음