Paper/Multimodal Learning

VQA: Visual Question Answering - Computer Vision & NLP 분야에 대해

2022.09.09· Paper/Multimodal Learning

최근에 VQA 논문에 대해 찾아보고 있었는데, VQA 분야가 발전된 흐름이나 최신 트렌드를 정리해놓은 글이 생각보다 적었다. 이것저것 조사하다 보니, 기록도 할겸 VQA 분야가 어떤 연구 트렌드로 변화했는지 정리해보았다. 그러고 보니 나는 Video Question Answering을 찾고 있었는데,, 일반적으로 부르는 VQA는 visual에 해당했다. 최근에는 video captioning, VQA, few-shot으로 Event prediction 까지 다양한 task를 다룰 수 있는 모델들이 나오고 있다. VQA 분야란? VQA는 말 그대로 "시각질의응답" 분야이다. Image와 Question을 동시에 입력받아서 Answer를 말하는 task이다. 아래 사진은 VQA를 검색하면 매우 많이 나오는 ..

[논문] CLIP : Learning transferable visual models from natural language supervision

2022.08.08· Paper/Multimodal Learning

논문을 읽게 된 계기 최근 vision과 NLP를 모두 활용한 논문들을 읽어보면서, vision 말고도 multimodal learning 에 관심이 생기게 되었다. 사실 multimodal 에 관심은 엔비디아에서 출시한 자비스(Jarvis) 프레임워크를 접하게 되면서 시작되었다. 자비스는 영화 아이언맨에 나오는 것처럼 대화형 AI 에이전트로, 텍스트나 음성으로 대화가 가능하다. 더 나아가, 사용자의 얼굴을 보면서 기분이 안좋아보이면 말을 걸어주거나 유머를 던지는 멀티모달 기술도 개발중이라고 한다. vision과 NLP를 모두 활용해 사람과 소통할 수 있는 인공지능 모델이 있다면 정말 좋을 것 같다는 생각을 하면서 vision과 NLP를 모두 공부해보고 싶다는 생각이 들었다..!! 이후 가장 처음 읽은 ..

티스토리툴바