
논문을 읽게 된 계기 최근 vision과 NLP를 모두 활용한 논문들을 읽어보면서, vision 말고도 multimodal learning 에 관심이 생기게 되었다. 사실 multimodal 에 관심은 엔비디아에서 출시한 자비스(Jarvis) 프레임워크를 접하게 되면서 시작되었다. 자비스는 영화 아이언맨에 나오는 것처럼 대화형 AI 에이전트로, 텍스트나 음성으로 대화가 가능하다. 더 나아가, 사용자의 얼굴을 보면서 기분이 안좋아보이면 말을 걸어주거나 유머를 던지는 멀티모달 기술도 개발중이라고 한다. vision과 NLP를 모두 활용해 사람과 소통할 수 있는 인공지능 모델이 있다면 정말 좋을 것 같다는 생각을 하면서 vision과 NLP를 모두 공부해보고 싶다는 생각이 들었다..!! 이후 가장 처음 읽은 ..