분류 전체보기

· 회고
때는 2022년 5월, 나는 4학년 1학기를 보내고 있었다. 중간고사가 끝날무렵 문득 "이번 방학에는 뭘 해야하지..?"라는 고민이 시작되었다. 올해가 끝나면 취업을 하던, 대학원을 가던 무엇이든 해야한다.. 졸업 시기가 가까워지니 이런 고민들이 하나씩 생기며 머리 속을 복잡하게 만들었다. 중간고사가 끝나자마자 열심히 구글링하며 여름방학때 할 수 있는 활동들을 찾았다. 먼저 대학원/기업 인턴들을 찾아보았다. 기업 인턴같은 경우 방학 2달동안만 할 수 있는 체험형 인턴이 매우 드물었다. 특히 내가 관심있는 AI 분야는 인턴조차 석사 이상의 학력을 요구했다. 구글링 중에 내 눈에 들어온 것이 바로 "구글 머신러닝 부트캠프"였다. 온라인으로 진행되며 코세라 강의를 듣고 자격증도 취득할 수 있다니!! 무엇보다 ..
최근에 VQA 논문에 대해 찾아보고 있었는데, VQA 분야가 발전된 흐름이나 최신 트렌드를 정리해놓은 글이 생각보다 적었다. 이것저것 조사하다 보니, 기록도 할겸 VQA 분야가 어떤 연구 트렌드로 변화했는지 정리해보았다. 그러고 보니 나는 Video Question Answering을 찾고 있었는데,, 일반적으로 부르는 VQA는 visual에 해당했다. 최근에는 video captioning, VQA, few-shot으로 Event prediction 까지 다양한 task를 다룰 수 있는 모델들이 나오고 있다. VQA 분야란? VQA는 말 그대로 "시각질의응답" 분야이다. Image와 Question을 동시에 입력받아서 Answer를 말하는 task이다. 아래 사진은 VQA를 검색하면 매우 많이 나오는 ..
논문을 읽게 된 계기 최근 vision과 NLP를 모두 활용한 논문들을 읽어보면서, vision 말고도 multimodal learning 에 관심이 생기게 되었다. 사실 multimodal 에 관심은 엔비디아에서 출시한 자비스(Jarvis) 프레임워크를 접하게 되면서 시작되었다. 자비스는 영화 아이언맨에 나오는 것처럼 대화형 AI 에이전트로, 텍스트나 음성으로 대화가 가능하다. 더 나아가, 사용자의 얼굴을 보면서 기분이 안좋아보이면 말을 걸어주거나 유머를 던지는 멀티모달 기술도 개발중이라고 한다. vision과 NLP를 모두 활용해 사람과 소통할 수 있는 인공지능 모델이 있다면 정말 좋을 것 같다는 생각을 하면서 vision과 NLP를 모두 공부해보고 싶다는 생각이 들었다..!! 이후 가장 처음 읽은 ..
kookie12
'분류 전체보기' 카테고리의 글 목록 (4 Page)