한국 문화 이해부터 화면 조작까지: Kanana-V 기능 확장의 모든 것 (opens in new tab)

한국문화, 문서, 다중 이미지, 그리고 GUI까지 안녕하세요. 카카오의 AI 모델 개발을 담당하는 Daniel(김영준), Jayten(전재열), Wooner(이동진)입니다. 저희 팀은 텍스트와 이미지뿐만 아니라 음성까지 포함한 다양한 모달리티를 이해하고 답변하는 멀티모달 언어모델을 개발하고 있습니다. Vision Language Model(VLM)은 이미지와 텍스트를 함께 이해하는 멀티모달 AI의 핵심 기술로 자리잡고 있습니다. 하지만 실제 서비스 환경...