让大模型从“一问一答”走向“边看边说”,京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction (opens in new tab)
IT之家 6 月 22 日消息,京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,这也是全球首个全栈开源的 interaction 模型和系统,并获得 vLLM-Omni 的 day-0 原生支持。官方表示,它让大模型从“一问一答”走向“边看边说”,开发者基于这套框架,可以快速搭建能持续观察、自主判断、即时响应的实景 AI 助手。据介绍,相比传统模型,JoyAI-VL-Interaction 有三重突破:主动判断,而非被动回答:传统模型通常要等用户发起问题,才开始处理当前画面,而 JoyAI-VL-Interaction 可以持续观察视频流,自主判断什么时候该说话,什么时候该沉默。实时响应,而非事后总结:传统视频理解更多是上传完整视频后再分析,但在安防预警、实时翻译、直播解说、操作指导等场景里,晚几秒,体验和价值都会不同。JoyAI-VL-Interaction 面向正在发生的视频流,画面变化时就能响应。适时智能体委托,同时保持观察和交互:JoyAI-VL-Interaction 具备后台任务委派能力与相关机制。当模型遇到生成代码、调用工具、复杂...
Read the original article