CineCap: Structured Reasoning with Spatio-Temporal Anchors for Cinematographic Video Captioning (opens in new tab)

Cinematographic captioning aims to describe how a video is filmed using professional film-language concepts such as camera movement, shot size, depth of field, composition, and shooting angle. This capability is important for fine-grained video understanding and controllable movie-quality video generation, yet remains underexplored in existing multimodal large language models. Unlike question-answering-based evaluation of cinematic understanding...

Read the original article