🎭 Multimodal AI - zongyuzhang · Scour

Benchmarking Large Language Models for Safety Data Extraction

💡AI Reasoning Academic

Two Bridges, One Pathway: From VLMs to Generalizable VLAs with Embodied Trajectory-Coupled Data

👁️VLMs Academic

MultiToP: Learning to Patch Visual Tokens to Mitigate Hallucinations in Video Large Multimodal Models

👁️VLMs Academic

Explicit Representation Alignment for Multimodal Sentiment Analysis

👁️VLMs Academic

FreqKD: Frequency-Decoupled Cross-Modal Knowledge Distillation for Infrared Object Detection

👁️VLMs Academic

Do VLMs Reason Like Engineers? A Benchmark and a Stage-wise Evaluation

👁️VLMs Academic

Traits Run Deeper: Trait-Specific Asymmetric Fusion for Personality Assessment

🔓Open-source Models Academic

Decoding Pedestrian Crossing Intention from Egocentric Vision via Vision Language Models

👁️VLMs Academic

Textual Supervision Enhances Geospatial Representations in Vision-Language Models

👁️VLMs Academic

One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

👁️VLMs Academic

MSUE: Multi-Modal Soccer Understanding Expert

👁️VLMs Academic

MemoVAD: Resource-Efficient Video Anomaly Detection via Dynamic Semantic Memory in Edge Computing Scenarios

👁️VLMs Academic

Seeing Time: Benchmarking Chronological Reasoning and Shortcut Biases in Vision-Language Models

👁️VLMs Academic

DIRECT: When and Where Should You Allocate Test-Time Compute in Embodied Planners?

🖥️Inference Compute Academic

Vision Language Model Helps Private Information De-Identification in Vision Data

👁️VLMs Academic

Almieyar-Oryx-BloomBench: A Bilingual Multimodal Benchmark for Cognitively Informed Evaluation of Vision-Language Models

👁️VLMs Academic

AgenticNav: Zero-Shot Vision-and-Language Navigation as a Tool-Calling Harness

👁️VLMs Academic

Cross-Modal Benchmarking for Robotic Perception in Natural Environments

👁️VLMs Academic

Harnessing Streaming Video in the Wild

👁️VLMs Academic

LEVANTE-bench: Multi-Scale Comparison of VLMs to Children Using Cognitive Tasks (or, "Is Your VLM Smarter Than a 5th Grader?")

👁️VLMs Academic

Sign up or log in to see more results

Log in to enable infinite scrolling