👁️ VLMs - zongyuzhang · Scour

Task-Aligned Stability Analysis of Vision-Language Models for Autonomous Driving Hazard Detection

🎭Multimodal AI Academic

A Controlled Audit of Pretraining Contamination in Public Medical Vision-Language Benchmarks

🎭Multimodal AI Academic

Do VLMs Reason Like Engineers? A Benchmark and a Stage-wise Evaluation

🎭Multimodal AI Academic

Seeing Before Colliding: Anticipatory Safe RL with Frozen Vision-Language Models

🎭Multimodal AI Academic

Textual Supervision Enhances Geospatial Representations in Vision-Language Models

🎭Multimodal AI Academic

4DP-QA: Scalable QA for 4D Perception in Vision Language Models

🎭Multimodal AI Academic

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

🧠LLMs Academic

Noise-Aware Visual Representation Learning for Medical Visual Question Answering

🎭Multimodal AI Academic

AVIS: Adaptive Test-Time Scaling for Vision-Language Models

🖥️Inference Compute Academic

An Effective Router for Vision-Language Model Selection

🎭Multimodal AI Academic

Attention Consistent Longitudinal Medical Visual Question Answering Guided by Vision Foundation Models

🎭Multimodal AI Academic

Adapting Vision-Language Models from Iconic to Inclusive for Multi-Label Recognition Without Labels

🎭Multimodal AI Academic

A Dataset for Dynamic Human Preferences for Vision Language Models

🎭Multimodal AI Academic

From Prompts to Tokens: Internalizing Causal Supervision in Vision-Language Model for Multi-Image Causal Reasoning

🎭Multimodal AI Academic

MLingualFC: Evaluating Jailbreak Vulnerabilities in Multilingual Vision-Language Models

🎭Multimodal AI Academic

UltraVR: A Diagnostic Ultra-Resolution Image-VQA Benchmark for Evidence-Grounded Reasoning

🎭Multimodal AI Academic

UniReason-Med: A Shared Grounded Reasoning Interface for 2D-to-3D Transfer in Medical VQA

💡AI Reasoning Academic

Learnable Token Sparsification for Efficient Gigapixel Whole Slide Image Reasoning

🎭Multimodal AI Academic

Diagnosing Visual Ignorance in Vision-Language Models

🎭Multimodal AI Academic

The Last Visible Pixel: Probing Fine-Scale Perception in Vision-Language Models

🎭Multimodal AI Academic

Log in to enable infinite scrolling