👁️ VLMs - zongyuzhang · Scour

Personal AI Agent for Camera Roll VQA

🕵️AI Agents Academic

Less-relevant results

World Model Self-Distillation: Training World Models to Solve General Tasks

🎭Multimodal AI Academic

Readable Yet Unpredictable: Rotated-Outcome Prediction in Vision-Language Models

🎭Multimodal AI Academic

ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China

🎭Multimodal AI Academic

GP-Adapter: Gaussian Process CLIP-Adapter for Few-Shot Out-of-Distribution Detection

🎭Multimodal AI Academic

Are Reasoning Vision-Language Models Robust to Semantic Visual Distractions?

🎭Multimodal AI Academic

Adversarial Attacks Already Tell the Answer: Directional Bias-Guided Test-time Defense for Vision-Language Models

🎭Multimodal AI Academic

Aligned but Not Partner-Specific: Distinguishing How Multimodal LLM Agents Succeed in Reference Games Without Human-Like Conventions

🔧Tool Use Academic

SS-TPT: Stability and Suitability-Guided Test-Time Prompt Tuning for Adversarially Robust Vision-Language Models

🎭Multimodal AI Academic

VQA for Dynamic Portfolio Optimization: Sampling Strategies, Optimizer Scheduling, and Hardware-Aware Ansatz Design

⚡Quantization Academic

APT: Action Expert Pretraining Improves Instruction Generalization of Vision-Language-Action Policies

🎭Multimodal AI Academic

Do Vision-Language Models See or Guess? Measuring and Reducing Textual-Prior Reliance with a Phrasing-Controlled Benchmark

🎭Multimodal AI Academic

TEVI: Text-Conditioned Editing of Visual Representations via Sparse Autoencoders for Improved Vision-Language Alignment

🎭Multimodal AI Academic

ProcessThinker: Enhancing Multi-modal Large Language Models Reasoning via Rollout-based Process Reward

💡AI Reasoning Academic

FADA: Accessible fetal ultrasound interpretation and annotation with a selectively distilled unified vision-language model

🎭Multimodal AI Academic

When CLIP Sees More, It Fights Back Harder: Multi-View Guided Adaptive Counterattacks for Test-Time Adversarial Robustness

🎭Multimodal AI Academic

Steer Where It Matters: Token-Level Visual-Sensitivity Steering for LVLMs Hallucination Mitigation

🎭Multimodal AI Academic

DIRECT: When and Where Should You Allocate Test-Time Compute in Embodied Planners?

🖥️Inference Compute Academic

SD-GRPO: Verifiable Segment Decomposition for Long-Form Vision-Language Generation

🧠LLMs Academic

UNIVID: Unified Vision-Language Model for Video Moderation

🎭Multimodal AI Academic

Sign up or log in to see more results

Log in to enable infinite scrolling