👁️ Multimodal AI - nate_dkz · Scour

VL-DINO: Leveraging CLIP Vision-Language Knowledge for Open-Vocabulary Object Detectio

🎨Generative AI Academic

From Prompts to Tokens: Internalizing Causal Supervision in Vision-Language Model for Multi-Image Causal Reasoning

🎨Generative AI Academic

Decoding Pedestrian Crossing Intention from Egocentric Vision via Vision Language Models

🤖Large Language Models Academic

Diagnosing Visual Ignorance in Vision-Language Models

🧠LLM Academic

The Last Visible Pixel: Probing Fine-Scale Perception in Vision-Language Models

🧠LLM Academic

Vision Language Model Helps Private Information De-Identification in Vision Data

🎨Generative AI Academic

Almieyar-Oryx-BloomBench: A Bilingual Multimodal Benchmark for Cognitively Informed Evaluation of Vision-Language Models

🎨Generative AI Academic

OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

🤖AI Agents Academic

EasyLens: A Training-Free Plug-and-Play Subtle-Lesion Representation Amplifier for Medical Vision-Language Models

🎨Generative AI Academic

AgenticNav: Zero-Shot Vision-and-Language Navigation as a Tool-Calling Harness

🎨Generative AI Academic

Do VLMs Reason Like Engineers? A Benchmark and a Stage-wise Evaluation

💬Prompt Engineering Academic

PlanBench-V: A Spatial Planning Map Benchmark for Vision-Language Models

🤖ChatGPT Academic

CLASP: Language-Driven Robot Skill Selection and Composition using Task-Parameterized Learning

💬Prompt Engineering Academic

Adversarial Attacks Already Tell the Answer: Directional Bias-Guided Test-time Defense for Vision-Language Models

🎨Generative AI Academic

A Dataset for Dynamic Human Preferences for Vision Language Models

🧠LLM Academic

Harnessing Streaming Video in the Wild

🔍Feed Discovery Academic

Seeing Time: Benchmarking Chronological Reasoning and Shortcut Biases in Vision-Language Models

🎨Generative AI Academic

Do Vision-Language Models See or Guess? Measuring and Reducing Textual-Prior Reliance with a Phrasing-Controlled Benchmark

🧠LLM Academic

Do VLMs See What Sensors Feel? A Scalable Expert-Guided Design for Wheelchair Accessibility Assessment from Street View

🎨Generative AI Academic

Textual Supervision Enhances Geospatial Representations in Vision-Language Models

🧠LLM Academic

Log in to enable infinite scrolling