🖼️ Multimodal AI - tfriedel

🧠LLMs Academic

arxiv.org·

Task-Aligned Stability Analysis of Vision-Language Models for Autonomous Driving Hazard Detection

🏷️Label Noise Academic

arxiv.org·

ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China

🧠LLMs Academic

arxiv.org·

An Effective Router for Vision-Language Model Selection

🧠LLMs Academic

arxiv.org·

NVIDIA/cosmos: NVIDIA Cosmos is an open platform of world models, datasets, and tools that enables developers to build Physical AI for robots, autonomous vehicles, smart infrastructure, and more.

🔌MCP Code

github.com·

4DP-QA: Scalable QA for 4D Perception in Vision Language Models

🏷️Label Noise Academic

arxiv.org·

AVIS: Adaptive Test-Time Scaling for Vision-Language Models

✍️Prompt Engineering Academic

arxiv.org·

AgenticNav: Zero-Shot Vision-and-Language Navigation as a Tool-Calling Harness

🤖AI Agents Academic

arxiv.org·

APT: Action Expert Pretraining Improves Instruction Generalization of Vision-Language-Action Policies

📊OOD Detection Academic

arxiv.org·

A Controlled Audit of Pretraining Contamination in Public Medical Vision-Language Benchmarks

🏷️Label Noise Academic

arxiv.org·

Do VLMs Reason Like Engineers? A Benchmark and a Stage-wise Evaluation

✍️Prompt Engineering Academic

arxiv.org·

OpenMedReason: Scientific Reasoning Supervision for Medical Vision-Language Models

✍️Prompt Engineering Academic

arxiv.org·

Textual Supervision Enhances Geospatial Representations in Vision-Language Models

🧠LLMs Academic

arxiv.org·

MemoVAD: Resource-Efficient Video Anomaly Detection via Dynamic Semantic Memory in Edge Computing Scenarios

🏷️Label Noise Academic

arxiv.org·

From Prompts to Tokens: Internalizing Causal Supervision in Vision-Language Model for Multi-Image Causal Reasoning

🏷️Label Noise Academic

arxiv.org·

Are Reasoning Vision-Language Models Robust to Semantic Visual Distractions?

🏷️Label Noise Academic

arxiv.org·

OpenCV 5.0 Computer Vision Library Released with Rewritten DNN Engine

VL-DINO: Leveraging CLIP Vision-Language Knowledge for Open-Vocabulary Object Detectio

itsperini/viscribe: Image intelligence layer for AI agents

Seeing Before Colliding: Anticipatory Safe RL with Frozen Vision-Language Models

Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models

Task-Aligned Stability Analysis of Vision-Language Models for Autonomous Driving Hazard Detection

ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China

An Effective Router for Vision-Language Model Selection

NVIDIA/cosmos: NVIDIA Cosmos is an open platform of world models, datasets, and tools that enables developers to build Physical AI for robots, autonomous vehicles, smart infrastructure, and more.

4DP-QA: Scalable QA for 4D Perception in Vision Language Models

AVIS: Adaptive Test-Time Scaling for Vision-Language Models

AgenticNav: Zero-Shot Vision-and-Language Navigation as a Tool-Calling Harness

APT: Action Expert Pretraining Improves Instruction Generalization of Vision-Language-Action Policies

A Controlled Audit of Pretraining Contamination in Public Medical Vision-Language Benchmarks

Do VLMs Reason Like Engineers? A Benchmark and a Stage-wise Evaluation

OpenMedReason: Scientific Reasoning Supervision for Medical Vision-Language Models

Textual Supervision Enhances Geospatial Representations in Vision-Language Models

MemoVAD: Resource-Efficient Video Anomaly Detection via Dynamic Semantic Memory in Edge Computing Scenarios

From Prompts to Tokens: Internalizing Causal Supervision in Vision-Language Model for Multi-Image Causal Reasoning

Are Reasoning Vision-Language Models Robust to Semantic Visual Distractions?