🖼️ Multimodal AI - tfriedel · Scour

World Model Self-Distillation: Training World Models to Solve General Tasks

🛰️Geospatial AI Academic

One Stone, Three Birds: Self-adaptive Optimal Transport for Multi-VLM Selection, Adaptation, and Ensembling

🛰️Geospatial AI Academic

GP-Adapter: Gaussian Process CLIP-Adapter for Few-Shot Out-of-Distribution Detection

📊OOD Detection Academic

Latent World Recovery for Multimodal Learning with Missing Modalities

🏷️Label Noise Academic

Two Bridges, One Pathway: From VLMs to Generalizable VLAs with Embodied Trajectory-Coupled Data

📊OOD Detection Academic

Information-Theoretic Decomposition for Multimodal Interaction Learning

🔍Fine-Grained Classification Academic

MLingualFC: Evaluating Jailbreak Vulnerabilities in Multilingual Vision-Language Models

🧠LLMs Academic

Diagnosing Visual Ignorance in Vision-Language Models

🏷️Label Noise Academic

Metadata-Aware Multi-Prompt Reasoning for Zero-Shot Accident Understanding

✍️Prompt Engineering Academic

CLASP: Language-Driven Robot Skill Selection and Composition using Task-Parameterized Learning

✍️Prompt Engineering Academic

UltraVR: A Diagnostic Ultra-Resolution Image-VQA Benchmark for Evidence-Grounded Reasoning

🛰️Geospatial AI Academic

Parameter-Efficient Adapter Tuning for Tabular-Image Multimodal Learning

🔍Fine-Grained Classification Academic

The Last Visible Pixel: Probing Fine-Scale Perception in Vision-Language Models

🔍Fine-Grained Classification Academic

SS-TPT: Stability and Suitability-Guided Test-Time Prompt Tuning for Adversarially Robust Vision-Language Models

⚙️MLOps Academic

OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

🤖AI Agents Academic

Embodied-R1.5: Evolving Physical Intelligence via Embodied Foundation Models

✍️Prompt Engineering Academic

Vision Language Model Helps Private Information De-Identification in Vision Data

🛰️Geospatial AI Academic

DIRECT: When and Where Should You Allocate Test-Time Compute in Embodied Planners?

✍️Prompt Engineering Academic

CheXanatomy: Anatomy-Aware Vision-Language Modeling for Chest Radiographs

👁️Computer Vision Academic

Attention Consistent Longitudinal Medical Visual Question Answering Guided by Vision Foundation Models

🔍Fine-Grained Classification Academic

Sign up or log in to see more results

Log in to enable infinite scrolling