🔮 Multimodal AI - daemsc · Scour

A Controlled Audit of Pretraining Contamination in Public Medical Vision-Language Benchmarks

🧠LLM Research Academic

Explicit Representation Alignment for Multimodal Sentiment Analysis

👁️Computer Vision Academic

DB-3DME: From Dataset to Benchmark for Human-aligned Automatic 3D Mesh Evaluation

🛡️AI Safety Academic

Diagnosing Visual Ignorance in Vision-Language Models

👁️Computer Vision Academic

Geometric Coastline Localization using Vision-Language Models

👁️Computer Vision Academic

One Stone, Three Birds: Self-adaptive Optimal Transport for Multi-VLM Selection, Adaptation, and Ensembling

🛡️AI Safety Academic

Multimodal Brain Tumour Classification Using Feature Fusion

👁️Computer Vision Academic

Two Bridges, One Pathway: From VLMs to Generalizable VLAs with Embodied Trajectory-Coupled Data

🧠LLM Research Academic

The Last Visible Pixel: Probing Fine-Scale Perception in Vision-Language Models

👁️Computer Vision Academic

MMClima: A Framework for Multimodal Climate Science Data and Evaluation

🧠LLM Research Academic

Almieyar-Oryx-BloomBench: A Bilingual Multimodal Benchmark for Cognitively Informed Evaluation of Vision-Language Models

🧠LLM Research Academic

MotionEnhancer: Leveraging Video Diffusion for Motion-Enhanced Vision-Language Models

👁️Computer Vision Academic

M$^3$Exam: Benchmarking Multimodal Memory for Realistic User-Agent Interactions

🤖AI Engineering Academic

Earth-OneVision: Extending Remote Sensing Multimodal Large Language Models to More Sensor Modalities and Tasks

🧠LLM Research Academic

Seeing Time: Benchmarking Chronological Reasoning and Shortcut Biases in Vision-Language Models

👁️Computer Vision Academic

Vision Language Model Helps Private Information De-Identification in Vision Data

👁️Computer Vision Academic

3D-CoS: A New 3D Reconstruction Paradigm Based on VLM Code Synthesis

👁️Computer Vision Academic

Stateful Visual Encoders for Vision-Language Models

👁️Computer Vision Academic

OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

🎯Reinforcement Learning Academic

Modeling Complex Behaviors: Multi-Personality Composition and Dynamic Switching in Vision-Language Models

🧠LLM Research Academic

Log in to enable infinite scrolling