🔮 Multimodal AI - daemsc · Scour

3D-CoS: A New 3D Reconstruction Paradigm Based on VLM Code Synthesis

👁️Computer Vision Academic

Decoding Pedestrian Crossing Intention from Egocentric Vision via Vision Language Models

🛡️AI Safety Academic

Beyond Symmetric Alignment: Spectral Diagnostics of Modality Imbalance in Vision-Language Models in the Medical Domain

👁️Computer Vision Academic

Modeling Complex Behaviors: Multi-Personality Composition and Dynamic Switching in Vision-Language Models

🧠LLM Research Academic

AnyMod-LLVE: Low-Light Video Enhancement with Modality-Agnostic Inference

🧠LLM Research Academic

CLASP: Language-Driven Robot Skill Selection and Composition using Task-Parameterized Learning

🛡️AI Safety Academic

NextMotionQA: Benchmarking and Judging Human Motion Understanding with Vision-Language Models

🤖Robotics Academic

Harnessing Streaming Video in the Wild

🤖AI Engineering Academic

From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs

🧠LLM Research Academic

A Dataset for Dynamic Human Preferences for Vision Language Models

🧠LLM Research Academic

Adversarial Attacks Already Tell the Answer: Directional Bias-Guided Test-time Defense for Vision-Language Models

👁️Computer Vision Academic

Do VLMs See What Sensors Feel? A Scalable Expert-Guided Design for Wheelchair Accessibility Assessment from Street View

👁️Computer Vision Academic

UniCanvas: A Diffusion-base Unified Model for Text-in-Image Joint Generation

👁️Computer Vision Academic

MemoVAD: Resource-Efficient Video Anomaly Detection via Dynamic Semantic Memory in Edge Computing Scenarios

🤖AI Engineering Academic

Anchored, Not Graded: Vision-Language Models Fail at Slant-from-Texture Perception

🧠LLM Research Academic

EasyLens: A Training-Free Plug-and-Play Subtle-Lesion Representation Amplifier for Medical Vision-Language Models

👁️Computer Vision Academic

DyCo-RL: Dynamic Cross-Modal Coordination for Visual Reasoning

🎯Reinforcement Learning Academic

Query-based Cross-Modal Projector Bolstering Mamba Multimodal LLM

🧠LLM Research Academic

ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China

🧠LLM Research Academic

Stream3D-VLM: Online 3D Spatial Understanding with Incremental Geometry Priors

👁️Computer Vision Academic

Sign up or log in to see more results

Log in to enable infinite scrolling