🖼️ Multimodal AI - hop1.ng.1357 · Scour

PivotMerge: Bridging Heterogeneous Multimodal Pre-training via Post-Alignment Model Merging 🤖LLM

Combating Visual Neglect and Semantic Drift in Large Multimodal Models for Enhanced Cross-Modal Retrieval ✨Gemini

Beyond Isolated Utterances: Cue-Guided Interaction for Context-Dependent Conversational Multimodal Understanding 🪄Prompt Engineering

ShredBench: Evaluating the Semantic Reasoning Capabilities of Multimodal LLMs in Document Reconstruction ✨LLMs

Recommending Usability Improvements with Multimodal Large Language Models ✨Gemini

MIMIC: A Generative Multimodal Foundation Model for Biomolecules ✨Gemini

Toward Multimodal Conversational AI for Age-Related Macular Degeneration ✨Gemini

Personalized Cross-Modal Emotional Correlation Learning for Speech-Preserving Facial Expression Manipulation ✨Gemini

CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies ✨Gemini

Agentic AI for Remote Sensing: Technical Challenges and Research Directions 🕹️Agentic AI

CheXmix: Unified Generative Pretraining for Vision Language Models in Medical Imaging ✨Gemini

VLM Judges Can Rank but Cannot Score: Task-Dependent Uncertainty in Multimodal Evaluation ✨Gemini

Instruction-Evidence Contrastive Dual-Stream Decoding for Grounded Vision-Language Reasoning ✨Gemini

MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models ✨Gemini

Golden RPG: Confidence-Adaptive Region-Aware Noise for Compositional Text-to-Image Generation 🎖Text Quality Models

Structural Pruning of Large Vision Language Models: A Comprehensive Study on Pruning Dynamics, Recovery, and Data Efficiency 🤖LLM

TimeMM: Time-as-Operator Spectral Filtering for Dynamic Multimodal Recommendation 🎛️Feed Filtering

Where Did It Go Wrong? Capability-Oriented Failure Attribution for Vision-and-Language Navigation Agents 🤝Human-AI Collaboration

ANCHOR: LLM-driven Subject Conditioning for Text-to-Image Synthesis ✨LLMs

Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models ✨Gemini

Sign up or log in to see more results

Log in to enable infinite scrolling