🖼️ Multimodal AI - hop1.ng.1357 · Scour

Vision-Language-Action in Robotics: A Survey of Datasets, Benchmarks, and Data Engines ✨Gemini

TimeMM: Time-as-Operator Spectral Filtering for Dynamic Multimodal Recommendation 🎛️Feed Filtering

PivotMerge: Bridging Heterogeneous Multimodal Pre-training via Post-Alignment Model Merging 🤖LLM

ViBE: Visual-to-M/EEG Brain Encoding via Spatio-Temporal VAE and Distribution-Aligned Projection ✨Gemini

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models ✨Gemini

ShredBench: Evaluating the Semantic Reasoning Capabilities of Multimodal LLMs in Document Reconstruction ✨LLMs

UIGaze: How Closely Can VLMs Approximate Human Visual Attention on User Interfaces? ✨Gemini

MIMIC: A Generative Multimodal Foundation Model for Biomolecules ✨Gemini

SEAL: Semantic-aware Single-image Sticker Personalization with a Large-scale Sticker-tag Dataset ✨Gemini

Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models 🤖LLM

Beyond Shortcuts: Mitigating Visual Illusions in Frozen VLMs via Qualitative Reasoning ✨Gemini

CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies ✨Gemini

Inter-Stance: A Dyadic Multimodal Corpus for Conversational Stance Analysis ✨Gemini

Beyond Screenshots: Evaluating VLMs' Understanding of UI Animations 🪄Prompt Engineering

M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering ✨Gemini

Progressive Semantic Communication for Efficient Edge-Cloud Vision-Language Models ⚡Edge AI

CheXmix: Unified Generative Pretraining for Vision Language Models in Medical Imaging ✨Gemini

SpatiO: Adaptive Test-Time Orchestration of Vision-Language Agents for Spatial Reasoning ⚡Edge AI

SpatialFusion: Endowing Unified Image Generation with Intrinsic 3D Geometric Awareness ⚡Edge AI

MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models ✨Gemini

Log in to enable infinite scrolling