👁️ Multimodal AI - codenm.no2 · Scour

An Effective Router for Vision-Language Model Selection

🧠LLM Academic

NVlabs/Eagle: Eagle: Frontier Vision-Language Models with Data-Centric Strategies

🎨Generative AI Code

Do VLMs Reason Like Engineers? A Benchmark and a Stage-wise Evaluation

✍️Prompt Engineering Academic

One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

🤖Large Language Models Academic

MLingualFC: Evaluating Jailbreak Vulnerabilities in Multilingual Vision-Language Models

🔐Cryptography Academic

Almieyar-Oryx-BloomBench: A Bilingual Multimodal Benchmark for Cognitively Informed Evaluation of Vision-Language Models

🧠LLM Academic

Modeling Complex Behaviors: Multi-Personality Composition and Dynamic Switching in Vision-Language Models

🧠LLM Academic

Are Reasoning Vision-Language Models Robust to Semantic Visual Distractions?

🎭Anthropic Claude Academic

Explicit Representation Alignment for Multimodal Sentiment Analysis

🤗Hugging Face Academic

Stateful Visual Encoders for Vision-Language Models

🎯AI Agents Academic

Textual Supervision Enhances Geospatial Representations in Vision-Language Models

🧠LLM Academic

Late-Layer Fusion is Enough: Dual-Path Vision Token Routing for Multimodal Large Language Models under Visual Saturation

🎨Generative AI Academic

LEVANTE-bench: Multi-Scale Comparison of VLMs to Children Using Cognitive Tasks (or, "Is Your VLM Smarter Than a 5th Grader?")

🤖LLM Inference Academic

The Last Visible Pixel: Probing Fine-Scale Perception in Vision-Language Models

🧠LLM Academic

UniCanvas: A Diffusion-base Unified Model for Text-in-Image Joint Generation

🎨Generative AI Academic

One Stone, Three Birds: Self-adaptive Optimal Transport for Multi-VLM Selection, Adaptation, and Ensembling

🤖LLM Inference Academic

Two Bridges, One Pathway: From VLMs to Generalizable VLAs with Embodied Trajectory-Coupled Data

🤖LLM Inference Academic

Seeing Time: Benchmarking Chronological Reasoning and Shortcut Biases in Vision-Language Models

🎨Generative AI Academic

Decoding Pedestrian Crossing Intention from Egocentric Vision via Vision Language Models

🎭Anthropic Claude Academic

MotionEnhancer: Leveraging Video Diffusion for Motion-Enhanced Vision-Language Models

🎨Generative AI Academic

Log in to enable infinite scrolling