👁️ Multimodal AI - nate_dkz · Scour

MemoVAD: Resource-Efficient Video Anomaly Detection via Dynamic Semantic Memory in Edge Computing Scenarios

🎨Generative AI Academic

Anchored, Not Graded: Vision-Language Models Fail at Slant-from-Texture Perception

🧠LLM Academic

A Controlled Audit of Pretraining Contamination in Public Medical Vision-Language Benchmarks

🤖Large Language Models Academic

DB-3DME: From Dataset to Benchmark for Human-aligned Automatic 3D Mesh Evaluation

💬Natural Language Processing Academic

UltraVR: A Diagnostic Ultra-Resolution Image-VQA Benchmark for Evidence-Grounded Reasoning

🤖Large Language Models Academic

Readable Yet Unpredictable: Rotated-Outcome Prediction in Vision-Language Models

🧠LLM Academic

DRIFT: A Residual Flow Adapter for Decoding Continuous Outputs in Vision-Language Models

🧠LLM Academic

ReCoVLA: VLM-Guided Reward Compilation for Failure Recovery in Vision-Language-Action Policies

💬Prompt Engineering Academic

Geometric Coastline Localization using Vision-Language Models

🎨Generative AI Academic

SS-TPT: Stability and Suitability-Guided Test-Time Prompt Tuning for Adversarially Robust Vision-Language Models

💬Prompt Engineering Academic

DriveReward: A Comprehensive Dataset and Generative Vision-Language Reward Model for Autonomous Driving

🎨Generative AI Academic

ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China

🧠LLMs Academic

A Conversational Framework for Human-Robot Collaborative Manipulation with Distributed Generative AI models

🎨Generative AI Academic

TABVERSE: Benchmarking Cross-Format Table Understanding in LLMs and VLMs

🧠LLM Academic

Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators

💬Prompt Engineering Academic

One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

💬Prompt Engineering Academic

CheXanatomy: Anatomy-Aware Vision-Language Modeling for Chest Radiographs

🎨Generative AI Academic

AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

🎨Generative AI Academic

UNIVID: Unified Vision-Language Model for Video Moderation

🎨Generative AI Academic

Would you still call this Dax? Novel Visual References in VLMs and Humans

🎨Generative AI Academic

Log in to enable infinite scrolling