🎭 Multimodal AI - zongyuzhang · Scour

OpenCV 5.0 Released With Rewritten DNN Engine, Built-In LLM & VLM Support

phoronix.com··Hacker News

Task-Aligned Stability Analysis of Vision-Language Models for Autonomous Driving Hazard Detection

👁️VLMs Academic

Less-relevant results

fix(microsoft-foundry): filter unsupported Anthropic deployments · openclaw/openclaw@1240de7

🔧Tool Use Code

4DP-QA: Scalable QA for 4D Perception in Vision Language Models

👁️VLMs Academic

VL-DINO: Leveraging CLIP Vision-Language Knowledge for Open-Vocabulary Object Detectio

👁️VLMs Academic

linzhiqiu/t2v_metrics: Evaluating text-to-image/video/3D models with VQAScore

🔓Open-source Models Code

github.com··Hacker News

APT: Action Expert Pretraining Improves Instruction Generalization of Vision-Language-Action Policies

🤖Embodied AI Academic

AVIS: Adaptive Test-Time Scaling for Vision-Language Models

🖥️Inference Compute Academic

Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models

👁️VLMs Academic

When to Align, When to Predict: A Phase Diagram for Multimodal Learning

👁️VLMs Academic

GoodQ02/goodq4all: Local-first multimodal epistemic memory for scene-level video, audio, and text intelligence.

⚡Quantization Code

github.com··Hacker News

MLingualFC: Evaluating Jailbreak Vulnerabilities in Multilingual Vision-Language Models

👁️VLMs Academic

From Prompts to Tokens: Internalizing Causal Supervision in Vision-Language Model for Multi-Image Causal Reasoning

👁️VLMs Academic

Are Reasoning Vision-Language Models Robust to Semantic Visual Distractions?

👁️VLMs Academic

fix: preserve Foundry Responses reasoning replay ids · openclaw/openclaw@248dfb2

🔧Tool Use Code

World Model Self-Distillation: Training World Models to Solve General Tasks

👁️VLMs Academic

One Stone, Three Birds: Self-adaptive Optimal Transport for Multi-VLM Selection, Adaptation, and Ensembling

👁️VLMs Academic

OpenMedReason: Scientific Reasoning Supervision for Medical Vision-Language Models

💡AI Reasoning Academic

OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

🔓Open-source Models Academic

Benchmarking Large Language Models for Safety Data Extraction

💡AI Reasoning Academic

Log in to enable infinite scrolling