🖼️ Multimodal AI - hop1.ng.1357 · Scour

typomonster/parlor-jarvis: On-device, real-time multimodal AI. Multilingual voice + vision (en/ko/es/pt/fr) with camera, screen, PDF, and video — runs entirely locally. ✨Gemini

github.com·4d·Hacker News

Building Smart Student Engagement Detector: An AI-Powered Early Learning Issue Detection System using ML, NLP & Multimodal Analytics 💬NLP

·3d·DEV

M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering ✨Gemini

This $80 platform can replace your entire AI stack 🇨🇳Chinese AI

macworld.com·3d

A layout engine for image generation in JavaScript. ✏️Code Editors

sone.seanghay.com·3d·Hacker News

Benchmarking Complex Multimodal Document Processing Pipelines: A Unified Evaluation Framework for Enterprise AI 🔍Information Extraction

End-2-end tutorial on fine-tuning, the whole journey 🔌Embedded Systems

docs.liquid.ai·3d·r/LocalLLaMA

Three-Step Nav: A Hierarchical Global-Local Planner for Zero-Shot Vision-and-Language Navigation 🤝Human-AI Collaboration

NVIDIA Nemotron 3 Nano Omni Powers Multimodal Agent Reasoning in a Single Efficient Open Model ✨Gemini

developer.nvidia.com·2d·Hacker News

SWAN: World-Aware Adaptive Multimodal Networks for Runtime Variations ✨Gemini

World2VLM: Distilling World Model Imagination into VLMs for Dynamic Spatial Reasoning ✨Gemini

The Thinking Pixel: Recursive Sparse Reasoning in Multimodal Diffusion Latents ✨Gemini

Topology-Aware Representation Alignment for Semi-Supervised Vision-Language Learning 🎯Alignment Research

EmoTrans: A Benchmark for Understanding, Reasoning, and Predicting Emotion Transitions in Multimodal LLMs ✨Gemini

Beyond Accuracy: Benchmarking Cross-Task Consistency in Unified Multimodal Models ✨Gemini

FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing ✨Gemini

Vision-Language-Action in Robotics: A Survey of Datasets, Benchmarks, and Data Engines ✨Gemini

DualFact+: A Multimodal Fact Verification Framework for Procedural Video Understanding ✨Gemini

Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System ✨Gemini

Source-Modality Monitoring in Vision-Language Models ✨Gemini

Log in to enable infinite scrolling