🖼️ Multimodal AI - hop1.ng.1357 · Scour

Can Multimodal Large Language Models Truly Understand Small Objects? ✨Gemini

Building with Gemini Embedding 2: Agentic multimodal RAG and beyond ✨Gemini

developers.googleblog.com·9h

Kronk AI: Hugging Face & Vision Model File Formats ✨Gemini

youtube.com·3d

A benchmark multimodal oro-dental dataset for large vision-language models ✨Gemini

nature.com·14h

SketchVLM: Vision-Language Models Can Annotate Images to Explain Thoughts and Guide Users ✨Gemini

sketchvlm.github.io·1d·Hacker News

TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment 🎖Text Quality Models

gdm-tipsv2.github.io·6d·Hacker News

Nvidia combines speech, vision, and text in new AI model ✨Gemini

techzine.eu·17h

Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents ✨Gemini

huggingface.co·2d·Hacker News

Mm – Unix tools (find/cat/grep) rebuilt for the multimodal era 🕷️Web Crawling

vlm.run·16h·Hacker News

Zorq AI – Multimodal workspace for video, image, and voice generation ✨Gemini

zorq-ai.io·1d·Hacker News

Delineating Knowledge Boundaries for Honest Large Vision-Language Models ✨Gemini

AI State of the Union | Human-Centered Change and Innovation 🎭Claude

bradenkelley.com·4d

snorcack/CharacterGeneration: A project to generate character portraits from book text using RAG based book search and image generation using local diffusion models. 🎖Text Quality Models

github.com·2d·r/StableDiffusion

Xiaomi releases open-weight MiMo-V2.5 AI model, claims "frontier-level agentic capability" 🇨🇳Chinese AI

gsmarena.com·2d

typomonster/parlor-jarvis: On-device, real-time multimodal AI. Multilingual voice + vision (en/ko/es/pt/fr) with camera, screen, PDF, and video — runs entirely locally. ✨Gemini

github.com·4d·Hacker News

Benchmarking Complex Multimodal Document Processing Pipelines: A Unified Evaluation Framework for Enterprise AI 🔍Information Extraction

Building Smart Student Engagement Detector: An AI-Powered Early Learning Issue Detection System using ML, NLP & Multimodal Analytics 💬NLP

·3d·DEV

Three-Step Nav: A Hierarchical Global-Local Planner for Zero-Shot Vision-and-Language Navigation 🤝Human-AI Collaboration

NVIDIA Nemotron 3 Nano Omni Powers Multimodal Agent Reasoning in a Single Efficient Open Model ✨Gemini

developer.nvidia.com·2d·Hacker News

SWAN: World-Aware Adaptive Multimodal Networks for Runtime Variations ✨Gemini

Log in to enable infinite scrolling