🖼️ Multimodal AI - hop1.ng.1357 · Scour

SynSur: An end-to-end generative pipeline for synthetic industrial surface defect generation and detection 🔍AI Interpretability

Structural Pruning of Large Vision Language Models: A Comprehensive Study on Pruning Dynamics, Recovery, and Data Efficiency 🤖LLM

Latent Denoising Improves Visual Alignment in Large Multimodal Models ✨Gemini

Graph-based Semantic Calibration Network for Unaligned UAV RGBT Image Semantic Segmentation and A Large-scale Benchmark ⚡Edge AI

ANCHOR: LLM-driven Subject Conditioning for Text-to-Image Synthesis ✨LLMs

FlowS: One-Step Motion Prediction via Local Transport Conditioning ⚡Edge AI

RedVLA: Physical Red Teaming for Vision-Language-Action Models ✨Gemini

Text-Guided Multimodal Unified Industrial Anomaly Detection ✨Gemini

Attribution-Guided Multimodal Deepfake Detection via Cross-Modal Forensic Fingerprints ✨Gemini

VLM-VPI: A Vision-Language Reasoning Framework for Improving Automated Vehicle-Pedestrian Interactions 🤝Human-AI Collaboration

CARD: Non-Uniform Quantization of Visual Semantic Unit for Generative Recommendation 📚RAG

Towards Safe Mobility: A Unified Transportation Foundation Model enabled by Open-Ended Vision-Language Dataset ✨Gemini

The Thinking Pixel: Recursive Sparse Reasoning in Multimodal Diffusion Latents ✨Gemini

CheXthought: A global multimodal dataset of clinical chain-of-thought reasoning and visual attention for chest X-ray interpretation ⚡Edge AI

Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification 🧠Machine Learning

Prototype-Based Test-Time Adaptation of Vision-Language Models ✨LLMs

A Multistage Extraction Pipeline for Long Scanned Financial Documents: An Empirical Study in Industrial KYC Workflows 🔍Information Extraction

Modeling Induced Pleasure through Cognitive Appraisal Prediction via Multimodal Fusion ✨Gemini

State Beyond Appearance: Diagnosing and Improving State Consistency in Dial-Based Measurement Reading ✨Gemini

MiMIC: Mitigating Visual Modality Collapse in Universal Multimodal Retrieval While Avoiding Semantic Misalignment ✨Gemini

No more posts from hop1.ng.1357's subscribed feeds.

Scour all 24432 feeds Learn more about Feeds

Sign up or log in to see more results

Log in to enable infinite scrolling