📊 SLAM Datasets - plooh · Scour

One Single Hub Text Breaks CLIP: Identifying Vulnerabilities in Cross-Modal Encoders via Hubness 👁️Computer vision

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations 🤖llm

When Your LLM Reaches End-of-Life: A Framework for Confident Model Migration in Production Systems 🤖llm

Beyond Accuracy: Benchmarking Cross-Task Consistency in Unified Multimodal Models 👁️Computer vision

From Coarse to Fine: Benchmarking and Reward Modeling for Writing-Centric Generation Tasks 🤖llm

Epistemic reflections on AI answering our questions: overwatch, erudite, logician, interlocutor 🤖llm

Benchmarking Layout-Guided Diffusion Models through Unified Semantic-Spatial Evaluation in Closed and Open Settings 👁️Computer vision

CrossBench: Generalized Crosstalk Benchmark Generation for Quantum Computers 💎Waveguides

ShapeY: A Principled Framework for Measuring Shape Recognition Capacity via Nearest-Neighbor Matching 👁️Computer vision

HuM-Eval: A Coarse-to-Fine Framework for Human-Centric Video Evaluation 👁️Computer vision

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios 🔱Triton

Benchmarking Complex Multimodal Document Processing Pipelines: A Unified Evaluation Framework for Enterprise AI 📱Edge AI

Human-in-the-Loop Benchmarking of Heterogeneous LLMs for Automated Competency Assessment in Secondary Level Mathematics 🤖llm

Benchmarking the Safety of Large Language Models for Robotic Health Attendant Control 🛡️Robotics Safety

FCMBench-Video: Benchmarking Document Video Intelligence 👁️Computer vision

Bug-Report-Driven Fault Localization: Industrial Benchmarking and Lesson Learned at ABB Robotics 🏭Robotic Manufacturing

Benchmarking OCR Pipelines with Adaptive Enhancement for Multi-Domain Retail Bill Digitization 👁️Computer vision

Benchmarking and Improving GUI Agents in High-Dynamic Environments 🏋️Isaac Gym

TrialCalibre: A Fully Automated Causal Engine for RCT Benchmarking and Observational Trial Calibration 📱Edge AI

SpaMEM: Benchmarking Dynamic Spatial Reasoning via Perception-Memory Integration in Embodied Environments 👁️Computer vision

Sign up or log in to see more results

Log in to enable infinite scrolling