💉 Prompt Injection - inarcissuss · Scour

🛡️AI Security arXiv·

When AUC 0.998 Is Not Enough: A Candidate Evaluation Protocol for Hidden-State Probes of Indirect Prompt Injection in Multimodal Computer-Use Agents

🛡️AI Security arXiv·

DE-FIVE: Detecting Malicious Image Prompts via Fourier Features and Image Vector Embeddings

🛡️AI Security arXiv·

GIF: Locally Sound Geometric Information Flow Control for LLMs

🕳LLM Vulnerabilities arXiv·

LLMs Prompted for Legal Context Object More: Overrefusal from Small On-Premises LLMs in Criminal Legal Context

🕳LLM Vulnerabilities arXiv·

TROPT: An Open Framework for Unifying and Advancing Discrete Text Optimization

🕳LLM Vulnerabilities arXiv·

Scalable Hierarchical Attention Transformers for Multi-Turn Jailbreak Detection in Long Conversations

🧠LLM arXiv·

A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots

🕳LLM Vulnerabilities arXiv·

SafeSpec: Fast and Safe LLM via Dynamic Reflective Sampling

🕳LLM Vulnerabilities arXiv·

Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems

Covered by DEV Community

💬LLM Prompting role-confusion.github.io·

A Theory of Why Prompt Injection Works

Covers 3 stories including Playwright MCP Server – Snapshot based – faster and more reliable than images

Covered by 8 sources including Simon Willison’s Weblog, Schneier on Security

Discussed on Hacker News and Lobsters

🛡️AI Security Schneier on Security·

Interesting Paper Exploring Prompt Injection

Covers 3 stories including A Theory of Why Prompt Injection Works

🕳LLM Vulnerabilities arXiv·

LLM agent safety, multi-turn red-teaming, jailbreak benchmarks, adversarial robustness, safety-critical systems

Covered by DEV Community

Log in to enable infinite scrolling