Discussed on DEV

Cada vez que un LLM dice "No puedo ayudarte con eso", le está regalando un gradiente de optimización al atacante. No es intuición. Es matemática: ASR = 1 - (1 - β_D · (1 - β_A))^N → 1 cuando N → ∞ Cada refusal predecible es una pista. El atacante ajusta. Itera. Y eventualmente gana. ¿Y si en vez de decir "no", el sistema dice "sí" — pero con trampa? Presento misdirection-proxy v0.5.0 Un gateway de seguridad que reemplaza los bloqueos predecibles por desinformación controlada. Cuando detecta u...

Read the original article