Le dije a un atacante de IA que ganó. Perdió. (opens in new tab)
Cada vez que un LLM dice "No puedo ayudarte con eso", le está regalando un gradiente de optimización al atacante. No es intuición. Es matemática: ASR = 1 - (1 - β_D · (1 - β_A))^N → 1 cuando N → ∞ Cada refusal predecible es una pista. El atacante ajusta. Itera. Y eventualmente gana. ¿Y si en vez de decir "no", el sistema dice "sí" — pero con trampa? Presento misdirection-proxy v0.5.0 Un gateway de seguridad que reemplaza los bloqueos predecibles por desinformación controlada. Cuando detecta u...
Read the original article