¿Demasiado potente para el público? Anthropic y el futuro de la IA
Red teaming, Constitutional AI y modelos de frontera: el análisis real detrás de la decisión de Anthropic de frenar el lanzamiento de su IA más avanzada por riesgos de seguridad y alineación Nota de rigor: el relato de que Anthropic “creó una IA tan peligrosa que decidió no publicarla” funciona muy bien como gancho, pero la documentación pública disponible cuenta una historia más precisa: Anthropic publica system cards, aplica pruebas de seguridad antes del despliegue y usa su Responsible Scaling Policy para decidir cuándo un modelo puede salir al mundo. En Claude 4, por ejemplo, la empresa describió evaluaciones de seguridad previas al lanzamiento y asignó a Opus 4 y Sonnet 4 niveles distintos dentro de su marco ASL. ¿Qué capacidades demostró la IA de Anthropic? La pregunta correcta no es solo “¿es peligrosa?”, sino “¿qué clase de riesgo mostró en pruebas reales?” . En su system card de Claude Opus 4 y Claude Sonnet 4, Anthropic explica que sometió los modelos a pruebas de segurida...