Una filtración revelaría la totalidad del prompt del sistema de Claude 3.7 Sonnet

TLDR : Una filtración ha revelado el sistema completo del modelo de IA Claude 3.7 Sonnet de Anthropic, exponiendo detalles técnicos y de comportamiento precisos. Esto plantea preguntas sobre la robustez de los mecanismos de seguridad protegiendo las instrucciones internas de un modelo y sobre el equilibrio entre rendimiento, controlabilidad, transparencia y seguridad.

La semana pasada, una filtración reveló el prompt del sistema completo del modelo de razonamiento híbrido Claude 3.7 Sonnet, presentado en febrero pasado por Anthropic. Con una longitud inusual de 24,000 tokens, el prompt describe de manera precisa los comportamientos esperados del modelo, las etiquetas que utiliza, las herramientas autorizadas, y la postura a adoptar frente a los usuarios.

Una vista rara de las "entrañas" de la IA

El contenido del prompt que se puede encontrar en GitHub va más allá de una simple configuración técnica. Detalla instrucciones de comportamiento precisas: adoptar una postura equilibrada, evitar tomar partido en temas sensibles, utilizar el formato Markdown para fragmentos de código, o explicar sus razonamientos paso a paso cuando sea pertinente. También contiene mecanismos de filtrado y etiquetas XML, destinados a organizar las respuestas de Claude para casos de uso específicos.

Si esta exposición revela la ingeniería de comportamiento que dicta las respuestas de uno de los agentes conversacionales más avanzados del mercado, plantea una pregunta central: si las instrucciones internas de un modelo pueden ser expuestas y potencialmente manipuladas, ¿en qué medida son realmente robustos los mecanismos de seguridad destinados a protegerlas?

Anthropic y la apuesta por la transparencia

Desde su fundación en 2021 por los hermanos Dario y Daniela Amodei, Anthropic promueve un enfoque centrado en la fiabilidad, la orientabilidad y la interpretabilidad de los sistemas de IA. La empresa ha introducido el concepto de IA constitucional, un enfoque de entrenamiento diseñado para inculcar valores y principios en los modelos de IA, inspirados notablemente en la Declaración Universal de los Derechos Humanos.

Un posicionamiento que se ha traducido en un compromiso hacia la transparencia: en agosto de 2024, Anthropic publicaba los prompts del sistema para Claude 3 Haiku, Claude 3 Opus y Claude 3.5 Sonnet en sus interfaces de usuario (web y móvil). Un enfoque continuado para Claude 3.7 Sonnet, acompañado de un documento detallado, la "Claude 3.7 Sonnet System Card", donde se exponen no solo las capacidades técnicas del modelo, sino también los métodos de evaluación, los mecanismos de seguridad y los protocolos de reducción de riesgos para Claude 3.7 Sonnet.

El modelo se describe como un interlocutor "inteligente y amable", capaz de iniciativas discursivas, razonamientos autónomos, e incluso hipótesis subjetivas en ciertos contextos filosóficos. Sin embargo, como destaca Dario Amodei en una entrada de blog titulada "La urgencia de la interpretabilidad", la comprensión precisa de los mecanismos internos de estos modelos sigue siendo un desafío importante. La transparencia exhibida no oculta la opacidad de los procesos que los gobiernan.

Apertura y seguridad: un equilibrio complejo

Esta filtración ilustra una tensión creciente en el desarrollo de modelos de IA: ¿cómo combinar rendimiento, controlabilidad y transparencia, sin comprometer la robustez de los sistemas? Hacer visibles las estructuras que rigen el comportamiento de un agente puede permitir una auditoría externa, incluso un debate sobre las elecciones éticas hechas de antemano, pero ¿cómo preservar la integridad de estos sistemas cuando sus fundamentos están expuestos?

A medida que los LLMs se convierten en las interfaces principales de acceso a la información y la acción en muchos sectores, la cuestión ya no es simplemente técnica, sino política, ética y estratégica.

Traducido de Une fuite divulguerait l'intégralité de l'invite système de Claude 3.7 Sonnet

Para entender mejor

¿Qué es la IA constitucional y cómo influye en los modelos de IA como Claude 3.7 Sonnet?

La IA constitucional es un enfoque que busca integrar valores y principios inspirados en documentos como la Declaración Universal de los Derechos Humanos en el entrenamiento de modelos de IA. Este método influye en modelos como Claude 3.7 Sonnet al guiarlos hacia comportamientos que reflejen estos valores, como la fiabilidad y la interpretabilidad, mientras aborda preocupaciones éticas.

¿Cuáles son las implicaciones regulatorias de una mayor transparencia en las instrucciones del sistema como las utilizadas por Claude 3.7 Sonnet?

La mayor transparencia en las instrucciones del sistema, como las de Claude 3.7 Sonnet, plantea cuestiones sobre la protección de datos y la privacidad del usuario. Los reguladores pueden exigir estándares más altos para garantizar que la información sensible no se vea comprometida, equilibrándolo con la necesidad de transparencia para la auditoría y mejora de modelos de IA.