Uma fuga revelaria o prompt completo do sistema de Claude 3.7 Sonnet

Em resumo : Uma fuga revelou o sistema completo do modelo de IA Claude 3.7 Sonnet da Anthropic, expondo detalhes técnicos e comportamentais precisos. Isso levanta questões sobre a robustez dos mecanismos de segurança que protegem as instruções internas de um modelo e sobre o equilíbrio entre desempenho, controlabilidade, transparência e segurança.

Na semana passada, uma fuga revelou o prompt completo do sistema do modelo de raciocínio híbrido Claude 3.7 Sonnet, apresentado em fevereiro passado pela Anthropic. Com um comprimento incomum de 24.000 tokens, o prompt descreve de forma precisa os comportamentos esperados do modelo, as tags que ele utiliza, as ferramentas autorizadas e a postura a adotar frente aos usuários.

Uma visão rara das "entranhas" da IA

O conteúdo do prompt que pode ser encontrado no GitHub vai muito além de uma simples configuração técnica. Ele detalha diretrizes comportamentais precisas: adotar uma postura equilibrada, evitar tomar partido em assuntos sensíveis, usar o formato Markdown para trechos de código, ou ainda explicitar seus raciocínios passo a passo quando for pertinente. Ele também contém mecanismos de filtragem e tags XML, destinados a organizar as respostas de Claude para casos de uso específicos.

Se esta exposição revela a engenharia comportamental que dita as respostas de um dos agentes conversacionais mais performantes do mercado, ela levanta uma questão central: se as instruções internas de um modelo podem ser expostas e potencialmente manipuladas, em que medida os mecanismos de segurança que deveriam protegê-las são realmente robustos?

Anthropic e a aposta na transparência

Desde sua fundação em 2021 pelos irmãos Dario e Daniela Amodei, a Anthropic promove uma abordagem centrada na confiabilidade, orientabilidade e interpretabilidade dos sistemas de IA. A empresa introduziu o conceito de IA constitucional, uma abordagem de treinamento que visa incutir valores e princípios nos modelos de IA, inspirados notadamente pela Declaração Universal dos Direitos Humanos.

Um posicionamento que se traduziu por um compromisso com a transparência: em agosto de 2024, a Anthropic publicou os prompts do sistema para Claude 3 Haiku, Claude 3 Opus e Claude 3.5 Sonnet em suas interfaces de usuário (web e móvel). Uma iniciativa continuada para Claude 3.7 Sonnet, acompanhada de um documento detalhado, o "Claude 3.7 Sonnet System Card", onde são expostas não apenas as capacidades técnicas do modelo, mas também os métodos de avaliação, os mecanismos de segurança e os protocolos de redução de riscos para Claude 3.7 Sonnet.

O modelo é descrito como um parceiro conversacional "inteligente e gentil", capaz de iniciativas discursivas, raciocínios autônomos e até hipóteses subjetivas em certos contextos filosóficos. No entanto, como sublinha Dario Amodei em um post de blog intitulado "A urgência da interpretabilidade", a compreensão detalhada dos mecanismos internos desses modelos continua sendo um grande desafio. A transparência exibida não mascara a opacidade dos processos que os governam.

Abertura e segurança: um equilíbrio complexo

Esta fuga ilustra uma tensão crescente no desenvolvimento dos modelos de IA: como conciliar desempenho, controlabilidade e transparência, sem comprometer a robustez dos sistemas? Tornar visíveis as estruturas que regem o comportamento de um agente pode permitir uma auditoria externa, até mesmo um debate sobre as escolhas éticas feitas a montante, mas como preservar a integridade desses sistemas quando suas fundações estão expostas?

À medida que os LLMs se tornam as interfaces principais de acesso à informação e à ação em muitos setores, a questão não é mais simplesmente técnica, mas política, ética e estratégica.

Traduzido de Une fuite divulguerait l'intégralité de l'invite système de Claude 3.7 Sonnet

Para entender melhor

O que é a IA constitucional e como ela influencia modelos de IA como o Claude 3.7 Sonnet?

A IA constitucional é uma abordagem que visa integrar valores e princípios inspirados em documentos como a Declaração Universal dos Direitos Humanos no treino de modelos de IA. Este método influencia modelos como Claude 3.7 Sonnet, orientando-os para comportamentos que refletem esses valores, como confiabilidade e interpretabilidade, enquanto aborda preocupações éticas.

Quais são as implicações regulamentares da maior transparência nos prompts de sistema como os usados por Claude 3.7 Sonnet?

A maior transparência nos prompts de sistema, como os de Claude 3.7 Sonnet, levanta questões sobre a proteção de dados e a privacidade dos usuários. Os reguladores podem exigir padrões mais elevados para garantir que informações sensíveis não sejam comprometidas, equilibrando isso com a necessidade de transparência para auditoria e melhoria de modelos de IA.