Prompt Engineering para Claude: técnicas oficiais da Anthropic

A Anthropic tem uma documentação pública de prompt engineering para o Claude, e a maioria das pessoas nunca leu. É um guia técnico com exemplos concretos, escrito pela equipe que treinou o modelo. Vale o tempo.

Este artigo destrincha o que está lá, separa o que é dado verificado do que é minha leitura, e aponta onde o guia deixa lacunas.

O que a Anthropic realmente diz sobre prompts

A documentação oficial está em docs.anthropic.com/en/docs/build-with-claude/prompt-engineering. É pública, atualizada com certa frequência e cobre desde estrutura básica até técnicas para tarefas complexas em múltiplos passos.

Os princípios centrais, conforme descritos no guia:

Clareza antes de comprimento. Um prompt curto e claro supera um prompt longo e ambíguo. A Anthropic diz explicitamente que o Claude tende a interpretar ambiguidades de forma literal, então deixar espaço para inferência criativa costuma sair pela culatra.

Contexto é instrução. Tudo que você coloca no prompt, inclusive o formato da pergunta, o tom que você usa, os exemplos que você dá, são lidos como orientação. Nenhuma parte de um prompt é neutra.

XML para estrutura. A Anthropic recomenda usar tags XML para separar seções do prompt quando há múltiplos blocos de conteúdo. <instructions>, <context>, <examples>, <output_format>. Isso não é estético, o Claude foi treinado para reconhecer essa estrutura e processar cada bloco de forma adequada.

As técnicas com mais impacto na prática

Chain of Thought

A documentação descreve duas formas: solicitar raciocínio diretamente ("pense passo a passo antes de responder") ou usar exemplos few-shot onde você demonstra o processo de raciocínio esperado.

Dado verificado: a Anthropic publicou, na própria documentação técnica pública, que chain of thought melhora desempenho em tarefas que exigem raciocínio multi-etapa, especialmente matemática e lógica. Por vir do próprio laboratório, esses dados devem ser lidos com o desconto correspondente.

Minha leitura é que o ganho real depende muito do tipo de tarefa. Para geração de texto criativo, pedir que o modelo pense passo a passo com frequência só adiciona ruído. Para análise, síntese ou qualquer coisa com múltiplas variáveis, faz diferença visível.

Few-shot com exemplos bem selecionados

O guia é específico sobre qualidade de exemplos: um exemplo ruim pode calibrar o modelo na direção errada com mais força do que três exemplos bons calibram na direção certa. A seleção importa mais do que a quantidade.

A recomendação deles é que os exemplos cubram a distribuição de casos que você espera encontrar, não só o caso perfeito. Se você vai usar o prompt para classificar avaliações de clientes, inclua exemplos de avaliações ambíguas, não só as claramente positivas ou negativas.

Isso faz sentido mecanicamente. O modelo está sendo mostrado o que você considera uma resposta adequada, e vai generalizar a partir daí.

Restrições negativas

A Anthropic menciona que dizer ao modelo o que não fazer funciona, mas deve vir acompanhado do que fazer. "Não use jargão técnico" sem alternativa clara cria ambiguidade. "Escreva para alguém sem experiência na área, evite termos técnicos sem explicação" é mais preciso.

Escrevi mais sobre a lógica por trás disso neste post sobre restrições negativas em prompts, mas o princípio básico é que proibições sem substituto deixam um vácuo que o modelo vai preencher da forma que achar melhor.

System prompt como contrato

O guia trata o system prompt não como ponto de partida configurável, mas como o contrato de comportamento do modelo para toda a conversa. A Anthropic recomenda definir lá: papel, tom, limitações, formato de saída esperado e como lidar com casos fora do escopo.

Se você está construindo qualquer aplicação sobre Claude via API, isso é onde você gasta a maior parte do esforço. Um system prompt mal estruturado vai produzir inconsistência independente de quão bons sejam os prompts individuais. Tem um guia mais detalhado sobre isso aqui.

O que o guia não cobre bem

A documentação é boa para casos de uso padrão. Onde ela fica vaga é em tarefas que exigem que o modelo mantenha estado complexo ao longo de múltiplos turnos de conversa, ou onde a qualidade depende de calibração fina para domínio específico.

Para esses casos, a documentação sugere fine-tuning mas não entra em como decidir quando prompt engineering chegou no limite e fine-tuning passa a fazer sentido. Esse tradeoff vale um artigo separado, e tem uma análise mais aprofundada aqui.

Outra lacuna: o guia foca quase inteiramente no Claude. Técnicas como XML tagging são eficazes especificamente porque o Claude foi treinado para processar esse formato. GPT-4 e Gemini têm comportamentos diferentes com a mesma estrutura. O guia documenta o Claude com precisão, mas não foi escrito para ser um manual agnóstico de modelos.

Ângulo contraintuitivo: mais instrução nem sempre é mais controle

Uma coisa que aparece nas entrelinhas da documentação, e que a experiência prática confirma: prompts muito longos e detalhados às vezes pioram o resultado.

O modelo tenta honrar todas as instruções simultaneamente. Quando elas se contradizem ou criam tensão (e em prompts longos isso acontece com frequência sem que o autor perceba), o modelo faz um balanço implícito que pode não ser o que você quer.

Minha aposta é que o ponto ótimo de comprimento de prompt é menor do que a maioria das pessoas intuitivamente imagina. Você consegue mais controle com instruções claras e hierarquizadas do que com uma lista exaustiva de tudo que quer e não quer.

FAQ

O guia da Anthropic se aplica ao Claude em produtos como Claude.ai ou só para a API?

Os princípios se aplicam a qualquer interação, mas as técnicas mais avançadas, especialmente system prompts e XML tagging, só são acessíveis via API. No Claude.ai você está essencialmente limitado ao conteúdo do prompt do usuário.

Preciso ser desenvolvedor para aplicar essas técnicas?

Não. A maioria das técnicas é textual: estrutura de instrução, uso de exemplos, formato de saída. O que muda com acesso à API é a capacidade de separar system prompt de user prompt, o que dá mais controle sobre o comportamento base do modelo. Mas profissionais de marketing, produto e operações conseguem aplicar boa parte disso direto na interface.

Essas técnicas funcionam igual no GPT-4 e outros modelos?

Algumas sim, outras não. Chain of thought e few-shot são amplamente eficazes em modelos diferentes. XML tagging é específico do Claude. Se você trabalha com múltiplos modelos, vale testar cada técnica individualmente em vez de assumir transferência direta.

A documentação da Anthropic é um recurso sólido e subutilizado. A maioria das pessoas aprende prompt engineering por tentativa e erro ou por posts no LinkedIn, e nunca vai à fonte. Ler o guia oficial leva menos de uma hora e economiza semanas de descoberta acidental.

Prompt Engineering para Claude: técnicas oficiais da Anthropic

O que a Anthropic realmente diz sobre prompts

As técnicas com mais impacto na prática

Chain of Thought

Few-shot com exemplos bem selecionados

Restrições negativas

System prompt como contrato

O que o guia não cobre bem

Ângulo contraintuitivo: mais instrução nem sempre é mais controle

FAQ

Related articles

Claude vs ChatGPT: Handling Ambiguous Instructions

Claude AI Features Most People Never Discover

Negative constraints in prompts: why telling AI what not to do works

…