Zero-shot vs few-shot: guia prático com exemplos reais

A diferença fundamental

Vamos direto ao ponto: zero-shot é pedir ao Claude para fazer algo sem exemplos. Few-shot é dar exemplos do que você quer antes de pedir para fazer a tarefa.

É isso. Mas as implicações para seus resultados são gigantescas.

Quando você escreve "Classifique este feedback de cliente como positivo, negativo ou neutro: 'O produto quebrou depois de dois dias,'" você está fazendo zero-shot. Claude nunca viu exemplos seus do que positivo, negativo ou neutro significa no seu contexto específico.

Quando você mostra ao Claude três exemplos de feedback que você já classificou, depois pede para classificar novos feedbacks do mesmo jeito, você está fazendo few-shot.

Zero-shot funciona quando Claude já entende a tarefa profundamente. Few-shot funciona quando você precisa que Claude corresponda ao seu estilo específico, critérios ou casos extremos.

Quando zero-shot é suficiente

Zero-shot é seu padrão por uma razão: é rápido, não exige preparo e Claude é incrivelmente capaz.

Use zero-shot para:

Tarefas de conhecimento geral. "Qual é a diferença entre REST e GraphQL?" Claude domina isso. Nenhum exemplo necessário.

Resumização direta. "Resuma este artigo em duas frases." Claude entende o conceito de resumo pelo seu treinamento. Exemplos não vão melhorar significativamente o resultado.

Tarefas de escrita padrão. "Escreva um email profissional agradecendo a um cliente pelos negócios." Isso está dentro da competência básica do Claude.

Raciocínio lógico. "Se todos os cães são mamíferos e Rex é um cão, Rex é um mamífero?" O padrão de raciocínio é claro sem exemplos.

Uso zero-shot para provavelmente 70% do meu trabalho com Claude. É rápido e funciona. O perigo é assumir que sempre é suficiente.

Quando few-shot se torna essencial

Few-shot brilha quando você precisa que Claude combine seus julgamentos específicos, voz da empresa ou regras de classificação complexas.

Seu julgamento é diferente do óbvio. Você pode querer reclamações de clientes classificadas como "corrigível" vs "problema sistêmico" vs "expectativa irrealista." Claude precisa ver o que você considera cada categoria.

Estilo e tom importam. Se você gera descrições de produtos, "conciso" e "inteligente" parecem diferentes entre indústrias. Mostre ao Claude seu padrão com exemplos.

Casos extremos abundam. Classificação fiscal, codificação médica, roteamento de tickets de suporte—esses domínios têm áreas cinzentas. Exemplos ajudam Claude a navegar da maneira que você faz.

Consistência em um lote grande. Processando 500 tickets de suporte? Few-shot os classifica consistentemente. Zero-shot pode classificar o ticket #247 diferente do #53.

Zero-shot na prática

Aqui está um exemplo real. Digamos que você precisa que Claude extraia métricas-chave de um relatório de negócios:


Extraia o seguinte deste relatório:

- Receita
- Quantidade de clientes
- Margem bruta

Relatório:
[texto do relatório aqui]

Forneça os valores em formato JSON.

Isso funciona porque a tarefa é concreta. Claude sabe o que "receita" significa em vários contextos. O pedido é inequívoco.

Agora, e se o relatório usa terminologia não convencional? E se às vezes "receita" está listada como "vendas no topo" ou "receita bruta"? Agora zero-shot fica arriscado. Mas ainda vale a pena tentar primeiro.

Few-shot na prática

Aqui é onde few-shot prova seu valor. Imagine que você está construindo um sistema para categorizar tickets de suporte por urgência. Sua empresa tem regras específicas:


Você irá categorizar tickets de suporte em: CRÍTICO, ALTO, MÉDIO, BAIXO

Aqui estão exemplos de como categorizei tickets anteriores:

Exemplo 1:
Ticket: "Sistema fora do ar para todos os usuários na região US"
Categoria: CRÍTICO
Motivo: Falha total de serviço afetando todos os usuários

Exemplo 2:
Ticket: "Recurso X seria bem legal ter algum dia"
Categoria: BAIXO
Motivo: Isso é um pedido de funcionalidade, não um problema com a funcionalidade atual

Exemplo 3:
Ticket: "Esqueci minha senha e não consigo fazer login"
Categoria: ALTO
Motivo: Usuário está completamente bloqueado, mas problema afeta apenas uma conta

Exemplo 4:
Ticket: "Dashboard carrega lentamente às vezes, talvez a cada 5ª vez"
Categoria: MÉDIO
Motivo: Problema de desempenho intermitente afetando experiência do usuário

Agora categorize este ticket:
Ticket: "Exportar para CSV funciona bem mas leva 3 minutos para datasets grandes"
Categoria: ?

Veja o que fizemos: mostramos ao Claude o que CRÍTICO, ALTO, MÉDIO e BAIXO significam para seu negócio. Uma exportação lenta pode ser CRÍTICO em uma firma financeira (onde traders precisam de velocidade) mas MÉDIO para a maioria das equipes. Os exemplos ensinam ao Claude suas prioridades.

Framework prático de teste

Aqui está como decido entre zero-shot e few-shot:

Passo 1: Tente zero-shot. Sério mesmo. Gaste 2 minutos em um prompt zero-shot. Se o resultado for bom, você terminou.

Passo 2: Avalie o resultado. É preciso? Atende seus critérios? Se sim, zero-shot vence.

Passo 3: Se zero-shot falhar, identifique por quê. Claude está mal-entendendo a tarefa? Os critérios? Está correspondendo ao conhecimento geral em vez de suas necessidades específicas?

Passo 4: Crie exemplos few-shot. Escolha 2-5 exemplos que mostrem ao Claude o que você realmente quer. Inclua casos extremos se forem importantes.

Passo 5: Teste few-shot. Compare resultados com zero-shot. Normalmente você verá melhora em 10-15 exemplos dentro de sua carga de trabalho real.

Dicas práticas para few-shot que realmente funcionam

Use 3-5 exemplos, não 10. Mais exemplos podem confundir Claude em vez de esclarecer. Três bons exemplos batem dez mediocres.

Faça exemplos realistas. Se seus casos extremos são estranhos, inclua exemplos estranhos. Se sua entrada típica é bagunçada, mostre exemplos bagunçados.

Varie seus exemplos. Não mostre três tickets CRÍTICO depois um BAIXO. Embaralhe as categorias para Claude não assumir que a ordem importa.

Inclua raciocínio breve. "Motivo: X" diz ao Claude por quê você categorizou assim. Isso se transfere para novos exemplos.

Teste com seus dados reais. Se você está classificando tickets de suporte, use tickets de suporte reais nos seus exemplos. Não versões sanitizadas.

Quando evoluir para system prompts

Uma vez que você ajustou sua abordagem com few-shot, considere usar o parâmetro system do Claude. Aqui é onde você coloca suas instruções e exemplos permanentemente:

message = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    system="Você é um classificador de tickets de suporte. [Insira seus exemplos few-shot aqui]",
    messages=[
        {"role": "user", "content": "Categorize este ticket: [novo ticket]"}
    ]
)

System prompts mantêm suas instruções consistentes entre chamadas de API e são um pouco mais eficazes do que colocar tudo na mensagem do usuário.

O resultado final

Comece com zero-shot. É rápido e Claude é inteligente. Quando você notar inconsistências ou desalinhamento com seus critérios específicos, mude para few-shot. Mostre ao Claude o que você realmente quer com 3-5 exemplos reais, depois avalie resultados em sua carga de trabalho real.

A maioria dos times descobre que precisa few-shot para talvez 20-30% de suas tarefas. O resto roda feliz em zero-shot com um prompt bem escrito.

O erro é fazer demais complicação disso. Zero-shot não é "iniciante" e few-shot não é "avançado"—são ferramentas para trabalhos diferentes. Use a ferramenta certa e siga em frente.

Sources: Language Models are Few-Shot Learners (Brown et al., 2020) · Few-Shot Prompting — Prompt Engineering Guide · Prompt engineering — Anthropic Docs