·6 min read

Geração aumentada por recuperação explicada: quando usar RAG vs contexto longo

Authors
  • avatar
    Name
    ThePromptEra Editorial
    Twitter

A escolha que você realmente está fazendo

Você tem documentos. Bastante documentos. Talvez especificações de produtos, contratos legais, tickets de suporte ao cliente ou uma base de conhecimento. Você precisa que Claude entenda e trabalhe com esse material.

Você enfrenta uma decisão: colocar tudo diretamente na janela de contexto do Claude, ou configurar geração aumentada por recuperação (RAG) para puxar apenas documentos relevantes?

Não é uma pergunta teórica. A escolha impacta custo, latência, precisão e manutenibilidade. Vamos esclarecer a confusão.

O que realmente está acontecendo com RAG

RAG é enganosamente simples: você armazena documentos em algum lugar pesquisável, um usuário faz uma pergunta, você encontra documentos relevantes e os coloca no prompt. Pronto.

A mecânica:

  1. Documentos são divididos em chunks e convertidos em embeddings no espaço vetorial (usando algo como a API de embeddings do Claude)
  2. A query do usuário recebe embedding similar
  3. O banco de dados vetorial encontra chunks semanticamente similares
  4. Esses chunks vão para seu prompt Claude como contexto
  5. Claude responde baseado no material recuperado

O apelo é óbvio: você não está pagando tokens em documentos irrelevantes.

Por que o contexto longo do Claude muda o jogo

Claude agora suporta 200.000 tokens (em breve 5 milhões). Isso é aproximadamente 150.000 palavras. Para muitos fluxos de trabalho com documentos, isso não é capacidade teórica—é prática.

O que importa: você pode colocar uma base de conhecimento inteira diretamente em uma única conversa. Sem banco de dados de embeddings. Sem latência de busca vetorial. Sem pipeline de recuperação para manter.

A matemática do custo: A $3 por milhão de tokens de entrada, adicionar 100.000 tokens de contexto custa $0,30 por requisição. Frequentemente negligenciável comparado ao seu valor real de resolução de problemas.

Quando pular RAG completamente (usar contexto longo em vez disso)

Conjuntos de documentos estáticos e limitados Você tem 50–100 documentos que raramente mudam. Carregue todos. Documentos de onboarding de clientes, manual de funcionários, referência de API de produto. O custo por requisição é menor do que manter um sistema de recuperação. A complexidade cai para zero.

Requisitos de alta precisão RAG funciona bem quando você precisa de 80% do contexto certo. Mas se Claude deve considerar o documento inteiro para dar uma resposta correta—porque a resposta depende de referências cruzadas sutis ou contexto espalhado por páginas—a estratégia de chunking do RAG falhará. Análise legal, auditorias financeiras e análises de arquitetura técnica frequentemente caem aqui.

A continuidade conversacional importa Se os usuários fazem perguntas de seguimento que mudam o contexto, a recuperação pura quebra. Com contexto longo, o thread da conversa permanece intacto. A IA lembra do que foi discutido. É por isso que contexto longo é melhor para Q&A interativo com documentos conhecidos.

Você ainda não tem um sistema de recuperação Às vezes a solução mais simples vence. Se configurar embeddings, armazenamento vetorial e lógica de busca leva 2 semanas da sua equipe mas contexto longo resolve o problema hoje—use contexto longo. Coloque em produção primeiro. Otimize depois de entender o verdadeiro gargalo.

Menos de 100 queries por mês A infraestrutura RAG (banco de dados vetorial, API de embeddings, lógica de busca) tem custo operacional e complexidade baseline. Abaixo de certo volume de queries, contexto direto é mais barato.

Quando RAG realmente vence

Bases de conhecimento massivas e constantemente atualizadas Se você está indexando 10.000+ documentos que mudam semanalmente (artigos de suporte, papers de pesquisa, wikis internos), recuperação é a única opção sensata. Fazer embedding e recuperar seções relevantes bate reprocessar tudo a cada requisição.

Conteúdo variável e imprevisível Você não sabe de antemão quais documentos serão relevantes. Um chatbot de suporte ao cliente não sabe qual produto o usuário está perguntando até ele falar. RAG encontra automaticamente os documentos certos. Colocar tudo é desperdiçador.

Otimização de custo em escala A 10.000+ queries mensais, pagar por tokens de contexto não utilizados se soma. Recuperação deixa você pagar apenas por material relevante. A matemática muda.

Multi-turn retrieval com contexto mudando Alguns fluxos de trabalho exigem puxar documentos diferentes a cada turno. Um assistente de pesquisa que cava mais fundo em fontes conforme a conversa evolui se beneficia da flexibilidade da recuperação.

Classificação e roteamento de documentos Se você precisa enviar usuários para documentos específicos de forma confiável, RAG com filtragem de metadata garante que você não está confiando no Claude adivinhar qual arquivo contém a resposta.

O framework prático de avaliação

Faça essas perguntas em ordem:

  1. Quantos documentos? Menos de 100 e relativamente estáveis? Contexto longo. Mais de 1.000 ou constantemente mudando? RAG.

  2. Qual é o modo de falha? Se você precisa de certeza de que todo contexto relevante está incluído, contexto longo vence. Se você pode tolerar ocasionalmente perder um detalhe tangencial em troca de economia de custos, RAG funciona.

  3. Com que frequência isso rodará? Menos de 100 queries/mês: contexto longo. Mais de 1.000: avalie RAG.

  4. Tenho tempo? Colocar em produção com contexto longo esta semana bate construir RAG em três semanas. Pegue feedback primeiro.

  5. Qual é minha qualidade de recuperação? Seja honesto: você consegue construir embeddings confiáveis e busca para seus documentos? Se seu domínio é altamente técnico ou seus documentos são não estruturados, recuperação falha silenciosamente. Contexto longo não.

Um exemplo concreto

Imagine que você está construindo uma ferramenta de análise de contratos.

Cenário A: Abordagem de contexto longo

  • Advogado carrega 15 contratos
  • Todos vão para o contexto do Claude
  • Claude extrai obrigações, riscos, prazos
  • Custo por análise: ~$0,50
  • Tempo para colocar em produção: 3 horas
  • Funciona bem

Cenário B: Abordagem RAG

  • 15 contratos são divididos em chunks, convertidos em embeddings, armazenados
  • Usuário carrega novo contrato
  • Sistema recupera contratos similares
  • Os similares vão para o Claude
  • Custo por análise: ~$0,20
  • Tempo para colocar em produção: 2 semanas
  • Custo um pouco melhor, mas recuperação frágil

Para 15 contratos, escolha A.

Agora imagine 5.000 contratos, adicionados semanalmente, e usuários podem perguntar sobre qualquer um deles. Escolha B. O sistema de recuperação se paga imediatamente.

A abordagem híbrida

Equipes sofisticadas usam ambos. Armazenam tudo em um banco de dados vetorial, mas recuperam agressivamente em uma janela de contexto longo. Isso te dá:

  • A economia de custos da recuperação seletiva
  • Os benefícios de precisão de ver contexto completo do documento
  • A flexibilidade de refinar e re-recuperar dentro de uma conversa

É mais complexo implementar, mas é a arquitetura usada por aplicações sérias com muitos documentos.

Tome a decisão

RAG não é inerentemente melhor que contexto longo, e contexto longo não é inerentemente melhor que RAG. Eles são otimizados para restrições diferentes.

Comece com contexto longo. É mais simples, coloca em produção mais rápido, e os 200K tokens do Claude resolvem a maioria dos problemas com documentos diretamente. Mude para RAG apenas quando atingir suas limitações: escala, custo ou documentos constantemente mudando.

E sempre lembre: o melhor sistema RAG é aquele que você não precisa construir.