Entendendo a IA Generativa

Tokens e Contexto

O que são tokens, limites de contexto, custo por token e impacto financeiro em produção.

Intermediário 20 min 20 pontos Leitura 0%

Nesta aula você vai

  • Definir token e estimar tamanho de prompts
  • Explicar janela de contexto e overflow
  • Calcular custo aproximado de uma conversa

Tokens e Contexto

Objetivos

  • Entender por que respostas custam dinheiro
  • Saber o que é janela de contexto e o que acontece quando estoura
  • Estimar custo antes de ir para produção

O que são tokens

Modelos não processam "palavras" — processam tokens. Regra prática em português/inglês:

  • ~1 token ≈ 4 caracteres em inglês
  • ~1 token ≈ 3–4 caracteres em português (palavras compostas quebram diferente)

Exemplo: "Integração com API REST" ≈ 6–8 tokens.

APIs cobram por tokens de entrada (input) + tokens de saída (output). Output costuma ser mais caro.

Por que isso importa no código

Cada chamada envia todo o contexto relevante:

{
  "messages": [
    { "role": "system", "content": "Você é assistente da loja X..." },
    { "role": "user", "content": "Pedido 12345?" },
    { "role": "assistant", "content": "Consultando..." },
    { "role": "user", "content": "E o prazo?" }
  ]
}

Todas as mensagens anteriores entram na conta — incluindo system prompt longo e histórico completo. Conversa longa = custo crescente a cada turno.

Janela de contexto (context window)

Cada modelo tem limite máximo de tokens por requisição (entrada + saída):

Modelo (exemplo) Contexto típico
GPT-4o mini 128k tokens
Claude 3.5 Sonnet 200k tokens
Modelos open menores 4k–32k tokens

Se você ultrapassar, a API rejeita ou trunca (depende do provedor). Em produção: monitore usage.prompt_tokens e usage.completion_tokens na resposta.

Cálculo de custo (exemplo)

Preços fictícios para ilustrar:

  • Input: US$ 0,15 / 1M tokens
  • Output: US$ 0,60 / 1M tokens

Requisição: 2.000 tokens input + 500 output:

input:  2000 / 1_000_000 × 0,15 = US$ 0,0003
output:  500 / 1_000_000 × 0,60 = US$ 0,0003
Total ≈ US$ 0,0006 por mensagem

10.000 mensagens/dia ≈ US$ 6/dia ≈ US$ 180/mês só neste cenário. Sem rate limit, um bot público pode explodir a fatura.

Estratégias imediatas (preview)

Detalhamos nas matérias 4 e 5:

  • System prompt enxuto — regras essenciais, não um manual inteiro
  • Histórico limitado — últimas N mensagens, não lifetime
  • Resumo periódico — comprimir conversa antiga
  • Cache de respostas — mesma pergunta FAQ = mesma resposta sem LLM
  • max_tokens — limitar tamanho da resposta

Ferramentas úteis

  • Tokenizers oficiais (OpenAI tiktoken, Hugging Face) para estimar antes de enviar
  • Dashboard do provedor — billing por dia/projeto
  • Logs no seu backend: userId, promptTokens, completionTokens, model, latencyMs

Resumo

  • Token é unidade de cobrança e de limite de contexto
  • Histórico longo multiplica custo a cada mensagem
  • Estime custo × volume antes de abrir chatbot público
  • Controle de contexto é engenharia obrigatória, não otimização opcional