Entendendo a IA Generativa
Tokens e Contexto
O que são tokens, limites de contexto, custo por token e impacto financeiro em produção.
Nesta aula você vai
- Definir token e estimar tamanho de prompts
- Explicar janela de contexto e overflow
- Calcular custo aproximado de uma conversa
Tokens e Contexto
Objetivos
- Entender por que respostas custam dinheiro
- Saber o que é janela de contexto e o que acontece quando estoura
- Estimar custo antes de ir para produção
O que são tokens
Modelos não processam "palavras" — processam tokens. Regra prática em português/inglês:
- ~1 token ≈ 4 caracteres em inglês
- ~1 token ≈ 3–4 caracteres em português (palavras compostas quebram diferente)
Exemplo: "Integração com API REST" ≈ 6–8 tokens.
APIs cobram por tokens de entrada (input) + tokens de saída (output). Output costuma ser mais caro.
Por que isso importa no código
Cada chamada envia todo o contexto relevante:
{
"messages": [
{ "role": "system", "content": "Você é assistente da loja X..." },
{ "role": "user", "content": "Pedido 12345?" },
{ "role": "assistant", "content": "Consultando..." },
{ "role": "user", "content": "E o prazo?" }
]
}
Todas as mensagens anteriores entram na conta — incluindo system prompt longo e histórico completo. Conversa longa = custo crescente a cada turno.
Janela de contexto (context window)
Cada modelo tem limite máximo de tokens por requisição (entrada + saída):
| Modelo (exemplo) | Contexto típico |
|---|---|
| GPT-4o mini | 128k tokens |
| Claude 3.5 Sonnet | 200k tokens |
| Modelos open menores | 4k–32k tokens |
Se você ultrapassar, a API rejeita ou trunca (depende do provedor). Em produção: monitore usage.prompt_tokens e usage.completion_tokens na resposta.
Cálculo de custo (exemplo)
Preços fictícios para ilustrar:
- Input: US$ 0,15 / 1M tokens
- Output: US$ 0,60 / 1M tokens
Requisição: 2.000 tokens input + 500 output:
input: 2000 / 1_000_000 × 0,15 = US$ 0,0003
output: 500 / 1_000_000 × 0,60 = US$ 0,0003
Total ≈ US$ 0,0006 por mensagem
10.000 mensagens/dia ≈ US$ 6/dia ≈ US$ 180/mês só neste cenário. Sem rate limit, um bot público pode explodir a fatura.
Estratégias imediatas (preview)
Detalhamos nas matérias 4 e 5:
- System prompt enxuto — regras essenciais, não um manual inteiro
- Histórico limitado — últimas N mensagens, não lifetime
- Resumo periódico — comprimir conversa antiga
- Cache de respostas — mesma pergunta FAQ = mesma resposta sem LLM
- max_tokens — limitar tamanho da resposta
Ferramentas úteis
- Tokenizers oficiais (OpenAI
tiktoken, Hugging Face) para estimar antes de enviar - Dashboard do provedor — billing por dia/projeto
- Logs no seu backend:
userId,promptTokens,completionTokens,model,latencyMs
Resumo
- Token é unidade de cobrança e de limite de contexto
- Histórico longo multiplica custo a cada mensagem
- Estime custo × volume antes de abrir chatbot público
- Controle de contexto é engenharia obrigatória, não otimização opcional