Tokens e Contexto

Objetivos

Entender por que respostas custam dinheiro
Saber o que é janela de contexto e o que acontece quando estoura
Estimar custo antes de ir para produção

O que são tokens

Modelos não processam "palavras" — processam tokens. Regra prática em português/inglês:

~1 token ≈ 4 caracteres em inglês
~1 token ≈ 3–4 caracteres em português (palavras compostas quebram diferente)

Exemplo: "Integração com API REST" ≈ 6–8 tokens.

APIs cobram por tokens de entrada (input) + tokens de saída (output). Output costuma ser mais caro.

Por que isso importa no código

Cada chamada envia todo o contexto relevante:

{
  "messages": [
    { "role": "system", "content": "Você é assistente da loja X..." },
    { "role": "user", "content": "Pedido 12345?" },
    { "role": "assistant", "content": "Consultando..." },
    { "role": "user", "content": "E o prazo?" }
  ]
}

Todas as mensagens anteriores entram na conta — incluindo system prompt longo e histórico completo. Conversa longa = custo crescente a cada turno.

Janela de contexto (context window)

Cada modelo tem limite máximo de tokens por requisição (entrada + saída):

Modelo (exemplo)	Contexto típico
GPT-4o mini	128k tokens
Claude 3.5 Sonnet	200k tokens
Modelos open menores	4k–32k tokens

Se você ultrapassar, a API rejeita ou trunca (depende do provedor). Em produção: monitore usage.prompt_tokens e usage.completion_tokens na resposta.

Cálculo de custo (exemplo)

Preços fictícios para ilustrar:

Input: US$ 0,15 / 1M tokens
Output: US$ 0,60 / 1M tokens

Requisição: 2.000 tokens input + 500 output:

input:  2000 / 1_000_000 × 0,15 = US$ 0,0003
output:  500 / 1_000_000 × 0,60 = US$ 0,0003
Total ≈ US$ 0,0006 por mensagem

10.000 mensagens/dia ≈ US$ 6/dia ≈ US$ 180/mês só neste cenário. Sem rate limit, um bot público pode explodir a fatura.

Estratégias imediatas (preview)

Detalhamos nas matérias 4 e 5:

System prompt enxuto — regras essenciais, não um manual inteiro
Histórico limitado — últimas N mensagens, não lifetime
Resumo periódico — comprimir conversa antiga
Cache de respostas — mesma pergunta FAQ = mesma resposta sem LLM
max_tokens — limitar tamanho da resposta

Ferramentas úteis

Tokenizers oficiais (OpenAI tiktoken, Hugging Face) para estimar antes de enviar
Dashboard do provedor — billing por dia/projeto
Logs no seu backend: userId, promptTokens, completionTokens, model, latencyMs

Resumo

Token é unidade de cobrança e de limite de contexto
Histórico longo multiplica custo a cada mensagem
Estime custo × volume antes de abrir chatbot público
Controle de contexto é engenharia obrigatória, não otimização opcional

Nesta aula você vai

Tokens e Contexto

Objetivos

O que são tokens

Por que isso importa no código

Janela de contexto (context window)

Cálculo de custo (exemplo)

Estratégias imediatas (preview)

Ferramentas úteis

Resumo