Entendendo a IA Generativa

Temperatura e Configurações

Temperature, top_p, max_tokens — controlar criatividade, determinismo e tamanho da resposta.

Intermediário 20 min 20 pontos Leitura 0%

Nesta aula você vai

  • Configurar temperature e top_p para casos distintos
  • Usar max_tokens para limitar custo e resposta
  • Escolher parâmetros por tipo de tarefa

Temperatura e Configurações

Objetivos

  • Controlar comportamento do modelo sem trocar de LLM
  • Saber quando usar respostas determinísticas vs criativas
  • Comparar saídas alterando parâmetros (exercício mental)

Parâmetros principais

temperature (0.0 – 2.0)

Controla aleatoriedade na escolha do próximo token.

Valor Comportamento Uso típico
0 – 0.2 Quase determinístico, repetível Extração de JSON, classificação, FAQ factual
0.5 – 0.7 Equilíbrio Chat geral, suporte ao cliente
0.8 – 1.2 Mais criativo, variável Brainstorm, copy marketing
> 1.2 Imprevisível Raramente em produção

Exercício: mesmo prompt "Liste 3 benefícios de API REST", temperature 0 vs 1 — a 0 a lista será estável; a 1 palavras e ordem mudam.

top_p (nucleus sampling)

Alternativa/complemento à temperature: considera apenas tokens cuja probabilidade acumulada ≤ top_p (ex: 0,9).

  • top_p: 1 = universo completo
  • top_p: 0,1 = só tokens muito prováveis

Boas práticas: altere temperature OU top_p, não os dois agressivamente ao mesmo tempo. Muitos times fixam top_p: 1 e só ajustam temperature.

max_tokens

Limite máximo de tokens na resposta (output).

  • Protege contra respostas infinitas e custo runaway
  • FAQ curta: max_tokens: 256
  • Explicação técnica: max_tokens: 1024

Se cortar no meio, usuário vê texto truncado — combine com instrução no prompt: "Responda em no máximo 3 parágrafos".

Exemplo de payload (OpenAI-compatible)

{
  "model": "gpt-4o-mini",
  "messages": [{ "role": "user", "content": "Explique webhook em 2 frases." }],
  "temperature": 0.2,
  "max_tokens": 120
}

Presets por tipo de produto

Produto temperature max_tokens Notas
Agente de pedidos 0–0.3 300 Respostas curtas, dados exatos
Gerador de e-mail 0.6 800 Tom profissional, alguma variação
Classificador de intenção 0 50 Saída: label fixo ou JSON
Tutor técnico 0.5 1500 Explicações mais longas

System prompt + parâmetros

Parâmetros numéricos não substituem instruções claras. Combine:

System: Responda sempre em português. Se não souber, diga "Não tenho essa informação".
temperature: 0.3
max_tokens: 400

O que evitar

  • temperature: 1.5 em bot de suporte — respostas inconsistentes
  • max_tokens gigante "por garantia" — paga output desnecessário
  • Ignorar seed (quando disponível) em testes A/B — dificulta reproduzir bugs

Resumo

  • Temperature = criatividade vs consistência
  • top_p = filtro probabilístico alternativo
  • max_tokens = teto de custo e tamanho
  • Escolha preset por caso de uso, documente no repositório