Chaos Engineering

Análise e hardening pós-caos

Tutorial de pós-mortem técnico e plano de hardening baseado em evidências.

Avançado 35 min 30 pontos Leitura 0%

Nesta aula você vai

  • Consolidar evidências dos experimentos de caos
  • Priorizar ações de hardening por impacto
  • Atualizar runbooks e validar correções

Análise e hardening pós-caos

Nesta aula você vai transformar resultados dos experimentos em melhorias concretas de arquitetura e operação.

Arquivos usados

  • docs/postmortems/chaos-payment-kill-2026-07-03.md
  • docs/runbooks/payment-service-recovery.md
  • infra/monitoring/alerts/payment-lag-alert.yml

Passo 1 - Estruture postmortem

Template mínimo:

# Postmortem: payment-service kill
- Hipótese inicial:
- Resultado observado:
- Causa raiz:
- Impacto no negócio:
- Ações corretivas:

Passo 2 - Defina hardening técnico

Exemplos de ações:

  1. Ajustar timeout/retry do consumidor de pagamento.
  2. Criar alerta de lag acima de limiar.
  3. Melhorar readiness para evitar falso saudável.

Passo 3 - Atualize runbook

Em docs/runbooks/payment-service-recovery.md inclua:

  • Comandos de diagnóstico (docker compose logs, métricas e trace).
  • Sequência de recuperação.
  • Critério de sucesso pós-recuperação.

Passo 4 - Reexecute teste para validar correção

docker compose kill payment-service
sleep 30
docker compose up -d payment-service
make test-integration

Critério de aceite

  • Lag retorna ao baseline em tempo esperado.
  • Não há perda de eventos.
  • Alertas disparam e resolvem corretamente.
  • Runbook descreve procedimento executado no experimento.

Resumo

Você completou o ciclo de chaos engineering: evidência, causa raiz, hardening e validação da melhoria aplicada.