Chaos Engineering
Análise e hardening pós-caos
Tutorial de pós-mortem técnico e plano de hardening baseado em evidências.
Nesta aula você vai
- Consolidar evidências dos experimentos de caos
- Priorizar ações de hardening por impacto
- Atualizar runbooks e validar correções
Análise e hardening pós-caos
Nesta aula você vai transformar resultados dos experimentos em melhorias concretas de arquitetura e operação.
Arquivos usados
docs/postmortems/chaos-payment-kill-2026-07-03.mddocs/runbooks/payment-service-recovery.mdinfra/monitoring/alerts/payment-lag-alert.yml
Passo 1 - Estruture postmortem
Template mínimo:
# Postmortem: payment-service kill
- Hipótese inicial:
- Resultado observado:
- Causa raiz:
- Impacto no negócio:
- Ações corretivas:
Passo 2 - Defina hardening técnico
Exemplos de ações:
- Ajustar timeout/retry do consumidor de pagamento.
- Criar alerta de lag acima de limiar.
- Melhorar readiness para evitar falso saudável.
Passo 3 - Atualize runbook
Em docs/runbooks/payment-service-recovery.md inclua:
- Comandos de diagnóstico (
docker compose logs, métricas e trace). - Sequência de recuperação.
- Critério de sucesso pós-recuperação.
Passo 4 - Reexecute teste para validar correção
docker compose kill payment-service
sleep 30
docker compose up -d payment-service
make test-integration
Critério de aceite
- Lag retorna ao baseline em tempo esperado.
- Não há perda de eventos.
- Alertas disparam e resolvem corretamente.
- Runbook descreve procedimento executado no experimento.
Resumo
Você completou o ciclo de chaos engineering: evidência, causa raiz, hardening e validação da melhoria aplicada.