Chaos Engineering

Análise e hardening pós-caos

Tutorial de pós-mortem técnico e plano de hardening baseado em evidências.

Avançado 35 min 30 pontos Leitura 0%

Nesta aula você vai

Consolidar evidências dos experimentos de caos
Priorizar ações de hardening por impacto
Atualizar runbooks e validar correções

Análise e hardening pós-caos

Nesta aula você vai transformar resultados dos experimentos em melhorias concretas de arquitetura e operação.

Arquivos usados

docs/postmortems/chaos-payment-kill-2026-07-03.md
docs/runbooks/payment-service-recovery.md
infra/monitoring/alerts/payment-lag-alert.yml

Passo 1 - Estruture postmortem

Template mínimo:

# Postmortem: payment-service kill
- Hipótese inicial:
- Resultado observado:
- Causa raiz:
- Impacto no negócio:
- Ações corretivas:

Passo 2 - Defina hardening técnico

Exemplos de ações:

Ajustar timeout/retry do consumidor de pagamento.
Criar alerta de lag acima de limiar.
Melhorar readiness para evitar falso saudável.

Passo 3 - Atualize runbook

Em docs/runbooks/payment-service-recovery.md inclua:

Comandos de diagnóstico (docker compose logs, métricas e trace).
Sequência de recuperação.
Critério de sucesso pós-recuperação.

Passo 4 - Reexecute teste para validar correção

docker compose kill payment-service
sleep 30
docker compose up -d payment-service
make test-integration

Critério de aceite

Lag retorna ao baseline em tempo esperado.
Não há perda de eventos.
Alertas disparam e resolvem corretamente.
Runbook descreve procedimento executado no experimento.

Resumo

Você completou o ciclo de chaos engineering: evidência, causa raiz, hardening e validação da melhoria aplicada.