Observabilidade: Prometheus e Grafana
Dashboards Grafana
Construindo dashboards operacionais e de negocio no Grafana.
Nesta aula você vai
- Criar paineis de negocio e infraestrutura no Grafana
- Correlacionar metricas de API, Kafka e consumers
- Definir alertas basicos para incidentes frequentes
Dashboards Grafana
Objetivos
- Criar painéis de negócio e infraestrutura no Grafana
- Correlacionar métricas de API e mensageria
- Definir alertas básicos para incidentes frequentes
Pré-requisitos
- Prometheus coletando metricas de todos os servicos.
- Grafana acessivel em
http://localhost:3000. - Aula de instrumentacao concluida.
Conceito
Dashboard e ferramenta de decisao operacional. Um bom painel responde perguntas objetivas: "onde esta o gargalo?" e "qual servico degradou?".
No stack de 5 microsservicos, combine visao de negocio (pedidos aprovados) com visao tecnica (latencia, erro e lag).
Estrutura de arquivos
infra/monitoring/grafana/dashboardsinfra/monitoring/grafana/provisioningdocs/runbooks/monitoramento.mdinfra/monitoring/alerts/rules.yml
Passo a passo com codigo
- Crie painel de throughput de pagamentos:
sum(rate(payment_events_processed_total{status="success"}[5m]))
- Adicione latencia p95 da API de pedidos:
histogram_quantile(0.95, sum(rate(order_http_request_duration_seconds_bucket[5m])) by (le))
- Inclua painel de lag do consumer group:
max(kafka_consumer_lag{group="payment-consumers-v1"})
- Configure alerta inicial:
- alert: HighPaymentErrorRate
expr: sum(rate(payment_events_processed_total{status="error"}[5m])) > 5
for: 3m
Como testar
- Gere carga normal e capture baseline dos paineis.
- Simule falha no payment-service e observe aumento de erro.
- Verifique disparo de alerta apos janela configurada.
- Confirme que o dashboard ajuda a identificar causa principal.
Dicas
- Comece por 6-8 paineis que suportam incidentes reais.
- Mantenha unidade consistente (ms, req/s, percentual).
- Versione dashboards em JSON no repositorio.
- Adicione links para runbooks no proprio Grafana.
Erros comuns
- Usar eixo e unidade inconsistentes
- Misturar ambientes no mesmo painel
- Alertas sem limiar baseado em histórico
- Não versionar dashboards no repositório
Resumo
Com dashboards bem modelados e alertas iniciais, o Grafana transforma metricas do Prometheus em visibilidade acionavel para operar o sistema distribuido com confianca.