Observabilidade: Prometheus e Grafana

Dashboards Grafana

Construindo dashboards operacionais e de negocio no Grafana.

Avançado 35 min 30 pontos Leitura 0%

Nesta aula você vai

  • Criar paineis de negocio e infraestrutura no Grafana
  • Correlacionar metricas de API, Kafka e consumers
  • Definir alertas basicos para incidentes frequentes

Dashboards Grafana

Objetivos

  • Criar painéis de negócio e infraestrutura no Grafana
  • Correlacionar métricas de API e mensageria
  • Definir alertas básicos para incidentes frequentes

Pré-requisitos

  • Prometheus coletando metricas de todos os servicos.
  • Grafana acessivel em http://localhost:3000.
  • Aula de instrumentacao concluida.

Conceito

Dashboard e ferramenta de decisao operacional. Um bom painel responde perguntas objetivas: "onde esta o gargalo?" e "qual servico degradou?".

No stack de 5 microsservicos, combine visao de negocio (pedidos aprovados) com visao tecnica (latencia, erro e lag).

Estrutura de arquivos

  • infra/monitoring/grafana/dashboards
  • infra/monitoring/grafana/provisioning
  • docs/runbooks/monitoramento.md
  • infra/monitoring/alerts/rules.yml

Passo a passo com codigo

  1. Crie painel de throughput de pagamentos:
sum(rate(payment_events_processed_total{status="success"}[5m]))
  1. Adicione latencia p95 da API de pedidos:
histogram_quantile(0.95, sum(rate(order_http_request_duration_seconds_bucket[5m])) by (le))
  1. Inclua painel de lag do consumer group:
max(kafka_consumer_lag{group="payment-consumers-v1"})
  1. Configure alerta inicial:
- alert: HighPaymentErrorRate
  expr: sum(rate(payment_events_processed_total{status="error"}[5m])) > 5
  for: 3m

Como testar

  1. Gere carga normal e capture baseline dos paineis.
  2. Simule falha no payment-service e observe aumento de erro.
  3. Verifique disparo de alerta apos janela configurada.
  4. Confirme que o dashboard ajuda a identificar causa principal.

Dicas

  • Comece por 6-8 paineis que suportam incidentes reais.
  • Mantenha unidade consistente (ms, req/s, percentual).
  • Versione dashboards em JSON no repositorio.
  • Adicione links para runbooks no proprio Grafana.

Erros comuns

  • Usar eixo e unidade inconsistentes
  • Misturar ambientes no mesmo painel
  • Alertas sem limiar baseado em histórico
  • Não versionar dashboards no repositório

Resumo

Com dashboards bem modelados e alertas iniciais, o Grafana transforma metricas do Prometheus em visibilidade acionavel para operar o sistema distribuido com confianca.