Pular para o conteúdo principal

Observabilidade e SLO — Fase 3

SLOs

IndicadorMetaJanela
Disponibilidade POST /api/messages>= 99.5%mensal
Latência p95 POST /api/messages<= 5ssemanal
Taxa de erro 5xx<= 1%diária
Sucesso de processamento no worker>= 99%diária
Tempo para detecção de falha crítica<= 5 mincontínua

Métricas principais

  • http.health.requests
  • rate_limit.allowed e rate_limit.denied
  • sqs.enqueue.success e sqs.enqueue.failure
  • worker.batch.records
  • worker.export.completed e worker.job.failure
  • span.bot_handler_request.duration_ms
  • span.worker_job.duration_ms

Dashboards recomendados

DashboardConteúdo
Bot Handler OverviewInvocations, Errors, Duration p95, taxa 429
Worker Export OverviewThroughput, falhas, retries, profundidade SQS/DLQ
Governança e SegurançaEventos RBAC, tentativas negadas, payloads inválidos

Alertas recomendados

  • Erro 5xx > 1% por 5 minutos
  • worker.job.failure acima de baseline por 10 minutos
  • Mensagens em DLQ > 0 por 5 minutos
  • Latência p95 acima de 5s por 10 minutos

Processo operacional

  1. Monitoramento contínuo via dashboard.
  2. Disparo de alerta para on-call.
  3. Execução do runbook correspondente: