Observabilidade e SLO — Fase 3
SLOs
| Indicador | Meta | Janela |
|---|---|---|
Disponibilidade POST /api/messages | >= 99.5% | mensal |
Latência p95 POST /api/messages | <= 5s | semanal |
| Taxa de erro 5xx | <= 1% | diária |
| Sucesso de processamento no worker | >= 99% | diária |
| Tempo para detecção de falha crítica | <= 5 min | contínua |
Métricas principais
http.health.requestsrate_limit.allowederate_limit.deniedsqs.enqueue.successesqs.enqueue.failureworker.batch.recordsworker.export.completedeworker.job.failurespan.bot_handler_request.duration_msspan.worker_job.duration_ms
Dashboards recomendados
| Dashboard | Conteúdo |
|---|---|
| Bot Handler Overview | Invocations, Errors, Duration p95, taxa 429 |
| Worker Export Overview | Throughput, falhas, retries, profundidade SQS/DLQ |
| Governança e Segurança | Eventos RBAC, tentativas negadas, payloads inválidos |
Alertas recomendados
- Erro 5xx > 1% por 5 minutos
worker.job.failureacima de baseline por 10 minutos- Mensagens em DLQ > 0 por 5 minutos
- Latência p95 acima de 5s por 10 minutos
Processo operacional
- Monitoramento contínuo via dashboard.
- Disparo de alerta para on-call.
- Execução do runbook correspondente: