http_server_errors_total por serviço.
Definir thresholds de error rate > 5% em janela de 5min. Configurar notificação via Alertmanager → Slack.
/health nos serviços ACL, Log Search e Notification.
Retornar status de DB, Redis e dependências externas. Seguir padrão já implementado no Billing Service.
Imagick, geração de thumbnail.
Já existe o SDK configurado, só adicionar os spans manuais.
promphp/prometheus_client_php
e expor em /metrics.
kubectl e queries PromQL úteis.
prometheus-adapter. Testar com carga simulada usando k6
e verificar se os pods escalam conforme o throughput de spans aumenta.