Playbook de Incidentes - Arah

Este documento contém procedimentos para responder a incidentes no sistema Arah.

🚨 Classificação de Incidentes

Severidade Crítica (P1)

Sistema completamente indisponível
Perda de dados
Segurança comprometida

Tempo de Resposta: Imediato
Tempo de Resolução: 1 hora

Severidade Alta (P2)

Funcionalidade crítica indisponível
Performance severamente degradada (> 5s latência)
Muitos usuários afetados

Tempo de Resposta: 15 minutos
Tempo de Resolução: 4 horas

Severidade Média (P3)

Funcionalidade parcialmente indisponível
Performance moderadamente degradada
Poucos usuários afetados

Tempo de Resposta: 1 hora
Tempo de Resolução: 1 dia

Severidade Baixa (P4)

Problemas menores
Melhorias
Documentação

Tempo de Resposta: 1 dia
Tempo de Resolução: 1 semana

📋 Procedimento de Resposta

1. Identificação

Sinais de Incidente:

Alertas do Prometheus/Grafana
Notificações de usuários
Monitoramento mostrando anomalias

Ações Imediatas:

Verificar dashboards de monitoramento
Verificar logs recentes
Verificar health checks
Classificar severidade

Objetivo: Prevenir que o incidente se espalhe ou piore.

Ações:

Se sistema indisponível:
- Verificar se é problema de infraestrutura
- Considerar rollback se deploy recente
- Verificar se é problema de banco de dados
Se performance degradada:
- Verificar métricas de latência
- Verificar queries lentas
- Considerar escalar recursos
Se dados comprometidos:
- Isolar sistema se necessário
- Verificar backups
- Documentar estado atual

Checklist de Diagnóstico:

Health checks (/health/ready)
Logs recentes (últimas 100 linhas)
Métricas (request rate, error rate, latência)
Cache hit rate
Database connections
Redis status (se configurado)
Último deploy (quando foi?)
Mudanças recentes (config, código)

Ferramentas:

# Health
curl https://api.Arah.com/health/ready

# Métricas
curl http://localhost:9090/metrics

# Logs
docker logs Arah-api --tail 100

# Database
psql -h localhost -U Arah -d Arah -c "SELECT COUNT(*) FROM outbox_messages WHERE processed_at_utc IS NULL;"

4. Resolução

Estratégias Comuns:

Sistema Indisponível

Verificar se é problema de infraestrutura
Rollback se deploy recente
Restart da aplicação
Verificar banco de dados

Performance Degradada

Verificar queries lentas
Verificar cache hit rate
Escalar recursos se necessário
Otimizar queries problemáticas

Erros 500

Verificar logs para exception específica
Verificar configuração
Verificar dependências (banco, Redis)
Aplicar hotfix se necessário

Ações Obrigatórias:

Documentar Incidente:
- O que aconteceu?
- Quando aconteceu?
- Como foi resolvido?
- Tempo de resolução
Post-Mortem (para P1/P2):
- Root cause analysis
- Ações preventivas
- Melhorias no sistema
- Atualizar runbook se necessário
Comunicação:
- Notificar stakeholders
- Atualizar status page (se houver)
- Documentar lições aprendidas

🔧 Procedimentos Específicos

Verificar Infraestrutura:

# Docker
docker ps
docker logs Arah-api

# Kubernetes
kubectl get pods
kubectl describe pod <pod-name>

Verificar Banco de Dados:

psql -h localhost -U Arah -d Arah -c "SELECT 1;"

Rollback Imediato (se deploy recente):

kubectl rollout undo deployment/Arah-api

Perda de Dados

Isolar Sistema (se necessário)
Verificar Backups:
```
ls -lh /backups/
```

Restaurar Backup (se necessário):

psql -h localhost -U Arah -d Arah < backup_<timestamp>.sql

Documentar o que foi perdido

Segurança Comprometida

Isolar Sistema Imediatamente
Revogar Credenciais Comprometidas
Verificar Logs de Acesso
Notificar Equipe de Segurança
Documentar Incidente

📞 Contatos de Emergência

DevOps: devops@Arah.com
Desenvolvimento: dev@Arah.com
Emergência: +55 (11) 99999-9999

🔗 Links Relacionados

RUNBOOK.md - Runbook de operações
TROUBLESHOOTING.md - Troubleshooting comum
MONITORING.md - Dashboards e alertas

← Voltar às Boas-Vindas Ver Todos os Docs →

Wiki Arah