Signal Alerting Setup (P0 | diese KW) #11

Open
opened 2026-02-16 14:11:20 +01:00 by OliverGiertz · 0 comments
OliverGiertz commented 2026-02-16 14:11:20 +01:00 (Migrated from github.com)

Ziel: Kritische StaySense-Störungen sofort per Signal melden (API down, DB/SQL-Fehler, Import-Fehler).

Needs (Voraussetzungen)

  • Dedizierte Signal-Bot-Nummer vorhanden
  • signal-cli auf Hetzner installierbar (Java Runtime)
  • Ziel-Empfänger definiert (eigene Nummer / Gruppe)
  • Einmalige Signal-Registrierung + Verifizierung durchgeführt

ToDos (Umsetzung diese Woche)

  • signal-cli Installation + Service-User auf Server
  • Alert-Script erstellen (API, systemd service, DB read/write, Import-Status)
  • Cooldown/De-Dupe (z. B. 30 Min je Alert-Typ)
  • Recovery-Meldungen ("wieder OK") integrieren
  • systemd timer / cron für Check-Intervall einrichten
  • Testfälle ausführen: API down, DB-Fehler, Import-Fehler
  • Dokumentation in docs/OPERATIONS.md + Runbook erweitern

Abnahmekriterien

  • Bei API-Ausfall kommt innerhalb 2 Min eine Signal-Nachricht
  • Bei Recovery kommt eine Entwarnung
  • Keine Alert-Flut bei Dauerfehler (Cooldown aktiv)
  • Testprotokoll mit Zeitstempeln dokumentiert

Referenz: baut auf #1 (Monitoring/Alerting API + Import) auf.

Ziel: Kritische StaySense-Störungen sofort per Signal melden (API down, DB/SQL-Fehler, Import-Fehler). ## Needs (Voraussetzungen) - [ ] Dedizierte Signal-Bot-Nummer vorhanden - [ ] signal-cli auf Hetzner installierbar (Java Runtime) - [ ] Ziel-Empfänger definiert (eigene Nummer / Gruppe) - [ ] Einmalige Signal-Registrierung + Verifizierung durchgeführt ## ToDos (Umsetzung diese Woche) - [ ] signal-cli Installation + Service-User auf Server - [ ] Alert-Script erstellen (API, systemd service, DB read/write, Import-Status) - [ ] Cooldown/De-Dupe (z. B. 30 Min je Alert-Typ) - [ ] Recovery-Meldungen ("wieder OK") integrieren - [ ] systemd timer / cron für Check-Intervall einrichten - [ ] Testfälle ausführen: API down, DB-Fehler, Import-Fehler - [ ] Dokumentation in `docs/OPERATIONS.md` + Runbook erweitern ## Abnahmekriterien - [ ] Bei API-Ausfall kommt innerhalb 2 Min eine Signal-Nachricht - [ ] Bei Recovery kommt eine Entwarnung - [ ] Keine Alert-Flut bei Dauerfehler (Cooldown aktiv) - [ ] Testprotokoll mit Zeitstempeln dokumentiert Referenz: baut auf `#1` (Monitoring/Alerting API + Import) auf.
Sign in to join this conversation.
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference: oliver/StaySense#11
No description provided.