Einsatz um kurz nach Mitternacht: Angriff auf die verdigado DNS Infrastruktur erfolgreich abgewehrt

Am Mittwochabend (12.7.2023) gegen 22 Uhr begann ein etwa 8-stündiger Ausfall der Domain-Name-System-Infrastruktur der verdigado, der auch Teile der Mail- und Homepage-Dienste der verdigado-GCMS-Kund*innen betraf. Der Ausfall konnte gegen 06:40 am Donnerstagmorgen behoben werden.

Was war passiert?

Die Monitoring-Tools schlugen zunächst keinen Alarm. Dank einiger umsichtiger Team-Mitglieder wurden dennoch kurz vor Mitternacht Auffälligkeiten und einzelne Ausfälle bemerkt und sofort die notwendigen Maßnahmen eingeleitet.

Mit Unterstützung aus der Netzbegrünung konnten wir schnell identifizieren, dass die Ursache des Ausfalls kein Software- oder Hardware-Fehler war, sondern von Dritten provoziert wurde. Die Server zur Auflösung der Domain-Namen zu IP-Adressen waren durch eine große Menge an Anfragen überlastet (Denial of Service).

In der Netzwerkauslastung sind die Zeiträume der Überlastung und damit des Ausfalls deutlich abzulesen.

Was haben wir unternommen?

Zunächst versuchte das Team, die anfallende Last im Rahmen des existierenden Systems mittels Optimierung, Skalierung und Filtern der Anfragen zu beherrschen. Gegen 04:10 Uhr mussten wir allerdings feststellen, dass dies mit der aktuellen Konfiguration nicht zu ausreichenden Ergebnissen führte, so dass ein Umzug des Namens-Dienstes zu einem größeren Anbieter (Hetzner) beschlossen wurde. Der Großteil der Namens-Einträge der betroffenen Domains wurde bis ungefähr 07:00 Uhr umgezogen, so dass die allermeisten Kund*innen die E-Mail- und Homepage-Dienste nach dem Aufstehen bereits wieder wie gewohnt nutzen konnten.

Unsere Learnings

Solche Vorkommnisse sind weder für uns noch für die Kund*innen angenehm. Aber wir sind froh, sagen zu können, dass zumindest die Dokumentation der Ausfälle der einzelnen Dienste waren für Kund*innen funktioniert hat: Auf der öffentlichen Seite https://status.verdigado.com war der Status zu jedem Zeitpunkt transparent einsehbar.

Eine andere, wertvolle Erkenntnis in diesem Zusammenhang: Die automatisierten Alarme hatten in diesem Fall keine ausreichend sensiblen Schwellwerte, um einen Ausfall der Dienste direkt dem Team mitzuteilen. Die entsprechenden Alarme wurden nun angepasst, so dass wir in einem vergleichbaren Fall in Zukunft noch schneller reagieren können.

Eins weiteres Learning aus dem Vorfall: Auch intern ist status.verdigado.com ein sinnvoller Baustein in der Überwachung der Dienst-Verfügbarkeiten, den wir nun noch intensiver nutzen werden. Dies ist nun durch eine automatisierte Benachrichtigung aller Team-Mitglieder gewährleistet.

Relativ problemlos hat die Umstellung der Namens-Server funktioniert. Die durchgeführte Prozedur wurde anschließend noch verbessert und dokumentiert, um in vergleichbaren Fällen eine noch höhere Reaktionsgeschwindigkeit zu ermöglichen.

Und last, but not least: Wir sind stolz auf unser Team und unsere Unterstützer*innen aus der Netzbegrünung, die gemeinsam den Angriff auch zu diesen Uhrzeiten konsequent und schließlich auch erfolgreich abwehren konnten.

Solltet ihr noch Probleme feststellen, die als Nachwehen des Angriffs vorkommen könnten, dann meldet euch gern bei unserem Support.