Am Dienstag, den 9.10.2013, haben wir gegen 15:30 auf einem unserer Virtualisierungshosts einige routinemäßige Software-Updates durchgeführt. Bei der Installation eines zusätzlichen Softwarepakets wurde ein Fehler ausgegeben und die Verbindung brach ab. Das System reagierte anschließend weder auf Verbindungsversuche noch auf Ping-Pakete. Nachdem auch die Remote-Konsole kein Bild zeigte, wurde das Host-System neu gestartet.
Nach dem Neustart wurden vor dem Start der Dienste die Paket-Installationen und -Updates beendet um keinen erneuten Ausfall zu provozieren.
Nachdem diese Arbeiten abgeschlossen waren wurden die Dienste nacheinander neu gestartet.
Aufgrund des RAID-Resyncs war die IO-Kapazität stark eingeschränkt, so dass die Dienste langsamer als gewohnt starteten. Gegen 16:30 waren alle Systeme bis auf den Mail-Server und die Webspaces wieder voll funktionsbereit.
Die Webspaces wurden vorerst nur eingeschänkt gestartet (die lima-city.de-Subdomains waren mit dem HTTP-Code 503 gesperrt), um die Caches vorzuwärmen. So waren zwar gekaufte und aufgeschaltete Domains verfügbar, nicht aber die Subdomains (*.lima-city.de). Alle Zugriffe wären mit einem „kalten“ Cache und der eingeschänkten IO-Kapazität zu viel gewesen und hätten alle Webspaces lahmgelegt. Über den restlichen Tag wurde sukzessive ein immer größerer Namensraum der Subdomains reaktiviert. Am späten Abend waren dann wieder alle Webspaces online.
Auch der Mail-Server zeigte, verursacht durch den Spam-Filter, erhöhte IO-Last, so dass dieser vorerst deaktiviert bleiben muss. Wir suchen hier noch eine Lösung (die Token-Datenbank für die statistische Bewertung der E-Mails ist mittlerweile zu groß geworden).
Wir entschuldigen uns für den Ausfall und bedanken uns für die Geduld.