Ausfall vom 9.10.2013

Am Dienstag, den 9.10.2013, haben wir gegen 15:30 auf einem unserer Virtualisierungshosts einige routinemäßige Software-Updates durchgeführt. Bei der Installation eines zusätzlichen Softwarepakets wurde ein Fehler ausgegeben und die Verbindung brach ab. Das System reagierte anschließend weder auf Verbindungsversuche noch auf Ping-Pakete. Nachdem auch die Remote-Konsole kein Bild zeigte, wurde das Host-System neu gestartet.

Nach dem Neustart wurden vor dem Start der Dienste die Paket-Installationen und -Updates beendet um keinen erneuten Ausfall zu provozieren.

Nachdem diese Arbeiten abgeschlossen waren wurden die Dienste nacheinander neu gestartet.

Aufgrund des RAID-Resyncs war die IO-Kapazität stark eingeschränkt, so dass die Dienste langsamer als gewohnt starteten. Gegen 16:30 waren alle Systeme bis auf den Mail-Server und die Webspaces wieder voll funktionsbereit.

Die Webspaces wurden vorerst nur eingeschänkt gestartet (die lima-city.de-Subdomains waren mit dem HTTP-Code 503 gesperrt), um die Caches vorzuwärmen. So waren zwar gekaufte und aufgeschaltete Domains verfügbar, nicht aber die Subdomains (*.lima-city.de). Alle Zugriffe wären mit einem „kalten“ Cache und der eingeschänkten IO-Kapazität zu viel gewesen und hätten alle Webspaces lahmgelegt. Über den restlichen Tag wurde sukzessive ein immer größerer Namensraum der Subdomains reaktiviert. Am späten Abend waren dann wieder alle Webspaces online.

Auch der Mail-Server zeigte, verursacht durch den Spam-Filter, erhöhte IO-Last, so dass dieser vorerst deaktiviert bleiben muss. Wir suchen hier noch eine Lösung (die Token-Datenbank für die statistische Bewertung der E-Mails ist mittlerweile zu groß geworden).

Wir entschuldigen uns für den Ausfall und bedanken uns für die Geduld.

3 Kommentare

  1. Durchgeführte Software-Updates können nunmal unvorhergesehene Probleme mit sich bringen. Jeder Webseiten/Server -Betreiber, der schon länger dabei ist und CMS nutzt und/oder Server betreibt, weiß, wie müßig andauernde Updates sein können. Gerade dann, wenn es sich um laufende Dienste handelt, ist der Horror zuvor meist schon recht groß, weil „heiß“ eingegriffen werden muss, und es sich nicht zuvor testen lässt.

    Danke für eure Mühe, und auch für die recht ausführliche Beschreibung – von meiner Seite aus jedenfalls.

  2. Das nenne ich mal einen ausführlichen und nachvollziehbaren Ausfallbericht, vielen Dank dafür!! Ihr seid spitze!

  3. Des Bericht ist spitze! So ausführlich keinne ich außer euch KEINEN Webspace-Anbieter.

    Sehr gut und weiter so!

Kommentare sind geschlossen.