Webspace-Ausfall am 25.6.2014

Jeder hasst Server-Ausfälle. Du hasst sie, und wir auch. Aber sie passieren. So auch heute, am 25.6.2014 für 6 Stunden und 30 Minuten. Und da wir an unserer Transparenz arbeiten, will ich erklären, was passiert ist und warum die Behebung so lange gedauert hat.

In diesem Blog-Post werde ich erklären:

  1. wie das ganze zustande gekommen ist,
  2. was wir daraus gelernt haben und was wir tun, damit das nicht noch einmal passiert und
  3. was man bei lima-city für’s Geld bekommt und was wir in dem Bereich aktuell planen (und wir brauchen Deinen Input dafür!).

Die Ursache

Heute morgen um 6:56 fing alles an. Auf einem unserer Server, der als System für verschiedene VMs dient, ging der RAM zur Neige. 128GB stecken in dem Server, aber gereicht hat es nicht. Der Host sendete 20 Sekunden lang  Nachrichten an zwei VMs, dass sie sich bitte beenden sollen, sonst würde er das für sie tun. Genau das hat er dann auch getan, und zwar bei dem größten Bad Boy: dem Webspace. Um 6:57 wurde diese VM vom Host-System beendet. Ein bisher einmaliges Ereignis, das auch nicht vorauszusehen war.

Damit war erstmal Feierabend mit dem Webhosting. Ab diesem Moment liefen dann auch die Monitoring-Systeme an und verschickten munter Alarm-E-Mails. Leider war aber zu diesem Zeitpunkt kein Techniker anwesend, um diese zu lesen und zu handeln, aber es sollte noch schlimmer werden: Selbst als die ersten Admins gegen 7:00 erreichbar waren, stellten diese fest, dass es für diesen Fehlerfall gar keine Dokumentation gab. So blieb nichts anders übrig, als die Situation zu analysieren und zu warten, bis derjenige erreichbar ist, der weiß, was zu tun ist (Spoiler: das wäre dann ich). Ich aber hatte bis 4:00 am Server Wartungsarbeiten durchgeführt (die im Übrigen nichts mit dem Ausfall zu tun hatten) und habe Schlaf nachgeholt. Und als ich dann gegen 13:00 auf mein bis dahin lautlos gestelltes Handy guckte, war der Puls bei 180: Monitoring-Mails bis zum Ende seit 7:00 morgens. Das nenne ich mit dem falschen Fuß aufstehen.

Die Systeme wurden dann ganz schnell wieder gestartet und liefen gegen 13:31 wieder. Zwischen 14:49 und 14:52 haben wir noch eine Datenbank  neu synchronisiert. Die Webspaces zeigten in der Zeit den „Schluckauf“-Fehler.

Die Konsequenz

Was tun wir also, damit a) genau dieses Problem und b) ähnliche Probleme nicht wieder auftreten?

  1. die RAM-Limits wurden angepasst, so dass die maximale Ausnutzung immer noch genügend freien RAM lässt
  2. wir werden unsere Notfall-Dokumentation überarbeiten
  3. wir suchen oder bauen Software-Tools, mit denen wir technischen Abläufe automatisieren können, sprich: Technisches Wissen in ausführbare Software umsetzen, die im Notfall nur ausgeführt werden muss

lima-city Webspace: was bekommt man für sein Geld?

Da nun auch die Aussage aufgetaucht ist „Bekomme ich etwas erstattet? Ich hab ja bezahlt, wie kann sowas angehen!“ möchte ich noch etwas erklären zum lima-city Webspace: Wir sind ein Anbieter von kostenlosem Webspace. Wir verkaufen zusätzlich Domains. Man sieht bereits: wir verkaufen Domains, wir verkaufen keinen Webspace. Wir geben für den Webspace auch keine Verfügbarkeitsgarantie. Wir stecken zwar viel Einsatz und Herzblut in die Qualität des Webspace, aber es ist eben auch nur begrenzt Geld und Arbeitszeit dafür vorhanden.

Die Frage deutet bereits darauf hin, dass viele Benutzer hier kritische Anwendungen laufen lassen und sich auch eine garantierte Verfügbarkeit wünschen. Die kann man allerdings auch nur für Geld bereitstellen. Und weil ich gerne bereit bin, Features einzuführen die gebraucht werden (und natürlich auch Geld bringen ;-)) habe ich eine Umfrage erstellt, damit wir herausfinden können, wie so ein Premium-Upgrade denn aussehen soll (und was es kosten darf!):

Umfrage zum Premium-Paket

Es wäre schön, wenn auch die User, die  kein solches Premium-Paket haben wollen, dort teilnehmen. Nur dann wissen wir, wie groß der Anteil der User ist, die das Premium-Paket haben wollen.

Ich könnte mir vorstellen, dass wir das Ganze auf die Beine stellen, wenn etwa 50 User zusammenkommen.

Ich freue mich auch auf viele konstruktive Kommentare. Und wenn jemand seinem Ärger freien Lauf lassen möchte: phillipp.roell (ät) trafficplex.de ist meine E-Mail-Adresse.

17 Kommentare

  1. tct

    Danke fuer die Informationen, ein solches Vorgehen finde ich sehr lobenswert.
    Fehler passieren den Besten, aber wenn man sie erkennt und daran aktiv arbeitet sie zu beseitigen, ist doch alles im Lot.

    Natuerlich tut es mir trotzdem Leid fuer User, die Wichtige Dinge auf lima laufen haben und die dann in der Zeit nicht erreichbar waren. Aber dann sollte man vielleicht ueber richtigen Webspace nachdenken und keinen Free-Hoster verwenden. (just my 2 cent)

    • pr

      Das ist ja die Frage: sollen wir das nicht bereitstellen? Immerhin wäre dann kein Umzug notwendig, das Know-How haben wir, etc.

      • tct

        Ich habe natuerlich an der Umfrage teilgenommen und bin durchaus dafür zu haben einen Premiumservice zu nutzen. Mit meinem bisherigen Anbieter bin ich zwar sehr zufrieden, aber alleine aus Loyalitaet lima gegenueber kann ich mir vorstellen umzuziehen, wenn das Angebot vergleichbar ist.

  2. lucas9991

    Respekt für deine Transparenz! 🙂
    Ich kann mir allerdings nicht vorstellen, dass auf lima kritische Anwendungen laufen. Das sind erfahrungsgemäß eher Nutzer, die ihre Kegelclub Webseite o.ä. hosten und sich einbilden, dass es notwendig ist eine garantierte Verfügbarkeit zu haben.

    Nichts desto trotz sehe ich bei der langjährigen Erfahrungen keine Probleme parallel zum Free-Hosting ein Premium-Hosting anzubieten.
    Ich fände es generell erfreulich, wenn sich parallel zum Free-Hosting ein kommerzieller Webhoster lima-city entwickeln würde. Durch den Umsatz könnte das Free-Hosting z.B. quersubevntioniert (und sei es nur durch gestiegenes Know-How) werden.
    Viel Erfolg Phillipp!

  3. tomlinde

    Ich finde es sehr gut dass der Webspace auf Limacity frei ist und ich würde mir wünschen dass es auch so bleibt. Das Team von Limacity macht eine super gute Arbeit. Fehler passieren überall, es ist nur wichtig wie man damit umgeht. Fehler sind gut, so lange man daraus lernt. Der offene Umgang mit solchen Dingen hier ist mir sehr sympathisch, einfach so weiter machen.

    • DeichSPIEGEL

      Ich kann mich nur dem Kommentar von tomlinde anschließen. Limacity ist einfach toll. Wenn ich Probleme hatte, mir wurde immer geholfen, und zwar zeitnah. Und das alles kostenlos. Dazu eine Transparenz, die man bei kommerziellen Webhostern vermisst.
      Natürlich habe ich keinen kommerziellen Blog, dafür ist mein Blog werbefrei. Natürlich betreibe ich meinen Blog als Hobby. Gleichwohl wünsche ich, dass meine Leser regelmäßig Zugang zu meinen Artikeln haben. Limacity garantiert mir dass – die kleinen temporären Ausfälle sind doch nicht der Rede wert. Auch in den Banken und Sparkassen kommt es immer mal wieder zu Verbindungsproblemen, obwohl die viel Geld in ihre EDV investieren.

      Ich finde, das Team von Limacity macht einen tollen Job. Und ist immer freundlich-

  4. Martin

    ich bin schon seit vielen Jahren bei Lima City (frei) und finde es einfach toll was ihr macht!!!

    Die Transparenz um das jüngste Server-Problem sehe ich als ein Zeichen des Vertrauens und zudem als ein Grund mehr Euch und lima Citiy treu zu bleiben!

    An dieser Stelle möchte ich auch einmal ein dickes Danke sagen an Lima City und alle die sich dafür einsetzen. Denn, man sollte nicht vergessen, im Vergleich zu vielen anderen Anbietern mit freier Webspace, habt ihr -wie ich finde- eine sehr gute Qualität, top service, viele Features und im Allgemeinen eine sehr gute Up-time. Man sollte All das als gratis User wirklich zu schätzen wissen (das tu ich auf jeden Fall!). Ich würde mir wünschen das es so weitergeht wie bisher. Ihr leistet da wirklich etwas tolles!
    Weiter so. Liebe Grüße aus NRW

  5. vmartin

    Shit happens.

    Da hat ja Murphy´s Gesetz grausam zugeschlagen 😉
    Ich war auch angesäuert über die lange Ausfallzeit, weil ich vor kurzem meine Sitemap an Google, Baidu, Yandex, usw gepingt habe und seitdem nett gespidert werde.

    Ich halte die Empfehlung, mit kritischen Anwendungen zu einem Bezahl-Provider zu gehen, nicht für sinnvoll, da ich bisher noch keinen Unterschied feststellen konnte.

    Die Reaktion hat mich schwer beeindruckt., vor allem die Offenheit bei der Beschreibung der Fehler-Situation. So etwas würde ein Bezahl-Provider niemals tun, obwohl gerade das Vertrauen schafft. Natürlich auch, dass es umgehend ein Konzept gibt, wie man das zukünftig vermeiden will.

    Alle Achtung, das ist „Best Practice“.

    • tct

      „Ich halte die Empfehlung, mit kritischen Anwendungen zu einem Bezahl-Provider zu gehen, nicht für sinnvoll, da ich bisher noch keinen Unterschied feststellen konnte.“

      Ich habe bei lima ein CMS installiert um neue Funktionen zu entwickeln und zu testen. Das gleiche System habe ich bei einem kommerziellen Anbieter in Live-Einsatz. Die Abfragen an den MySQl-Server und der Seitenaufbau sind bei lima im schnitt 2x langsamer. Das finde ich nicht weiter schlimm, aber wenn man wirklich Performance braucht oder rechenintensive Anwendungen hat, ist ein Bezahl-Angebot in meinen Augen angebrachter.
      Für eine kleine private Website macht es aber keinen Unterschied, da gebe ich dir absolut Recht.

      • vmartin

        Gut, ich wollte keine generelle Aussage treffen, insbesondere nicht darüber wie es sich bei Content-Management-Systemen verhält.
        Bei CMS ist es halt so, dass die SQL-Statements nicht immer optimal zusammen gebaut werden.
        Ich kann aber deine Meinung nicht teilen, dass lima-city nur für kleine private Websites geeignet ist. Meine Anwendung ist extrem dynamisch, darum ist mir die Performance des MySQL-Servers sehr wichtig und die ist fein.
        Da ich es bei einem selbst programmierten System in der Hand habe,, DB-Abfragen optimal zu formulieren, macht der Unterschied vermutlich nichts mehr aus. Solange es „with the wink of an eye“ passiert,, mache ich keine Zeit-Messungen.

  6. burkinart

    Ich habe eine Geschäftswebsite für ein kleines Gewerbe bei lima-city und war bisher hoch zufrieden. Na ja, mir fehlt beim Aufschalten von Fremddomains der E-Mail Record… Einerseits wünsche ich mir Schnelligkeit (gegeben) und ständige Verfügbarkeit (bis gestern gegeben) und vor allem Werbefreiheit, andererseits ist unser Umsatz so grottenschlecht, dass ich für Webspace bis auf Weiteres nicht bezahlen kann/möchte. Hatte ich bis gestern alles und habe es nach dieser Panne auch jetzt wieder. Die offene Reaktion auf die Panne war klasse – shit happens. Ich hoffe, dass der Premium-Service nicht dazu führt, dass es auf dem kostenlosen Webspace jetzt öfters Pannen gibt. Trotzdem vertraue ich dem Lima-Team und gehe davon aus, dass so etwas nicht passieren wird. Also auch abschließend danke ans Team!

  7. sanktleonhard

    Für mich lief der Ausfall zu einem günstigen Zeitpunkt ab, dass mir der Ausfall nicht einmal auffiel, zumal ich zu dieser Zeit auch noch in der Arbeit bin.

    Ich kann mir zwar vorstellen, dass es ein Ärgernis darstellt, wenn man den Webspace geschäftlich nutzt, dahingehend befürworte ich auch das geplante Premiumpaket. Für meine hobbymäßig genutzten Daten besteht dafür keine Notwendigkeit.

  8. Menschle

    Ausfälle können immer mal vorkommen – insbesondere dann, wenn am wenigsten damit gerechnet wird. Murphy eben. Davon abgesehen lief es die ganze letzte Zeit doch sehr stabil. Was will man mehr?

    Für die Transparenz gibts auch von mir nen dicken Daumen nach oben; das ist wahrlich nicht die Regel bei Webhostern.

    Zum Thema Premium weiß ich nicht so recht, was ich mir da preislich vorstellen könnte: Habe doch schon nen Paket mit 4 Domains bei mon/€10.-

    Hätte ich es nicht, wären es wohl 10.- € monatlich. 😛

  9. weissertiger2

    Wäre es nicht aus überlegenswert das du dir einen Pager besorgst? Also, ein Gerät das dich definitiv wach rüttelt. Ein Gerät das definitiv auf Laut eingestellt ist.

    Dazu würde ja (zumindest für Zuhause) ein billiges PrePaid Handy reichen das an der Steckdose hängt und nur dazu dient von einem Mod/Admin angerufen zu werden.

    Die Transparenz finde ich klasse! Wäre auch das wichtigste bei einem Premium Service. Ich wäre momentan jedoch weniger bereit dafür Geld auszugeben, einfach deshalb da ich bereits anderweitig „Premium“-Service beanspruche. Vor zwei Jahren hätte es vielleicht anders ausgesehen 😉

  10. Maik W. | Senshi-Network

    Also ich finde das ganze gar nicht so schlimm, selbst so riesen wie Blizzard Entertainment, Amazon oder PayPal können mal / haben mal Server Probleme – haben.

    Ich würde es gut finden wenn man ne eigne IP bei Lima kaufen könnte. Was man ja für SSL benötigt.

  11. Computergott

    Waren wirklich alle Server DOWN? Weil ich hatte auf meinem Webspace zu der Ausfallzeit ein tool instaliert, das mir fehler anzeigt (z.b. Fehler im html text) zu euren Ausfallzeiten lief das logging aber problemlos weiter. Ich meine, wenn die server down waren, dürfte das script, was übrigens keine mysql verwendete, eigentlich doch keine log daten anfertigen können??

    LG

  12. Matthias

    Wir hatten einen Ausfall des Webspace?
    Hab ich nicht bemerkt (hab aber auch nichts wichtiges hier 😉 ).

    Aber die Transparenz über die Panne ist echt super.
    Bei meinem anderen Hoster, der übrigens 19,95/Jahr für 200MB Webspace verlangt (aber sich dafür auch keinen extra Downloadserver bezahlen lässt 😉 ), erfährt man hinterher fast nichts…

    [Like] 😀