Monat: Oktober 2011

Neues zum Hardware-Fehler

Über den ärgerlichen Hardware-Fehler im neuen Webspace-Server hatte ich bereits berichtet. Heute haben wir den RAM entfernt, unter welchem auch das defekte Modul gewesen sein muss. Damit haben wir jetzt wieder ein stabiles System – mit „nur“ 64GB RAM, was aber kein Problem darstellt.

Im Laufe der nächsten Woche wird der RAM dann geprüft und ausgetauscht. Um die neuen Module einzubauen wird dann irgendwann im Laufe der nächsten zwei Wochen noch einmal eine kurze Wartungs-Downtime angesetzt.

Aber der Zwischenstand: Alle Systeme wieder stabil!

Hardware-Fehler auf Webspace-System

Wir haben in den letzten Tagen wie bereits berichtet einige Fehler und Abstürze des neuen Webspace-Servers festgestellt.

Mittlerweile haben wir den Fehler weiter eingrenzen können: in dem Server stecken 16 Module mit je 8 Gigabyte RAM. Davon ist mindestens eins defekt und muss ausgetauscht werden.

Wird der defekte RAM vom System verwendet, stürzt das System einfach ab und startet neu. Auch die automatische Fehlerkorrektur (dieser teure Server-RAM hat so was) ist gegen das Problem machtlos („uncorrectable DRAM ECC error“). Glück im Unglück: das Problem ist zumindest auf den RAM auf einer Gruppe von 8 Bänken beschränkt, es muss also nur die Hälfte des RAMs getestet und getauscht werden.

Aktuell läuft das System, stürzt aber unregelmäßig ab. Zwischenzeitlich haben wir nur wenig Einflussmöglichkeiten auf die Abstürze und können nur schnellstmöglich alle Systeme wieder starten. Gleichzeitig werden wir eine Lösung finden, um schnell den defekten RAM zu tauschen.

Test von Verbesserungen

Um die Webspaces weiter zu verbessern haben wir heute eine Optimierung an den Systemen vorgenommen:

Bisher wurden Zugriffe von einem DSL-Anschluss alle dem selben Server zugeordnet, welcher dann über Netzwerk die erforderlichen Dateien zur Abarbeitung des Zugriffs geholt und verarbeitet hat. Dabei konnte es passieren, dass die Anfragen mehrerer Surfer, welche alle komplexe Webseiten angefordert haben, auf einem einzigen Server ausgeführt wurden – obwohl die anderen Server vollkommen unausgelastet waren.

Dies war erforderlich, da ansonsten die Sitzungsdaten, die so genannte Session, auf einem anderen Server nicht verfügbar gewesen ist. So wäre bei dem Wechsel eines Servers –  den der Benutzer nicht bemerkt, da er die selbe Webseite aufruft – auch z.B. ein Warenkob im Online-Shop verloren gegangen.

Wir speichern diese Daten nun nicht mehr direkt auf dem Server, der den Zugriff bearbeitet, sondern auf einem zentralen Server, der alle Sitzungen verwaltet und entsprechend dimensioniert ist. Daher können die Zugriffe nun wesentlich flexibler auf die unbelasteten Server verteilt werde. Wir versprechen uns dadurch eine verbesserte Auslastung der Kapazitäten, was sich besonders in Stoßzeiten auswirken dürfte und kleine Ausfälle oder kurrzzeitig langsamere Webseiten abfedert.

Sollten wider Erwarten Probleme auftreten: bitte melden!

Ausfall vom 12.10.2011 (Morgens)

Heute morgen ist einer unserer Virtualisierungs-Hosts aus bisher unbekannten Gründen abgestürzt. Nach einem Neustart war der Server wieder betriebsbereit, alle Services wurden dann im Laufe des Vormittags und des frühen Nachmittags geprüft und wieder aktiviert.

Wir entschuldigen uns für die Unannehmlichkeiten. Leider können wir die Fehlerursache momentan nicht weiter eingrenzen, behalten die Sache aber im Auge.

© 2024 lima-city Blog

Theme von Anders NorénHoch ↑