Hardware-Fehler auf Webspace-System

Wir haben in den letzten Tagen wie bereits berichtet einige Fehler und Abstürze des neuen Webspace-Servers festgestellt.

Mittlerweile haben wir den Fehler weiter eingrenzen können: in dem Server stecken 16 Module mit je 8 Gigabyte RAM. Davon ist mindestens eins defekt und muss ausgetauscht werden.

Wird der defekte RAM vom System verwendet, stürzt das System einfach ab und startet neu. Auch die automatische Fehlerkorrektur (dieser teure Server-RAM hat so was) ist gegen das Problem machtlos („uncorrectable DRAM ECC error“). Glück im Unglück: das Problem ist zumindest auf den RAM auf einer Gruppe von 8 Bänken beschränkt, es muss also nur die Hälfte des RAMs getestet und getauscht werden.

Aktuell läuft das System, stürzt aber unregelmäßig ab. Zwischenzeitlich haben wir nur wenig Einflussmöglichkeiten auf die Abstürze und können nur schnellstmöglich alle Systeme wieder starten. Gleichzeitig werden wir eine Lösung finden, um schnell den defekten RAM zu tauschen.

1 Kommentar

  1. weissertiger2

    [Neugierig]Dar ich mal nachfragen wie ihr Defekte RAM’s Prüft.
    Bei 8GB RAMs dauert das doch Stunden? [/Neugierig]