- chalblog - http://blog.is-a-geek.org -

We are back! Nach einem Verbindungsfehler sind wir wieder online

We are back! Nach einem Verbindungsfehler sind wir wieder online [1]… und das wird durch gezielte Gegenmaßnahmen auch so bleiben. Natürlich muss solch ein Fehlerszenario immer genau dann auftreten, wenn man keinen Zugriff auf die Hardware hat. Solche Ausfälle haben jedoch auch ihr Gutes. Man fängt danach immer an zu grübeln, wie man diese weiter minimieren kann und wo sich noch Verbesserungspotential befindet. Wer mehr über den Ausfall und die Gründe erfahren will sollte auf weiterlesen klicken.

Der Ausfall hat sich leider genau an dem Wochenende ereignet, als ich leider nicht mal schnell diverse Hardware austauschen und Stecker ziehen konnte. Es lag jedoch nicht am Server selbst, da dieses Problem relativ einfach zu lösen gewesen wäre. Da ich mir vor einiger Zeit einen Backupserver hingestellt habe, hätte ich diesen einfach per WOL starten müssen und die Datenstände mit dem letzten Backup auf dem NAS abgeglichen (ja ich mache tägliche Backups).

An der Internetverbindung selbst lag es in diesem Fall auch nicht, denn diese hätte ich ebenfalls per Remote neu starten können. Wie was ohne Internet? Ja natürlich per SMS! Diese Funktion habe ich mir vor einiger Zeit als Notlösung eingerichtet.

Einige User haben beschrieben, dass die Seite nicht gleich komplett unerreichbar war, sondern das Übel hat sich langsam entwickelt. Erst nach einiger Zeit war die Seite komplett offline.

Da ich vor ca einer Woche auf Gigabit-Lan umgerüstet habe, dachte ich im ersten Moment eigentlich gar nicht an die neue Hardware. Der Verursacher des Problems war der neue Switch und eigentlich noch schlimmer, es war selbst verschuldet.

3Com 2848-SFP Plus [2]

3Com 2848-SFP Plus

Es handelt sich um einen 3Com 2848-SFP Plus welcher jedoch nicht wirklich Schuld daran ist. Das Problem lag daran, dass ich es nicht lassen konnte, diesen mit ein paar zusätzlichen Kühlkörpern auszurüsten. Leider hat sich dann einer gelöst und Spannung dorthin geleitet, wo sie nicht hin sollte 🙁

Switch Kühlkörper [3]

Kühlkörper

Integrieren werde ich ihn erst wieder, wenn er tiefergehende Funktionschecks bestanden hat. Dass sich über den Mod streiten lässt, ist mir durchaus bewusst. Der Switch könnte aber auch durch eine andere Ursache den Geist aufgeben.

Um auch diese Fehlerquelle zu beseitigen habe ich kurzerhand eine herumliegende Wlan-Karte in den Server eingebaut und muss mir jetzt Gedanken machen, wie und wann ich manuell/automatisch auf diese Alternativverbindung umsteigen kann.

Betreibt ihr auch einen eigenen Server?

Steht bei euch ebenfalls irgendwo ein Server herum und habt ihr euch schon mit der Vermeidung solcher Ausfälle beschäftigt, schreibt doch kurz eure Lösungen als Kommentar.

Ich werde meine hier in nächster Zeit als Artikel veröffentlichen und vieleicht ist ja für euch auch die ein oder andere sinvolle Möglichkeit dabei, die Ausfallsquoten nach unten zu treiben.