Hochverfügbarkeit und Failover: Ausfallsichere Websites betreiben

Jede Minute Ausfall kostet Geld, Vertrauen und potentiell Kunden. Für geschäftskritische Websites ist Hochverfügbarkeit keine Option, sondern Notwendigkeit. Dieser Ratgeber erklärt die Konzepte hinter ausfallsicheren Systemen, zeigt verschiedene Ansätze und hilft Ihnen zu entscheiden, welches Maß an Verfügbarkeit für Ihr Projekt sinnvoll ist.

Was bedeutet Hochverfügbarkeit?

Hochverfügbarkeit, englisch High Availability, bezeichnet Systeme, die auch bei Ausfällen einzelner Komponenten weiter funktionieren. Statt sich auf einen einzelnen Server zu verlassen, arbeiten mehrere Systeme zusammen und übernehmen füreinander, wenn nötig.

Die Verfügbarkeit wird typischerweise in Prozent gemessen. 99 Prozent klingt gut, bedeutet aber über dreieinhalb Tage Ausfall pro Jahr. 99,9 Prozent reduziert das auf unter neun Stunden. Für kritische Systeme werden 99,99 Prozent oder mehr angestrebt, was weniger als eine Stunde Ausfall jährlich bedeutet.

Die Neuner Skala verstehen

Verfügbarkeitsgarantien werden oft in Neuner angegeben. Jede zusätzliche Neun bedeutet deutlich weniger erlaubte Ausfallzeit.

Verfügbarkeit	Bezeichnung	Ausfall pro Jahr	Ausfall pro Monat
99 %	Zwei Neuner	3,65 Tage	7,3 Stunden
99,9 %	Drei Neuner	8,76 Stunden	43,8 Minuten
99,95 %	Dreieinhalb Neuner	4,38 Stunden	21,9 Minuten
99,99 %	Vier Neuner	52,6 Minuten	4,38 Minuten
99,999 %	Fünf Neuner	5,26 Minuten	26,3 Sekunden

Jede zusätzliche Neun wird exponentiell schwieriger und teurer zu erreichen. Fünf Neuner erfordern ausgefeilte Architekturen und redundante Systeme auf allen Ebenen.

Ursachen für Ausfälle

Um Ausfälle zu vermeiden, muss man ihre Ursachen verstehen.

Hardware Ausfälle

Server Komponenten haben eine begrenzte Lebensdauer. Festplatten, Netzteile, RAM Module können jederzeit ausfallen. Je mehr Komponenten, desto höher die Wahrscheinlichkeit eines Ausfalls. Redundanz auf Hardware Ebene ist die erste Verteidigungslinie.

Software Probleme

Bugs, fehlerhafte Updates oder überlastete Anwendungen können Abstürze verursachen. Auch Sicherheitsvorfälle fallen in diese Kategorie. Gute Software Praktiken und Sicherheitsmaßnahmen reduzieren dieses Risiko.

Netzwerk Ausfälle

Die Verbindung zum Internet kann ausfallen, Router versagen oder DNS Probleme auftreten. Redundante Netzwerkanbindungen und mehrere Rechenzentren können helfen.

Menschliche Fehler

Fehlkonfigurationen, versehentliches Löschen oder falsche Deployments verursachen viele Ausfälle. Automatisierung, Review Prozesse und einfache Rollback Möglichkeiten minimieren menschliche Fehler.

Externe Faktoren

Stromausfälle, Naturkatastrophen oder DDoS Angriffe sind von außen verursacht. Dieselgeneratoren, geografische Verteilung und DDoS Schutz adressieren diese Risiken.

Failover: Automatische Übernahme

Failover ist der automatische Wechsel zu einem Backup System, wenn das primäre System ausfällt.

Aktiv Passiv Failover

Ein System läuft aktiv, das Backup wartet passiv. Bei Ausfall übernimmt das Backup. Diese Konfiguration ist einfacher, das Backup System ist aber normalerweise ungenutzt. Die Umschaltzeit hängt von der Implementierung ab.

Aktiv Aktiv Failover

Beide Systeme arbeiten gleichzeitig und teilen die Last. Bei Ausfall eines Systems übernimmt das andere die gesamte Last. Die Ressourcen werden effizienter genutzt, die Konfiguration ist aber komplexer.

Failover Mechanismen

Health Checks überwachen kontinuierlich den Zustand der Systeme. Bei Problemen wird automatisch umgeschaltet. Die Umschaltung kann über DNS, Load Balancer oder spezialisierte Cluster Software erfolgen.

Redundanz auf verschiedenen Ebenen

Echte Hochverfügbarkeit erfordert Redundanz auf allen Ebenen.

Server Redundanz

Mehrere Server statt einem. Bei Cloud Hosting können Instanzen automatisch ersetzt werden. Bei physischen Servern brauchen Sie mindestens zwei identische Systeme.

Datenbank Redundanz

Datenbanken können repliziert werden, sodass mehrere Kopien existieren. Master Slave Replikation oder Multi Master Setups ermöglichen Failover bei Datenbankausfällen. Die Datenkonsistenz ist dabei zu beachten.

Speicher Redundanz

RAID Systeme schützen vor Festplattenausfällen auf einzelnen Servern. Für höhere Verfügbarkeit werden Daten über mehrere Standorte verteilt. Cloud Speicher bietet oft eingebaute Redundanz.

Netzwerk Redundanz

Mehrere Internetanbindungen über verschiedene Provider. Redundante Router und Switches. DNS Failover mit mehreren Servern. Das Netzwerk sollte keinen Single Point of Failure haben.

Standort Redundanz

Die höchste Stufe: mehrere Rechenzentren an verschiedenen Orten. Selbst bei einem Totalausfall eines Standorts läuft das System weiter. Die Synchronisation über Distanzen ist technisch anspruchsvoll.

Load Balancing für Hochverfügbarkeit

Load Balancer verteilen Anfragen auf mehrere Server und sind zentral für Hochverfügbarkeit.

Funktion des Load Balancers

Der Load Balancer nimmt Anfragen entgegen und leitet sie an verfügbare Server weiter. Er überwacht die Gesundheit der Server und nimmt ausgefallene aus der Rotation. Besucher merken von Serverausfällen im Idealfall nichts.

Load Balancer Redundanz

Der Load Balancer selbst kann zum Flaschenhals werden. Hochverfügbare Setups nutzen daher redundante Load Balancer, die ihrerseits Failover Mechanismen haben. Floating IPs oder DNS basiertes Failover sichern den Load Balancer ab.

Kosten der Hochverfügbarkeit

Mehr Verfügbarkeit kostet mehr Geld. Die Investition muss zum Wert der Verfügbarkeit passen.

Direkte Kosten

Zusätzliche Server und Infrastruktur
Load Balancer und Netzwerkequipment
Mehrere Standorte und Verbindungen
Spezialisierte Software und Dienste
Erhöhter Wartungs und Überwachungsaufwand

Kosten von Ausfällen

Dagegen stehen die Kosten von Ausfällen. Entgangener Umsatz, Reputationsschaden, verlorene Kunden, möglicherweise Vertragsstrafen. Für einen Online Shop kann eine Stunde Ausfall tausende Euro kosten. Rechnen Sie durch, was Ihnen Verfügbarkeit wert ist.

Vernünftige Abwägung

Nicht jede Website braucht fünf Neuner. Ein persönlicher Blog übersteht einige Stunden Ausfall ohne Drama. Ein E-Commerce Shop mit hohem Umsatz braucht mehr Absicherung. Wählen Sie das Niveau passend zu Ihrem Risiko.

Monitoring und Alerting

Schnelle Erkennung von Problemen ist essenziell für kurze Ausfallzeiten.

Proaktives Monitoring

Monitoring Systeme überwachen kontinuierlich alle Komponenten. CPU Auslastung, Speicher, Netzwerk, Antwortzeiten: Abweichungen werden erkannt, bevor sie zu Ausfällen führen. Probleme können behoben werden, bevor Nutzer betroffen sind.

Alerting

Bei Problemen müssen die richtigen Personen sofort informiert werden. SMS, Anrufe oder Push Nachrichten erreichen Bereitschaftsdienste auch nachts. Eskalationsketten sorgen dafür, dass Alarme nicht übersehen werden.

Automatische Reaktion

Manche Probleme können automatisch behoben werden. Dienste neu starten, Container ersetzen, Traffic umleiten: Automatisierung verkürzt die Reaktionszeit auf Sekunden statt Minuten.

Disaster Recovery

Disaster Recovery plant für den schlimmsten Fall: Totalausfall eines Standorts.

Recovery Point Objective (RPO)

Wie viel Datenverlust ist akzeptabel? Ein RPO von einer Stunde bedeutet, dass im Ernstfall maximal eine Stunde Daten verloren gehen. Das bestimmt die Frequenz von Backups und Replikation.

Recovery Time Objective (RTO)

Wie schnell muss das System wiederhergestellt sein? Ein RTO von vier Stunden gibt Ihnen diesen Zeitrahmen für die vollständige Wiederherstellung. Das beeinflusst die Art der Backup Strategie und die Vorbereitung.

Regelmäßige Tests

Ein Disaster Recovery Plan, der nie getestet wurde, funktioniert im Ernstfall wahrscheinlich nicht. Regelmäßige Übungen decken Probleme auf und trainieren das Team. Dokumentation allein reicht nicht.

Hochverfügbarkeit bei verschiedenen Hosting Arten

Die Möglichkeiten für Hochverfügbarkeit unterscheiden sich je nach Hosting Art.

Shared Hosting

Bei Shared Hosting haben Sie wenig Einfluss auf die Infrastruktur. Die Verfügbarkeit hängt vom Anbieter ab. Hochverfügbarkeit im strengen Sinne ist nicht möglich, gute Anbieter erreichen aber dennoch hohe Uptimes.

VPS

Mit einem VPS können Sie einfache Failover Konfigurationen aufbauen. Zwei VPS mit Replikation und DNS Failover bieten grundlegende Hochverfügbarkeit. Die Kosten verdoppeln sich, aber die Absicherung ebenfalls.

Cloud Hosting

Cloud Plattformen bieten eingebaute Hochverfügbarkeit Features. Automatisches Ersetzen ausgefallener Instanzen, Load Balancing und Multi Zone Deployments sind oft verfügbar. Die Cloud macht Hochverfügbarkeit zugänglicher.

Managed Hosting

Managed Hosting Anbieter können Hochverfügbarkeit als Teil ihres Dienstes anbieten. Sie zahlen mehr, erhalten aber professionell verwaltete redundante Infrastruktur. Für Unternehmen ohne eigenes IT Team eine gute Option.

Fazit

Hochverfügbarkeit ist ein Spektrum, keine binäre Eigenschaft. Von einfachen Backup Strategien bis zu geo redundanten Multi Site Setups gibt es viele Stufen. Die richtige Wahl hängt von Ihren Anforderungen und Ihrem Budget ab.

Für die meisten Websites reichen gute Hosting Anbieter mit soliden Uptimes. Bei geschäftskritischen Anwendungen lohnt sich die Investition in echte Redundanz. Beginnen Sie mit dem Verständnis Ihrer Risiken und Kosten, dann wählen Sie die passende Absicherung.

Monitoring, gute Backups und dokumentierte Prozesse sind auch ohne vollständige Hochverfügbarkeit wertvoll. Selbst wenn ein Ausfall nicht verhindert wird, verkürzen sie die Wiederherstellungszeit erheblich.