Hochverfügbarkeit und Failover: Ausfallsichere Websites betreiben
Jede Minute Ausfall kostet Geld, Vertrauen und potentiell Kunden. Für geschäftskritische Websites ist Hochverfügbarkeit keine Option, sondern Notwendigkeit. Dieser Ratgeber erklärt die Konzepte hinter ausfallsicheren Systemen, zeigt verschiedene Ansätze und hilft Ihnen zu entscheiden, welches Maß an Verfügbarkeit für Ihr Projekt sinnvoll ist.
Was bedeutet Hochverfügbarkeit?
Hochverfügbarkeit, englisch High Availability, bezeichnet Systeme, die auch bei Ausfällen einzelner Komponenten weiter funktionieren. Statt sich auf einen einzelnen Server zu verlassen, arbeiten mehrere Systeme zusammen und übernehmen füreinander, wenn nötig.
Die Verfügbarkeit wird typischerweise in Prozent gemessen. 99 Prozent klingt gut, bedeutet aber über dreieinhalb Tage Ausfall pro Jahr. 99,9 Prozent reduziert das auf unter neun Stunden. Für kritische Systeme werden 99,99 Prozent oder mehr angestrebt, was weniger als eine Stunde Ausfall jährlich bedeutet.
Die Neuner Skala verstehen
Verfügbarkeitsgarantien werden oft in Neuner angegeben. Jede zusätzliche Neun bedeutet deutlich weniger erlaubte Ausfallzeit.
| Verfügbarkeit | Bezeichnung | Ausfall pro Jahr | Ausfall pro Monat |
|---|---|---|---|
| 99 % | Zwei Neuner | 3,65 Tage | 7,3 Stunden |
| 99,9 % | Drei Neuner | 8,76 Stunden | 43,8 Minuten |
| 99,95 % | Dreieinhalb Neuner | 4,38 Stunden | 21,9 Minuten |
| 99,99 % | Vier Neuner | 52,6 Minuten | 4,38 Minuten |
| 99,999 % | Fünf Neuner | 5,26 Minuten | 26,3 Sekunden |
Jede zusätzliche Neun wird exponentiell schwieriger und teurer zu erreichen. Fünf Neuner erfordern ausgefeilte Architekturen und redundante Systeme auf allen Ebenen.
Ursachen für Ausfälle
Um Ausfälle zu vermeiden, muss man ihre Ursachen verstehen.
Hardware Ausfälle
Server Komponenten haben eine begrenzte Lebensdauer. Festplatten, Netzteile, RAM Module können jederzeit ausfallen. Je mehr Komponenten, desto höher die Wahrscheinlichkeit eines Ausfalls. Redundanz auf Hardware Ebene ist die erste Verteidigungslinie.
Software Probleme
Bugs, fehlerhafte Updates oder überlastete Anwendungen können Abstürze verursachen. Auch Sicherheitsvorfälle fallen in diese Kategorie. Gute Software Praktiken und Sicherheitsmaßnahmen reduzieren dieses Risiko.
Netzwerk Ausfälle
Die Verbindung zum Internet kann ausfallen, Router versagen oder DNS Probleme auftreten. Redundante Netzwerkanbindungen und mehrere Rechenzentren können helfen.
Menschliche Fehler
Fehlkonfigurationen, versehentliches Löschen oder falsche Deployments verursachen viele Ausfälle. Automatisierung, Review Prozesse und einfache Rollback Möglichkeiten minimieren menschliche Fehler.
Externe Faktoren
Stromausfälle, Naturkatastrophen oder DDoS Angriffe sind von außen verursacht. Dieselgeneratoren, geografische Verteilung und DDoS Schutz adressieren diese Risiken.
Failover: Automatische Übernahme
Failover ist der automatische Wechsel zu einem Backup System, wenn das primäre System ausfällt.
Aktiv Passiv Failover
Ein System läuft aktiv, das Backup wartet passiv. Bei Ausfall übernimmt das Backup. Diese Konfiguration ist einfacher, das Backup System ist aber normalerweise ungenutzt. Die Umschaltzeit hängt von der Implementierung ab.
Aktiv Aktiv Failover
Beide Systeme arbeiten gleichzeitig und teilen die Last. Bei Ausfall eines Systems übernimmt das andere die gesamte Last. Die Ressourcen werden effizienter genutzt, die Konfiguration ist aber komplexer.
Failover Mechanismen
Health Checks überwachen kontinuierlich den Zustand der Systeme. Bei Problemen wird automatisch umgeschaltet. Die Umschaltung kann über DNS, Load Balancer oder spezialisierte Cluster Software erfolgen.
Redundanz auf verschiedenen Ebenen
Echte Hochverfügbarkeit erfordert Redundanz auf allen Ebenen.
Server Redundanz
Mehrere Server statt einem. Bei Cloud Hosting können Instanzen automatisch ersetzt werden. Bei physischen Servern brauchen Sie mindestens zwei identische Systeme.
Datenbank Redundanz
Datenbanken können repliziert werden, sodass mehrere Kopien existieren. Master Slave Replikation oder Multi Master Setups ermöglichen Failover bei Datenbankausfällen. Die Datenkonsistenz ist dabei zu beachten.
Speicher Redundanz
RAID Systeme schützen vor Festplattenausfällen auf einzelnen Servern. Für höhere Verfügbarkeit werden Daten über mehrere Standorte verteilt. Cloud Speicher bietet oft eingebaute Redundanz.
Netzwerk Redundanz
Mehrere Internetanbindungen über verschiedene Provider. Redundante Router und Switches. DNS Failover mit mehreren Servern. Das Netzwerk sollte keinen Single Point of Failure haben.
Standort Redundanz
Die höchste Stufe: mehrere Rechenzentren an verschiedenen Orten. Selbst bei einem Totalausfall eines Standorts läuft das System weiter. Die Synchronisation über Distanzen ist technisch anspruchsvoll.
Load Balancing für Hochverfügbarkeit
Load Balancer verteilen Anfragen auf mehrere Server und sind zentral für Hochverfügbarkeit.
Funktion des Load Balancers
Der Load Balancer nimmt Anfragen entgegen und leitet sie an verfügbare Server weiter. Er überwacht die Gesundheit der Server und nimmt ausgefallene aus der Rotation. Besucher merken von Serverausfällen im Idealfall nichts.
Load Balancer Redundanz
Der Load Balancer selbst kann zum Flaschenhals werden. Hochverfügbare Setups nutzen daher redundante Load Balancer, die ihrerseits Failover Mechanismen haben. Floating IPs oder DNS basiertes Failover sichern den Load Balancer ab.
Kosten der Hochverfügbarkeit
Mehr Verfügbarkeit kostet mehr Geld. Die Investition muss zum Wert der Verfügbarkeit passen.
Direkte Kosten
- Zusätzliche Server und Infrastruktur
- Load Balancer und Netzwerkequipment
- Mehrere Standorte und Verbindungen
- Spezialisierte Software und Dienste
- Erhöhter Wartungs und Überwachungsaufwand
Kosten von Ausfällen
Dagegen stehen die Kosten von Ausfällen. Entgangener Umsatz, Reputationsschaden, verlorene Kunden, möglicherweise Vertragsstrafen. Für einen Online Shop kann eine Stunde Ausfall tausende Euro kosten. Rechnen Sie durch, was Ihnen Verfügbarkeit wert ist.
Vernünftige Abwägung
Nicht jede Website braucht fünf Neuner. Ein persönlicher Blog übersteht einige Stunden Ausfall ohne Drama. Ein E-Commerce Shop mit hohem Umsatz braucht mehr Absicherung. Wählen Sie das Niveau passend zu Ihrem Risiko.
Monitoring und Alerting
Schnelle Erkennung von Problemen ist essenziell für kurze Ausfallzeiten.
Proaktives Monitoring
Monitoring Systeme überwachen kontinuierlich alle Komponenten. CPU Auslastung, Speicher, Netzwerk, Antwortzeiten: Abweichungen werden erkannt, bevor sie zu Ausfällen führen. Probleme können behoben werden, bevor Nutzer betroffen sind.
Alerting
Bei Problemen müssen die richtigen Personen sofort informiert werden. SMS, Anrufe oder Push Nachrichten erreichen Bereitschaftsdienste auch nachts. Eskalationsketten sorgen dafür, dass Alarme nicht übersehen werden.
Automatische Reaktion
Manche Probleme können automatisch behoben werden. Dienste neu starten, Container ersetzen, Traffic umleiten: Automatisierung verkürzt die Reaktionszeit auf Sekunden statt Minuten.
Disaster Recovery
Disaster Recovery plant für den schlimmsten Fall: Totalausfall eines Standorts.
Recovery Point Objective (RPO)
Wie viel Datenverlust ist akzeptabel? Ein RPO von einer Stunde bedeutet, dass im Ernstfall maximal eine Stunde Daten verloren gehen. Das bestimmt die Frequenz von Backups und Replikation.
Recovery Time Objective (RTO)
Wie schnell muss das System wiederhergestellt sein? Ein RTO von vier Stunden gibt Ihnen diesen Zeitrahmen für die vollständige Wiederherstellung. Das beeinflusst die Art der Backup Strategie und die Vorbereitung.
Regelmäßige Tests
Ein Disaster Recovery Plan, der nie getestet wurde, funktioniert im Ernstfall wahrscheinlich nicht. Regelmäßige Übungen decken Probleme auf und trainieren das Team. Dokumentation allein reicht nicht.
Hochverfügbarkeit bei verschiedenen Hosting Arten
Die Möglichkeiten für Hochverfügbarkeit unterscheiden sich je nach Hosting Art.
Shared Hosting
Bei Shared Hosting haben Sie wenig Einfluss auf die Infrastruktur. Die Verfügbarkeit hängt vom Anbieter ab. Hochverfügbarkeit im strengen Sinne ist nicht möglich, gute Anbieter erreichen aber dennoch hohe Uptimes.
VPS
Mit einem VPS können Sie einfache Failover Konfigurationen aufbauen. Zwei VPS mit Replikation und DNS Failover bieten grundlegende Hochverfügbarkeit. Die Kosten verdoppeln sich, aber die Absicherung ebenfalls.
Cloud Hosting
Cloud Plattformen bieten eingebaute Hochverfügbarkeit Features. Automatisches Ersetzen ausgefallener Instanzen, Load Balancing und Multi Zone Deployments sind oft verfügbar. Die Cloud macht Hochverfügbarkeit zugänglicher.
Managed Hosting
Managed Hosting Anbieter können Hochverfügbarkeit als Teil ihres Dienstes anbieten. Sie zahlen mehr, erhalten aber professionell verwaltete redundante Infrastruktur. Für Unternehmen ohne eigenes IT Team eine gute Option.
Fazit
Hochverfügbarkeit ist ein Spektrum, keine binäre Eigenschaft. Von einfachen Backup Strategien bis zu geo redundanten Multi Site Setups gibt es viele Stufen. Die richtige Wahl hängt von Ihren Anforderungen und Ihrem Budget ab.
Für die meisten Websites reichen gute Hosting Anbieter mit soliden Uptimes. Bei geschäftskritischen Anwendungen lohnt sich die Investition in echte Redundanz. Beginnen Sie mit dem Verständnis Ihrer Risiken und Kosten, dann wählen Sie die passende Absicherung.
Monitoring, gute Backups und dokumentierte Prozesse sind auch ohne vollständige Hochverfügbarkeit wertvoll. Selbst wenn ein Ausfall nicht verhindert wird, verkürzen sie die Wiederherstellungszeit erheblich.
