QoE und SLAs: Wie man die richtigen Metriken optimiert
Wenn Sie einen internetbasierten Dienst anbieten, ist es von entscheidender Bedeutung, ein hohes Niveau an Verfügbarkeit und Qualität für Ihre Benutzer zu gewährleisten. Anbieter haben schon immer Service Level Agreements (SLAs) verwendet, um Kriterien für Betriebszeit, Latenz und andere Qualitätsaspekte festzulegen, die aus Anwendungs- oder Netzwerksicht gemessen werden können.
Da die Dienste jedoch immer komplexer werden und die Nutzer höhere Qualitätsanforderungen stellen, wird es immer wichtiger, auch die Nutzerwahrnehmung in Form der Quality of Experience (QoE) zu berücksichtigen. In diesem Artikel gehen wir der Frage nach, warum die Kombination von QoE und SLAs perfekt geeignet ist, um die optimale Bereitstellung von Diensten für Endbenutzer zu gewährleisten, und wie Surfmeter Ihnen helfen kann, Ihre eigenen Kriterien auf der Grundlage der tatsächlichen Benutzererfahrung zu definieren und zu erfüllen.
Warum SLAs nicht genug sind
SLAs gibt es schon seit langem, und sie umfassen in der Regel Faktoren wie die allgemeine Verfügbarkeit des Dienstes oder der Anwendung, Antwortzeiten, Uptime-Statistiken und andere Parameter, die Sie leicht anhand des Netzwerks oder anderer Anwendungsprotokolle messen können.
Als Internet-Service-Provider haben Sie SLAs zwischen Ihnen und Ihren Kunden oder zwischen Ihnen und einem Vertriebspartner abgeschlossen. Typische SLAs umfassen Messungen der Dienstqualität (QoS), z. B. den verfügbaren Durchsatz (sowohl Upstream als auch Downstream) und maximale Paketlatenzen (Ping). In der Praxis ist es jedoch schwer zu sagen, was diese Messwerte für einen Kunden bedeuten. QoS-Metriken können Sie nur über die Leistung Ihres Netzes oder Ihrer Infrastruktur informieren, aber sie können Ihnen nicht wirklich sagen, ob Ihre Nutzer mit dem Dienst zufrieden sind. Welcher Durchsatz ist beispielsweise erforderlich, damit die Nutzer Videos in 4K streamen können? Das kommt ganz auf den Streaming-Dienst an!
Sie können natürlich versuchen, eine Ebene höher zu gehen: Schauen Sie sich die Dienste an, die von den Nutzern verwendet werden, und definieren Sie dort Ihre SLA/QoS-Messungen. Für einen Video-Streaming-Dienst könnte ein SLA beispielsweise festlegen, dass der Dienst zu 99,9 % der Zeit verfügbar ist, mit einer durchschnittlichen Videoladezeit von höchstens 10 Sekunden pro Stream und einer Mindestauflösung von 720p. Dies hilft Ihnen, einige Qualitätskriterien aus der Sicht der Anwendung zu definieren. Aber auch dieser Ansatz hat seine Tücken.
Solche individuellen Metriken spiegeln nicht unbedingt wider, wie zufrieden die Nutzer mit dem Dienst sind, und sind in der Praxis kompliziert zu handhaben. Wenn Sie Anwendungs-KPIs messen wollen, brauchen Sie eine Lösung, die diese Messungen durchführen kann (Tipp: Wir haben eine automatisierte Plattform, die problemlos überall in Ihrem Netzwerk eingesetzt werden kann!)
Aber stellen Sie sich vor, Sie haben Dutzende von individuellen Key Performance Indicators (KPIs) eingerichtet und verfolgen diese über einen längeren Zeitraum. Wie definieren Sie überhaupt die einzelnen Schwellenwerte für diese KPIs? Wie stellen Sie sicher, dass alle KPIs korrekt korreliert und gewichtet sind, damit Sie ein genaues Bild davon erhalten, wie Ihr Dienst Ihre Nutzer zufrieden stellt? Optimieren Sie überhaupt für den richtigen KPI?
Schauen wir uns ein Beispiel an, das wir im letzten Monat beobachtet haben. Hier ist ein Videodienst, der irgendwann in der Lage war, Videos über alle unsere Messsonden hinweg konstant um etwa 20 % schneller zu laden, und zwar von durchschnittlich 1 Sekunde auf 0,8 Sekunden.
Man könnte meinen: Das ist gut für die Nutzer. Aber dann sollten Sie sich auch andere KPIs auf Anwendungsebene ansehen. Zum Beispiel die Anzahl der Qualitätswechsel (Auflösung):
Beachten Sie, dass wir jetzt bis zu 4 Qualitätswechsel pro Sitzung haben, anstatt 0 oder 1. Dies ging mit einem Rückgang der durchschnittlichen Gesamtbitrate einher, da der Dienst offenbar zuerst niedrigere Auflösungen ausspielte. Dies führte zu besseren anfänglichen Ladezeiten, aber zu größeren Schwankungen bei den Videoauflösungen. Was bedeutet das nun für die Kunden? An dieser Stelle kommt QoE ins Spiel.
Wie funktionieren QoE-Messungen?
QoE berücksichtigt mehrere Faktoren, die sich auf das Erlebnis des Endnutzers auswirken. Schauen wir uns das Videostreaming als Beispiel an. Anstelle der zugrundeliegenden Netzwerkfunktionen (wie Durchsatz) müssen wir die Funktionen auf Anwendungsebene betrachten und sie entsprechend der Art und Weise, wie Benutzer eine Streaming-Sitzung erleben, integrieren. Die Ladezeit ist zum Beispiel nur einer dieser Faktoren. Andere Faktoren sind die Videoauflösung, die Anzahl der Änderungen der Videoqualität im Laufe der Zeit, etwaige Verzögerungen während der Wiedergabe – und natürlich die Qualität des Videoinhalts selbst. Mit unserer Surfmeter-Lösung können Sie Video-Streaming-Messungen für Videodienste Ihrer Wahl automatisieren. Wir geben alle relevanten Metriken aus, die Sie überwachen und auf die Sie Ihre SLAs stützen können – wie in den obigen Diagrammen zu sehen ist.
Es ist zwar möglich, die Metriken (KPIs) für jeden dieser Faktoren einzeln zu berechnen, aber das Gesamterlebnis des Nutzers hängt davon ab, wie diese Faktoren miteinander interagieren. Hier sind QoE-Modelle die beste Lösung – sie können eine einzige Punktzahl oder Bewertung ableiten, die die Erfahrung des Nutzers als Ganzes repräsentiert und all diese einzelnen Faktoren berücksichtigt. In unserem Fall stützen wir uns auf ein QoE-Modell, das auf tausend verschiedenen Videosequenzen trainiert wurde, die alle von Hunderten von echten Nutzern bewertet wurden. Das Modell versteht die Auswirkungen dieser KPIs auf das Gesamterlebnis und nutzt Algorithmen des maschinellen Lernens, um QoE-Bewertungen auf der Grundlage der Merkmale der Streaming-Sitzung vorherzusagen. Surfmeter gibt einen einzigen QoE-Score aus, und wir argumentieren, dass dies zunächst alles ist, was Sie brauchen – insbesondere für SLAs.
Hatte der oben beschriebene Fall, dass die anfängliche Ladezeit unseres Streaming-Dienstes sank, irgendwelche Auswirkungen auf die Kunden? Es stellt sich heraus: Ja!
Die MOS-Bewertung fiel deutlich von einem stabilen „gut“ (> 4) auf ein „mittelmäßig“. Die Kunden werden das bemerken können. Die Verbesserung der anfänglichen Ladeverzögerung hat nicht geholfen – im Gegenteil, die Zunahme der Qualitätsschalter führte zu einer niedrigeren Gesamt-QoE für die Nutzer.
Optimieren einzelner KPIs — reines Overengineering?
Bei der Abstimmung einzelner KPIs ist es wichtig, ein Gleichgewicht zwischen der Optimierung der einzelnen Metriken und dem Overengineering (bzw. Überversorgung) Ihrer Infrastruktur zu finden. Nehmen wir mal die anfängliche Ladeverzögerung als Faktor in Betracht. Die Optimierung für die schnellste Ladezeit und den höchsten Durchsatz kann eine große Menge an Netzwerkressourcen erfordern, was wiederum teuer und ineffizient sein kann. Andererseits können zu lange Ladezeiten und eine unzureichende Netzwerkbandbreite zu einem schlechten Nutzererlebnis führen und die QoE negativ beeinflussen. Daher ist es wichtig, einzelne KPIs auf der Grundlage ihrer Auswirkungen auf das Nutzererlebnis als Ganzes zu analysieren und zu optimieren, anstatt jeden einzelnen KPI zu optimieren.
Bei der Arbeit mit einzelnen KPIs kann die Festlegung eines festen Schwellenwerts für jeden KPI außerdem zu strengen Grenzwerten führen, die den natürlichen Schwankungen des Netzwerkverkehrs oder der Content-Qualität nicht Rechnung tragen. Vielleicht spielt es keine Rolle, dass ein KPI seinen Threshold überschritten hat, wenn das Gesamterlebnis nicht beeinträchtigt wurde. So kann beispielsweise eine niedrigere Gesamtvideoauflösung kein großes Problem darstellen, wenn es keine starken Qualitätsschwankungen im Laufe der Zeit gab. Das liegt daran, dass wir aus unserem QoE-Modell wissen, dass Qualitätsschwankungen zu schlechten Nutzerbewertungen führen.
Die Arbeit mit QoE-Scores ermöglicht die Verwendung von Wahrnehmungsschwellen anstelle von festen Thresholds, was einen differenzierteren Ansatz für die Optimierung ermöglicht. Die folgende Abbildung zeigt die beiden Ansätze im Vergleich.
Auf der linken Seite sehen Sie eine typische QoS-basierte Ansicht. Zwei Parameter auf der x- und y-Achse haben einen bestimmten Bereich möglicher Werte, und die Schwellenwerte sind festgelegt, wie durch die gestrichelten Linien, die ein Kreuz bilden, angezeigt. Sie können sich vorstellen, dass QoS-Parameter 1 die anfängliche Ladezeit und QoS-Parameter 2 die Verschlechterung aufgrund einer niedrigen Videoauflösung sein könnte. Der untere linke Quadrant würde den Bereich markieren, in dem Sie Ihr SLA erfüllen. Das Erreichen eines Schwellenwerts bei einem der QoS-Parameter würde jedoch dazu führen, dass die SLA-Kriterien nicht erreicht werden. Ist dies realistisch? Stellen Sie sich vor, dass die anfängliche Ladeverzögerung für einen Stream etwas länger sein könnte – aber dafür erhalten Sie eine schöne und scharfe 4K-Videowiedergabe als Ergebnis. Das ist nicht unbedingt schlecht.
Stattdessen berücksichtigt ein QoE-basierter Ansatz das gesamte Nutzererlebnis und kombiniert mehrere KPIs durch ein algorithmisches Modell, das auf der Grundlage von Nutzerfeedback kalibriert wird. Wenn Sie nun die beiden QoS-Parameter entlang ihrer Achsen variieren, entspricht die Ausgabe des QoE-Modells der gelben Linie – dem Wahrnehmungsschwellenwert. Hier können wir leicht erkennen, dass eine lange Ladezeit immer noch zu einer guten Gesamtbewertung führen kann, solange der andere QoS-Parameter (z. B. die Videoauflösung) dies kompensiert. Die Optimierung entlang der Wahrnehmungsschwelle führt zur effizientesten Verbesserung des Nutzererlebnisses, da sich KPIs, die ihre Schwellenwerte überschreiten, nicht unbedingt negativ auf die QoE auswirken.
Zusammenfassend lässt sich sagen, dass die Optimierung einzelner KPIs zwar wichtig ist, um den bestmöglichen Service zu bieten, dass aber eine Überbetonung einer einzelnen Kennzahl zu Overengineering oder Overprovisioning führen kann. Dies kostet Sie letztendlich Geld, das Sie an anderer Stelle ausgeben könnten.
Warum Sie QoE bei Ihren SLAs berücksichtigen sollten
Die Einführung einer QoE-basierten Sichtweise für Ihre SLAs ermöglicht es Ihnen, das gesamte Benutzererlebnis zu priorisieren und entlang von Wahrnehmungsschwellen zu optimieren, was zu einer besseren Ressourcennutzung und insgesamt zu zufriedeneren Kunden führt. Wenn Sie SLAs haben, die sich auf einfache Netzwerkmetriken – oder einige Anwendungsmetriken – konzentrieren, werden Sie davon profitieren, QoE-basierte Messungen in Ihr Portfolio aufzunehmen. Diese helfen Ihnen zu verstehen, wie Ihre Kunden Ihren Service wirklich erleben.
Es ist wichtig zu bedenken, dass bei QoE-Messungen die bestehende Sicht auf die KPIs nicht verloren geht. Sie sind nach wie vor vorhanden und können von Ihnen eingesehen werden, wenn Sie tiefer einsteigen wollen. Wir stellen immer Daten für die zugrundeliegenden technischen Faktoren zur Verfügung, wenn Sie diese benötigen. Video-Streaming ist hier der Hauptanwendungsfall, aber unsere Plattform deckt auch das Web-Browsing ab – jetzt mit Google Lighthouse-Unterstützung. Und wir führen auch Ping- und Bandbreitenmessungen durch.
Sprechen Sie mit uns, um zu sehen, wie unsere Surfmeter-basierte Lösung Ihnen helfen kann, diese QoE-Metriken zu messen und zu überwachen!