Bei der dynamischen Website-Personalisierung in Echtzeit lautet das Motto „Probieren geht über Studieren“. Die einzige Möglichkeit zur Bewertung von Personalisierungsszenarien sind direkte Vergleiche – auch A/B Testing genannt. Geht man dabei planlos vor, kann dies Unternehmen teuer zu stehen kommen, da wertvolle Interessenten verloren gehen. Wie viel ist statistische Signifikanz Wert? Wie findet man das richtige Gleichgewicht zwischen Intuition und statistischen Belegen?

Nehmen wir einmal an, wir wollen zwei Personalisierungsvarianten einer E-Commerce-Seite mit zwei gleich großen Gruppen auf die Probe stellen. Durchschnittlich ist der Warenkorbinhalt der einen Gruppe um 20 EUR höher als die der anderen. Doch das bedeutet nicht, dass der Unterschied auch statistisch signifikant ist. Wir müssten den Test vermutlich noch mindestens vier Wochen weiterlaufen lassen, um signifikante Ergebnisse zu erzielen. Das wären durchschnittlich 20.000 Warenkörbe pro Gruppe und Monat. Die Gefahr dabei ist, dass uns 400.000 EUR Umsatz pro Monat entgehen (20.000 Warenkörbe*20 EUR Differenz pro Warenkorb). Und das nur, weil wir unseren A/B Testing nicht früher beendet haben.

Ich bin Statistiker von Beruf; auch wenn die korrekte Berufsbezeichnung „Data Scientist“ ist, bin ich doch eher ein Statistiker im Gewand eines Datenwissenschaftlers. Statistik ist das Studium von Daten und setzt voraus, dass man sich der natürlichen Datenvarianz bewusst ist. Die Regeln, die Adobe Analytics, Google Analytics und andere Softwarepaketen verwenden, empfehlen meist die Fünf-Prozent-Regel. Die Fünf-Prozent-Regel der statistischen Signifikanz stammt aus klinischen Tests und medizinischen Untersuchungen, die 5 % oder weniger Fehler erster Art erfordern, um als wahrheitsgemäß zu gelten. Die „Fehler erster Art“ beziehen sich dabei auf die Wahrscheinlichkeit, dass zwischen beiden Gruppen kein Unterschied besteht, man aber trotzdem einen feststellt; „Fehler zweiter Art“ bedeuten, dass man einen tatsächlich existierenden Unterschied nicht erkennt.

Oft muss bei klinischen Studien eine Wahrscheinlichkeit von Fehlern zweiter Art von höchstens 10 % erreicht werden, damit ein neues Medikament genehmigt werden kann. Das bedeutet im Umkehrschluss, dass die Teststärke mindestens 90 % (Fehler erster Art minus Fehler zweiter Art) betragen muss. Diese strengen Regeln machen oft große Stichproben und somit lange Studienzeiträume erforderlich, damit ein Test zum Abschluss geführt werden kann. Nun ist Website-Personalisierung natürlich etwas anderes als eine klinische Studie. Die Gesundheit von Lebewesen ist hier kein Thema.

Je nach Lage des Falls können sich deshalb bei einer Typ-1-Fehlerquote von 10 % schon statistisch relevante Ergebnisse einstellen. Und auch eine Teststärke von 80 % kann ausreichend sein, um die richtige Entscheidung zu treffen. Stellt man fest, dass der p-Wert von 15 auf 10 und dann auf 7,5 Prozent sinkt, nachdem der A/B-Test bereits einen Monat läuft, sieht man einen eindeutigen Trend Richtung der Fünf-Prozent-Schwelle für Fehler erster Art und deutet somit auf statistische Signifikanz hin. In diesem Fall kann ein p-Wert von 7,5 % bereits ausreichend für eine endgültige Entscheidung etwa für die Personalisierungsvariante der Gruppe A sein, da genug Evidenz vorliegt. Man sollte also immer den Website-Traffic, die Spanne der gemessenen Ergebnisse und den statistischen Trend betrachten, den die Resultate erkennen lassen.

Fazit

Wenn man Regeln wie die Fünf-Prozent-Regel für Fehler erster Art blind befolgt kann das für eigene Unternehmen zugleich Gewinneinbußen und höhere Betriebskosten durch verloren gegangene Interessenten, längere Testzeiträume und endloses Warten auf die Ergebnisse von Tests bedeuten, die trotzdem nie absolut verlässlich sind. Deshalb sollte man eher das statistische Gesamtbild des A/B-Tests im Auge behalten – insbesondere, wenn man mehrere solcher Tests oder multivariate Tests durchführt. Im Zweifelsfall kann man natürlich immer auch Firmen wie Smart Digital mit entsprechenden Expertisen beauftragen. Denn Datenvarianz ist unser tägliches Brot.

Photo: Pablo Garcia Saldana| Unsplash