Bessere User Experience dank Statistik

Wie Sie wichtige Daten zur Planung und Optimierung Ihrer Site bekommen

Gute Websites entstehen mit der richtigen Mischung von Herz und Hirn – darum ging es im letzten Artikel „Intuition & Wissenschaft für bessere Websites„. Diesmal einige Tipps für den Hirn-Anteil der Mischung. Es geht also darum, wie Sie belastbare Daten bekommen, um Ihre Site zu planen oder sie zu optimieren.

Goldstandard Usability-Test

Noch immer ist der Usability-Test das wichtigste Werkzeug im Koffer des Website-Konzepters. Denn nur damit sehen Sie, wie echte Nutzer mit ihrer Site umgehen.

Die meisten Usability-Tests werden aus Kosten- und Zeitgründen nur mit einer Handvoll Nutzern durchgeführt. Wie viele genau es sein sollten, damit die Ergebnisse aussagekräftig sind, darüber streiten sich die Experten bis heute. Fakt ist: Oft testet man nur mit fünf Personen. Stoßen mehrere von ihnen auf das gleiche Problem, geht man davon aus, dass das einem relevanten Anteil der späteren Nutzer ebenso gehen wird – und optimiert die Site dementsprechend.

Jeder mit ein bisschen Grundwissen Statistik weiß, dass der Fehler einer Statistik um so größer ist, je kleiner die Stichprobe ist. Daher ist tatsächlich Vorsicht geboten, wenn man statistische Auswertungen bei den kleinen Teilnehmerzahlen von typischen Usability-Tests machen will.

Statistik auch für kleine Stichproben

Und dennoch kann man einige Statistiken nutzen, um die Aussagekraft und Verständlichkeit der Ergebnisse von Usability-Tests zu verbessern. Wie das geht, zeigt das sehr empfehlenswerte Buch „Measuring the User Experience“ von Bill Albert und Tom Tullis.

Bei fast jedem Test ist es sinnvoll, wenn Sie zumindest folgende Werte ermitteln:

Anteil der erfolgreich abgeschlossenen Testaufgaben an der Gesamtzahl der gestellten Aufgaben
Durchschnittliche Bearbeitungszeit pro Aufgabe
Durchschnittliche subjektive Zufriedenheit der Testpersonen

Die Zufriedenheit erheben Sie durch eine kurze Befragung nach Abschluss des eigentlichen Tests. Verwenden Sie eine feste Skala (z.B. Schulnoten), um vergleichbare Zahlenwerte zu erhalten.

Measuring the User Experience

Das Buch räumt erstmal mit zehn Mythen zu UX-Metriken auf, dann beschreibt es knapp und leicht verständlich die besprochenen Methoden. Das heißt, auch wer noch nicht so firm ist, findet sich gut zurecht – dabei ist die Beschreibung so knapp, dass sich auch der erfahrene Profi nicht langweilt.

Wer bisher keine statistischen Methoden angewandt hat, wird nicht durch lange Formeln verschreckt. Auch mit nur ganz grundlegenden Mathematik- und Excel-Kenntnissen lässt sich alles problemlos verstehen und vor allem selbst praktisch anwenden.

Im zweiten Kapitel geht es um die verschiedenen Datentypen, die bei verschiedenen Methoden entstehen und wie man mit ihnen jeweils umgeht – so vermeidet man peinliche Fehler, wenn man etwa mehr Nachkommastellen angibt, als eine Berechnung überhaupt hergibt.

Dann geht es zu absolutem Grundwissen wie dem Konfidenzintervall (auch Erwartungsbereich genannt). Eine professionelle Darstellung einer statistischen Auswertung sollte immer das Konfidenzintervall mit abbilden.

Es zeigt vereinfacht gesagt an, wie wahrscheinlich es ist, dass der tatsächliche Wert innerhalb eines gewissen Bereichs liegt. Das Buch erklärt, warum diese häufig gebrauchte Formulierung streng genommen nicht korrekt ist – das hier wiederzugeben würde den Umfang des Newsletters sprengen. Das ist aber notwendiges Rüstzeug, wenn Sie Ihre Beobachtungen auf ein solides Fundament stellen wollen und Ihre Daten gegenüber anderen (Kollegen, Auftraggebern…) verteidigen müssen.

Die Fehlerbalken zeigen das 95%-Konfidenzintervall. So sieht man auf einen Blick die Variabilität der Daten. Bei Aufgabe 3 z.B. waren alle Teilnehmer annähernd gleich schnell, bei Aufgabe 2 gab es die größten Unterschiede.

Wenn Sie also nur eine Sache tun, um die Auswertung Ihrer Daten zu verbessern, sollten Sie sich mit den Konfidenzintervallen befassen und sie zukünftig als Fehlerbalken in Ihren Diagrammen darstellen. Das geht auch mit Excel ganz leicht.

Signifikant oder nicht?

Knackpunkt jeder statistischen Auswertung ist die Signifikanz. Diese sagt aus, ob das beobachtete Ergebnis durch Zufall zustande gekommen ist oder nicht.

Ganz wichtig: Nur weil etwas statistisch signifikant ist, ist es noch lange nicht praktisch relevant.

Und nur weil man eine Signifikanz beobachtet hat, weiß man noch lange nicht, was die Ursache dieser Beobachtung ist. Zum Beispiel kann der Grund, dass ein neuer Prototyp bei einem Test besser abscheidet, auch darin liegen, dass die Testbedingungen nicht gleich waren oder die Testpersonen nicht zufällig auf die beiden Varianten verteilt wurden.

Das nur als Warnung vorab, denn diese Dinge muss man immer im Hinterkopf behalten, will man bei der Auswertung nicht in typische Fallen tappen.

In dem Buch „Measuring the User Experience“ sind die wichtigsten Tests beschrieben, mit denen Sie herausbekommen, ob ein Ergebnis statistisch signifikant ist oder nicht:

t-Test
Anova
Chi-Quadrat-Test

Sehr gut ist erklärt, in welchem Fall welcher Test angewandt werden sollte und worauf man dabei achten muss.

Blamagen mit Diagrammen vermeiden

Wir sind immer noch im Kapitel 2 des Buchs und kommen zu einem weiteren ganz wichtigen Punkt: der grafischen Darstellung der Ergebnisse.

Hier können Sie sich leicht blamieren, wenn Sie die falsche Darstellungsform wählen. Selbst wenn Ihr Publikum weniger Ahnung hat als Sie, laufen Sie Gefahr, dass es die Ergebnisse nicht versteht.

Blamabel ist es zum Beispiel, die Bearbeitungszeit für eine Reihe von Aufgaben, die nacheinander getestet wurden (wie im Diagramm oben gezeigt) als Liniendiagramm darzustellen. Denn ein Liniendiagramm impliziert, dass es eine kontinuierliche Abfolge von Werten gibt – was im Fall der Aufgaben ja nicht der Fall ist, die Aufgaben sind vollkommen unabhängig voneinander.

Eine gute Merkregel ist: Kann man die Werte auf der horizontalen Achse vertauschen, ohne dass die Darstellung falsch wird, ist ein Liniendiagramm nicht die richtige Darstellungsform.

Und sonst?

Wer das Kapitel zwei gelesen hat (und natürlich beherzigt, was dort steht), für den hat sich der Kauf des Buchs schon gelohnt. Mit diesen 25 Seiten macht jeder einen großen Schritt vorwärts, der um das Thema Statistik bisher einen Bogen gemacht hat.

Die weiteren Kapitel sind aber natürlich auch lohnend. Es geht um Planung, die verschiedenen Messgrößen, die man untersuchen und auswerten kann, um Web-Analytics, A/B-Tests und um Kartenlegen (Card Sorting).

Kapitel 11 fasst alles nochmal zusammen – und hier steht auch die wichtigste Botschaft: „Don’t wait to be asked to measure.“ Warten Sie also nicht, mit dem Erheben und dem statistischen Auswerten von Metriken zu beginnen, tun Sie es gleich.

Quantifying the User Experience

Und wer richtig tief einsteigen will ins Thema (oder schon drin ist), dem sei das Buch „Quantifying the User Experience“ von Jeff Sauro und James R. Lewis empfohlen.

Darin geht es in die Vollen. Die Formeln sind hier nicht kurz erwähnt, sondern detailliert erklärt. Beispielrechnungen belegen, warum in manchen Fällen manche übliche statistische Tests ungünstig sind und zeigen, wie man es besser machen kann.

Wer etwa den Chi-Quadrat-Test verwendet, um festzustellen, ob seine Ergebnisse signifikant sind, der lernt, dass die Ergebnisse damit meist verfälscht sind. Denn bei kleinen Stichproben liefert der Fischer Exact-Test korrektere Ergebnisse.

Das Buch ist für Praktiker, und das Inhaltsverzeichnis ist so geschickt gemacht, dass man sich bei fast jeder Überschrift denkt: „Das muss ich wissen!“ Es enthält Fragen wie:

Welchen Test nehme ich wann?
Wie groß muss meine Stichprobe sein?
Median oder Mittelwert für Bearbeitungszeiten?
Wie vergleicht man die Ergebnisse für zwei Prototypen?
Wie erhebe ich die Nutzerzufriedenheit?
Darf man verschiedene Metriken kombinieren?

Wer noch nicht ganz so fit ist in Statistik, der sollte als Erstes den 18seitigen Anhang lesen – den Crashkurs in Statistik.

Allerdings eine Warnung: Anders als beim zuvor erwähnten Buch reicht es nicht, wenn man Grundwissen in Mathematik hat – ein gewisses Interesse an Formeln und das Durchhaltevermögen, auch komplexere Gleichungen zu verstehen, sind ebenfalls gefragt. Dabei sind keine schwierigen mathematischen Operationen nötig, nur die Länge der Formeln und die Vielzahl der Parameter machen die Arbeit anspruchsvoll. Auch sind einige Berechnungen nicht mit Excel-Bordmitteln möglich. Dazu muss man ein Tool des Autors erwerben oder sich mit der Sprache R anfreunden.