Stichprobengröße bei Usability-Tests im Labor: Wie viele Testpersonen sind wirklich nötig?

Stichprobengröße Usability-Test Bild1

Das Thema Stichprobengröße wurde unter anderem durch Jakob Nielson populär und seine Überlegungen wurden oft zitiert. Sein Artikel in der „Alertbox“ aus dem Jahr 2000 ist in Fachkreisen sehr bekannt. Doch ist er auch heute noch aktuell? Kann man, wie dort geschrieben wurde, einen Usability-Test mit 5 Testpersonen durchführen?


Jakob Nielson veröffentlichte eine Formel, auf deren Grundlage sich die Voraussagung treffen ließ, dass man bei einer Stichprobe mit 5 Testpersonen bereits 85% aller Usability-Probleme identifiziert. Diese Formel lautete:

N(1-(1-L)n)


Dabei ist N die Anzahl aller vorhandenen Usability-Probleme und L der Anteil der Probleme, der sich durch eine einzige Testperson identifizieren lässt. Dieser Anteil ist 31%, wie es sich laut Autor in einer Vielzahl von Usability-Tests herausgestellt hatte. Da jede weitere Testperson zwar auch neue Probleme ans Tageslicht bringt, sich der Anteil an „Überlappungen“, also der Probleme, die mehrere Testpersonen aufdecken, aber stetig erhöht, ergibt sich letztendlich folgende Kurve:

Nielsen Diagramm Stichprobengröße Usability-TestAbb. 1: Zusammenhang von der Anzahl von Testpersonen und dem Anteil identifizierter Usability-Probleme (www.useit.com)


Die „Gretchen-Frage“: Kenne Sie Ihre Zielgruppen?

Die Stichprobengröße hängt neben dem angestrebten Anteil an aufzudeckenden Usability-Problemen von einer weiteren wichtigen Größe ab: Wie viele verschiedene Zielgruppen (Subgruppen) gibt es denn? Caulton wies im Jahr 2001 darauf hin, dass die Wahrscheinlichkeit, dass ein Teilnehmer ein Usability-Problem aufdeckt, für die gesamte Subgruppe gleich sein muss, wenn man diese als „homogen“ bezeichnen möchte. Merkmale, die diese Homogenität verletzen können, sind zum Beispiel die Internet-Erfahrung, Kenntnis oder Unkenntnis des Untersuchungsgegenstandes, die Online-Kaufhäufigkeit, das Alter, Nutzungsgewohnheiten, etc..

An dieser Stelle bestätigt sich wieder einmal die Bedeutung des Wissens um die Zielgruppe. Wenn man überhaupt nicht genau sagen kann, wer sich auf der Website bewegt oder an wen sich die Anwendung richtet, scheitert man schon an der zuverlässigen Bestimmung der richtigen Stichprobengröße. Setzt man diese dann zu niedrig an, werden zu wenige Usability-Probleme aufgedeckt. Lädt man vorsorglich mehr Testpersonen ein, kann die Ausgabe sinnlos sein. Wohlmöglich „vergisst“ man bestimmte Zielgruppe oder diese sind im Sample unterrepräsentiert. Denn es gibt zwar Probleme, für die die Wahrscheinlichkeit der Aufdeckung gleich hoch ist („Shared Problems“), aber eben auch solche, die je nach Subgruppe mit unterschiedlicher Wahrscheinlichkeit auftreten („Unique Problems“).

Ganz so streng kann man zwar in der Praxis oft nicht trennen, dennoch hilft diese Einteilung, die Stichprobengröße für Tests mit mehreren Subgruppen zu bestimmen. Die Teilnehmerzahl wird also im Wesentlichen durch zwei Komponenten beeinflusst:

  • Heterogenität der Stichprobe
  • Anteil zielgruppenspezifischer Probleme

Nachfolgende Graphik soll den Zusammenhang verdeutlichen:

Tabelle Stichprobengröße Usability-TestAbb. 2: Anzahl der benötigten Testpersonen in Abhängigkeit von der Anzahl der Subgruppen und dem Anteil gruppenspezifischer Probleme


Alter Hut oder zeitlos wertvoll?

Auch wenn die beschriebenen Regeln und Erkenntnisse nun schon ca. 10 Jahre alt sind, haben sie kaum an Gültigkeit verloren. In zahlreichen Nutzertests haben sich diese Regeln bestätigt. Da sich die Erkenntnisse jedoch ausschließlich auf die Gewinnung von Usability-Problemen beziehen, muss man vorsichtig sein.

Denn die Anforderungen an Nutzertests steigen und die Anzahl an verfügbaren Methoden, die in einem Lab-Test kombiniert werden können, hat zugenommen. Auch haben sich die Methoden und technischen Möglichkeiten weiterentwickelt. Immer häufiger beziehen sich die Fragestellungen nicht mehr rein auf die Bedienbarkeit, sondern zum Beispiel auch auf die Wahrnehmung von Seitenbereichen/Elementen oder auf den Inspirationscharakter einer Website/Anwendung. In diesen Fällen ist der Einsatz weiterer Instrumente und Methoden sinnvoll. So wird vielleicht noch eine Blickverlaufsmessung durchgeführt oder die emotionale Aktivierung während der Nutzung gemessen. Derartige Verfahren können die benötigte Anzahl an Testpersonen beeinflussen, um wirklich valide Erkenntnisse zu gewinnen. Gleichzeitig liefern sie jedoch auch sehr wertvolle Erkenntnisse zur Weiterentwicklung einer Website, mobilen Anwendung oder Software.

Der klassische Usability-Test im Labor wurde also in der Zwischenzeit um viele andere Instrumente erweitert. Daher sollten sowohl die klassischen Regeln zur Bestimmung der Stichprobengröße herangezogen werden, als auch die Erfordernisse bzgl. weiterer eingesetzter Methoden beachtet werden.

Zentral ist und bleibt daher eine sorgfältige Vorbereitung. Vor Beginn des Projektes müssen sich alle Beteiligten auf die Ziele und zentralen Fragestellungen verständigen. Nur wenn diese eindeutig festgelegt sind, kann die geeignete Methode oder Methodenkombination gewählt und die optimale Stichprobengröße bestimmt werden. Fundamental sind daneben detaillierte Informationen zu den Zielgruppen. Erst wenn diese bestimmt und beschrieben wurde, sollten weitere Analysen folgen.

 

Sind Sie anderer Meinung?

Ihre Rückmeldung zu diesen Überlegungen und Thesen interessiert uns sehr.
Schreiben Sie uns!