eResult GmbH - Research & Consulting
Planckstr. 23 | 37073 Göttingen
Tel.: +49 (0)551-4956 933 1 | Fax: +49 (0)551-49569 33 0
E-Mail: info@eresult.de | Web: www.eresult.de

Hauptsache wir testen?
Ein empirischer Vergleich der Usability-Testmethoden
Labortest, synchroner Remote Test und asynchroner
Remote Test
27.02.2009

Im Rahmen einer vergleichenden Studie wurden drei Usability-Testmethoden: Usability-Test im Labor, synchroner Remote Test und asynchroner Remote Test gegeneinander verglichen.

Es existieren bereits mehrere Vergleiche dieser verschiedenen Testmethoden, einige sogar mit der gleichen Kombination (Labortest, synchroner Remote Test, asynchroner Remote Test). Diese erschienen jedoch teils zu wenig umfassend oder boten teilweise deutliche Ansatzpunkte für Kritik, so dass ein eigener Vergleich angestrebt wurde. Hierbei wurden Ergebnisse und Vorgehensweisen der bereits bestehenden Vergleiche mit einbezogen bzw. Kritikpunkte aus den in der Literatur beschriebenen Vergleichen versucht zu umgehen.

Der Vergleich der drei Testmethoden erfolgte anhand von sieben Thesen, welche teilweise auf Thesen aus der Literatur basierten.

  1. Im asynchronen Remote Test werden weniger Kommentare gegeben als im Labortest und im synchronen Remote Test. Da die Kommentare schriftlich gegeben werden müssen gehen zudem Emotionalität und Spontaneität verloren.
  2. Im Labortest werden einige besondere Verhaltensweisen von Nutzern eingefangen, die beim Remote Test nicht auftauchen (vgl. Tullis et al 2002).
  3. Da die Testpersonen im asynchronen Remote Test unter keiner direkten Beobachtung durch einen Testleiter stehen, empfinden sie sich nicht so sehr als in einer Prüfungssituation und führen daher die Ursache von auftretenden Problemen beim asynchronen Remote Test deutlich häufiger auf das System beziehungsweise die Gestaltung der Website zurück, als auf sich selbst.
  4. Beim Remote Test fühlen sich die Testpersonen anonymer und äußern sich daher eher kritisch als im Labortest. Zwischen der Testperson und dem Testleiter kann keine soziale Dynamik entstehen, somit ist die Wahrscheinlichkeit, dass sich die Testpersonen gemäß der „sozialen Erwünschtheit“ äußern und verhalten, geringer. (vgl. Tullis et al. 2002: 5) Fraglich ist, ob es hierbei einen Unterschied zwischen dem synchronen und dem asynchronen Remote Test gibt.
  5. Beim asynchronen Remote Test geben die Testpersonen häufiger Kommentare zu Elementen oder Funktionen ab, die ihnen negativ auffallen, als zu Aspekten, die ihnen gefallen. Dies gründet auf der Annahme, dass die Testpersonen den Aufwand einer Kommentareingabe eher betreiben, um ein Problem zu beschreiben, welches sie in ihrer Arbeit behindert, als ein gelungenes Seitenelement zu loben. Zudem fallen den Testpersonen negative Aspekte schneller auf, da sie sie direkt bei der Erfüllung ihrer Aufgabe behindern.
  6. Die Anzahl der aufgedeckten Usability-Probleme unterscheidet sich zwischen Labortest und synchronem Remote Test nicht. Der asynchrone Remote Test allerdings deckt deutlich weniger Probleme auf als diese beiden.
  7. Wirkt es sich auf das Auffinden von Usability-Problemen aus, dass für den Testleiter während des asynchronen Remote Tests keine Möglichkeit besteht „nachzuhaken“ und so Verständnisfragen zu klären oder genauere Aussagen zu erhalten?

Um These 1 zu prüfen, wurden die von den Testpersonen verwendeten Wörter für jede Testmethode ausgezählt, beim Labortest und synchronen Remote Test dienten hierfür die Protokolle der Tests als Grundlage, beim asynchronen Remote Test wurden die geschriebenen Kommentare der Testpersonen verwendet.

Im Labortest konnten 4.436 Wörter gezählt werden, im synchronen Remote Test 5.364 Wörter und im asynchronen Remote Test 2.358 Wörter. Es zeigt sich also, dass im asynchronen Remote Test deutlich weniger kommentiert wurde, als in den anderen beiden Testmethoden. Zu beachten ist allerdings, dass in letzterer Testnethode einige Fragen z.B. über Skalen abgefragt wurden und den Testpersonen so weniger Gelegenheit zum schriftlichen Kommentieren gegeben wurde.

Um die Kommentare auf Emotionalität und Spontaneität zu untersuchen wurden sie dann auf Wörter und Wendungen hin untersucht, die starke Gefallens- oder Missfallensgefühle unterstreichen oder sich explizit auf die Gefühlslage der Testpersonen bezogen.

Im Labortest wurden 29 solcher Wendungen verwendet, im synchronen Remote Test 24, im asynchronen Remote Test dagegen nur 5.

These 1 wurde also bestätigt: im asynchronen Remote Test wurden weniger Kommentare abgegeben und diese waren zudem noch durch weniger emotionale Äußerungen gekennzeichnet.

These 2 konnte teilweise bestätigt werden. Im Labortest wurde von fast allen Testpersonen sehr stark auf der Seite gescrollt, dieses Verhalten wurde im synchronen Remote Test nicht beobachtet, aus dem asynchronen Remote Test liegen hierzu keine Daten vor.

These 3, dass Testpersonen im asynchronen Remote Test Probleme eher auf das System beziehen konnte nicht überprüft werden, da in keinem der Tests Kommentare entdeckt werden konnten, in denen die Testpersonen sich selbst als Ursache eines Problems sahen, bzw. dies artikulierten.

These 4 konnte nur zum Teil bestätigt werden. Die Testpersonen äußerten sich in den Remote Tests nicht kritischer als im Labortest (Labor: 78 kritische Äußerungen, synchroner RT: 72, asynchroner RT: 40). Die Frage ob es hierbei einen Unterschied zwischen den beiden Remote-Varianten gibt wurde bestätigt, denn mit einem Unterschied von 32 kritischen Äußerungen lieferte der synchrone Remote Test deutlich mehr.

These 5 besagte, dass im asynchronen Remote Test mehr Kommentare zu negativen Aspekten gegeben würden. Diese These musste widerlegt werden, da im asynchronen Test 127 positive Kommentare und 56 negative Kommentare gezählt wurden. Dieses Ergebnis ist allerdings kritisch zu sehen, da die Kommentare als Antworten auf konkrete Fragen gegeben wurden und nicht als Kommentare der Testpersonen aus Eigeninitiative. Bei einer freieren Nutzung und somit mehr freien Kommentaren kann erwartet werden, dass dieses Ergebnis anders ausfallen würde.

These 6 bezog sich auf die Anzahl der aufgedeckten Usability-Probleme. Angenommen wurde, dass der Labortest und der synchrone Remote Test gleich viele Probleme aufdecken, der asynchrone Remote Test aber deutlich weniger aufdecken würde. Um diese These zu prüfen, wurden alle in den 3 Testreihen aufgedeckten Probleme gesammelt und festgehalten, in welchem Test sie von wie vielen Testpersonen entdeckt wurden. Dies ist in der folgenden Tabelle dargestellt.

#


Daraufhin wurden die Probleme in die Kategorien kritische, ernste und kosmetische Usability-Probleme eingeteilt und die Anzahl der aufgedeckten Probleme pro Testreihe ermittelt (zu sehen in den beiden folgenden Tabellen).

#


#


Nach den Ergebnissen konnte These 6 nur teilweise bestätigt werden. Zwar können mit dem asynchronen Remote Test noch alle kritischen Probleme entdeckt werden, doch er deckt deutlich weniger Probleme auf als der Labortest und der asynchrone Remote Test. Nicht bestätigt wurde, dass der Labortest und der synchrone Remote Test gleich viele Probleme identifizieren. Zwar decken auch diese beiden alle kritischen Probleme auf, doch bereits bei den ernsten Problemen werden im synchronen Remote Test deutlich weniger Probleme identifiziert als im Labortest.

These 7 fragte, ob es positive Auswirkungen auf das Auffinden von Usability-Problemen hat, dass man im Labortest und im synchronen Remote Test direkte Nachfragen an die Testpersonen stellen und somit „nachhaken“ kann.Die schweren, meist offensichtlicheren, Usability-Probleme konnten mit allen drei Methoden aufgedeckt werden. Doch bei den ernsten und gerade auch bei den kosmetischen Problemen zeigt sich, dass die synchronen Methoden mit der Möglichkeit zur Nachfrage deutlich vorne liegen.Zwar besteht auch im asynchronen Remote Test die Möglichkeit Folgefragen zu stellen, jedoch müssen diese vor dem Test definiert werden, was bedeutet, dass der Testleiter bereits vorher möglichst viele potentielle Probleme erkannt haben muss. These 7 wurde also bestätigt.

Fazit

Dieser Vergleich zeigt, dass alle drei Testmethoden in der Lage sind, die kritischen Probleme aufzudecken. Soll aber eine umfassende und tiefgehende Evaluierung erfolgen empfehlen sich der Usability-Test im Labor und der synchrone Remote Test.
Diese beiden liefern umfangreiche und emotionale Kommentare und schaffen es, die größte Zahl an Usability-Problemen aufzudecken.

Der asynchrone Remote Test sollte deswegen jedoch nicht außer Acht gelassen werden, denn gerade in der Kombination verschiedener Testmethoden kann die wahre Stärke liegen. So können mit einem asynchronen Remote Test in früherer Entwicklungsphase bereits dir gröberen Probleme schnell und mit relativ wenig Zeitaufwand behoben werden, während in späterem Stadium ein Usability-Test im Labor oder synchroner Remote Test die tiefergehende Betrachtung ermöglichen. Andersherum könnten in einem Usability-Test im Labor aufgedeckte Probleme mit einem anschließenden asynchronen Remote Test quantifiziert und somit weiter gewichtet werden.

Sind Sie anderer Meinung?

Ihre Rückmeldung zu diesen Überlegungen und Thesen interessiert uns sehr.
Schreiben Sie uns!

  • Thorsten Wilhelm
  • +49 (0)551-5177426

Ihr Ansprechpartner für weitere Fragen

thorsten wilhelm

  • Thorsten Wilhelm
  • +49 (0)551-5177426

Möchten Sie regelmäßig über neueste Studien informiert werden? Dann abonnieren Sie doch den eResult-Newsletter - dieser erscheint monatlich und liefert wertvolle Erkenntnisse aus der Praxis für die Praxis.

usabilityblog.de

Beteiligen Sie sich am regen Austausch unter Usability- und Online-Marketing-Experten auf unserem "Usability-Blog". Vielleicht finden Sie den ein oder anderen Artikel zu einer Fragestellung bzw. einem Thema, der Sie derzeit brennend interessiert.