Usability Checklisten zur Bewertung von Webseiten | eresult

Was genau ist mit Checklisten gemeint?

Checkliste ist ein auch umgangssprachlich gebräuchlicher Ausdruck. Zum Beispiel kann für die Instandsetzung eines Fahrzeugs eine Liste an Prüfkriterien angelegt werden, über die dann der Aufwand der Reparatur bestimmt wird.

Checklisten in der Evaluation bestehen entsprechend aus einer meist größeren Anzahl von Bewertungskriterien. Diese geben den Fokus und die Vorgehensweise bei der Evaluation genau vor. Sie können mehr oder weniger detailliert sein. Ziel ist eine Standardisierung der Bewertung, um so eine Vergleichbarkeit von Bewertungsergebnissen zu erreichen.

Wann ist der Einsatz von Checklisten sinnvoll?

Checklisten eignen sich für vergleichende Evaluationen. Dies kann ein Test innerhalb einer bestimmten Branche sein. So können Benchmarks bestimmt und Schwachstellen und Stärken verschiedener Anbieter differenziert analysiert werden. Geht es um eine Konkurrenzanalyse unter Einbeziehung des eigenen Produktes, wird die eigene Positionierung im Wettbewerberfeld deutlich. Checklisten können jedoch auch im Verlauf eines Entwicklungsprozesses wiederholt eingesetzt werden, um Verbesserungen durch Überarbeitungen festzustellen und so ein Monitoring für Veränderungen in der Qualität zu bekommen.

Was ist bei der Entwicklung einer Usability-Checkliste zu beachten?

Die Erstentwicklung einer Checkliste ist sehr aufwändig. Für die Usability-Bewertung von Webseiten gibt es bereits Checklisten, die für den Anwendungsfall angepasst werden können. Hier sind einige Beispiele:

Sammlung von Checklisten zur Web-Usability (Userfocus)
Usability Checklist (StayInTech, empfohlen vom UX Magazine)
25-point Website Usability Checklist (Washington State University)

Im Folgenden soll weiter ausgeführt werden, was im Verlauf einer Checklisten-Evaluation von der Entwicklung der Checkliste über die Bewertung und Gewichtung bis zur Ergebnisdarstellung zu beachten ist.

Auswahl von Checklisten-Items und Kategorisierung

Zur Auswahl der Checklisten-Items ist es wichtig, die Testmotivation heranzuziehen und den Testgegenstand und seinen Kontext zu analysieren. Welche Aspekte sind wichtig und bestimmen die Qualität des Gegenstands? Wo soll der Fokus der Ergebnisse liegen? Auf dieser Basis können in einem ersten Entwurf übergeordnete Kategorien bestimmt werden, die dann die erste Auswahl der Bewertungskriterien leiten.

Eine umfangreichere Checkliste sollte immer durch übergeordnete Kategorien strukturiert sein. Die Kategorien helfen bei der späteren Interpretation der Ergebnisse. Problembereiche werden so besser erkennbar.

Die Festlegung von Kategorien und die Auswahl von einzelnen Bewertungskriterien muss nicht getrennt stattfinden. Durch das Zusammenführen von Kriterien mit ähnlichem thematischen Fokus können Kategorien bestimmt werden. Mit Fokus auf diese Kategorien können noch weitere Items identifiziert werden.

Bei sehr umfangreichen Checklisten kann überlegt werden, zusätzlich zu den Hauptkategorien eine weitere untergeordnete Kategorienebene einzuführen, um so das Ergebnis weiter differenzieren zu können.

Die Formulierung der einzelnen Bewertungskriterien muss klar und eindeutig sein. Wird eine Bepunktung vergeben, muss genau bestimmt werden, wann die Punkte gegeben werden und wann nicht.

Zu diesem Zeitpunkt muss auch die Art der Bewertung festgelegt werden. Eine Möglichkeit ist eine bipolare Bewertung mit Ja/Nein oder Gut/Schlecht. Bei einzelnen Items kann es sinnvoll sein, eine mittlere Bewertung zuzulassen.

Die Bewertung: Checkliste testen, Vier-Augen-Prinzip & Dokumentation

Die Bewertung wird nicht nur durch die festgelegten Bewertungsitems standardisiert, sondern auch durch den Ablauf eines Checklisten-Tests. Es muss sichergestellt sein, dass zwischen den Bewertungen die gleichen Bedingungen herrschen. Dies kann auch Aspekte wie Internetgeschwindigkeit, Browser und zeitliche Faktoren betreffen.

Die Checkliste muss vor der eigentlichen Bewertung gründlich getestet werden. Es empfiehlt sich, einen Pretest unter den Testbedingungen durchzuführen. So werden Verständnisprobleme durch unklare Formulierungen und sonstige Einschränkungen erkannt und der Ablauf getestet.

Für die Bewertung sollten zwei gut geschulte Tester eingesetzt werden, die den Test unabhängig voneinander durchführen. Dies erhöht die Qualität der Daten erheblich. Insbesondere negative Bewertungen müssen gründlich dokumentiert und begründet werden. Ein entsprechendes Kommentarfeld in der Checkliste ist hierfür wichtig. Wird der Test im Webkontext durchgeführt, sind Screenshots zu erstellen. Im Anschluss an den Checklisten-Test gehen die beiden Tester ihre Ergebnisse durch und diskutieren strittige Bewertungen. Es muss hierbei ein Konsens erreicht und begründet werden.

Festlegen der Bepunktung und Gewichtung

Abhängig von der Testmotivation und der Priorisierung können Hauptkategorien verschieden gewichtet werden. Die Bepunktung der Bewertungskriterien wird dann so festgelegt, dass die Punkte für die einzelnen Items entsprechend der Gewichtung verteilt werden. Auch einzelne Items können in diesem Schritt entsprechend ihrer Bepunktung höher oder niedriger gewertet werden.

Auswertung und Interpretation

Zunächst empfiehlt es sich, die absoluten Punktwerte durch Prozentangaben zu ergänzen. So ist eine Vergleichbarkeit zwischen unterschiedlich gewichteten Kategorien möglich. Bei Checklisten-Tests im Rahmen von einer Benchmark-Analyse ist es natürlich zunächst interessant, wer der Sieger nach Punktanteil ist. Es kann zur besseren Einordung der Punktanteile eine Notenskala eingeführt werden. Die Breakpoints für die Notenschritte müssen nach transparenten Kriterien festgelegt werden.

Interessant ist zudem eine Analyse auf Basis der Kategorien und Unterkategorien. Hier werden Schwachstellen und Stärken im Vergleich deutlich. Auf Ebene der einzelnen Bewertungs-Items kann dann genauer herausgearbeitet werden, wo Verbesserungspotential liegt.

Auch globale Ergebnisse sind interessant. Welche Kategorien und Items schneiden insgesamt am schlechtesten ab? Wo gibt es in der gesamten Branche Nachholbedarf oder wo sind Marktlücken bei der Qualität zu entdecken?

Grenzen von Checklisten-Tests

Checklisten-Tests sind da richtig eingesetzt, wo durch Standardisierung eine Vergleichbarkeit hergestellt werden soll. Dies ist beim Benchmarking der Fall und auch bei iterativen Tests. Soll jedoch etwa eine einzelne Webseite einmalig bewertet werden, um Schwachstellen zu identifizieren und Verbesserungsvorschläge herauszuarbeiten, ist eine Checklisten-Evaluation weniger geeignet. Hier ist der Expert Review vorzuziehen. Bei dieser Methode bewertet ein erfahrener Experte etwa eine Webseite unter Berücksichtigung von bestimmten allgemeinen Heuristiken, wie Fehlertoleranz, Erwartungskonformität und Aufgabenangemessenheit. Gestützt wird die Analyse zudem durch Walkthroughs anhand von wichtigen Use Cases. Außerdem fließt die Erfahrung des Experten in die Ergebnisse des Reviews ein. Der Expert Review gewährleistet so eine Evaluation, die auf die Besonderheit der einzelnen Webseite flexibel eingeht. Der Erkenntnisgewinn ist hier deutlich höher, als dies bei der durch Vorgaben sehr eingeschränkten Checklisten-Evaluation möglich ist. Ein einzelnes Punkteergebnis aus einem Checklisten-Test ist zudem ohne Vergleichsmöglichkeit wenig aussagekräftig.

Projektbeispiel: ADAC-Test Neuwagenkaufportale

Die eresult GmbH hat im Auftrag des ADAC einen umfangreichen Checklisten-Test durchgeführt. Testgegenstand waren Neuwagenkaufportale. Ziel war eine vergleichende Bewertung unter Berücksichtigung der Dimensionen Rabatt, Transparenz und Nutzerfreundlichkeit. Alle Phasen von der Entwicklung der Checkliste über die Bewertung bis zur Interpretation wurden von eresult in enger Kooperation mit dem ADAC durchgeführt. Wichtigstes Ergebnis war die Übersichtstabelle mit dem Ranking der Portale.