Welche Rolle spielt das Aussehen? – Über den Einfluss der visuellen Verfeinerung von Prototypen auf das Nutzerverhalten

Der Evaluation von Webseiten oder Software mit Hilfe von Prototyping kommt im Usability-Engineerin eine zentrale Rolle zu. Eine Frage, die sich hierbei vor der Entwicklung eines Prototyps stellt, ist: Muss ein Prototyp der Originalanwendung auch optisch möglichst ähnlich sehen, um reliable Ergebnisse im Usability-Test zu erzielen? Sollte ein Prototyp also über ein vollständiges Layout verfügen oder kann man hier ebenso gut auf einfach gehaltene schwarz-weiß Darstellungen zurückgreifen? Die Ergebnisse einer von eResult durchgeführten Studie zu diesem Thema legen nahe: Weniger kann diesbezüglich durchaus mehr sein.

Fragestellungen der Studie

Wie in einem vorherigen Beitrag bereits dargestellt, gab es bisher zahleiche Studien zur Fidelity von Prototypen und darauf, welchen Einfluss die Fidelity auf die Bewertung und Identifikation von Usability-Problemen im Nutzertest hat. Hierbei wurde lange Zeit nur in high bzw. low Fidelity unterschieden, wobei diese die Begriffe „high bzw. low Fideltiy“ sehr unterschiedlich auslegten.
Vor diesem Hintergrund zeigte sich schließlich, dass eine dichotome Unterscheidung der Vielzahl unterschiedlicher Arten von Prototypen (mit oftmals sehr unterschiedlichen Verwendungszwecken) nicht gerecht wird. Um dieser Erkenntnis Rechnung zu tragen, entwickelten McCurdy und Kollegen das Konzept der mixed Fidelity. In diesem Konzept werden fünf verschiedene Stufen der Fidelity unterschieden, welche unabhängig voneinander variiert werden können: visuelle Verfeinerung (Aussehen), Breite der Funktionalität, Tiefe der Funktionalität, Umfang der Interaktionsmöglichkeiten sowie Vollständigkeit des Datenmodells.
Dieses Modell erlaubte eine wesentlich zielgerichtetere Konzeption von Prototypen im Hinblick auf die jeweilige Fragestellung bzw. den Zweck, für den ein Prototyp erstellt wird. Ungeklärt ist jedoch die Frage, welchen Einfluss die visuelle Ausgestaltung eines Prototyps auf die Ergebnisse eines nutzerbasierten Usability-Tests hat. Mit anderen Worten: Wie vielzeitliche und finanzielle Ressourcen sollten bzw. müssen für die visuelle Ausgestaltung eines Prototyps investiert werden, um mit diesem möglichst valide Testergebnisse zu erzielen (und eine Vorhersage für die Nutzerfreundlichkeit der späteren Anwendung zu treffen)? Werden ausgearbeitete Prototypen besser bewertet, als einfache Wireframes? Finden Nutzer bei hoher visueller Verfeinerung andere oder mehr Probleme als bei geringer Verfeinerung?
Da es bislang keine Studien gibt, die sich ausschließlich mit dem Einfluss visueller Verfeinerung von Prototypen befasst, ist eResult diesen Fragen in einer Grundlagenstudie nachgegangen.

Zur Methode

Bei der durchgeführten Untersuchung handelt es sich um ein einfaktorielles Design mit zwei Stufen, bei der die visuelle Verfeinerung als unabhängige Variable auf den Stufen “hoch” und “niedrig” variiert wurde. Hierzu wurde ein Zwei-Gruppen-Vergleich durchgeführt, bei dem jeweils eine Gruppe (à 12 Testpersonen) einen Usability-Test mit einem Webseiten-Prototyp durchlief, der über geringe visuelle Verfeinerung verfügte (Abb. 1) und hauptsächlich in Graustufen gehalten war. Weitere 12 Testpersonen durchliefen den gleichen Test mit einem Prototyp von hoher visueller Verfeinerung (Abb.2). Im Hinblick auf die übrigen vier Dimensionen der Fidelity (nach McCurdy) unterschieden sich die beiden Prototypen nicht voneinander. Auf diese Weise konnte gewährleistet werden, dass ein eventueller Unterschied zwischen den Gruppen eindeutig auf die Manipulation der unabhängigen Variablen (visuelle Verfeinerung) zurückzuführen war.

#
Abb. 1: Prototyp geringer visueller Verfeinerung

#
Abb. 2: Prototyp hoher visueller Verfeinerung


Im Rahmen der durchgeführten Untersuchung war hierbei vor allem der Einfluss auf folgende abhängigen Variablen von Interesse:

  • Anzahl und Qualität erkannter Usability-Probleme
  • Bewertung der Attraktivität und der subjektiv empfundenen Usability

Beim dem verwendeten Testgegenstand handelte es sich um einen frühen Konzeptentwurf für ein online-basiertes Nutzertagebuch – da keiner der Testpersonen bisher mit einem solchen Tool gearbeitet hatte, konnte so auch ein Einfluss eventueller Erfahrungswerte der Nutzer ausgeschlossen werden.
Beim dem verwendeten Testgegenstand handelte es sich um einen frühen Konzeptentwurf für ein online-basiertes Nutzertagebuch – da keiner der Testpersonen bisher mit einem solchen Tool gearbeitet hatte, konnte so auch ein Einfluss eventueller Erfahrungswerte der Nutzer ausgeschlossen werden.
Zudem füllten die Testpersonen abschließend einen Fragebogen aus, mit dem die Attraktivität und die subjektive empfundene Usability der Seite erfasst wurden.

Zentrale Ergebnisse der Studie

Anzahl und Qualität gefundener Usability-Probleme:
Die Auswertung zeigte, dass sich die Anzahl gefundener Usability-Probleme in beiden Bedingungen nicht signifikant voneinander unterscheidet. So konnten bei hoher visueller Verfeinerung insgesamt 30 Probleme identifiziert werden; bei geringer Verfeinerung waren es 28 (jeweils ohne Redundanzen). Darüber hinaus wurden unter jeder Bedingung einzelne Probleme identifiziert, die jeweils nur hier aufgedeckt wurden (Tabelle 1).

Anzahl identifizierter Usability-Probleme pro Bedingung
Tabelle 1: Anzahl identifizierter Usability-Probleme pro Bedingung


Für diejenigen Bereiche, in der nur von je einer Gruppe ein Usability-Problem festgestellt wurde, zeigte sich zumindest teilweise ein Unterschied zwischen den Gruppen: So wurden unter geringer visueller Verfeinerung mehr Probleme aufgedeckt, die sich auf die Navigation und das Wording bezogen (Fehlermeldung, Eingabeaufforderung in einem Formular) (siehe Tabelle 2).

Anzahl identifizierter Usability-Probleme bei geringer bzw. hoher visueller Verfeinerung differenziert nach Problemkategorie
Tabelle 2: Anzahl identifizierter Usability-Probleme bei geringer bzw. hoher visueller Verfeinerung differenziert nach Problemkategorie.


Vor allem Probleme hinsichtlich der Navigation und hinsichtlich des Wordings wurden im Vergleich zur hohen Verfeinerung häufiger gefunden. So fiel nur den Testpersonen, die mit dem schwarz-weißen Prototypen arbeiten auf, dass einer der Navigationspfade sehr viele Klicks erforderte, um ans Ziel zu gelangen. Hohe visuelle Verfeinerung förderte hingegen eher die Identifikation von Problemen zu Tage, die auf die Gestaltung einzelner Seitenelemente zurückzuführen waren. So wurden einzelne Testpersonen laut eigener Aussage z. B. von graphischen Elementen „abgelenkt“ oder sie bemängelten die farbliche Gestaltung einzelner Seitenbereiche.

Bewertung der Attraktivität und der subjektiv empfundenen Usability:
Die Auswertung des Fragebogens zur Bewertung der Attraktivität und der subjektiv empfundenen Usability des Tools zeigt, dass Prototyp von geringer visueller Verfeinerung hinsichtlich seiner Attraktivität signifikant schlechter bewertet wird. Bezüglich der Usability-Bewertung zeigte sich in der Untersuchung kein signifikanter Unterschied, wobei auch hier die Bewertung des Prototyps geringer visueller Verfeinerung tendenziell schlechter ausfällt.

#
Abb. 3: Bewertung der subjektiv empfundenen Usability und der Attraktivität


Weiterhin ergab die Analyse, dass die Korrelation zwischen der Bewertung Attraktivität und Usability bei hoher Verfeinerung generell höher ausfiel (r=.863) als bei geringer Verfeinerung (r=.606).

Was bedeuten diese Ergebnisse für die Praxis?

Die Ergebnisse zeigen, dass sich die visuelle Verfeinerung nicht auf Anzahl identifizierter Usability-Probleme im Test auswirkt. Auch hinsichtlich der Qualität der Probleme wird deutlich, dass sich hier kein wesentlicher Unterschied ergibt. So gab es hohe Übereinstimmungen hinsichtlich der Funktionen und Seitenbereiche, die die Nutzung der Anwendung beeinträchtigen.
Dennoch wurde deutlich, dass geringe visuelle Verfeinerung dazu führt, dass verstärkt Probleme hinsichtlich der Navigation und des Wordings identifiziert werden – hier wurden bei geringer visueller Verfeinerung Probleme identifiziert, die bei hoher Verfeinerung nicht erkannt wurden. Letztere förderte dahingegen eher zusätzliche kosmetische Probleme zu Tage – diese Beeinträchtigen die Nutzung der späteren Anwendung jedoch wesentlich weniger als unklare Navigationswege oder missverständliches Wording.
Die Analyse der Bewertung der subjektiv empfunden Usability legt zudem die Vermutung nahe, dass die empfundene Attraktivität bei hoher Verfeinerung stärker auf die Bewertung der Usability einwirkt als dies bei geringer Verfeinerung der Fall ist. Da bei visueller Verfeinerung die Attraktivität in dieser Studie signifikant besser bewertet wurde, lässt sich vermuten, dass dadurch auch die Bewertung der Usability nach oben verzerrt ist und so die tatsächliche Usability (der späteren Anwendung) weniger gut vorhersagt.

Für die Konzeption von Prototypen zum Zwecke der nutzerbasierte Evaluation von Anwendungen lassen sich aus der Studie abschließend einige Hinweise ableiten:

  • Prototypen von geringer visueller Verfeinerung sind für die Evaluation funktionaler Aspekte ebenso gut geeignet wir Prototypen von hoher visueller Verfeinerung. Sie fördern eine ähnlich hohe Anzahl von Usability-Problemen zu Tage wie Prototypen hoher Verfeinerung und auch die Qualität der gefundenen Probleme unterscheidet sich nicht wesentlich voneinander.
  • Die Ergebnisse legen nahe, dass sich Versuchspersonen bei geringer visueller Verfeinerung tendenziell eher auf funktionale Aspekte konzentrieren (wie z. B. Eindeutigkeit der Navigation, Wording) und somit ggf. Probleme identifizieren, die bei hoher Verfeinerung unentdeckt bleiben.
  • Zudem legen die Ergebnisse die Vermutung nahe, dass hohe visuelle Verfeinerung trotz ähnlicher identifizierter Usability-Probleme eher dazu führt, dass der Prototyp in Bezug auf seine Usability besser bewertet wird als dies bei geringer Verfeinerung der Fall ist. Inwiefern dies tatsächlich der Fall ist, bleibt abzuklären – dennoch sollte dieser Aspekt berücksichtigt werden, wenn die Usability eines Prototyps zusätzlich mit Hilfe eines Fragebogens erhoben wird – insbesondere wenn mit hoher visueller Verfeinerung getestet wird. Nicht zuletzt, da es ebenfalls denkbar ist, dass ein solcher Prototyp auch deshalb besser bewertet wird, da die Anwendung bereits recht „vollständig“ wirkt und die Versuchspersonen ihre Bewertung daher aus Rücksicht auf die Entwickler weniger kritisch ansetzen.

Dennoch ist ein Test mit geringer visueller Verfeinerung nicht für alle Anwendungen empfehlenswert. Vielmehr muss vor der Entscheidung über den Grad der visuellen Verfeinerung vorab die genaue Fragestellung bzw. das Ziel der Evaluation analysiert werden. Generell lässt sich sagen, dass Prototypen geringer visueller Verfeinerung vor allem eignen für Fragestellungen, die sich auf funktionale Aspekte einer Anwendung beziehen wie z. B.:

  • die Evaluation früher Konzepte und Ideen
  • Wording oder Navigationsstruktur
  • Verständlichkeit von Funktionalitäten und Features


In anderen Fällen ist ein Test mit geringer visueller Verfeinerung eher nicht empfehlenswert. Dies gilt z. B. wenn:

  • emotionale Qualitäten erhoben werden sollen (Joy of Use, Wirkung des Designs)
  • das Design dem Nutzer eine wesentliche Orientierungshilfe auf der Seite bietet (z. B. beim Test von Anwendungen, die sehr viel Text oder anderes Datenmaterial enthalten, dass z. B. durch farbliche Hinterlegung oder Hervorhebung voneinander abgegrenzt werden soll).

Abschließend lässt sich demnach festhalten, dass – bei entsprechender Fragestellung – auf eine detaillierte visuelle Ausarbeitung von Prototypen verzichtet werden kann. In einigen Fällen sollte man sogar explizit davon Abstand nehmen, einen Prototyp mit einem kompletten Layout auszustatten, da geringe visuelle Verfeinerung die Aufmerksamkeit der Nutzer eher auf funktionale Aspekte und die tatsächliche Usability einer Anwendung lenkt.