Usability-Testing nativer Apps – drei Erhebungsformen im empirischen Vergleich

Der Forschungsbeitrag „Auf der Suche nach der optimalen Vorgehensweise – Usability-Testmethoden im Vergleich“ thematisierte bereits den Vergleich verschiedener Evaluationsmethoden im Kontext von Desktop-Systemen. Der folgende Beitrag greift die Erkenntnisse dieser Studie auf und transferiert sie auf das Testen nativer Applikationen.

Das benutzerorientierte Testen ist besonders bei der Entwicklung nativer Applikationen von hoher Relevanz, um grundsätzliche UX-Probleme zu vermeiden, denn wenn diese nicht beseitigt werden, wenden sich die Nutzer schnell ab. Aufgrund der physikalischen Eigenschaften mobiler Endgeräte (z. B. ein kleines Display oder eine fehlende Tastatur) sowie dem dynamischen Nutzungskontext stellt die UX-Evaluation im mobilen Kontext eine besondere Herausforderung dar. Eine mangelhafte UX führt bei Nutzern häufig zu einer schnellen Deinstallation der Applikation und gegebenenfalls zu einer schlechten Bewertung in den App-Stores. Diese Bewertung kann sowohl die Akzeptanz der Applikation als auch das Image des dahinterstehenden Unternehmens negativ beeinflussen. Die Herausforderung beim Testen nativer Applikationen besteht darin, dass bekannte Strategien von UX-Tests mobiler Websites nicht vollständig auf das Testen nativer Applikationen übertragen werden können. So ist zum Beispiel das Evaluieren von nativen Applikationen nicht problemlos möglich, ohne den Quellcode dieser im Vorfeld zu modifizieren. Nach heutigem Stand der Technik ist das Testen nativer Applikationen lediglich mit einem hohen technischen Aufwand verbunden. Die vorliegende Studie der eResult GmbH vergleicht zwei innovative Evaluationsmethoden zum Testen nativer Applikationen mit einem klassischen Usability-Test im Labor. Das Forschungsinteresse besteht demzufolge darin, die Abhängigkeit der Ergebnisse von der Evaluationsmethode empirisch zu untersuchen. Der Usability-Test im Labor entsprach einem klassischen Testaufbau. Der Testaufbau vom synchronen Remote-Usability-Test und asynchronen Remote-Usability-Test ist dem Blogbeitrag "Mobile Remote-Usability-Tests - Eine kritische Beleuchtung der aktuellen UX-Tool-Landschaft" zu entnehmen.

Thesen

  1. Durch den Usability-Test im Labor, den synchronen RUT und den asynchronen RUT werden identische Usability-Probleme identifiziert.
  2. Die Anzahl an Usability-Problemen des Schweregrads ''Critical'', ''Serious'' und ''Cosmetic' sind weitestgehend unabhängig von der Evaluationsmethode, sodass kein Unterschied in den Ergebnissen festgestellt werden kann.
  3. Durch die Möglichkeit der direkten Kommunikation zwischen Testleiter und Proband werden innerhalb der Evaluationsmethoden "Usability-Test im Labor" und "synchrone RUT" mehr Usability-Probleme aufgedeckt als bei der automatisierten asynchronen RUT.
  4. Die Frequenz der identifizierten Usability-Probleme und die angewandten Evaluationsmethoden sind weitestgehend unabhängig voneinander, sodass kein Unterschied in den Ergebnissen festgestellt werden kann.
  5. Die Frequenz der identifizierten Usability-Probleme der Schweregrade ''Critical'', ''Serious'' und ''Cosmetic'' differenziert je nach Evaluationsmethode.
  6. Im asynchronen RUT ist ein natürlicheres Verhalten der Teilnehmer zu beobachten als im Usability-Test im Labor und synchronen RUT.

Studiendesign

Das Testobjekt der Studie ist die App der global agierenden Parfümerie Douglas GmbH. Die Smartphone-Applikation des Unternehmens wurde laut Angaben des Google Playstores zwischen 500.000 und 1 Millionen Mal heruntergeladen (Stand: Februar 2016).

Grundlage des Vergleichs bildeten aufeinanderfolgende Use Cases. Sie teilten den jeweiligen Usability-Test in verschiedene Phasen ein, die als Richtlinien für den Ablauf zu interpretieren sind. Hierdurch wird gewährleistet, dass keine Fragestellung ausgelassen wird und alle Probanden die identischen Aufgaben bearbeiten. Die dadurch erzeugte Reliabilität lässt einen Vergleich der Methoden zu, da vergleichbare Antworten zu erwarten sind.

Entscheidende Messwerte für den Vergleich bilden die relative Häufigkeit, der Schweregrad sowie die Frequenz der identifizierten Usability-Probleme. Die Grundlage für die Analyse bildete das laute Denken der Probanden. Weiterhin wurden die Beobachtungen der durchführenden UX-Experten hinzugenommen, welche in Echtzeit der Tests oder im Nachgang durch Analyse der Aufzeichnungen erfolgten.

Aufgrund der Erkenntnisse der Literatur wurde in der vorliegenden Studie bei jeder Evaluationsmethode mit acht Probanden getestet (Stichprobengröße n=24) und auf die jeweiligen Evaluationsmethoden randomisiert.

Ergebnisse

Anzahl der aufgefundenen Usability-Probleme

Abbildung 1 zeigt, dass methodenübergreifend 49 verschiedene Usability-Probleme identifiziert wurden. Sie zeigt weiterhin, dass durch den Usability-Test im Labor 25 Usability-Probleme festgestellt werden konnten. Im Gegensatz dazu konnten im asynchronen RUT 21 Usability-Probleme aufgedeckt werden. Den höchsten Wert im Vergleich der Evaluationsmethoden lieferte der synchrone RUT. Innerhalb des synchronen RUTs wurden 29 unterschiedliche Usability-Probleme identifiziert. Folglich wurde sich auf die Verhältnisse der identifizierten Usability-Probleme in Abhängigkeit von der Evaluationsmethode konzentriert. Abbildung 2 zeigt, dass 28 der insgesamt 49 identifizierten Usability-Probleme lediglich durch eine einzelne Evaluationsmethode identifiziert werden konnten. Demzufolge wurden elf Usability-Probleme lediglich durch den synchronen RUT identifiziert, acht allein durch den asynchronen RUT und neun ausschließlich durch den Usability-Test im Labor. Die Anzahl an Usability-Problemen, die durch mindestens zwei verschiedene Evaluationsmethoden aufgedeckt wurden, beträgt 20. Die geringste Schnittmenge im Vergleich bilden der Usability-Test im Labor und der asynchrone RUT mit lediglich neun gemeinsam identifizierten Usability-Problemen. Mit 14 gemeinsam identifizierten Usability-Problemen bildeten der synchrone RUT und der Usability-Test im Labor die größte Schnittmenge. Lediglich 7 der insgesamt 49 identifizierten Usability-Probleme konnten durch alle Evaluationsmethoden identifiziert werden. Anhand der hier aufgezeigten Erkenntnisse lässt sich bereits eine Tendenz erkennen, dass die Moderation eines Tests einen stärkeren Einfluss auf die Ergebnisse besitzt als die Durchführung des Tests im gewohnten Umfeld. Die Analyse der Usability-Probleme anhand ihrer Schweregrade soll weiteren Aufschluss geben.

Abb. 1: Identifizierte Usability-Probleme

Abb. 2: Verteilung der Usability-Probleme

Anzahl der aufgefundenen Usability-Probleme im Kontext des Schweregrads

Wie bereits die vorangehende Darstellung der Ergebnisse zeigt, wurden methodenübergreifend insgesamt 49 Usability-Probleme identifiziert. Elf dieser Usability-Probleme konnten dem Schweregrad ''Critical'' zugeordnet werden. Im Hinblick auf den Vergleich zwischen Usability im Labor, asynchronem und synchronem RUT zeigt Abbildung 3, dass der Usability-Test im Labor acht der 11 Usability-Probleme identifizieren konnte. Einen identischen Wert lieferte der synchrone RUT, durch welchen ebenfalls acht verschiedene Usability-Probleme des Schweregrads ''Critical'' identifiziert werden konnten. Der asynchrone RUT konnte die Ergebnisse der moderierten Verfahren nicht erreichen und identifizierte lediglich drei Usability-Probleme dieses Schweregrades. Anhand der vorangehenden Ergebnisse lässt sich postulieren, dass sich die Moderation eines Usability-Tests positiv auf das Auffinden von Usability-Problemen des Schweregrads ''Critical'' auswirkte (Hypothese 2). Der Einfluss der Moderation lässt sich dahingehend deuten, dass während des asynchronen RUTs ein sehr zögerliches und fehlervermeidendes Verhalten der Probanden zu beobachten war. Das Verhalten der Probanden im asynchronen RUT zielte merklich darauf ab, potentielle Sackgassen des Systems zu vermeiden. Es ließ sich innerhalb der nachträglichen Videobetrachtung beobachten, dass sich die Probanden des asynchronen RUTs in der Verantwortung fühlten, den Test erfolgreich abzuschließen. Folglich waren die Probanden des asynchronen RUTs grundsätzlich weniger dazu geneigt, eine laufende Aufgabe abzubrechen beziehungsweise ihre Erwartungen dahingehend zu äußern. Durch die geringere Risikobereitschaft der Probanden wurden folglich weniger Usability-Probleme des Schweregrads ''Critical'' identifiziert.

Im Kontext der Usability-Probleme des Schweregrads ''Serious'' zeigt sich, dass in der vorliegenden Studie insgesamt 19 Usability-Probleme identifiziert worden sind. Abbildung 3 verdeutlicht, dass der synchrone RUT mit 13 identifizierten Usability-Problemen die meisten Usability-Probleme dieses Schweregrads identifizieren konnte. Es folgte der asynchrone RUT mit einer Anzahl von zehn identifizierten Usability-Problemen. Den geringsten Wert im Vergleich konnte der Usability-Test im Labor mit einer Anzahl von neun identifizierten Usability-Problemen aufweisen. Im Vergleich zu den als ''critical'' eingestuften Usability-Problemen gestaltet sich die Verteilung in diesem Fall deutlich homogener. Zwar konnte der synchrone RUT erneut die meisten Usability-Probleme identifizieren, doch ist hier die Differenz zwischen den Evaluationsmethoden nicht weitreichend genug, um von einem signifikanten Einfluss zu sprechen (Hypothese 2).

Methodenübergreifend wurden insgesamt 19 verschiedene Usability-Probleme des Schweregrads ''Cosmetic'' identifiziert. Abbildung 3 zeigt ein ausgeglichenes Verhältnis in Bezug auf die Anzahl aufgefundener Probleme zwischen Usability-Test im Labor, asynchronem RUT und synchronem RUT. Demnach wurden durch jede Evaluationsmethode acht verschiedene Usability-Probleme identifiziert. Abbildung 3 ist zu entnehmen, dass ein Usability-Test, unabhängig von seiner Form, lediglich 42 % aller identifizierten Usability-Probleme des Schweregrads ''Cosmetic'' aufdeckt. Der subjektive Charakter von Usability-Problemen dieses Schweregrads erklärt die insgesamt dennoch hohe Anzahl aufgefundener Probleme. Die Homogenität zwischen Usability-Test im Labor, asynchronem RUT und synchronem RUT ist dahingehend zu erklären, dass ''Cosmetic''-Probleme dem Probanden zwar optisch oder ergonomisch negativ auffallen, sie jedoch keinen weitreichenden Einfluss auf die Systemnutzung ausüben. Da viele subjektive Meinungen vorherrschen, ist es schwer, Gemeinsamkeiten zu identifizieren.

Abb. 3: Identifizierte Usability-Probleme nach Schweregrad

Abbildung 4 bis 6 zeigen die Schnittmengen der identifizierten Usability-Probleme nach Schweregrad. Bereits mit einer Stichprobengröße von acht Probanden je Evaluationsmethode ist eine Tendenz zugunsten der moderierten Verfahren erkennen. Weiterhin konnten größere Gemeinsamkeit zwischen dem synchronen RUT und dem Usability-Test im Labor identifiziert werden als zwischen einem moderierten Verfahren und dem asynchronen RUT.

 

Abb. 4: Verteilung "Critical"

Abb. 5: Verteilung "Serious"

Abb. 6: Verteilung "Cosmetic"

Die vorangehenden Ergebnisse zeigen, dass die durch einen Testleiter begleiteten Methoden mehr Usability-Probleme identifizierten als der automatisierte, asynchrone RUT (Hypothese 3). Dies ist dahingehend zu erklären, dass die Probanden durch die Moderation des Testleiters in ihren Handlungsabläufen unterstützt wurden. Durch die Kommunikation mit dem Testleiter fiel es den Probanden leichter, ihre Eindrücke verbal zu äußern. Folglich wurden im Kontext der moderierten Evaluationsmethoden durchschnittlich mehr Usability-Probleme identifiziert als im automatisierten Verfahren. Weiterhin ließ sich im Verlauf der Evaluation erkennen, dass sich die Probanden durch die direkte Interaktion mit einem ausgebildeten Testleiter deutlich stärker in das Testgeschehen eingebunden fühlten. Dies hat zur Folge, dass die Probanden konzentrierter und zielgerichteter bei der Bearbeitung der Aufgaben vorgingen, wodurch die Rückmeldungen quantitativ zunahmen. Durch die direkte Kommunikation zwischen Proband und Testleiter war eine unmittelbare Reaktion auf das Verhalten der Probanden möglich. Sobald der Testleiter Auffälligkeiten in den Aktionen des Probanden feststellte, konnte dieser die Handlungen des Probanden durch gezielte Fragestellungen hinterfragen und so besser nachvollziehen.

Frequenz der aufgefundenen Usability-Probleme

Abbildung 7 zeigt für alle angewandten Evaluationsmethoden, dass die durchschnittliche Frequenz identifizierter Usability-Probleme abnimmt, sofern sich deren Schwere verringert. Dieser Sachverhalt ist damit zu deuten, dass sich Usability-Probleme des Schweregrads ''Critical'' als extrem präsent im Kontext der Systemnutzung erweisen. Gelangen Probanden bei der Nutzung eines Systems zum Beispiel in eine Sackgasse, bleibt dies nicht unbemerkt und wird negativ interpretiert. Während Usability-Probleme des Schweregrads ''Cosmetic'' oftmals mit subjektiven Vorlieben und Gewohnheiten der Probanden verbunden sind, führen sie nicht zu einem potentiellen Abbruch der Systemnutzung. Im Kontext aller angewandten Evaluationsmethoden konnte festgestellt werden, dass besonders stark ambitionierte Probanden eine Vielzahl an Problemen des Schweregrads ''Cosmetic'' identifizierten. Wie bereits erwähnt, basieren diese Probleme auf einer subjektiven Wertung, sodass die identifizierten Probleme oftmals nicht von weiteren Probanden benannt wurden. Usability-Probleme der Schwere ''Cosmetic'' sind dahingehend nicht zwingend Probleme, die interveniert werden müssen. Schlussfolgernd treten diese häufiger auf als Usability-Probleme der Schwere ''Critical''.

Abbildung 7 und 8 zeigen, dass sich die Moderation eines Tests durch einen erfahrenen Usability-Experten positiv auf eine stabile Frequenz von Usability-Problemen auswirkt. Die Moderation des Usability-Tests durch einen Testleiter bietet das Potential, auf das individuelle Verhalten der Probanden zu reagieren, was sich positiv auf die Frequenz der identifizierten Usability-Probleme auswirkt. Dies ist im Kontext eines automatisierten Verfahrens nicht möglich. Handelt es sich bei einem Probanden zum Beispiel um eine eher introvertierte Person, ist anzunehmen, dass sie weniger Eindrücke schildert als eine extrovertierte Person. Ein Testleiter kann im Fall der Moderation auf einen solchen Sachverhalt reagieren und zum Beispiel durch gezielte Fragen Erwartungen und Meinungen der Probanden ergründen. Durch gezieltes Nachfragen des Testleiters ist es möglich, Unklarheiten der Probanden zu identifizieren und dadurch mehr Usability-Probleme zu identifizieren.

Abb. 7: Frequenz nach Schweregrad

 

Abb. 8: Usability-Probleme pro Proband

Subjektive Einschätzung der Probanden

Die Probanden wurden aufgefordert, ihr Vorgehen während des Tests anhand der drei vorgestellten Items auf einer Skala von eins (sehr leicht bzw. natürlich) bis zehn (sehr schwer bzw. unnatürlich) selbständig einzustufen.

Die erste Frage zielte darauf ab zu evaluieren, wie leicht bzw. schwer die Probanden den vorab durchgeführten Test einstufen. Abbildung 9 zeigt, dass im Durchschnitt die Probanden des Usability-Tests im Labor diesen im Vergleich als am leichtesten bewerteten. Schwerer als beim Usability-Test im Labor wurde die Durchführung des synchronen RUT bewertet. Abschluss der Wertung bildet der asynchrone RUT, der von den Probanden grundsätzlich zwar als leicht eingestuft wurde, im Ranking jedoch hinter dem Usability-Test im Labor und dem synchronen RUT liegt. Demzufolge lässt sich erkennen, dass die von Testleitern begleiteten Methoden von den Probanden als leichter eingestuft wurden als der automatisierte RUT. Durch die Möglichkeit des direkten Austauschs zwischen Proband und Testleiter war eine unmittelbare Reaktion auf das Verhalten der Probanden möglich, wodurch sich ein Vertrauensverhältnis zwischen dem Probanden und dem Testleiter entwickelte. Die Probanden wirkten dadurch weniger angespannt.

Frage zwei zielte darauf ab, den technischen Anspruch des Testsettings zu evaluieren. Hierbei ließ sich eine Tendenz erkennen, die bereits bei der ersten Frage aufkam. Auch in diesem Kontext bewerteten die Probanden des Usability-Tests im Labor diesen im Durchschnitt als am einfachsten, gefolgt vom synchronen RUT und asynchronen RUT. Auch diesbezüglich lässt sich erkennen, dass die Probanden durch die Begleitung des Testleiters eine Unterstützung fanden und sich weniger verunsichert fühlten. Einem potentiellen Abbruch des Tests oder einer empfundenen Notwendigkeit hierzu wurde so vorgebeugt. Die Verantwortung für eine erfolgreiche Durchführung des asynchronen RUTs lag vollständig beim Probanden, da er dafür sorgen musste, die benötigten Anwendungen zu implementieren, die Aufnahme erfolgreich zu starten.

Die abschließende Frage des Tests hinterfragte die Natürlichkeit des Vorgehens eines Probanden. Trotz der Durchführung des Tests in einem vertrauten Umfeld schätzten die Probanden des asynchronen und synchronen RUTs ihr Vorgehen im Durchschnitt als unnatürlicher ein als die Probanden des Usability-Tests im Labor (Hypothese 6).


Abb. 9: Subjektive Bewertung der Probanden

Fazit

 Im Verlauf der Analyse konnte die Erkenntnis gewonnen werden, dass die durch einen Testleiter begleiteten Methoden mehr Usability-Probleme identifizierten als ein automatisiertes Verfahren. Der Sachverhalt ist dahingehend zu deuten, dass die Probanden durch die Moderation des Testleiters in ihren Handlungsabläufen unterstützt wurden. Des Weiteren ließ sich im Verlauf der Evaluation erkennen, dass sich die Probanden durch die direkte Interaktion mit einem professionellen Testleiter deutlich stärker in das Testgeschehen einbinden ließen. So wirkten die Probanden konzentrierter und zielgerichteter bei der Bearbeitung der Aufgaben, wodurch die Rückmeldungen sowohl qualitativ als auch quantitativ zunahmen. Durch die direkte Kommunikation zwischen Proband und Testleiter war eine unmittelbare Reaktion auf das Verhalten der Probanden möglich. Sobald der Testleiter Auffälligkeiten im Verhalten des Probanden feststellte, intervenierte dieser die Handlungen des Probanden durch gezielte Fragestellungen. Durch diese Kommunikation mit dem Testleiter fiel es den Probanden demnach leichter, ihre Eindrücke verbal zu äußern. Gegenteiliges Verhalten ließ sich im Verhalten der Probanden des asynchronen RUTs beobachten, da die Probanden eher zurückhaltend wirkten. Folglich wurden im Kontext der moderierten Evaluationsmethoden durchschnittlich mehr Usability-Probleme identifiziert als im automatisierten Verfahren.

Bei der mobilen UX-Evaluation ist zu beachten, dass bis dato keine Methode an die Standards aus dem Desktop-Bereich heranreicht, unabhängig davon, ob synchron oder asynchron.

Das synchrone Remote-Usability-Testing im mobilen Bereich liefert sehr gute Ergebnisse, ist jedoch mit einem hohen technischen Aufwand verbunden. Es wird deutlich interessanter, sobald Videokonferenztools (wie Skype, GoToMeeting oder WebEx) das Teilen von Smartphone-Displays erlauben und somit das synchrone Testen deutlich erleichtern.  Asynchrone Verfahren stehen vor der Herausforderung, die automatisierte Moderation in das zu testende Objekt einzubetten. Ohne diese Funktion kann es besonders im Kontext schwerwiegender Usability-Probleme zu Schwierigkeiten kommen. Wie schon Martin Beschnitt in seinem früheren Artikel "Asynchrone Remote Usability-Tests: Tools, Kosten, …" mahnte, gilt bis heute, dass die alleinige Erhebung von Nutzungs- und Befragungsdaten mithilfe asynchroner Tools (meist) nicht ausreicht, um eine Website optimieren zu können.

Beide Remote-Verfahren bieten dennoch eine Möglichkeit, um zum Beispiel eine schwer zu rekrutierende Zielgruppe zu testen. Der Mehraufwand in der technischen Infrastruktur oder Abstriche bei den Ergebnissen müssen jedoch beachtet werden.

Sind Sie anderer Meinung?

Ihre Rückmeldung zu diesen Überlegungen und Thesen interessiert uns sehr.
Schreiben Sie uns!

zum Kontaktformular

Sie wollen den Forschungsbeitrag zitieren? Gerne können Sie folgende Quellenangabe nutzen:

Rauch, Dustin (2016): Usability-Testing nativer Apps – drei Erhebungsformen im empirischen Vergleich, In: Forschungsbeiträge der eResult GmbH, URL:

Das könnte Sie auch interessieren: