Testy użyteczności a miary ilościowe

Na fali nieustającej dyskusji na temat stosowania miar ilościowych w jakościowych bądź co bądź testach z użytkownikami (patrz: ostatnia dyskusja na Goldenline; czytanie wątków nie wymaga posiadania konta), postanowiłem skreślić parę słów na ten temat. Zainteresowanych odsyłam do źródeł, w postaci książki Measuring The User Experience, a także związanej z tematyką i samą książką witryny measuringuserexperience.com. Na początek o wpływie wielkości grup na estymacje na populację. Więcej, jeżeli mi mój trzytygodniowy syn i żona pozwolą ;)

Wielkość grupy a populacja

No właśnie, to budzi najwięcej kontrowersji. Wystarczy 5 osób, czy też lepiej 15. Jak dobrać wielkość próby, nie przywoływać „tego samego co zawsze” wykresu Papy Nielsena na dowód, że 5 osób jednak wystarczy? Spróbujmy odpowiedzieć na parę pytań, które zada klient z działu badań czy marketingu. Kliencie – czytaj i pytaj – następnym razem sprawdź, czy agencja zna tę dobrą (to znaczy moją) odpowiedź ;-)

Zacznijmy od odrobiny statystyki. Kto spał na wykładach, niech doczyta. Kto coś pamięta – proszę o korygowanie i uwagi. Kilka liczb da nam pogląd na to, w jaki sposób wielkość próby wpływa na akceptowalny margines błędu – a to decyzja biznesowa, którą warto podjąć świadomie. Na czym to polega?

Przyjrzyjmy się tak zwanym przedziałom ufności jako funkcji wielkości grupy respondentów. Za chwilę wyjaśnię, czym są przedziały ufności. Zakładamy (bądź – mamy taką wiedzę, analizując wyniki), że około 80% zadań zostało średnio przez użytkowników ukończone z sukcesem.

[table]
wykonanych
zadań liczba
respondentów przedział
ufności 95%
4 5 36-98%
8 10 48-95%
16 20 58-95%
24 30 62-91%
40 50 67-89%
80 100 71-86%
[/table]

Co oznacza powyższe? Możemy stwierdzić z 95% pewnością, iż jeżeli przebadamy na przykład stu respondentów (ostatni wiersz tabeli), a osiemdziesięciu z nich wykonało zadanie z sukcesem, to:

pomiędzy 71, a 86 procent populacji będzie w stanie wykonać to zadanie.

Czyż nie pokochają Was za to klienci?

Popatrzmy, skąd się to wzięło, na konkrentym przykładzie – także z cytowanej wcześniej książki. Powiedzmy, że przeprowadziliśmy 12 sesji badawczych, w których rejestrowano czas wykonania określonego zadania.

Garść cyferek:

[table]
respondent czas w sek
p1 34 średnia 35,08
p2 33 mediana 33,5
p3 28 odchylenie standardowe 11,24
p4 44 min 21
p5 46 max 53
p6 21 liczba sesji 12
p7 22 ufność 6,36
p8 53
p9 22
p10 29
p11 39
p12 50
[/table]

Wszystkie dane powinny być jasne, poza może jedną – wynikiem użycia funkcji „ufność” (ang. confidence) w Excelu. Funkcja ta przyjmuje trzy wartości – arbitralnie dobrane dopuszczalne prawdopodobieństwo popełnienia błędu (przyjęto, że jest to jedna z trzech wartości: 0.01, 0.03 albo 0,05), wartość odchylenia standardowego (w naszym przypadku 11.24) oraz wielkość próby (powyżej: 12).

Co nam daje wartość wynikowa 6.36? Ano tyle, że możemy na podstawie dwunastoosobowej próby estymować z prawdopodobieństwem 95% (bo 100% minus 0.05), iż w pełnej populacji zadanie będzie wykonywane ze średnim czasem 35.08 sekundy, plus minus 6.36 sekundy. A to już może mieć znaczenie dla projektu aplikacji :)

Podsumowując te dwa krótkie przykłady – czasami warto poświęcić chwilę nad Excelem i przeanalizować wartości rejestrowanych wskaźników – jeżeli chcemy wykraczać poza wykrywanie błędów i barier użyteczności. Ale to już kwestia zaplanowania celów testu i świadomości możliwości…

Źródło:

4 responses to “Testy użyteczności a miary ilościowe”

  1. Marek Kasperski

    Albo wypiłem za dużo, albo za mało…

    1) Piszesz co daje 6.36, ale wartość ta czego jest wynikiem?

    2) ufność wyrażamy w sekundach?

    3) 100% – 0.05 (czego?) = 95% ?

    4) wartości: 0.01, 0.03 i 0.05 kogo / czego? Że – w kolejności – jedna osoba na sto, trzy na sto i pięć na sto nie wykonają zadania? A skąd takie przypuszczenia?

  2. eof

    Chyba jednak za dużo ;)

    ad 1) obejrzyj sobie algorytmy na wiki, nie mam siły przekładać tego via wordpress

    ad 2) to jest przykład na to, w jaki sposób można wykorzystać estymację przedziałową. Możesz estymować sobie prawdopodobieństwo wystąpienia dowolnego w sumie parametru w danym przedziale ufności – parametru, którego wartości rejestrowałeś w czasie badań.

    ad 3 i 4) mylisz dwie rzeczy. 0.01, 0.03 i 0.05 to przyjęte „dopuszczalne marginesy dokładności”, stosowane powszechnie w obliczeniu. Jest to tak zwany współczynnik ufności (oznaczany 1-α), uwzględniający maksymalne ryzyko błędu, jakie jesteś skłonny zaakceptować. Zaś „od czego” – po prostu od jedności, czy – jeżeli wolisz – od 100%.

  3. sobo

    Wydaje mi się, że w przypdku tego co napisałeś, wszystko zależy od tego jaka jest czułość testu z którego korzystałeś.
    Próba z 12 osobami badanymi może dać wyniki istotne statystyczne, ale przy tak nielicznej grupie ciężko założyć, że ta grupa jest homogeniczna i podlega pod rozkład normalny. Żeby standardowe testy statystyczne (takie jak test T czy ANOVA podały Ci rzetelne wyniki najlepiej mieć próbę rzędu 30 osób.
    Wydaje mi się, że mylisz też poziom istotności Alfa (to jest to .005 o którym napisałeś) i jest to założenie, które się przyjmuje przed podjęciem badań, od rzeczywistego poziomu prawdodpodobieństwa p, które wynika z otrzymanych rezultatów testowania.

    Kolejna rzecz o której piszesz, czyli te ok. 6 sekund to jest średnia +- 5% odchylenia od wyniku średniej. 95% wyników będzie zawarte dopiero w przedziale +- 1,96 odchylenia standardowego. Najistotniejsze wyniki są natomiast w przedziale odchylenia standardowego i jest to 68% wyjaśnienia wszystkich wyników, czyli u Ciebie 68% wyników to byłoby 35,08 sekundy +- 11,24 sekundy z jakimś tam prawdopodobieństwem.

  4. eof

    Zgadzam się co do tego, że z rozkładem normalnym może być kłopot przy tej próbie, natomiast wiem co to Alfa ;-)

Leave a Reply