Na fali nieustającej dyskusji na temat stosowania miar ilościowych w jakościowych bądź co bądź testach z użytkownikami (patrz: ostatnia dyskusja na Goldenline; czytanie wątków nie wymaga posiadania konta), postanowiłem skreślić parę słów na ten temat. Zainteresowanych odsyłam do źródeł, w postaci książki Measuring The User Experience, a także związanej z tematyką i samą książką witryny measuringuserexperience.com. Na początek o wpływie wielkości grup na estymacje na populację. Więcej, jeżeli mi mój trzytygodniowy syn i żona pozwolą
Wielkość grupy a populacja
No właśnie, to budzi najwięcej kontrowersji. Wystarczy 5 osób, czy też lepiej 15. Jak dobrać wielkość próby, nie przywoływać “tego samego co zawsze” wykresu Papy Nielsena na dowód, że 5 osób jednak wystarczy? Spróbujmy odpowiedzieć na parę pytań, które zada klient z działu badań czy marketingu. Kliencie – czytaj i pytaj – następnym razem sprawdź, czy agencja zna tę dobrą (to znaczy moją) odpowiedź
Zacznijmy od odrobiny statystyki. Kto spał na wykładach, niech doczyta. Kto coś pamięta – proszę o korygowanie i uwagi. Kilka liczb da nam pogląd na to, w jaki sposób wielkość próby wpływa na akceptowalny margines błędu – a to decyzja biznesowa, którą warto podjąć świadomie. Na czym to polega?
Przyjrzyjmy się tak zwanym przedziałom ufności jako funkcji wielkości grupy respondentów. Za chwilę wyjaśnię, czym są przedziały ufności. Zakładamy (bądź – mamy taką wiedzę, analizując wyniki), że około 80% zadań zostało średnio przez użytkowników ukończone z sukcesem.
[table]
wykonanych
zadań liczba
respondentów przedział
ufności 95%
4 5 36-98%
8 10 48-95%
16 20 58-95%
24 30 62-91%
40 50 67-89%
80 100 71-86%
[/table]
Co oznacza powyższe? Możemy stwierdzić z 95% pewnością, iż jeżeli przebadamy na przykład stu respondentów (ostatni wiersz tabeli), a osiemdziesięciu z nich wykonało zadanie z sukcesem, to:
pomiędzy 71, a 86 procent populacji będzie w stanie wykonać to zadanie.
Czyż nie pokochają Was za to klienci?
Popatrzmy, skąd się to wzięło, na konkrentym przykładzie – także z cytowanej wcześniej książki. Powiedzmy, że przeprowadziliśmy 12 sesji badawczych, w których rejestrowano czas wykonania określonego zadania.
Garść cyferek:
[table]
respondent czas w sek
p1 34 średnia 35,08
p2 33 mediana 33,5
p3 28 odchylenie standardowe 11,24
p4 44 min 21
p5 46 max 53
p6 21 liczba sesji 12
p7 22 ufność 6,36
p8 53
p9 22
p10 29
p11 39
p12 50
[/table]
Wszystkie dane powinny być jasne, poza może jedną – wynikiem użycia funkcji “ufność” (ang. confidence) w Excelu. Funkcja ta przyjmuje trzy wartości – arbitralnie dobrane dopuszczalne prawdopodobieństwo popełnienia błędu (przyjęto, że jest to jedna z trzech wartości: 0.01, 0.03 albo 0,05), wartość odchylenia standardowego (w naszym przypadku 11.24) oraz wielkość próby (powyżej: 12).
Co nam daje wartość wynikowa 6.36? Ano tyle, że możemy na podstawie dwunastoosobowej próby estymować z prawdopodobieństwem 95% (bo 100% minus 0.05), iż w pełnej populacji zadanie będzie wykonywane ze średnim czasem 35.08 sekundy, plus minus 6.36 sekundy. A to już może mieć znaczenie dla projektu aplikacji
Podsumowując te dwa krótkie przykłady – czasami warto poświęcić chwilę nad Excelem i przeanalizować wartości rejestrowanych wskaźników – jeżeli chcemy wykraczać poza wykrywanie błędów i barier użyteczności. Ale to już kwestia zaplanowania celów testu i świadomości możliwości…
Źródło: