Na fali nieustającej dyskusji na temat stosowania miar ilościowych w jakościowych bądź co bądź testach z użytkownikami (patrz: ostatnia dyskusja na Goldenline; czytanie wątków nie wymaga posiadania konta), postanowiłem skreślić parę słów na ten temat. Zainteresowanych odsyłam do źródeł, w postaci książki Measuring The User Experience, a także związanej z tematyką i samą książką witryny measuringuserexperience.com. Na początek o wpływie wielkości grup na estymacje na populację. Więcej, jeżeli mi mój trzytygodniowy syn i żona pozwolą
Wielkość grupy a populacja
No wÅ‚aÅ›nie, to budzi najwiÄ™cej kontrowersji. Wystarczy 5 osób, czy też lepiej 15. Jak dobrać wielkość próby, nie przywoÅ‚ywać „tego samego co zawsze” wykresu Papy Nielsena na dowód, że 5 osób jednak wystarczy? Spróbujmy odpowiedzieć na parÄ™ pytaÅ„, które zada klient z dziaÅ‚u badaÅ„ czy marketingu. Kliencie – czytaj i pytaj – nastÄ™pnym razem sprawdź, czy agencja zna tÄ™ dobrÄ… (to znaczy mojÄ…) odpowiedź
Zacznijmy od odrobiny statystyki. Kto spaÅ‚ na wykÅ‚adach, niech doczyta. Kto coÅ› pamiÄ™ta – proszÄ™ o korygowanie i uwagi. Kilka liczb da nam poglÄ…d na to, w jaki sposób wielkość próby wpÅ‚ywa na akceptowalny margines błędu – a to decyzja biznesowa, którÄ… warto podjąć Å›wiadomie. Na czym to polega?
Przyjrzyjmy siÄ™ tak zwanym przedziaÅ‚om ufnoÅ›ci jako funkcji wielkoÅ›ci grupy respondentów. Za chwilÄ™ wyjaÅ›niÄ™, czym sÄ… przedziaÅ‚y ufnoÅ›ci. ZakÅ‚adamy (bÄ…dź – mamy takÄ… wiedzÄ™, analizujÄ…c wyniki), że okoÅ‚o 80% zadaÅ„ zostaÅ‚o Å›rednio przez użytkowników ukoÅ„czone z sukcesem.
[table]
wykonanych
zadań liczba
respondentów przedział
ufności 95%
4 5 36-98%
8 10 48-95%
16 20 58-95%
24 30 62-91%
40 50 67-89%
80 100 71-86%
[/table]
Co oznacza powyższe? Możemy stwierdzić z 95% pewnością, iż jeżeli przebadamy na przykład stu respondentów (ostatni wiersz tabeli), a osiemdziesięciu z nich wykonało zadanie z sukcesem, to:
pomiędzy 71, a 86 procent populacji będzie w stanie wykonać to zadanie.
Czyż nie pokochają Was za to klienci?
Popatrzmy, skÄ…d siÄ™ to wzięło, na konkrentym przykÅ‚adzie – także z cytowanej wczeÅ›niej książki. Powiedzmy, że przeprowadziliÅ›my 12 sesji badawczych, w których rejestrowano czas wykonania okreÅ›lonego zadania.
Garść cyferek:
[table]
respondent czas w sek
p1 34 średnia 35,08
p2 33 mediana 33,5
p3 28 odchylenie standardowe 11,24
p4 44 min 21
p5 46 max 53
p6 21 liczba sesji 12
p7 22 ufność 6,36
p8 53
p9 22
p10 29
p11 39
p12 50
[/table]
Wszystkie dane powinny być jasne, poza może jednÄ… – wynikiem użycia funkcji „ufność” (ang. confidence) w Excelu. Funkcja ta przyjmuje trzy wartoÅ›ci – arbitralnie dobrane dopuszczalne prawdopodobieÅ„stwo popeÅ‚nienia błędu (przyjÄ™to, że jest to jedna z trzech wartoÅ›ci: 0.01, 0.03 albo 0,05), wartość odchylenia standardowego (w naszym przypadku 11.24) oraz wielkość próby (powyżej: 12).
Co nam daje wartość wynikowa 6.36? Ano tyle, że możemy na podstawie dwunastoosobowej próby estymować z prawdopodobieństwem 95% (bo 100% minus 0.05), iż w pełnej populacji zadanie będzie wykonywane ze średnim czasem 35.08 sekundy, plus minus 6.36 sekundy. A to już może mieć znaczenie dla projektu aplikacji
PodsumowujÄ…c te dwa krótkie przykÅ‚ady – czasami warto poÅ›wiÄ™cić chwilÄ™ nad Excelem i przeanalizować wartoÅ›ci rejestrowanych wskaźników – jeżeli chcemy wykraczać poza wykrywanie błędów i barier użytecznoÅ›ci. Ale to już kwestia zaplanowania celów testu i Å›wiadomoÅ›ci możliwoÅ›ci…
Źródło:
- Measuring The User Experience, Collecting, Analyzing and Presenting Usability Metrics, Tom Tullis & Bill Albert, Copyright 2008 by Elsevier Inc.
Comments 4
Albo wypiÅ‚em za dużo, albo za maÅ‚o…
1) Piszesz co daje 6.36, ale wartość ta czego jest wynikiem?
2) ufność wyrażamy w sekundach?
3) 100% – 0.05 (czego?) = 95% ?
4) wartoÅ›ci: 0.01, 0.03 i 0.05 kogo / czego? Å»e – w kolejnoÅ›ci – jedna osoba na sto, trzy na sto i pięć na sto nie wykonajÄ… zadania? A skÄ…d takie przypuszczenia?
Posted 17 paź 2008 at 20:01 ¶Chyba jednak za dużo
ad 1) obejrzyj sobie algorytmy na wiki, nie mam siły przekładać tego via wordpress
ad 2) to jest przykÅ‚ad na to, w jaki sposób można wykorzystać estymacjÄ™ przedziaÅ‚owÄ…. Możesz estymować sobie prawdopodobieÅ„stwo wystÄ…pienia dowolnego w sumie parametru w danym przedziale ufnoÅ›ci – parametru, którego wartoÅ›ci rejestrowaÅ‚eÅ› w czasie badaÅ„.
ad 3 i 4) mylisz dwie rzeczy. 0.01, 0.03 i 0.05 to przyjÄ™te „dopuszczalne marginesy dokÅ‚adnoÅ›ci”, stosowane powszechnie w obliczeniu. Jest to tak zwany współczynnik ufnoÅ›ci (oznaczany 1-α), uwzglÄ™dniajÄ…cy maksymalne ryzyko błędu, jakie jesteÅ› skÅ‚onny zaakceptować. ZaÅ› „od czego” – po prostu od jednoÅ›ci, czy – jeżeli wolisz – od 100%.
Posted 19 paź 2008 at 13:35 ¶Wydaje mi siÄ™, że w przypdku tego co napisaÅ‚eÅ›, wszystko zależy od tego jaka jest czuÅ‚ość testu z którego korzystaÅ‚eÅ›.
Próba z 12 osobami badanymi może dać wyniki istotne statystyczne, ale przy tak nielicznej grupie ciężko założyć, że ta grupa jest homogeniczna i podlega pod rozkład normalny. Żeby standardowe testy statystyczne (takie jak test T czy ANOVA podały Ci rzetelne wyniki najlepiej mieć próbę rzędu 30 osób.
Wydaje mi się, że mylisz też poziom istotności Alfa (to jest to .005 o którym napisałeś) i jest to założenie, które się przyjmuje przed podjęciem badań, od rzeczywistego poziomu prawdodpodobieństwa p, które wynika z otrzymanych rezultatów testowania.
Kolejna rzecz o której piszesz, czyli te ok. 6 sekund to jest średnia +- 5% odchylenia od wyniku średniej. 95% wyników będzie zawarte dopiero w przedziale +- 1,96 odchylenia standardowego. Najistotniejsze wyniki są natomiast w przedziale odchylenia standardowego i jest to 68% wyjaśnienia wszystkich wyników, czyli u Ciebie 68% wyników to byłoby 35,08 sekundy +- 11,24 sekundy z jakimś tam prawdopodobieństwem.
Posted 28 sty 2009 at 19:18 ¶Zgadzam siÄ™ co do tego, że z rozkÅ‚adem normalnym może być kÅ‚opot przy tej próbie, natomiast wiem co to Alfa
Posted 29 sty 2009 at 00:46 ¶Post a Comment