Приклад формування репрезентативної вибірки
Уявімо, що ми запланували опитування, репрезентативне для студентів бакалаврської програми певного університету. Як можна було б розрахувати та сформувати вибірку в цьому разі? Спробуймо покроково пройти всі запитання, відповіді на які приведуть нас до сформованої вибірки.
Крок 1. Хто є генеральною сукупністю та що нам уже відомо про цю сукупність?
Наша генеральна сукупність – студенти-бакалаври університету. Нехай ми з'ясували в студентському відділі кадрів, що розподіл за спеціальностями та роками навчання є таким, як наведено в таблиці 4.6.
Приклад формування репрезентативної вибірки
Таблиця 4.6. Уявний приклад: розподіл за факультетами, спеціальностями та роками навчання студентів бакалаврату
Роки навчання |
Разом за |
||||
1 |
2 |
3 |
4 |
спеціальностями |
|
Факультет А |
266 |
285 |
261 |
265 |
1077 |
Спеціальність А1 |
52 |
70 |
55 |
63 |
240 |
Спеціальність А2 |
80 |
72 |
78 |
79 |
309 |
Спеціальність АЗ |
ЗО |
35 |
30 |
21 |
116 |
Спеціальність А4 |
69 |
70 |
53 |
52 |
244 |
Спеціальність А5 |
35 |
38 |
45 |
50 |
168 |
Факультет Б |
192 |
204 |
180 |
182 |
758 |
Спеціальність Б1 |
40 |
44 |
38 |
45 |
167 |
Спеціальність Б2 |
98 |
102 |
85 |
84 |
369 |
Спеціальність БЗ |
54 |
58 |
57 |
53 |
222 |
Факультет В |
148 |
148 |
156 |
152 |
604 |
Спеціальність В1 |
20 |
24 |
25 |
24 |
93 |
Спеціальність В2 |
23 |
зо |
33 |
27 |
113 |
Спеціальність ВЗ |
50 |
50 |
48 |
49 |
197 |
Спеціальність В4 |
55 |
44 |
50 |
52 |
201 |
Разом за роками навчання |
606 |
637 |
597 |
599 |
2439 |
Крок 2. Яким має бути обсяг вибірки? Щоб відповісти на це запитання, потрібно визначитися з низкою інших.
- 2.1. Яку кількість людей реально опитати, зважаючи на обсяг анкети та час, який дослідники можуть приділити цьому проекту?
- 2.2. Яким є обсяг генеральної сукупності? Якщо він невідомий, можемо працювати з формулою для нескінченно великої генеральної сукупності. У цьому прикладі обсяг генеральної сукупності відомий – 2439 (див. таблицю 4.6).
- 2.3. Наші висновки мають стосуватися студентів бакалаврату загалом чи також певних категорій генеральної сукупності? Наприклад, висновки для чоловіків і жінок? Для студентів різних років навчання? Для студентів різних факультетів? Різних спеціальностей?
- 2.4. Яка максимальна похибка та з якою імовірністю є прийнятною для висновків щодо всієї генеральної сукупності, щодо певних її підкатегорій? У цьому разі дизайн-ефект дорівнюватиме одиниці, адже ми не утворюватимемо підвибірок, а отже, теоретична похибка і буде дійсною похибкою.
Нехай ми вирішили, що:
- • максимальний розмір вибірки, зважаючи на наявні ресурси для проведення опитування, – 550, але бажано, щоб вибірка була якомога меншою;
- • прийнятна ймовірність – 0,9545;
- • прийнятна похибка висновків для студентів бакалаврату загалом – до 5%;
- • прийнятна похибка висновків для студентів за факультетами й роками навчання – до 10%.
Якби нас цікавили висновки для студентів бакалаврату загалом, то розмір теоретичної вибірки ми порахували б таким чином:
n = 1 / (Δ2 + 1/Ν) = 1 / (0,052 + 1/2439) = 344
(значення округлене до цілого числа).
На цьому розрахунок можна було б завершити, якби не та обставина, що нас цікавлять висновки, репрезентативні не лише для студентів бакалаврату загалом, а й для студентів певних факультетів і певних років навчання. Чи забезпечить вибірка обсягом 344 особи похибку для висновків за роками навчання й факультетами до 10%? Щоб перевірити це, здійснімо розрахунки похибки для кожного року навчання та кожного факультету, виходячи з того, що загальна кількість респондентів – 344. Результати відповідних розрахунків представлені в таблиці 4.7.
Таблиця 4.7. Уявний приклад: похибки вибірок, репрезентативних для студенів кожного з факультетів і років навчання
Роки навчання |
Разом за факультетами |
Частка в генеральній сукупності |
Кількість у вибірці |
Похибка за ймовірності 0,9545 |
Похибка за ймовірності 0,950 |
||||
1 |
2 |
3 |
4 |
||||||
Факультет А |
266 |
285 |
261 |
265 |
1077 |
0,44 |
152 |
0,075 |
0,074 |
Факультет Б |
192 |
204 |
180 |
182 |
758 |
0,31 |
107 |
0,090 |
0,088 |
Факультет В |
148 |
148 |
156 |
152 |
604 |
0,25 |
85 |
0,100 |
0,098 |
Разом за роками навчання |
606 |
637 |
597 |
599 |
2439 |
1,00 |
344 |
0,050 |
0,049 |
Частка в генеральній суєтності |
0,25 |
0,26 |
0,24 |
0,25 |
1,00 |
Пониження ймовірності з 0,9545 до 0,950 дає нам змогу декларувати результати для факультетів і років навчання в межах похибки 10,0. Альтернативно ми могли б залишити незмінною ймовірність та збільшити розмір вибірки, щоб залишитися в межах цієї похибки. |
|||
Кількість у вибірці |
85 |
90 |
84 |
84 |
344 |
||||
Похибка за ймовірності 0,9545 |
0,100 |
0,098 |
0,101 |
0,101 |
0,050 |
||||
Похибка за ймовірності 0,950 |
0,098 |
0,096 |
0,099 |
0,099 |
0,049 |
У таблиці 4.7 можемо побачити, що незначне перевищення запланованої похибки для ймовірності 0,9545 виникає для двох категорій: студентів третього й четвертого років навчання (виділені в таблиці). Насправді незначне перевищення є також для факультету В, але воно непомітне після округлення до сотих (точніший результат – 0,10041).
У цьому конкретному прикладі перевищення похибки настільки невелике, що маємо вибір між трьома можливими рішеннями:
- 1) писати "похибка не перевищує 10,1% з імовірністю 0,9545" замість "10,0%";
- 2) збільшити вибірку, щоб залишитися в межах похибки 10,0%;
- 3) залишити той самий розмір вибірки, але трохи понизити ймовірність (наприклад, до 0,950), щоб зберегти формулювання "похибка не перевищує 10,0%".
Найімовірніше, саме третій варіант і був би обраний на практиці. Адже, з одного боку, це позбавляє нас необхідності здійснювати розрахунки нового розміру вибірки. А з іншого – багатьом людям цілі числа подобаються більше, ніж з десятими.
Отже, зупинимося на ймовірності 0,95 рівно та вибірці 344 студенти. Однак навіть за такого рішення нам варто запланувати опитати дещо більшу кількість людей, ніж розрахована вибірка. Певний запас потрібен на той випадок, якщо деякі анкети доведеться забракувати. Які саме анкети ΰ чому можуть бути виключені з аналізу? Є дві можливі причини, з яких анкету може бути доцільно виключити з аналізу.
- • Респондент відмовився відповісти на значну[1] кількість запитань анкети.
- • Відповіді респондента суперечать одна одній.
Останнє означає, що або респондент не зосередився достатньою мірою на опитуванні, або інтерв'юер спрацював неякісно (чи навіть сфальшував анкету, бо полінувався реально опитати). Відповідно те, який саме запас давати, залежить від наших очікувань щодо інтерв'юерів та респондентів. Нехай ми очікуємо, що 370 є значенням із достатнім запасом: якщо опитаємо 370, то матимемо щонайменше 344 анкети для аналізу, а отже, залишимося в межах запланованих похибок.
Таким чином, ми визначили кількість респондентів у нашій вибірці (їх 370). Тепер нам потрібно визначити методику відбору цих 370 осіб: як саме відбиратимемо студентів для опитування?”[2]
Крок 3. Чи є повний список одиниць генеральної сукупності? Яку саме інформацію він містить? Від відповіді на це питання залежить:
- • які методики відбору респондентів нам доступні, які ні;
- • які методи опитування нам доступні (телефоном, електронною поштою, при зустрічі).
Якщо такий список нам не можуть надати, доведеться планувати відбір респондентів у форматі екзит-полу: опитувати студентів кожної спеціальності на виході з обов'язкового для відвідування заняття. При цьому, щоб забезпечити репрезентативність, необхідно буде чітко дотримуватися певного кроку відбору респондентів: наприклад, запрошувати до інтерв'ю кожного 5-го чи кожного 8-го, хто виходить з аудиторії. Відповідно формат екзит- полів є складнішим і значно більш стресовим для організаторів опитування й інтерв'юерів. Натомість, маючи списки студентів, ми можемо в спокійній обстановці відібрати випадковим чином потрібну кількість респондентів на кожній спеціальності та на кожному році навчання й дати можливість інтерв'юерам у спокійному режимі домовлятися про інтерв'ю з конкретно визначеними людьми.
Якщо студентський відділ кадрів готовий надати для дослідження перелік усіх студентів із зазначенням їхньої спеціальності, року навчання, номера телефону й поштової адреси (або електронної), то ми могли б обрати, яке саме опитування доречніше: телефонне, поштове чи при зустрічі. Якщо список студентів можуть надати, але без контактної інформації, тоді єдиний варіант – проводити опитування при зустрічі.
Якщо в нас є список усіх студентів, можна піти найпростішим шляхом: відібрати за цим списком випадковим чином необхідну кількість респондентів. Наприклад, розташувати всі прізвища за абеткою та відібрати кожного двадцятого, дванадцятого або десятого в списку залежно від розміру вибірки (у разі нашої вибірки це був би кожен шостий або сьомий, що буде пояснено нижче). А потім розшукати відповідних студентів на парах і домовитися про участь в опитуванні.
Такий метод є простим, зручним і коректним, але не оптимальним для максимально точного результату. За такої методики відбору респондентів збільшиться похибка результатів за факультетами й роками навчання: кількість опитаних студентів певного року навчання або факультету може відрізнятися від генеральної сукупності до 5% подібно до інших характеристик респондентів (стать, вік абощо). Відповідно для максимальної точності бажано, щоб пропорції факультетів, спеціальностей і років навчання у вибірці точно відповідали пропорціям у генеральній сукупності. Інакше доведеться перераховувати похибки, зважаючи на те, скільки саме осіб певного факультету або року навчання насправді потрапили до вибірки.
Щоб зберегти пропорцію, потрібно спершу трансформувати дані з таблиці 4.6 у частки генеральної сукупності, а потім помножити ці частки на 370 – визначену нами кількість респондентів. Результати відповідних розрахунків представлені в таблицях 4.8 та 4.9.
Таблиця 4.8. Уявний приклад: розподіл часток за факультетами, спеціальностями та роками навчання студентів бакалаврату (округлення до сотих)
Роки навчання |
Разом за факультетами та спеціальностями |
||||
1 |
2 |
3 |
4 |
||
Факультет А |
0,11 |
0,12 |
0,11 |
0,11 |
0,44 |
Спеціальність А1 |
0,02 |
0,03 |
0,02 |
0,03 |
0,10 |
Спеціальність А2 |
0,03 |
0,03 |
0,03 |
0,03 |
0,13 |
Спеціальність А3 |
0,01 |
0,01 |
0,01 |
0,01 |
0,05 |
Спеціальність А4 |
0,03 |
0,03 |
0,02 |
0,02 |
0,10 |
Спеціальність А5 |
0,01 |
0,02 |
0,02 |
0,02 |
0,07 |
Факультет Б |
0,08 |
0,08 |
0,07 |
0,07 |
0,31 |
Спеціальність Б1 |
0,02 |
0,02 |
0,02 |
0,02 |
0,07 |
Спеціальність Б2 |
0,04 |
0,04 |
0,03 |
0,03 |
0,15 |
Спеціальність Б3 |
0,02 |
0,02 |
0,02 |
0,02 |
0,09 |
Факультет В |
0,06 |
0,06 |
0,06 |
0,06 |
0,25 |
Спеціальність В1 |
0,01 |
0,01 |
0,01 |
0,01 |
0,04 |
Спеціальність В2 |
0,01 |
0,01 |
0,01 |
0,01 |
0,05 |
Спеціальність В3 |
0,02 |
0,02 |
0,02 |
0,02 |
0,08 |
Спеціальність В4 |
0,02 |
0,02 |
0,02 |
0,02 |
0,08 |
Разом за роками навчання |
0,25 |
0,26 |
0,24 |
0,25 |
1,00 |
- • Уважні читачі можуть помітити, що чимало сумарних значень у цій таблиці дещо відрізняються від очікуваних. Наприклад, чому для спеціальності А2 сумарне значення 0,13, а не 0,12, хоча 0,03 + 0,03 + 0,03 + 0,03 = 0,12? Так відбувається через те, що всі суми пораховані на основі точних значень, а не округлених. Наприклад, для спеціальності А2 точні значення такі:
- 0,032800328 + 0,029520295 + 0,03198032 + 0,032390324 = 0,126691267. Відповідно, якщо округлюємо до сотих згідно з математичними правилами, сума дорівнює 0,13, а не 0,12. Це типова ситуація для таблиць з округленими числовими даними, причому оманлива розбіжність може бути як у менший, так і більший бік від "очікуваного" значення.
Таблиця 4.9. Уявний приклад: розподіл вибірки за факультетами, спеціальностями та роками навчання студентів бакалаврату (округлення до сотих) для вибірки 370 осіб
Роки навчання |
Разом за факультетами та спеціальностями |
||||
1 |
2 |
3 |
4 |
||
Факультет А |
40,35 |
43,23 |
39,59 |
40,20 |
163,38 |
Спеціальність А1 |
7,89 |
10,62 |
8,34 |
9,56 |
36,41 |
Спеціальність А2 |
12,14 |
10,92 |
11,83 |
11,98 |
46,88 |
Спеціальність А3 |
4,55 |
5,31 |
4,55 |
3,19 |
17,60 |
Спеціальність А4 |
10,47 |
10,62 |
8,04 |
7,89 |
37,02 |
Спеціальність А5 |
5,31 |
5,76 |
6,83 |
7,59 |
25,49 |
Факультет Б |
29,13 |
30,95 |
27,31 |
27,61 |
114,99 |
Спеціальність Б1 |
6,07 |
6,67 |
5,76 |
6,83 |
25,33 |
Спеціальність Б2 |
14,87 |
15,47 |
12,89 |
12,74 |
55,98 |
Спеціальність Б3 |
8,19 |
8,80 |
8,65 |
8,04 |
33,68 |
Факультет В |
22,45 |
22,45 |
23,67 |
23,06 |
91,63 |
Спеціальність В1 |
3,03 |
3,64 |
3,79 |
3,64 |
14,11 |
Спеціальність В2 |
3,49 |
4,55 |
5,01 |
4,10 |
17,14 |
Спеціальність В3 |
7,59 |
7,59 |
7,28 |
7,43 |
29,89 |
Спеціальність В4 |
8,34 |
6,67 |
7,59 |
7,89 |
30,49 |
Разом за роками навчання |
91,93 |
96,63 |
90,57 |
90,87 |
370,00 |
* Через те що в таблиці представлені округлені числа, а в підрахунках використані точні, сумарні значення за факультетами, спеціальностями та роками навчання можуть відрізнятися від "очікуваних". Дивіться пояснення щодо цього в примітці до таблиці 4.8.
Дані таблиці 4.9 потрібно округлити до цілих чисел, адже неможливо опитати, скажімо, 7,89 респондента. Таке округлення роблять згідно з математичними правилами, але в процесі округлення є невеличка пастка. Уявіть додавання таких значень (для спрощення прикладу візьмемо округлення до десятих):
4,5 + 3,7 + 2,5 + 7,5 = 18,2.
Отже, 18 респондентів. А тепер уявіть, що спершу ви округлили ці чотири значення до цілих чисел згідно з математичними правилами округлення:
5 + 4 + 3 + 8 = 20.
Як бачимо, кількість респондентів збільшилася з 18 до 20 через округлення. Тому важливо не округлювати підсумкові числа таблиці, а натомість спершу округлити значення для кожної спеціальності кожного року навчання, а всі суми рахувати на основі округлених значень. Саме такі результати наведені в таблиці 4.10. Як бачимо, у нашому випадку остаточний розмір вибірки збільшився на 4 одиниці через ефект від округлення. Більша кількість респондентів лише зменшує похибку, тож є для нас прийнятною.
Таблиця 4.10. Уявний приклад: розподіл вибірки за факультетами, спеціальностями та роками навчання студентів бакалаврату (округлення до цілих чисел) для вибірки 370 осіб
Роки навчання |
Разом за факультетами та спеціальностями |
||||||
1 |
2 |
3 |
4 |
||||
Факультет А |
40 |
44 |
40 |
41 |
165 |
||
Спеціальність А1 |
8 |
11 |
8 |
10 |
37 |
||
Спеціальність А2 |
12 |
11 |
12 |
12 |
47 |
||
Спеціальність А3 |
5 |
5 |
5 |
3 |
18 |
||
Спеціальність А4 |
10 |
11 |
8 |
8 |
37 |
||
Спеціальність А5 |
5 |
6 |
7 |
8 |
26 |
||
Факультет Б |
29 |
31 |
28 |
28 |
116 |
||
Спеціальність Б1 |
6 |
7 |
6 |
7 |
26 |
||
Спеціальність Б2 |
15 |
15 |
13 |
13 |
56 |
||
Спеціальність Б3 |
8 |
9 |
9 |
8 |
34 |
||
Факультет В |
22 |
24 |
24 |
23 |
93 |
||
Спеціальність В1 |
3 |
4 |
4 |
4 |
15 |
||
Спеціальність В2 |
3 |
5 |
5 |
4 |
17 |
||
Спеціальність В3 |
8 |
8 |
7 |
7 |
30 |
||
Спеціальність В4 |
8 |
7 |
8 |
8 |
31 |
||
Разом за роками навчання |
91 |
99 |
92 |
92 |
374 |
||
Крок 4. Ми вже знаємо, скільки яких респондентів відібрати. Але як саме їх відібрати?
Отже, ми щойно визначили, скільки саме студентів опитаємо на кожному році навчання з кожної спеціальності. Нехай перед нами списки студентів за спеціальностями та роками навчання. Дивимося на спеціальність А1 першого року навчання. Як саме вибрати з-поміж них 8 студентів відповідно до нашої таблиці вибірки? Якщо щоразу вибиратимемо перших студентів у списку за абеткою, то у вибірці переважатимуть люди з прізвищами на перші літери абетки. Це створює ризик штучного викривлення вибірки: наприклад, деякі етнічні групи можуть мати прізвища, що починаються з певної літери, частіше, ніж інші.
Альтернативний варіант – здійснити вибір за спеціальними таблицями випадкових чисел вручну – це коректно, але надто довго. Тож, якщо в нас немає програмного забезпечення, за допомогою якого можна здійснити відбір за таблицями випадкових чисел, треба придумати методику максимально рівномірного відбору, що не утворюватиме зміщень за літерами абетки. Це можна зробити таким чином.
Приклад формування репрезентативної вибірки
Насамперед поділимо обсяг генеральної сукупності на обсяг вибіркової:
N / n = 2439 / 374 = 6,52 (округлення до сотих).
Отже, у середньому нам потрібно опитувати кожного шостого або кожного сьомого – обираємо одну з цих двох опцій і постійно дотримуємося саме такого відліку. При цьому варто змінювати номер, із якого починаємо відлік. Якщо ми цього не зробимо, то утворимо зміщення на користь людей із прізвищем на перші літери абетки, адже перша літера списку завжди гарантовано потраплятиме до вибірки, на відміну від останніх.
У нашому прикладі 12 спеціальностей і 4 роки навчання. Отже, 48 списків (12 * 4) загалом. Ми можемо дати їм довільну нумерацію від 1 до 48, і саме таке число нехай буде першим у відліку. Якщо число більше, ніж кількість людей у списку, продовжимо рахувати з початку списку. Наприклад, нехай випав номер 39, а на спеціальності цього року навчання 20 студентів. У такому разі ми оберемо людину під номером 19.
Якщо не вдається переконати обрану людину взяти участь в опитуванні або сконтактувати з нею (не відвідує пари в період опитування, не маємо її номера телефону), то запрошуємо наступну зі списку, при цьому не просто наступну, а тієї самої статі, як і початково відібраний респондент, із яким не вдалося поспілкуватися (у такий спосіб мінімізуємо зміщення за статтю на тих спеціальностях, де значно переважають чоловіки або жінки).
Якщо ми залучаємо респондентів до дослідження на парах, важливо висловити два застереження. По-перше, це треба робити лише на тих заняттях, які є обов'язковими для відвідування, інакше утворимо зміщення в бік студентів, які відвідують факультативні заняття. По-друге, якщо наше опитування проходить у такому університеті, де викладачі поблажливо ставляться до пропусків студентами обов'язкових занять, то в опитуванні утвориться зміщення в бік сумлінних студентів – тих, хто частіше відвідують пари, ніж інші.
Тепер у нас повністю сформована вибірка: ми розрахували, скільки й кого опитуватимемо, ΰ визначили методику відбору респондентів. Власне, наша вибірка матиме такий фінальний вигляд: у списках студентів буде помічено, кого саме мають опитати інтерв'юери. Також інтерв'юерам буде надано відповідні докладні інструкції:
- • де шукати респондентів;
- • як звертатися з проханням про участь в опитуванні;
- • скільки разів треба спробувати застати відібраного респондента, перш ніж можна замінити його або її на іншу людину;
- • у якій формі реєструвати цю заміну[3].
Аналогічно вибірка, репрезентативна для мешканців певного населеного пункту, е не просто числом, а переліком адрес і докладною інструкцією, кого саме та як саме запросити до участі за цією адресою і що робити, якщо запрошена людина відмовилася від участі в опитуванні.
Інколи вибірка не містить переліку ані респондентів, ані адрес. Натомість є інструкцією, де та як опитувати респондентів. Наприклад, це характерно для вибірок у стилі екзит-полу (опитування людей на виході з певної установи) та опитувань учасників вуличних протестів.
- [1] Скільки саме відмов достатньо для дискваліфікації анкети, залежить від її специфіки та дослідницьких цілей. Нехай в анкеті 10 запитань: 7 – це соціально-демографічні характеристики, а 3 – ті, для з'ясування поглядів щодо яких ми проводимо опитування. Нехай респондент відповів на 5 запитань – усі із соціально-демографічного блоку. У такому разі навряд чи є сенс залишати таку анкету в масиві даних. Натомість якщо респондент не відповів на 3 запитання соціально-демографічного блоку й відповів на всі інші, то така анкета принаймні частково була б корисною для аналізу даних.
- [2] З матеріалу на с. 120-121 ми вже розуміємо, що просто стати в коридорі університету й опитувати першого-ліпшого не забезпечить репрезентативності, подібно до того як стати на певній вулиці й опитати перехожих не забезпечить репрезентативності для мешканців населеного пункту.
- [3] Вести облік замін респондентів важливо для того, щоб розуміти, чи не відмовляються від нашого опитування саме респонденти з певними ознаками. Наприклад, певної статі, етнічності абощо. Якщо це стається, то потрібно обміркувати, у чому причини, та, якщо можливо, виправити ситуацію.