< Попер   ЗМІСТ   Наст >

Приклад формування репрезентативної вибірки

Уявімо, що ми запланували опитування, репрезентативне для студентів бакалаврської програми певного університету. Як можна було б розрахувати та сформувати вибірку в цьому разі? Спробуймо покроково пройти всі запитання, відповіді на які приведуть нас до сформованої вибірки.

Крок 1. Хто є генеральною сукупністю та що нам уже відомо про цю сукупність?

Наша генеральна сукупність – студенти-бакалаври університету. Нехай ми з'ясували в студентському відділі кадрів, що розподіл за спеціальностями та роками навчання є таким, як наведено в таблиці 4.6.

Приклад формування репрезентативної вибірки

Таблиця 4.6. Уявний приклад: розподіл за факультетами, спеціальностями та роками навчання студентів бакалаврату

Роки навчання

Разом за

1

2

3

4

спеціальностями

Факультет А

266

285

261

265

1077

Спеціальність А1

52

70

55

63

240

Спеціальність А2

80

72

78

79

309

Спеціальність АЗ

ЗО

35

30

21

116

Спеціальність А4

69

70

53

52

244

Спеціальність А5

35

38

45

50

168

Факультет Б

192

204

180

182

758

Спеціальність Б1

40

44

38

45

167

Спеціальність Б2

98

102

85

84

369

Спеціальність БЗ

54

58

57

53

222

Факультет В

148

148

156

152

604

Спеціальність В1

20

24

25

24

93

Спеціальність В2

23

зо

33

27

113

Спеціальність ВЗ

50

50

48

49

197

Спеціальність В4

55

44

50

52

201

Разом за роками навчання

606

637

597

599

2439

Крок 2. Яким має бути обсяг вибірки? Щоб відповісти на це запитання, потрібно визначитися з низкою інших.

  • 2.1. Яку кількість людей реально опитати, зважаючи на обсяг анкети та час, який дослідники можуть приділити цьому проекту?
  • 2.2. Яким є обсяг генеральної сукупності? Якщо він невідомий, можемо працювати з формулою для нескінченно великої генеральної сукупності. У цьому прикладі обсяг генеральної сукупності відомий – 2439 (див. таблицю 4.6).
  • 2.3. Наші висновки мають стосуватися студентів бакалаврату загалом чи також певних категорій генеральної сукупності? Наприклад, висновки для чоловіків і жінок? Для студентів різних років навчання? Для студентів різних факультетів? Різних спеціальностей?
  • 2.4. Яка максимальна похибка та з якою імовірністю є прийнятною для висновків щодо всієї генеральної сукупності, щодо певних її підкатегорій? У цьому разі дизайн-ефект дорівнюватиме одиниці, адже ми не утворюватимемо підвибірок, а отже, теоретична похибка і буде дійсною похибкою.

Нехай ми вирішили, що:

  • • максимальний розмір вибірки, зважаючи на наявні ресурси для проведення опитування, – 550, але бажано, щоб вибірка була якомога меншою;
  • • прийнятна ймовірність – 0,9545;
  • • прийнятна похибка висновків для студентів бакалаврату загалом – до 5%;
  • • прийнятна похибка висновків для студентів за факультетами й роками навчання – до 10%.

Якби нас цікавили висновки для студентів бакалаврату загалом, то розмір теоретичної вибірки ми порахували б таким чином:

n = 1 / (Δ2 + 1/Ν) = 1 / (0,052 + 1/2439) = 344

(значення округлене до цілого числа).

На цьому розрахунок можна було б завершити, якби не та обставина, що нас цікавлять висновки, репрезентативні не лише для студентів бакалаврату загалом, а й для студентів певних факультетів і певних років навчання. Чи забезпечить вибірка обсягом 344 особи похибку для висновків за роками навчання й факультетами до 10%? Щоб перевірити це, здійснімо розрахунки похибки для кожного року навчання та кожного факультету, виходячи з того, що загальна кількість респондентів – 344. Результати відповідних розрахунків представлені в таблиці 4.7.

Таблиця 4.7. Уявний приклад: похибки вибірок, репрезентативних для студенів кожного з факультетів і років навчання

Роки навчання

Разом за факультетами

Частка в генеральній сукупності

Кількість у вибірці

Похибка за ймовірності 0,9545

Похибка за ймовірності 0,950

1

2

3

4

Факультет А

266

285

261

265

1077

0,44

152

0,075

0,074

Факультет Б

192

204

180

182

758

0,31

107

0,090

0,088

Факультет В

148

148

156

152

604

0,25

85

0,100

0,098

Разом за роками навчання

606

637

597

599

2439

1,00

344

0,050

0,049

Частка в генеральній суєтності

0,25

0,26

0,24

0,25

1,00

Пониження ймовірності з 0,9545 до 0,950 дає нам змогу декларувати результати для факультетів і років навчання в межах похибки 10,0. Альтернативно ми могли б залишити незмінною ймовірність та збільшити розмір вибірки, щоб залишитися в межах цієї похибки.

Кількість у вибірці

85

90

84

84

344

Похибка за ймовірності 0,9545

0,100

0,098

0,101

0,101

0,050

Похибка за ймовірності 0,950

0,098

0,096

0,099

0,099

0,049

У таблиці 4.7 можемо побачити, що незначне перевищення запланованої похибки для ймовірності 0,9545 виникає для двох категорій: студентів третього й четвертого років навчання (виділені в таблиці). Насправді незначне перевищення є також для факультету В, але воно непомітне після округлення до сотих (точніший результат – 0,10041).

У цьому конкретному прикладі перевищення похибки настільки невелике, що маємо вибір між трьома можливими рішеннями:

  • 1) писати "похибка не перевищує 10,1% з імовірністю 0,9545" замість "10,0%";
  • 2) збільшити вибірку, щоб залишитися в межах похибки 10,0%;
  • 3) залишити той самий розмір вибірки, але трохи понизити ймовірність (наприклад, до 0,950), щоб зберегти формулювання "похибка не перевищує 10,0%".

Найімовірніше, саме третій варіант і був би обраний на практиці. Адже, з одного боку, це позбавляє нас необхідності здійснювати розрахунки нового розміру вибірки. А з іншого – багатьом людям цілі числа подобаються більше, ніж з десятими.

Отже, зупинимося на ймовірності 0,95 рівно та вибірці 344 студенти. Однак навіть за такого рішення нам варто запланувати опитати дещо більшу кількість людей, ніж розрахована вибірка. Певний запас потрібен на той випадок, якщо деякі анкети доведеться забракувати. Які саме анкети ΰ чому можуть бути виключені з аналізу? Є дві можливі причини, з яких анкету може бути доцільно виключити з аналізу.

  • • Респондент відмовився відповісти на значну[1] кількість запитань анкети.
  • • Відповіді респондента суперечать одна одній.

Останнє означає, що або респондент не зосередився достатньою мірою на опитуванні, або інтерв'юер спрацював неякісно (чи навіть сфальшував анкету, бо полінувався реально опитати). Відповідно те, який саме запас давати, залежить від наших очікувань щодо інтерв'юерів та респондентів. Нехай ми очікуємо, що 370 є значенням із достатнім запасом: якщо опитаємо 370, то матимемо щонайменше 344 анкети для аналізу, а отже, залишимося в межах запланованих похибок.

Таким чином, ми визначили кількість респондентів у нашій вибірці (їх 370). Тепер нам потрібно визначити методику відбору цих 370 осіб: як саме відбиратимемо студентів для опитування?”[2]

Крок 3. Чи є повний список одиниць генеральної сукупності? Яку саме інформацію він містить? Від відповіді на це питання залежить:

  • • які методики відбору респондентів нам доступні, які ні;
  • • які методи опитування нам доступні (телефоном, електронною поштою, при зустрічі).

Якщо такий список нам не можуть надати, доведеться планувати відбір респондентів у форматі екзит-полу: опитувати студентів кожної спеціальності на виході з обов'язкового для відвідування заняття. При цьому, щоб забезпечити репрезентативність, необхідно буде чітко дотримуватися певного кроку відбору респондентів: наприклад, запрошувати до інтерв'ю кожного 5-го чи кожного 8-го, хто виходить з аудиторії. Відповідно формат екзит- полів є складнішим і значно більш стресовим для організаторів опитування й інтерв'юерів. Натомість, маючи списки студентів, ми можемо в спокійній обстановці відібрати випадковим чином потрібну кількість респондентів на кожній спеціальності та на кожному році навчання й дати можливість інтерв'юерам у спокійному режимі домовлятися про інтерв'ю з конкретно визначеними людьми.

Якщо студентський відділ кадрів готовий надати для дослідження перелік усіх студентів із зазначенням їхньої спеціальності, року навчання, номера телефону й поштової адреси (або електронної), то ми могли б обрати, яке саме опитування доречніше: телефонне, поштове чи при зустрічі. Якщо список студентів можуть надати, але без контактної інформації, тоді єдиний варіант – проводити опитування при зустрічі.

Якщо в нас є список усіх студентів, можна піти найпростішим шляхом: відібрати за цим списком випадковим чином необхідну кількість респондентів. Наприклад, розташувати всі прізвища за абеткою та відібрати кожного двадцятого, дванадцятого або десятого в списку залежно від розміру вибірки (у разі нашої вибірки це був би кожен шостий або сьомий, що буде пояснено нижче). А потім розшукати відповідних студентів на парах і домовитися про участь в опитуванні.

Такий метод є простим, зручним і коректним, але не оптимальним для максимально точного результату. За такої методики відбору респондентів збільшиться похибка результатів за факультетами й роками навчання: кількість опитаних студентів певного року навчання або факультету може відрізнятися від генеральної сукупності до 5% подібно до інших характеристик респондентів (стать, вік абощо). Відповідно для максимальної точності бажано, щоб пропорції факультетів, спеціальностей і років навчання у вибірці точно відповідали пропорціям у генеральній сукупності. Інакше доведеться перераховувати похибки, зважаючи на те, скільки саме осіб певного факультету або року навчання насправді потрапили до вибірки.

Щоб зберегти пропорцію, потрібно спершу трансформувати дані з таблиці 4.6 у частки генеральної сукупності, а потім помножити ці частки на 370 – визначену нами кількість респондентів. Результати відповідних розрахунків представлені в таблицях 4.8 та 4.9.

Таблиця 4.8. Уявний приклад: розподіл часток за факультетами, спеціальностями та роками навчання студентів бакалаврату (округлення до сотих)

Роки навчання

Разом за факультетами та спеціальностями

1

2

3

4

Факультет А

0,11

0,12

0,11

0,11

0,44

Спеціальність А1

0,02

0,03

0,02

0,03

0,10

Спеціальність А2

0,03

0,03

0,03

0,03

0,13

Спеціальність А3

0,01

0,01

0,01

0,01

0,05

Спеціальність А4

0,03

0,03

0,02

0,02

0,10

Спеціальність А5

0,01

0,02

0,02

0,02

0,07

Факультет Б

0,08

0,08

0,07

0,07

0,31

Спеціальність Б1

0,02

0,02

0,02

0,02

0,07

Спеціальність Б2

0,04

0,04

0,03

0,03

0,15

Спеціальність Б3

0,02

0,02

0,02

0,02

0,09

Факультет В

0,06

0,06

0,06

0,06

0,25

Спеціальність В1

0,01

0,01

0,01

0,01

0,04

Спеціальність В2

0,01

0,01

0,01

0,01

0,05

Спеціальність В3

0,02

0,02

0,02

0,02

0,08

Спеціальність В4

0,02

0,02

0,02

0,02

0,08

Разом за роками навчання

0,25

0,26

0,24

0,25

1,00

  • • Уважні читачі можуть помітити, що чимало сумарних значень у цій таблиці дещо відрізняються від очікуваних. Наприклад, чому для спеціальності А2 сумарне значення 0,13, а не 0,12, хоча 0,03 + 0,03 + 0,03 + 0,03 = 0,12? Так відбувається через те, що всі суми пораховані на основі точних значень, а не округлених. Наприклад, для спеціальності А2 точні значення такі:
    • 0,032800328 + 0,029520295 + 0,03198032 + 0,032390324 = 0,126691267. Відповідно, якщо округлюємо до сотих згідно з математичними правилами, сума дорівнює 0,13, а не 0,12. Це типова ситуація для таблиць з округленими числовими даними, причому оманлива розбіжність може бути як у менший, так і більший бік від "очікуваного" значення.

Таблиця 4.9. Уявний приклад: розподіл вибірки за факультетами, спеціальностями та роками навчання студентів бакалаврату (округлення до сотих) для вибірки 370 осіб

Роки навчання

Разом за факультетами та спеціальностями

1

2

3

4

Факультет А

40,35

43,23

39,59

40,20

163,38

Спеціальність А1

7,89

10,62

8,34

9,56

36,41

Спеціальність А2

12,14

10,92

11,83

11,98

46,88

Спеціальність А3

4,55

5,31

4,55

3,19

17,60

Спеціальність А4

10,47

10,62

8,04

7,89

37,02

Спеціальність А5

5,31

5,76

6,83

7,59

25,49

Факультет Б

29,13

30,95

27,31

27,61

114,99

Спеціальність Б1

6,07

6,67

5,76

6,83

25,33

Спеціальність Б2

14,87

15,47

12,89

12,74

55,98

Спеціальність Б3

8,19

8,80

8,65

8,04

33,68

Факультет В

22,45

22,45

23,67

23,06

91,63

Спеціальність В1

3,03

3,64

3,79

3,64

14,11

Спеціальність В2

3,49

4,55

5,01

4,10

17,14

Спеціальність В3

7,59

7,59

7,28

7,43

29,89

Спеціальність В4

8,34

6,67

7,59

7,89

30,49

Разом за роками навчання

91,93

96,63

90,57

90,87

370,00

* Через те що в таблиці представлені округлені числа, а в підрахунках використані точні, сумарні значення за факультетами, спеціальностями та роками навчання можуть відрізнятися від "очікуваних". Дивіться пояснення щодо цього в примітці до таблиці 4.8.

Дані таблиці 4.9 потрібно округлити до цілих чисел, адже неможливо опитати, скажімо, 7,89 респондента. Таке округлення роблять згідно з математичними правилами, але в процесі округлення є невеличка пастка. Уявіть додавання таких значень (для спрощення прикладу візьмемо округлення до десятих):

4,5 + 3,7 + 2,5 + 7,5 = 18,2.

Отже, 18 респондентів. А тепер уявіть, що спершу ви округлили ці чотири значення до цілих чисел згідно з математичними правилами округлення:

5 + 4 + 3 + 8 = 20.

Як бачимо, кількість респондентів збільшилася з 18 до 20 через округлення. Тому важливо не округлювати підсумкові числа таблиці, а натомість спершу округлити значення для кожної спеціальності кожного року навчання, а всі суми рахувати на основі округлених значень. Саме такі результати наведені в таблиці 4.10. Як бачимо, у нашому випадку остаточний розмір вибірки збільшився на 4 одиниці через ефект від округлення. Більша кількість респондентів лише зменшує похибку, тож є для нас прийнятною.

Таблиця 4.10. Уявний приклад: розподіл вибірки за факультетами, спеціальностями та роками навчання студентів бакалаврату (округлення до цілих чисел) для вибірки 370 осіб

Роки навчання

Разом за

факультетами та спеціальностями

1

2

3

4

Факультет А

40

44

40

41

165

Спеціальність А1

8

11

8

10

37

Спеціальність А2

12

11

12

12

47

Спеціальність А3

5

5

5

3

18

Спеціальність А4

10

11

8

8

37

Спеціальність А5

5

6

7

8

26

Факультет Б

29

31

28

28

116

Спеціальність Б1

6

7

6

7

26

Спеціальність Б2

15

15

13

13

56

Спеціальність Б3

8

9

9

8

34

Факультет В

22

24

24

23

93

Спеціальність В1

3

4

4

4

15

Спеціальність В2

3

5

5

4

17

Спеціальність В3

8

8

7

7

30

Спеціальність В4

8

7

8

8

31

Разом за роками навчання

91

99

92

92

374

Крок 4. Ми вже знаємо, скільки яких респондентів відібрати. Але як саме їх відібрати?

Отже, ми щойно визначили, скільки саме студентів опитаємо на кожному році навчання з кожної спеціальності. Нехай перед нами списки студентів за спеціальностями та роками навчання. Дивимося на спеціальність А1 першого року навчання. Як саме вибрати з-поміж них 8 студентів відповідно до нашої таблиці вибірки? Якщо щоразу вибиратимемо перших студентів у списку за абеткою, то у вибірці переважатимуть люди з прізвищами на перші літери абетки. Це створює ризик штучного викривлення вибірки: наприклад, деякі етнічні групи можуть мати прізвища, що починаються з певної літери, частіше, ніж інші.

Альтернативний варіант – здійснити вибір за спеціальними таблицями випадкових чисел вручну – це коректно, але надто довго. Тож, якщо в нас немає програмного забезпечення, за допомогою якого можна здійснити відбір за таблицями випадкових чисел, треба придумати методику максимально рівномірного відбору, що не утворюватиме зміщень за літерами абетки. Це можна зробити таким чином.

Приклад формування репрезентативної вибірки

Насамперед поділимо обсяг генеральної сукупності на обсяг вибіркової:

N / n = 2439 / 374 = 6,52 (округлення до сотих).

Отже, у середньому нам потрібно опитувати кожного шостого або кожного сьомого – обираємо одну з цих двох опцій і постійно дотримуємося саме такого відліку. При цьому варто змінювати номер, із якого починаємо відлік. Якщо ми цього не зробимо, то утворимо зміщення на користь людей із прізвищем на перші літери абетки, адже перша літера списку завжди гарантовано потраплятиме до вибірки, на відміну від останніх.

У нашому прикладі 12 спеціальностей і 4 роки навчання. Отже, 48 списків (12 * 4) загалом. Ми можемо дати їм довільну нумерацію від 1 до 48, і саме таке число нехай буде першим у відліку. Якщо число більше, ніж кількість людей у списку, продовжимо рахувати з початку списку. Наприклад, нехай випав номер 39, а на спеціальності цього року навчання 20 студентів. У такому разі ми оберемо людину під номером 19.

Якщо не вдається переконати обрану людину взяти участь в опитуванні або сконтактувати з нею (не відвідує пари в період опитування, не маємо її номера телефону), то запрошуємо наступну зі списку, при цьому не просто наступну, а тієї самої статі, як і початково відібраний респондент, із яким не вдалося поспілкуватися (у такий спосіб мінімізуємо зміщення за статтю на тих спеціальностях, де значно переважають чоловіки або жінки).

Якщо ми залучаємо респондентів до дослідження на парах, важливо висловити два застереження. По-перше, це треба робити лише на тих заняттях, які є обов'язковими для відвідування, інакше утворимо зміщення в бік студентів, які відвідують факультативні заняття. По-друге, якщо наше опитування проходить у такому університеті, де викладачі поблажливо ставляться до пропусків студентами обов'язкових занять, то в опитуванні утвориться зміщення в бік сумлінних студентів – тих, хто частіше відвідують пари, ніж інші.

Тепер у нас повністю сформована вибірка: ми розрахували, скільки й кого опитуватимемо, ΰ визначили методику відбору респондентів. Власне, наша вибірка матиме такий фінальний вигляд: у списках студентів буде помічено, кого саме мають опитати інтерв'юери. Також інтерв'юерам буде надано відповідні докладні інструкції:

  • • де шукати респондентів;
  • • як звертатися з проханням про участь в опитуванні;
  • • скільки разів треба спробувати застати відібраного респондента, перш ніж можна замінити його або її на іншу людину;
  • • у якій формі реєструвати цю заміну[3].

Аналогічно вибірка, репрезентативна для мешканців певного населеного пункту, е не просто числом, а переліком адрес і докладною інструкцією, кого саме та як саме запросити до участі за цією адресою і що робити, якщо запрошена людина відмовилася від участі в опитуванні.

Інколи вибірка не містить переліку ані респондентів, ані адрес. Натомість є інструкцією, де та як опитувати респондентів. Наприклад, це характерно для вибірок у стилі екзит-полу (опитування людей на виході з певної установи) та опитувань учасників вуличних протестів.

  • [1] Скільки саме відмов достатньо для дискваліфікації анкети, залежить від її специфіки та дослідницьких цілей. Нехай в анкеті 10 запитань: 7 – це соціально-демографічні характеристики, а 3 – ті, для з'ясування поглядів щодо яких ми проводимо опитування. Нехай респондент відповів на 5 запитань – усі із соціально-демографічного блоку. У такому разі навряд чи є сенс залишати таку анкету в масиві даних. Натомість якщо респондент не відповів на 3 запитання соціально-демографічного блоку й відповів на всі інші, то така анкета принаймні частково була б корисною для аналізу даних.
  • [2] З матеріалу на с. 120-121 ми вже розуміємо, що просто стати в коридорі університету й опитувати першого-ліпшого не забезпечить репрезентативності, подібно до того як стати на певній вулиці й опитати перехожих не забезпечить репрезентативності для мешканців населеного пункту.
  • [3] Вести облік замін респондентів важливо для того, щоб розуміти, чи не відмовляються від нашого опитування саме респонденти з певними ознаками. Наприклад, певної статі, етнічності абощо. Якщо це стається, то потрібно обміркувати, у чому причини, та, якщо можливо, виправити ситуацію.
 
< Попер   ЗМІСТ   Наст >