< Попер   ЗМІСТ   Наст >

Загадкові похибки й імовірності репрезентативної вибірки

В основі формування вибірок – теорія імовірності та математична статистика, виклад яких є поза межами цього видання. Втім, це не означає, що читачеві зовсім нічого не варто знати про похибки й імовірності репрезентативних опитувань.

Цей підрозділ та наступний – для тих, хто любить рахувати й працювати з таблицями. їх матеріал допоможе не лише грамотніше сприймати повідомлення про опитування громадської думки, а й навчитися визначати орієнтовні розміри (обсяги) вибірок і супутні їм похибки, зокрема розібратися, наскільки точними насправді є репрезентативні опитування. Однак, якщо ви не в настрої роздивлятися таблиці й формули, можна одразу переходити до підрозділу "10 міфів про вибірку й опитування громадської думки", який не містить математичних розрахунків, але теж стане в пригоді всім, хто прагнуть бути більш критичними, компетентними читачами публікацій про опитування громадської думки.

В ідеалі фахові повідомлення про результати репрезентативного опитування містять інформацію про похибку, ймовірність та дизайн-ефект. Наприклад, у прес-релізі про фахове репрезентативне опитування 2000 респондентів можемо прочитати:

"Статистична похибка вибірки (з імовірністю 0,95 та за дизайн-ефекту 1,5) не перевищує:

  • 3,3% – для показників, близьких до 50%;
  • 2,9% – для показників, близьких до 25% та 75%;
  • 1,4% – для показників, близьких до 5% та 95%;
  • 0,7% – для показників, близьких до 1% та 99%"[1].

Що це за ймовірність, похибки та дизайн-ефект? Що нам варто про них знати?

Відповідно до законів математики не можна бути на 100% впевненими, що результати дослідження вибірки ідентично відображають ситуацію в генеральній сукупності, навіть якщо ми дуже ретельно сформували нашу вибірку. Однак можна бути впевненими з високою імовірністю, що результати для вибірки не відрізняються від ситуації в генеральній сукупності більше, ніж на певний відсоток. Скільки саме становить такий відсоток максимального відхилення й наскільки високою є імовірність залежить від потреб дослідження, дослідницьких традицій і навіть особистих уподобань.

У соціальних дослідженнях склалася традиція виходити з імовірності близько 0,95, тобто 95% впевненості в точності результатів. Найчастіше, мабуть, використовують імовірність 0,950[2], тобто рівно 0,95. Однак імовірність 0,9545, або 95,45%, теж по-своєму зручна, оскільки спрощує формулу розрахунку.

У деяких інших галузях (наприклад, епідеміології] нерідко використовують імовірність 0,99. Коли читач чує про результати опитувань громадської думки в українському або інших суспільствах, зазвичай ідеться про вибірки, сформовані, виходячи з імовірності 0,9545 або 0,95 рівно. Власне, не дуже важливо, яка саме з цих двох імовірностей була використана, оскільки похибки за них майже не різняться (для порівняння див. додаток 2).

Максимальні допустимі похибки в опитуваннях громадської думки часто становлять понад 2%, але менше ніж 5%. Однак це аж ніяк не є догмою. Можна провести опитування з максимальною похибкою і 7%, і 10%, якщо така точність результату прийнятна.

Результати дослідження тим точніші, чим вища ймовірність і чим менша похибка. Втім, щоб імовірність була вищою, а похибка меншою, потрібна більша вибірка, що вимагає вищих витрат на дослідження. Тому визначення похибки – це завжди баланс між бажаним і можливим.

Нехай імовірність становить 0,9545, n – обсяг вибірки,

N – обсяг генеральної сукупності,

Δ – максимальна прийнятна похибка, виражена часткою (тобто якщо йдеться про похибку 3%, то Δ = 0,03).

Для визначення розміру вибірки потрібно скористатися не вельми складною формулою:

n = 1 / (Δ2 + 1/N)[3].

Нехай ми вирішили, що нам важлива висока точність результатів: похибка не має перевищувати 2%. У такому разі Δ = 0,02, а отже, формула набуває такого вигляду:

n = 1 / (0,022 + 1/N) = 1 / (0,0004 + 1/N).

Натомість якщо ми зупинили свій вибір на похибці 5%, то формула стає такою:

n = 1 / (0,052 + 1/N) = 1 / (0,0025 + 1/N).

У таблиці 4.1 наведено низку прикладів, яким має бути обсяг вибірки залежно від обсягу генеральної сукупності (N) та максимальної прийнятної похибки (Δ) за ймовірності 0,9545. У таблиці представлені різні генеральні сукупності від 50 одиниць до 50 млн. Аналогічну інформацію для ймовірності 0,95 рівно наведено в таблиці 4.2.

У таблицях 4.1 і 4.2 можемо побачити, що за малих обсягів генеральної сукупності (50, 100, 200) навряд чи доцільно формувати вибірку: варто опитати всю генеральну сукупність, якщо важлива висока точність результатів. Ми також можемо побачити в цих таблицях, що зі збільшенням обсягу генеральної сукупності розмір вибірки дедалі менше різниться й урешті-решт зовсім перестає збільшуватися.

Таблиця 4.1. Як змінюється обсяг вибірки залежно від обсягу генеральної сукупності та максимальної допустимої похибки за ймовірності 0,9545

Обсяг вибірки, якщо максимальна допустима похибка становить...

Обсяг генеральної сукупності

2%

5%

7%

10%

50

49

44

40

33

100

96

80

67

50

200

185

133

101

67

300

268

171

121

75

400

345

200

135

80

500

417

222

145

83

600

484

240

152

86

700

547

255

158

88

800

606

267

163

89

900

662

277

166

90

1000

714

286

169

91

5000

1667

370

196

98

10 000

2000

385

200

99

50 000

2381

397

203

100

100 000

2439

398

204

100

200 000

2469

399

204

100

500 000

2488

400

204

100

1000 000

2494

400

204

100

2 000 000

2497

400

204

100

3 000 000

2498

400

204

100

5 000 000

2499

400

204

100

10 000 000

2499

400

204

100

30 000 000

2500

400

204

100

50 000 000

2500

400

204

100

Таблиця 4.2. Як змінюється обсяг вибірки залежно від обсягу генеральної' сукупності та максимальної допустимої похибки за ймовірності 0,950

Обсяг вибірки, якщо максимальна допустима похибка становить...

Обсяг генеральної сукупності

2%

5%

7%

10%

50

49

44

40

33

100

96

79

66

49

200

185

132

99

65

300

267

168

119

73

400

343

196

132

77

500

414

217

141

81

600

480

234

148

83

700

542

248

153

84

800

600

260

157

86

900

655

269

161

87

1000

706

278

164

88

5000

1622

357

189

94

10 000

1936

370

192

95

50 000

2291

381

195

96

100 000

2345

383

196

96

200 000

2373

383

196

96

500 000

2390

384

196

96

1 000 000

2395

384

196

96

2 000 000

2398

384

196

96

3 000 000

2399

384

196

96

5 000 000

2400

384

196

96

10 000 000

2400

384

196

96

30 000 000

2401

384

196

96

50 000 000

2401

384

196

96

Річ у тім, що чим більший обсяг генеральної сукупності (тобто N у формулі), тим менше значення компонента 1/N. Тобто зі збільшенням N цей компонент зменшується та прямує до нуля. Якби в нас була нескінченно велика генеральна сукупність, то 1/N дорівнювало б нулю.

Таким чином, якщо ми працюємо з великими[4] генеральними сукупностями, наведену вище формулу можна спростити: n = 1 / (Δ2 + 0); n = 1 / Δ2.

Після такого спрощення вельми зручним стає підрахунок похибки залежно від розміру вибірки:

Якщо ми бажаємо отримати похибку, виражену у відсотках, а не часткою (наприклад, 3%, а не 0,03), потрібно просто помножити Δ на 100. У таблиці 4.3 наведені приклади похибок вибірок різного обсягу для нескінченно великої генеральної сукупності та ймовірності 0,9545. У цій самій таблиці допитливі читачі можуть побачити, яким буде розмір вибірки, якщо ймовірність наближатиметься до 100 (на прикладі значення ймовірності 0,99993).

На прикладі даних таблиці 4.3 легко побачити, чому обсяг вибірок зазвичай становить сотні або тисячі осіб, але не десятки: для вибірки 10 одиниць похибка не перевищує 63,1% з імовірністю 0,99993, для вибірки 50 одиниць – 28,2%, 100 – 20,0%. Зайве казати, що результати з такою похибкою мало кого задовольнять! Натомість вибірка 400 одиниць уможливлює вже таку точність результату, яка була б прийнятною в багатьох дослідницьких проектах: похибка до 5% з імовірністю 0,9545 та до 10% з імовірністю 0,99993.

Таблиця 4.3. Як змінюється максимальна допустима похибка за ймовірностей 0,9545 та 0,99993[5] залежно від обсягу вибірки, репрезентативної для нескінченно великої[6] генеральної сукупності

Обсяг

вибірки

Похибка з імовірністю 0,9545

Похибка з імовірністю 0,99993

Обсяг

вибірки

Похибка з імовірністю 0,9545

Похибка з імовірністю 0,99993

10

31,6%

63,1%

1250

2,8%

5,6%

50

14,1%

28,2%

1500

2,6%

5,2%

100

10,0%

20,0%

1750

2,4%

4,8%

150

8,2%

16,3%

2000

2,2%

4,5%

200

7,1%

14,1%

2250

2,1%

4,2%

250

6,3%

12,6%

2500

2,0%

4,0%

300

5,8%

11,5%

2750

1,9%

3,8%

350

5,3%

10,7%

3000

1,8%

3,6%

400

5,0%

10,0%

4000

1,6%

3,2%

450

4,7%

9,4%

5000

1,4%

2,8%

500

4,5%

8,9%

6000

1,3%

2,6%

550

4,3%

8,5%

7000

1,2%

2,4%

600

4,1%

8,1%

8000

1,1%

2,2%

650

3,9%

7,8%

9000

1,1%

2,1%

700

3,8%

7,5%

10 000

1,0%

2,0%

750

3,7%

7,3%

15 000

0,8%

1,6%

800

3,5%

7,1%

20 000

0,7%

1,4%

850

3,4%

6,8%

50 000

0,4%

0,9%

900

3,3%

6,7%

100000

0,3%

0,6%

950

3,2%

6,5%

200000

0,2%

0,4%

1000

3,2%

6,3%

300000

0,2%

0,4%

Важливо наголосити: вказані в таблицях 4.1-4.3 похибки справджуються лише для ідеально випадкового відбору респондентів – такого, ніби вибірку нам сформував генератор випадкових чисел. Такі похибки називають теоретичними. Однак це не означає, що вони неможливі на практиці. У низці випадків теоретична похибка – це і є дійсна похибка реальної вибірки.

Проте на практиці процедура формування вибірки часто спричинює так званий дизайн-ефект, який збільшує похибку в півтора-два рази. У цьому контексті "дизайн" означає "методика формування вибірки"; "ефект" – вплив (від англ, design-effect). Відповідно дизайн-ефектце величина, що показує, у скільки разів теоретична похибка збільшилася внаслідок специфіки застосованої методики формування вибірки[7]. Наприклад, якщо теоретична похибка – 5%, дизайн-ефект – 1,5, то похибка становить:

5% * 1,5 = 7,5%.

Чому з'являється дизайн-ефект? Коли його немає? Уявімо планування опитування, репрезентативного для мешканців певного населеного пункту, певного регіону або певної країни. В усіх цих випадках дослідникам потрібно придумати, як визначити географічні точки, у яких шукати респондентів, а також процедуру випадкового відбору респондента в тій унікальній точці[8]. Щоб дослідження не було надто дорогим, намагаються спланувати його таким чином, щоб опитати кількох людей поруч, а не всіх респондентів у рівновіддалених точках. Наприклад, якщо вибірка 2000, репрезентативна для дорослого населення України, на практиці людей не опитують у 2000 різних населених пунктах. Натомість процедура формування вибірки може бути приблизно такою:

  • • спершу всі поштові індекси ділимо за чотирма макрорегіонами (для того щоб вибірка була репрезентативною не лише для України загалом, а й для кожного з чотирьох макрорегіонів);
  • • у межах кожного макрорегіону вибираємо певну кількість поштових індексів;
  • • у межах кожного поштового індексу – певну кількість будинків;
  • • у межах тих будинків – певну кількість квартир, якщо будинки багатоквартирні.

За такої процедури не кожна адреса мала однаковий шанс потрапити до нашої вибірки, адже ми кілька разів формували підвибірку й наступний вибір здійснювали лише в її межах. Таким чином і з'явився дизайн-ефект вибірки. Натомість дизайн-ефект дорівнював би одиниці (тобто був відсутній), якби ми могли отримати список усіх людей, які становлять доросле населення України, відібрати з них необхідну кількість осіб за допомогою таблиць випадкових чисел й опитати саме їх.

Наведемо ще один приклад, коли методика формування вибірки спричинює дизайн-ефект. Нехай ми плануємо опитування, репрезентативне для студентів ВНЗ України. Нам доведеться спершу відібрати самі ВНЗ, а потім уже студентів у межах кожного з них. Така процедура створює дизайн-ефект, тобто збільшує похибку, через те що спершу ми утворили вибіркову сукупність університетів, а потім уже відбирали студентів. Знову-таки дизайн-ефект дорівнював би одиниці (тобто ніяк не збільшував би теоретичної похибки), якби можна було отримати список усіх студентів України та відібрати на основі нього необхідну кількість респондентів за допомогою таблиць випадкових чисел.

Отже, при визначенні припустимої похибки потрібно брати до уваги, що теоретична похибка має бути помножена на величину дизайн-ефекту. Лише після цього ми отримаємо дійсну похибку результатів репрезентативного опитування.

У таблиці 4.4 наведені приклади похибок із урахуванням дизайн-ефекту 1,5. Варто наголосити: точне значення дизайн-ефекту можуть визначити лише ті, хто мають докладну інформацію про процедуру формування вибірки. Тому фахове повідомлення про репрезентативне опитування має містити уточнення, яким є дизайн-ефект вибірки; інакше залишається за лаштунками значення дійсної, а не теоретичної похибки.

Таблиця 4.4. Як змінюється максимальна похибка з урахуванням дизайн-ефекту 1,5 за ймовірності 0,9545 залежно від обсягу вибірки, репрезентативної для нескінченно великої генеральної сукупності

Обсяг

вибірки

Похибка з урахуванням дизайн-ефекту 1,5

Обсяг

вибірки

Похибка з урахуванням дизайн-ефекту 1,5

10

47,4%

1250

4,2%

50

21,2%

1500

3,9%

100

15,0%

1750

3,6%

150

12,2%

2000

3,4%

200

10,6%

2250

3,2%

250

9,5%

2500

3,0%

300

8,7%

2750

2,9%

350

8,0%

3000

2,7%

400

7,5%

4000

2,4%

450

7,1%

5000

2,1%

500

6,7%

6000

1,9%

550

6,4%

7000

1,8%

600

6,1%

8000

1,7%

650

5,9%

9000

1,6%

700

5,7%

10 000

1,5%

750

5,5%

15 000

1,2%

800

5,3%

20 000

1,1%

850

5,1%

50 000

0,7%

900

5,0%

100 000

0,5%

950

4,9%

200 000

0,3%

1000

4,7%

300 000

0,3%

Як бачимо в таблиці 4.4, якщо маємо велику генеральну сукупність і нас влаштовує похибка 5% з імовірністю 0,9545, то можемо запланувати опитування 900 осіб. Однак це справедливо лише в тому разі, якщо наші висновки будуть у стилі: стільки-то відсотків висловили думку X. Натомість часто ми потребуємо від даних більшого, наприклад: дізнатися, що думають жінки про питання X, а що – чоловіки; що думають люди різних вікових категорій, різного рівня освіти, мешканці міст і сіл, різних регіонів. Такі очікування щодо результатів змінюють потрібний розмір вибірки. Як саме?

Приміром, нехай нам важлива максимальна похибка до 5% з урахуванням дизайн-ефекту 1,5 при визначенні думок жінок і чоловіків. Тоді потрібно, щоб у кожній категорії – як чоловіків, так і жінок – було щонайменше 900 осіб. Якщо в нас 900 жінок і 900 чоловіків, то розмір вибірки буде 1800. Оскільки жінок дещо більше загалом, ніж чоловіків, то це ще трохи збільшить вибірку, якщо ми не бажаємо втратити жодної десятої відсотка похибки. Нехай нам відомо з державної статистики, що жінок 18 років і старших в 1,17 раза більше, ніж чоловіків такого самого віку. Тоді потрібний нам розмір вибірки:

n = 900 + 900 * 1,17 = 900 + 1053 = 1953.

За такої вибірки зможемо довідатися думку чоловіків із похибкою, що не перевищує 5% з урахуванням дизайн-ефекту з імовірністю 0,9545, і жінок зі ще меншою похибкою – 4,6%, оскільки їх у вибірці дещо більше, ніж чоловіків, – 1053.

Якщо ми поділили Україну на 4 макрорегіони з приблизно однаковою кількістю населення й при цьому бажаємо, щоб похибка з урахуванням дизайн-ефекту 1,5 не перевищувала 5% для кожного із макрорегіонів, то нам потрібно опитати по 900 осіб у кожному з макрорегіонів. А отже, розмір вибірки має бути таким:

n = 900 * 4 = 3600.

Нерідко ми не знаємо точної частки тих категорій, інформація щодо яких нас цікавить. У такому разі вже після опитування розрахуємо точну похибку саме для цієї категорії. Наприклад, ми провели репрезентативне опитування 1000 містян і виявили, що 38% з них знають про заплановану реформу житлово-комунального господарства в місті. Цей результат має похибку 4,7% з імовірністю 0,9545 та з урахуванням дизайн-ефекту 1,5. Але нам ще потрібно довідатися, який відсоток людей, які знають про реформу, підтримує її запровадження. 38% від 1000 – це 380 осіб. Скористаймося вже відомою нам формулою:

Переводимо величину вибірки з частки у відсотки та враховуємо дизайн-ефект:

0,051 * 100 * 1,5 = 7,7%.

Отже, максимальна похибка за ймовірності 0,9545 та з урахуванням дизайн-ефекту 1,5 становитиме 7,7% для результатів серед містян, які знають про реформу X.

Похибка має вельми корисну для точності результатів властивість: вона є найбільшою для значень, близьких до 50%, а з наближенням до 100% або 0% зменшується. Згадаймо приклад повідомлення про репрезентативне опитування, наведений на початку підрозділу:

Статистична похибка вибірки (з імовірністю 0,95 та за дизайн-ефекту 1,5) не перевищує:

  • 3,3% – для показників, близьких до 50%;
  • 2,9% – для показників, близьких до 25% та 75%;
  • 1,4% – для показників, близьких до 5% та 95%;
  • 0,7% – для показників, близьких до 1% та 99%.

Цілком закономірно, що найбільша з усіх задекларованих похибок у цьому прикладі (3,3%) вказана саме для показників, близьких до 50%, а найменша (0,7%) – для показників, близьких до 1% та 99%. Для особливо допитливих читачів, які люблять рахувати, пояснимо, як розрахувати похибки для певних показників.

Нехай

  • • генеральна сукупність є "нескінченно великою"[9],
  • • імовірність – 0,9545,
  • • р – значення показника, який нас цікавить, виражений часткою,
  • • Δ – похибка без урахування дизайн-ефекту, виражена часткою,
  • • n – розмір репрезентативної вибірки.

Тоді максимальна похибка Δ для показника р вибірки обсягом п:

[10]

Значення "4" в цій формулі пов'язане з вибором імовірності 0,9545. Якби ймовірність була 0,95 рівно (тобто 0,950), то відповідний коефіцієнт становив би 3,8416 (1,962):

Якби ймовірність була 0,99993, то відповідний коефіцієнт становив би:

Отже, формула мала б такий вигляд:

[11]

Якщо ми бажаємо отримати похибку, виражену у відсотках, а не часткою, то потрібно помножити Δ на 100. Якщо воліємо ще й урахувати дизайн-ефект, то помножити також на його величину. Отже, похибка у відсотках з урахуванням дизайн-ефекту 1,5 (позначимо її "х"):

Спробуймо застосувати ці формули на прикладі. Уявімо, що ми провели опитування, репрезентативне для "нескінченно великої" сукупності. Вибірка – 400 осіб, дизайн-ефект – 1,5. Ми виявили, що 20% мають думку А, 80% – думку Б. Як можемо побачити в таблиці 4.4 або порахувати самі, максимальна похибка в цьому випадку з урахуванням дизайн-ефекту становить 7,5% з імовірністю 0,9545.

Якби ми не знали, що максимальна похибка зменшується з наближенням до 0 і 100, то могли б сказати так: з імовірністю 0,9545 думку А має не менш як 12,5% і не більше ніж 27,5%, а думку Б – відповідно від 72,5% до 87,5%[12].

Однак ми тепер вміємо визначити похибку більш точно. Якщо думку А мають 20%, думку Б – 80%, то р = 0,2 і р = 0,8.3 формули очевидно, що для обох значень р (як 0,8, так і 0,2) похибка буде ідентичною, тож не важливо, яке саме з цих двох значень поставимо до формули. Отже, рахуємо:

Як бачимо, ми отримали значення 4% як похибку без урахування дизайн-ефекту, що є дещо меншим, ніж 5% – максимальна теоретична похибка у вибірці такого розміру. Візьмімо до уваги дизайн-ефект 1,5:

6% – це на 1,5% менше, ніж максимальна похибка нашої вибірки з урахуванням дизайн-ефекту (7,5%).

У таблиці 4.5 наведені різні значення показників для вибірок чотирьох розмірів: 400, 500, 1000 та 2000 респондентів, виходячи з того, що генеральна сукупність є "нескінченно великою", а ймовірність – 0,9545.

Спробуймо застосувати таблицю 4.5 на практиці. Уявімо, що у вибірці обсягом 500 респондентів лише 3% висловило певну думку. Якою буде похибка в цьому разі, якщо дизайн-ефект становить 1,5? У таблиці 4.5 можемо побачити, що така похибка становить 2,29% (для зручності читачів відповідне значення виділене в таблиці). Отже, з імовірністю 0,9545 таку думку в генеральній сукупності мають від 0,71% (3 – 2,29) до 5,29% (3 + 2,29) респондентів.

Зважаючи на все викладене вище в цьому розділі, можемо підсумувати, що фахове повідомлення про репрезентативне опитування обов'язково міститиме таку інформацію:

  • для кого опитування є репрезентативним (тобто хто є генеральною сукупністю);
  • якою є максимальна похибка цієї вибірки та з якою імовірністю.

Таблиця 4.5. Як змінюється максимальна похибка без та з урахуванням дизайн-ефекту 1,5 за ймовірності 0,9545 залежно від показника та обсягу вибірки, репрезентативної для нескінченно великої генеральної сукупності

Значення похибки для вибірок обсягом 400, 500,1000 та 2000

400

500

1000

2000

Показники

значень

Без

дизайн-

ефекту

З дизайн-ефектом 1,5

Без

дизайн-

ефекту

З дизайн-ефектом 1.5

Без

дизайн-

ефекту

З дизайн-ефектом 1.5

Без

дизайн-

ефекту

З дизайн-ефектом 1.5

99%

1%

0,99%

1,49%

0,89%

1,33%

0,63%

0,94%

0,44%

0,67%

98%

2%

1,40%

2,10%

1,25%

1,88%

0,89%

1,33%

0,63%

0,94%

97%

3%

1,71%

2,56%

1,53%

2,29%

1,08%

1,62%

0,76%

1.14%

96%

4%

1,96%

2,94%

1,75%

2,63%

1,24%

1,86%

0,88%

1,31%

95%

5%

2,18%

3,27%

1,95%

2,92%

1,38%

2,07%

0,97%

1.46%

90%

10%

3,00%

4,50%

2,68%

4,02%

1,90%

2,85%

1,34%

2,01%

85%

15%

3,57%

5,36%

3,19%

4,79%

2,26%

3,39%

1,60%

2,40%

80%

20%

4,00%

6,00%

3,58%

5,37%

2,53%

3,79%

1.79%

2,68%

75%

25%

4,33%

6,50%

3,87%

5,81%

2,74%

4,11%

1,94%

2,90%

70%

30%

4,58%

6,87%

4,10%

6,15%

2.90%

4,35%

2,05%

3,07%

65%

35%

4,77%

7,15%

4,27%

6,40%

3,02%

4,52%

2,13%

3,20%

60%

40%

4,90%

7,35%

4,38%

6,57%

3.10%

4.65%

2,19%

3,29%

55%

45%

4,97%

7,46%

4,45%

6,67%

3,15%

4,72%

2,22%

3,34%

50%

5,00%

7,50%

4,47%

6,71%

3,16%

4,74%

2,24%

3.35%

Таке повідомлення може також містити:

  • уточнення максимальної похибки для різних показників;
  • уточнення похибки для деяких категорій (наприклад, людей певного віку, статі).

Крім того, у повідомленні має бути зазначено:

  • хто провів опитування;
  • хто формував вибірку (якщо це інша організація або особа, а не та, що провела опитування);
  • у які дати проведено опитування.

Тепер, коли ми розібралися в практичному значенні таких "загадкових" аспектів вибірки, як похибка, ймовірність та ди- зайн-ефект, спробуймо сформувати вибірку.

  • [1] Саме в такому стилі представляють результати репрезентативних опитувань у прес-релізах Київського міжнародного інституту соціології (kiis.com.ua).
  • [2] Тут і далі в тексті 0,95 – це будь-яка ймовірність, що округлюється до 0,95 за математичними правилами, а також 0,95 рівно (тобто не округлена, а точна). Натомість під 0,950, як і під 0,95 рівно, розуміємо точні, а не округлені значення. Відповідно зазначаємо 0,95 у тих випадках, коли не важливо, йдеться про точне чи округлене значення, а 0,950 або 0,95 рівно, коли треба підкреслити, що це точне, а не округлене значення.
  • [3] Це спрощена формула розрахунку вибірки, яка можлива лише при використанні ймовірності 0,9545. Якби ми працювали з імовірністю 0,950, формула мала б такий вигляд: n = 1 / (Δ2 / (1,962 • 0,25)+ 1/N) = 1 / (Δ2 /0,9604 + 1/N). Самостійно обрати ймовірність і розрахувати вибірку для певної імовірності допоможе таке видання: Статистичний аналіз соціологічних даних / В. І. Паніотто, В. С. Максименко, Η. М. Харченко. – К.: Вид. дім "КМ Академія", 2004. – 270 с. Потрібна для розрахунку формула наведена на с. 180, а таблиці значень, необхідних для користування формулою, – на с. 252-255.
  • [4] Як бачимо з таблиці 4.1, те, яку сукупність вважати великою в цьому контексті, залежить від похибки, з якою працюємо. Чим більша похибка є припустимою, тим раніше ми досягаємо тої межі, коли обсяг вибірки перестає змінюватися зі збільшенням обсягу генеральної сукупності.
  • [5] У додатку 2 наведено аналогічну таблицю, у якій додані значення похибок для ще двох імовірностей: 0,950 та 0,99012. Як можна побачити в цьому додатку, похибки для ймовірностей 0,9545 і 0,99012 не є кардинально різними. Наприклад, для вибірки 2000 респондентів максимальна похибка не перевищує 2,2% з імовірністю 0,9545 і не перевищує 2,9% з імовірністю 0,99012 (відмінність – 0,7%). Для ймовірності, що наближається до 100, похибка в цьому разі відрізняється дещо виразніше – становить 4,5%.
  • [6] Як бачили в таблицях 4.1 та 4.2, подібні до нескінченно великих сукупностей результати маємо для генеральних сукупностей обсягом сотні тисяч або мільйони. У разі більших похибок (наприклад, 10%) аналогічні результати отримуємо навіть для сукупностей обсягом тисячі. Адже за похибки 10% нам потрібно опитати 91 особу з 1000 або 100 осіб із 50 000. Генеральна сукупність збільшується на 49 000, а вибірка – лише на 9 осіб.
  • [7] Попри його важливість, дизайн-ефект зазначають на диво нечасто порівняно з іншими ключовими характеристиками репрезентативної вибірки. Наприклад, в одному з найвідоміших порівняльних міжнародних опитувань – Світовому дослідженні цінностей (World Values Survey, worldvaluessurvey. org) – зазначають лише похибки без урахування дизайн-ефекту, тож наведені в документації опитування похибки є дещо меншими, ніж насправді. Фахові пояснення щодо дизайн-ефекту можна знайти в+ широковідомій книзі "Вибірки для опитувань" ("Survey Sampling") американського соціолога та фахівця зі статистики Леслі Кіша, який працював у Мічиганському університеті. Вперше побачивши світ 1965 року, вона стала класичним виданням про логіку й розрахунки вибірок: Kish L. Survey Sampling (Wiley Classics Library Edition] / Leslie Kish. – A Wiley-Interscience Publication, 1995. – 643 p.
  • [8] Скажімо, прийшли ми в точку X, а там три людини. Кого з них опитати? Отже, важливо визначити не лише місце опитування, а й процедуру вибору респондента, якщо виявиться, що людей там кілька.
  • [9] Звісно, ані доросле населення певного суспільства, ані будь-яка інша генеральна сукупність у соціальному дослідженні не є нескінченно великою, але, як було пояснено вище, у розрахунках доцільно спиратися саме на формули, визначені для нескінченно великої генеральної сукупності. Тому тут і далі словосполучення "нескінченно велика сукупність" наводимо в лапках.
  • [10] Формула не є застосовною в тому разі, якщо р дорівнює 0 або 1.
  • [11] У разі зацікавленості читача в значеннях для інших імовірностей, уже не вперше радимо звернутися до такого видання: Статистичний аналіз соціологічних даних / В. І. Паніотто, В. С. Максименко, Η. М. Харченко. – К.: Вид. дім "КМ Академія", 2004. – 270 с.
  • [12] 20 – 7,5 = 12,5%; 20 + 7,5 = 27,5%; 80 – 7,5 = 72,5%; 80 + 7,5 = 87,5%.
 
< Попер   ЗМІСТ   Наст >