міфів про вибірку й опитування громадської думки. І як воно є насправді?
Можна натрапити на зовсім різні уявлення про опитування: від скепсису, що вони дійсно відображають думку громадськості, до очікувань точності до відсотка. Якщо ви уважно ознайомилися з попередніми підрозділами, то міфи про вибірку для вас уже розвіяні й викладений нижче матеріал буде радше закріпленням уже відомого, ніж новою інформацією. Якщо ж ви не працювали з попередніми підрозділами, то викладене нижче допоможе розібратися без занурень у формули, підрахунки й таблиці, якими є репрезентативні опитування в дійсності.
Міф 1. "Будь-які опитування громадської думки дають лише приблизні результати, це все дуже неточно".
10-20 років тому цей міф був дуже популярним. Тоді все ще була не такою рідкісною практика створення "соціологічних" фірм-одноденок з метою реклами певної політичної сили: вони повідомляли вигадані політичні рейтинги, що показували завищену підтримку певної політичної сили, а після виборів зникали. Тож не дивно, що, чуючи про найрізноманітніші результати опитувань, чимало людей були скептично налаштовані щодо опитувань громадської думки та вважали, що "це все дуже неточно", "намальовано" тощо.
Нині ж сила цього міфу примітно зменшилася принаймні з двох причин. З одного боку, завдяки пильності громадськості до маніпулятивних фірм-одноденок: нині дедалі більше людей, зокрема й журналістів, звертають увагу на те, яка саме дослідницька агенція оприлюднює результати опитування громадської думки – та, що давно працює на ринку чи ні. З іншого боку, міф про дуже неточні результати опитувань послабився завдяки регулярній вдалій практиці екзит-полів.
Екзит-поли – це репрезентативні опитування виборців на виході з виборчої дільниці про те, за кого саме вони проголосували (від англ, exit – вихід, poll – підрахунок голосів)[1]. Екзит-поли проводять різні дослідницькі центри, і їхні дані є вельми подібними: зазвичай розбіжності між ними не перевищують 5%. Якби завдяки фаховим екзит-полам не було можливо дістати точні дані, різні дослідницькі центри подавали б вельми відмінні результати. Однак такого не відбувається: зазвичай результати незалежних екзит-полів різних дослідницьких центрів є подібними[2] й на їх основі можна з високою імовірністю передбачити результат виборів, якщо підрахунок голосів проведений чесно.
Дійсність на противагу міфу:
- • якщо репрезентативне опитування громадської думки грамотно сплановане й реалізоване, максимально можливі розбіжності між результатами дослідження та дійсністю можна вирахувати математично;
- • екзит-поли під час виборів (опитування людей на виході з виборчих дільниць) добре ілюструють справжню точність репрезентативних опитувань навіть для скептиків, адже їх результати подібні як між різними дослідницькими центрами, так і до результатів підрахунку голосів за бюлетенями (якщо підрахунок бюлетенів не сфальшований).
Міф 2. "Опитування, які проводять соціологи, дуже точні: можна дізнатися думку населення з точністю до відсотка!"
Поряд із попереднім міфом співіснує протилежний – про неймовірну точність "соціологічних опитувань". Насправді ж репрезентативна вибірка ніколи не є 100% точною, натомість є завжди ймовірнісною. У соціальних дослідженнях склалася традиція базувати розрахунки на ймовірності 0,95[3], тобто 95%. Тому у фахових повідомленнях про результати репрезентативних опитувань ми читаємо формулювання на кшталт: "З імовірністю 95% похибка не перевищує 3,3%". Отже, навіть якщо опитування було ідеально сплановано й реалізовано, немає 100% гарантії, що похибка не перевищить 3,3%. Відповідно, коли в повідомленні про результати опитування громадської думки зазначено, що 70% населення України мають думку X за ймовірності 0,95 та похибки 3,3%, це означає, що з імовірністю 0,95 можемо стверджувати: від 66,7% до 73,3% населення мають думку X.
Чи це означає, що маємо 5 шансів зі 100 (100% – 95% = 5%) на те, що похибка насправді є значно більшою за 3,3% і, скажімо, не 70%, а 90% населення мають думку X (70% – 90% = "похибка 20%"]? Або лише 20% населення мають думку X (70% – 20% = "похибка 50%"]? Ні, це не так: шанси, що похибка є настільки великою (20% або 50%], нікчемно малі. У додатку 2 наведено таблицю, в останньому стовпці якої читач може побачити похибки для різного розміру вибірок з імовірністю, що наближається до 100 (імовірність 99,99%[4]]. Ці дані допоможуть зорієнтуватися в дійсному рівні точності репрезентативних опитувань: навіть за максимально високого рівня ймовірності максимальна величина можливої похибки збільшується лише приблизно вдвічі, а не в десятки разів.
Оскільки будь-яка репрезентативна вибірка має певну похибку з певною імовірністю, соціологи, оголошуючи результати екзит-полів, часто вживають формулювання "з високою імовірністю переміг кандидат X", навіть якщо розрив між кандидатами значний. Хоч би якою нікчемною була ймовірність великої похибки, ми можемо бути впевнені "з високою імовірністю" в результаті опитування, але не на всі 100%.
Дійсність на противагу міфу: репрезентативні опитування громадської думки...
- • мають певну похибку з певною імовірністю, тобто ми не можемо бути впевнені в даних на всі 100%;
- • при цьому значне відхилення від отриманого в опитуванні значення є надзвичайно малоймовірним, якщо опитування коректно сплановане й проведене.
Міф 3. "Вибірку дуже складно порахувати".
Якщо людина не боїться формул, то в низці випадків розмір (обсяг) вибірки порахувати не так уже й складно. В окремих простих, типових випадках навіть рахувати не потрібно, адже можна скористатися готовими таблицями: дивіться, наприклад, таблиці 4.1-4.4.
Натомість вибірку справді складно сформувати. Що маємо на думці під формуванням вибірки й чому це складно?
Уявімо величезну ємність із сотнями тисяч кульок трьох різних кольорів: білого, сірого й чорного. Всі вони однакового розміру й розташовані в ємності ідеально рівномірно. Складається враження, що кульок різного кольору неоднакова кількість, але ми не маємо точної інформації.
Для того щоб довідатися майже точну кількість кульок кожного кольору, не потрібно діставати всі та рахувати кожну. Оскільки вони розташовані ідеально рівномірно по всій ємності, достатньо взяти кілька пригорщ кульок – не важливо звідки. Беремо звідти, звідкіля нам подобається: згори, скраю, з глибини, з дна. Можемо робити все це, заплющивши очі, адже нам не важливо, звідки витягаємо кульки. Якщо ми в такий спосіб витягнемо врешті-решт 100 кульок і порахуємо серед них білі, сірі й чорні, то зможемо сказати їхню кількість з максимальною похибкою 10% (з імовірністю 0,9545). Якщо витягнемо 400 кульок, то максимальна похибка становитиме 5% з імовірністю 0,9545.
Нехай ми витягли 400 кульок і наші підрахунки показали, що маємо серед них 50% білих, 30% сірих і 20% чорних. Можемо бути впевнені з імовірністю 0,9545, що білих не менш як 45% і не більше ніж 55%, сірих не менш як 25% і не більше ніж 35%, чорних не менш як 15% і не більше ніж 25%[5].
Простота процесу витягування кульок із нашої уявної ємності зумовлена тим, що:
- • кульки рівномірно розподілені;
- • кульки однакового розміру.
А тепер уявімо складнішу ситуацію: та сама ємність із тими самими кульками трьох кольорів й однакового розміру, але тепер вони розташовані нерівномірно: десь скупчення чорних, десь сірих, десь білих. Вони можуть бути розміщені шарами, наприклад на поверхні будуть лише білі. Тож якщо ми братимемо кульки тільки з поверхні, то помилково припустимо, що в нашій ємності лише білі.
Отже, ми більше не можемо витягати кульки пригорщами, як нам заманеться, й не можемо робити це із заплющеними очима. Звідки та як нам витягати кульки? Ось тут і починається складний процес формування вибірки.
Теоретично ми можемо надати кожній кульці унікальні координати в просторі, відібрати з певним кроком цих координат достатню кількість кульок і в такий спосіб сформувати їх репрезентативну вибірку. Зробимо певний крок по вертикалі, певний крок по горизонталі – і наша вибірка готова. Теоретично так. Але спробуйте уявити, як на практиці витягти кульку з потрібного місця координат... На практиці ми не зможемо забезпечити процес такого філігранного витягування кожної окремої кульки – таки доведеться діставати пригорщами й потрібно дуже добре продумати, скільки й звідки пригорщ брати, скільки кульок має потрапити в кожну пригорщу в тому чи іншому місці. Якщо процедуру витягування не продумати достатньо ретельно, вибірка не буде репрезентативною.
Аналогічно з опитуваннями. Люди з різними поглядами не розселені ідеально рівномірно, не рухаються ідеально рівномірно вулицями міст і сіл. Тому ми не можемо опитати перших-ліпших 400 осіб на вулиці й потім стверджувати, що знаємо розподіл
Кульки однакового розміру перемішані нерівномірно
думок у всьому населеному пункті, всій області або всій Україні (і тим паче не можемо говорити про весь світ]. Якщо нам потрібна репрезентативна вибірка, необхідно вдумливо сформувати алгоритм (тобто послідовність кроків), де та як відібрати людей для опитування.
Важливо наголосити, що витягування пригорщами збільшить нашу похибку порівняно з тим, якби ми могли філігранно витягувати по одній кульці на основі переліку унікальних координат. На скільки саме, точно зможуть сказати лише ті, хто формували процедуру вибірки. Тому розрізняють теоретичну похибку вибірки та похибку з урахуванням дизайн-ефекту. Величина дизайн-ефекту показує, на скільки потрібно помножити теоретичну похибку, щоб визначити дійсну похибку опитування. Наприклад, якщо теоретична похибка становить не більше ніж 5%, то з урахуванням дизайн-ефекту 1,5 вона не перевищить 7,5% (5 * 1,5 = 7,5).
Утім, складність формування вибірки навіть цим не вичерпується. Згадаймо другу ємність, де кульки були розташовані нерівномірно: у тому прикладі всі вони були однакового розміру. А тепер уявімо, що в межах різних кольорів є кульки різних розмірів. Наприклад, серед білих більшість великі, серед сірих переважно дрібні, а серед чорних багато різних розмірів. Коли ми спробуємо витягати кульки з цієї ємності, то великі легко потраплятимуть до рук, а дрібні – складніше, адже скупчуватимуться на дні й у дальніх кутах, вислизатимуть крізь пальці. У результаті можемо подумати, що більшість кульок великі, адже вони постійно потрапляли нам до рук. Отже, витягання навмання у цьому разі не спрацює: натомість потрібно вдумливо обміркувати алгоритм, що дасть змогу отримати репрезентатив-
Кульки різного розміру перемішані нерівномірно
ну вибірку кульок, а не просто повитягувати ті з них, які легше вхопити рукою.
Ситуація з ємністю, де кульки різного розміру, символізує так званих легкодоступних і важкодоступних респондентів: на одних людей легше натрапити й вони легше йдуть на контакт, з іншими складніше. Але потрібно, щоб усі ці люди – важкодоступні й легкодоступні респонденти – потрапили до нашої вибірки та поділилися з нами своїми поглядами й досвідом. Інакше вибірка не буде репрезентативною.
Отже, порахувати обсяг репрезентативної вибірки – вирішити, скільки всього кульок витягти, – не так уже й складно. Але вельми складно визначити, за якою процедурою витягувати кульки з ємності, тобто як сформувати репрезентативну вибірку. Дійсність на противагу міфу:
- • вибірка, репрезентативна для певної категорії людей, – це не просто кількість респондентів, супроводжувана значенням похибки та ймовірності, а дуже чіткі, докладні інструкції, де, коли, скількох респондентів та як відібрати;
- • порахувати розмір вибірки значно легше, ніж її сформувати;
- • формування вибірки – це розробка чіткого алгоритму, де, коли, скількох респондентів та як саме відібрати.
Звернімо увагу, що в прикладі з третьою ємністю нас цікавив лише колір кульок. Ми зовсім не цікавилися тим, скільки кульок якого розміру в межах білого кольору, сірого, чорного. Якби нам була потрібна така інформація, на це слід було б зважати на етапі розрахунку розміру вибірки. Про це – наступний міф.
Міф 4. "Те, що будемо робити із зібраними даними під час аналізу, не має жодного значення для розрахунку розміру вибірки. Адже розмір репрезентативної вибірки залежить лише від розміру генеральної сукупності та рівня похибки, який вважаємо прийнятним".
У прикладі, наведеному під час розгляду міфу 3, ми витягли 400 кульок, розраховуючи, що максимальна похибка нашої вибірки становитиме 5% з імовірністю 0,9545. Підрахунки вибірки дали такий результат: 50% білих кульок, 30% сірих і 20% чорних, тобто в нашій вибірці ми виявили 200 білих, 120 сірих і 80 чорних кульок.
Нехай тепер нам потрібно знати, скільки кульок якого розміру в межах кожного кольору. Тут ми потрапляємо в невеличку халепу: змінюється обсяг вибірки, а отже, й похибки. Маємо лише 200 білих кульок (не 400) і серед них визначаємо кількість кульок різного розміру. Для вибірки 200 одиниць отримані результати вже матимуть максимальну похибку 7,1% (без урахування дизайн- ефекту) з імовірністю 0,9545; аналогічні похибки для результатів у межах 120 сірих кульок – 7,7%, 80 чорних – 11,5%. Зверніть увагу: тепер ми працюємо з трьома категоріями кольорів як з окремими вибірками. Якщо такі величини похибки нас не задовольняють, потрібно спланувати більший розмір вибірки. Тоді розподіл першого рівня (за кольором) мав би меншу похибку, а розподіл другого рівня (за розміром у межах кольору) мав би хоча й більшу похибку, але все ще таку, яка для нас прийнятна.
Отже, на обсяг репрезентативної вибірки впливає не лише обсяг генеральної сукупності, а й те, як саме плануємо аналізувати зібрані дані. Саме тому фахівець з формування вибірки може ставити замовникам дуже дивні, на перший погляд, запитання: "А що ви бажаєте довідатися в результаті опитування?", "Ви бажаєте знати, скільки людей загалом має думку А, чи вам також важливо знати, який відсоток молоді має думку А?".
"І навіщо всі ці запитання? – думає замовник. – Нам же ще далеко до аналізу даних!" Такі запитання при обговоренні вибірки зумовлені якраз тим, що фахівець мусить чітко зрозуміти, які категорії та підкатегорії потрібно буде виокремлювати під час аналізу даних, адже все це вплине і на розмір вибірки, і на процедуру її формування. Відповідальний фахівець пояснить, яка величина похибки відповідатиме тому чи іншому рівню аналізу. Тоді замовник зможе зробити поінформований вибір: варто витрачати кошти на більшу вибірку чи ні.
Звернімо увагу, що фахові повідомлення про репрезентативне опитування населення України містять уточнення, для кого вибірка репрезентативна: для дорослого населення (18 років і старше) України загалом чи також для певних регіонів. Найчастіше нині формують вибірки, репрезентативні для України загалом і чотирьох макрорегіонів (Західного, Східного, Центрального та Південного). Але можна формувати вибірку, яка буде репрезентативною для України загалом і для, умовно кажучи, 7 макрорегіонів, а також для кожної її області. Однак така вибірка буде вельми великою, якщо нам важливий низький рівень похибки при аналізі даних для кожної області.
Наприклад, якщо нас задовольняє лише похибка в межах 3,2% (без урахування дизайн-ефекту) з імовірністю 0,9545, то вибірка, репрезентативна для дорослого населення України загалом, становитиме 1000 осіб. Однак репрезентативність не лише для України загалом, а й для кожної її області змусить збільшити вибірку в 25 разів, якщо ми бажаємо зробити висновки для кожної області за максимальної похибки 3,2% (без урахування дизайн- ефекту): отже, нам доведеться опитати 25 000 респондентів! Якщо ж ми також воліємо отримати результати думок чоловіків і жінок у кожній області за максимальної похибки 3,2% (без урахування дизайн-ефекту), то вибірку доведеться збільшити ще вдвічі – вона становитиме 50 000 респондентів.
Саме тому, формуючи репрезентативну вибірку, фахівці не лише уточнюють генеральну сукупність, а й ставлять низку запитань щодо запланованого аналізу даних. Власне, фахівці самі визначать необхідний аналіз даних, якщо замовник скаже їм, що саме бажає довідатися в результаті опитування, і допоможуть конкретизувати генеральну сукупність.
Наприклад, нехай ми досліджуємо певну проблему нашого міста (позначимо його X). Якщо нас цікавить, що думають про цю проблему жінки віком 30 років і старші, які проживають у місті X не менше ніж 10 років, то генеральною сукупністю для опитування є "жінки віком 30 років і старші, які проживають у місті X не менше ніж 10 років".
Якщо цікавить думка мешканців віком 30 років і старших, які проживають у місті не менше ніж 10 років, то генеральною сукупністю є "люди віком 30 років і старші, які проживають у місті X не менше ніж 10 років". Однак цієї інформації для формування вибірки недостатньо. Натомість постає низка інших запитань, важливих для формування вибірки. Нас цікавить думка мешканців загалом (жінок і чоловіків разом) чи ми хотіли б порівняти думку чоловіків і жінок щодо цієї проблеми? Чи хотіли б ми порівняти думку людей різних вікових категорій? Ми хотіли б дізнатися думку лише тих людей, які мешкали в місті впродовж останніх 10 років? Чи, навпаки, нам також підійшов би респондент, який виріс у місті, потім тривалий час мешкав деінде, а 2 роки тому повернувся? (Отже, ця людина сумарно прожила в місті понад 10 років, але не відчувала у своєму повсякденному житті динаміку змін у ньому впродовж останніх 10 років.)
Відповідно, перш ніж переходити до формування репрезентативної вибірки, потрібно чітко уявляти, чия думка нас цікавить і чию думку ми порівнюватимемо між собою. Тому фахівець з вибірки не обмежиться інформацією про генеральну сукупність, а ставитиме замовникам багато уточнювальних запитань щодо того, що саме потрібно довідатися в результаті опитування: у цьому разі запитання будуть спрямовані не на уточнення тематики опитування, а на те, думку яких категорій людей потрібно дізнатися. Чим глибший рівень виокремлення підкатегорій, тим більший розмір вибірки необхідний для забезпечення репрезентативності з невеликою похибкою. Наприклад, можливо, нам будуть потрібні такі категорії та підкатегорії:
- 1) спершу вік (порівняємо думку людей різних вікових категорій);
- 2) далі в межах кожної вікової категорії виокремимо стать (наприклад, нас цікавить, чи різниться думка щодо питання X у чоловіків віком 31-45 років і 46-60);
- 3) насамкінець у межах кожної вікової категорії кожної статі виокремимо людей із вищою освітою (наприклад, нас цікавить, чи різниться думка щодо певного питання у жінок віком 31-45 років залежно від Того, мають вони вищу освіту чи ні).
Тож не варто дивуватися, коли фахівець ставить замовникові багато уточнювальних запитань щодо очікуваних результатів дослідження: без цього неможливо правильно визначити розмір вибірки та коректно її сформувати. Натомість варто дивуватися та непокоїтися, якщо жодних таких запитань не ставлять, але обіцяють забезпечити репрезентативність вибірки: у такому разі фінальна точність даних може неприємно здивувати.
Дійсність на противагу міфу: для визначення розміру вибірки потрібно знати...
- • розмір генеральної сукупності, для якої формуємо репрезентативну вибірку;
- • які категорії та підкатегорії будуть виділені під час аналізу;
- • якою є максимальна прийнятна похибка та з якою імовірністю при роботі з тими чи іншими категоріями й підкатегоріями. Щоб адекватно визначити генеральну сукупність, а також необхідні для аналізу категорії та підкатегорії, потрібно чітко розуміти, що ми бажаємо довідатися в результаті дослідження.
Міф 5. "Якщо на центральній вулиці опитати достатню кількість людей, то ми знатимемо думку мешканців нашого міста. 300-400 осіб має бути достатньо".
Згадаймо третій міф, який було розвінчано вище: вибірку потрібно не лише порахувати (визначити, скількох опитати), а й правильно спланувати, де, коли й кого опитувати. Ретельна, грамотна процедура відбору респондентів є запорукою того, що відбір був справді випадковим і не мав зміщення в бік певної категорії респондентів. Можна опитати "правильну кількість", але не забезпечити випадковості відбору, і тоді серед опитаних буде забагато молодих або літніх, жінок або чоловіків, мешканців одного регіону або іншого, людей із високим рівнем доходів або низьким тощо.
Одні мешканці міста будуть присутні на центральній вулиці більшою мірою, ніж інші. Зміщення в бік певної категорії залежатиме від того, що розташоване на цій вулиці та в який саме час дня опитуємо. Якщо там опера, серед перехожих буде зміщення в бік любителів опери. Якщо державні установи, то в бік людей, які працюють на державній службі. Якщо житло на цій вулиці та довкола неї є примітно дорожчим, ніж в інших районах, і якщо там чимало новозбудованого "елітного" житла, то утвориться зміщення в бік заможніших мешканців міста.
Тож у результаті опитування на центральній вулиці довідаємося думку перехожих, які були там у той час, що відповідає періоду опитування, але не думку мешканців міста загалом. Натомість, щоб дізнатися думку мешканців міста загалом, потрібно ретельно спланувати маршрут і відбір респондентів по місту. При цьому навіть за найретельнішого планування маршруту виникають додаткові виклики для забезпечення репрезентативності. Якщо ми опитуємо перехожих, може утворитися зміщення в бік тих людей, які частіше виходять на вулицю. Якщо опитуємо в домівках, то потрібно планувати відбір таким чином, щоб не утворити зміщення в бік тих, хто частіше бувають вдома.
Дійсність на противагу міфу: для опитування, репрезентативного для населення певного міста, селища або села, потрібно ретельно спланувати маршрут і відбір респондентів по всьому населеному пункту, а не просто на його центральних вулицях або площах.
Міф 6. "Соціологи на основі опитування 2000 людей роблять висновки про думку мільйонів. Отже, можна опитати маленьку частку нашої громади та мати доволі точні дані".
Це не так. Погляньмо уважно на таблиці 4.1 та 4.2. У них наведено приклади розмірів вибірок залежно від того, на яку кількість людей маємо поширювати висновки дослідження, тобто залежно від обсягу генеральної сукупності. Наприклад, у таблиці 4.1 бачимо, що для похибки 5% вибірка становить 400 осіб незалежно від того, нашою генеральною сукупністю є півмільйона осіб чи 50 мільйонів. Якщо громада велика – 10 000 осіб, то для такої самої похибки потрібна вибірка обсягом 385 респондентів.
Як бачимо, зменшення генеральної сукупності в 50 або й 500 разів зовсім не означає, що вибірка зменшиться в 50 або 500 разів! Якщо ж ідеться про невеличку громаду зі 100 осіб, то варто опитати всіх 100 її членів, а не планувати вибіркове опитування, адже необхідний розмір вибірки для максимально допустимої похибки 5% – 80 осіб.
Отже, обсяг вибірки – це не певний сталий відсоток від генеральної сукупності, тобто тої кількості людей, на яку плануємо поширювати висновки з опитування. Натомість обсяг репрезентативної вибіркової сукупності можна визначати лише згідно зі статистичними формулами з урахуванням допустимої похибки та її імовірності. Підхід "опитаймо 50% – цього буде достатньо" не має нічого спільного з розрахунком репрезентативних вибірок.
Дійсність на противагу міфу: обсяг вибірки має бути визначений на основі статистичних формул і в жодному разі не як відсоток або частка від тої кількості людей, на яку поширюватимемо результати опитування.
Міф 7. "Вибірки розуміють лише соціологи й математики. Мені немає сенсу намагатися щось у цьому зрозуміти".
Лише люди з належним рівнем математичної підготовки розуміють, як виведені формули розрахунку вибірок. Але це не означає, що всім іншим не потрібно нічого знати про вибірки. Адже таке знання допомагає бути компетентнішими читачами повідомлень про результати репрезентативних вибіркових досліджень і компетентнішими замовниками таких досліджень.
Власне, якщо ви прочитали від початку розділу й до цього місця, то вже значною мірою спростували згаданий міф, адже відтепер вам буде незрівнянно легше оцінити масштаб необхідного для проекту опитування й погодити з дослідницькими центрами, яка саме вибірка для нього потрібна. Ви тепер розумієте, якої точності доречно очікувати від результатів опитування, а якої ні. Ви також уже стали більш критичним читачем повідомлень про опитування громадської думки, якого не так просто ввести в оману. Понад те, ви вже навіть можете спробувати сформувати просту вибірку для деяких випадків, як у прикладі з уявним університетом. Якщо ж ви ще не опанували матеріалу цього розділу, то ознайомтеся принаймні з усіма десятьма міфами – і сьомий міф розвіється сам собою.
Дійсність на противагу міфу: у демократичному суспільстві, де важливим є розуміння тенденцій громадської думки й результати відповідних опитувань регулярно оприлюднюють у ЗМІ, базове розуміння деяких аспектів вибірок корисне й можливе навіть для тих людей, які ніколи не працюватимуть із репрезентативними вибірками професійно, адже воно стає захистом від маніпулятивних повідомлень про громадську думку.
Міф 8. "Є загальновизнаний метод формування вибірки, репрезентативної для учасників вуличної протестної акції".
Цей міф зовсім юний: він з'явився в нашому суспільстві з Євро- майданом. Стільки точилося суперечок про те, хто є всі ті протестувальники й навіщо вони мерзнуть на майдані Незалежності в Києві та на площах інших міст, що це стимулювало спроби провести репрезентативні опитування мітингарів. При цьому в деяких публікаціях повідомляли, що опитування було проведено за "загальновизнаною методикою". Однак таке словосполучення насправді ні про що не говорить, оскільки жодної такої методики не існує. Репрезентативне опитування мітингарів є нетривіальним завданням, і доречно було б наводити пояснення щодо методики формування вибірки, щоб читачі могли визначати, якою мірою готові довіряти точності цих результатів.
Поміркуймо, наскільки легко чи складно провести репрезентативне опитування учасників вуличної протестної акції. Люди, які були на акції зранку або підійшли ввечері, можуть належати до дещо різних категорій. Приміром, у робочий день близько обіду ті, хто працюють поблизу, долучилися до протесту на певний час, а потім повернулися на роботу. Можливо, вони також повернулися на акцію після завершення робочого дня. А отже, результат опитування з 15:00 до 17:00 може бути відмінним від того, яке провели з 13:00 до 15:00. Навіть якщо це вихідний, люди, які прийшли зранку й пізніше, зовсім не обов'язково є еквівалентними категоріями (наприклад, ближче до початку маніфестації у ній могли домінувати організовані колони). Якщо протест тривав кілька днів, тижнів або місяців, то динаміка складу могла бути дуже значною залежно від того, які організовані групи приєдналися до нього на тому чи іншому етапі, наскільки небезпечною була ситуація. Отже, потрібно взяти до уваги, коли саме ми опитуємо учасників протесту. Без повідомлення не лише дня, а й часу опитування учасників протестної акції його результати неможливо коректно інтерпретувати.
При цьому люди на протесті зовсім не обов'язково розподілені ідеально рівномірно. Десь може бути скупчення студентів, десь – спілки підприємців, деінде – прибічників певної політичної партії тощо. Певні категорії могли брати участь у ході, але мало з них залишилося на статичну частину мітингу; інші брали участь у статичній, але мало хто залишився в ході. Понад те, в одному місці люди стоятимуть щільніше, в іншому – більш вільно, і це теж доведеться взяти до уваги. Відповідно аж ніяк не є тривіальним завданням визначення того, де саме опитувати учасників акції, за якою методикою та скількох із них відбирати в кожному конкретному місці[6].
Дійсність на противагу міфу:
- • репрезентативне опитування учасників вуличної акції під час її перебігу є нетривіальним завданням через динамічність складу протестувальників та нерівномірності їх територіального розташування;
- • коректне повідомлення про результати опитування міститиме інформацію про те, коли саме й де саме опитували учасників акції та за якою методикою їх відбирали в кожній точці опитування; своєю чергою, планування таких точок опитування буде різним для різних акцій;
- • відповідно "типові вибірки" для таких опитувань неможливі за визначенням.
Міф 9. "Якщо в нашому місті немає жодного фахового дослідницького центру, то фахове репрезентативне опитування в нашому місті є неможливим або принаймні буде надто дорогим через те, що доведеться оплачувати приїзд фахівців".
Це однозначно можливо, й вартість навряд чи суттєво відрізнятиметься від вартості для того міста, де розташований дослідницький центр: вона буде або того самого рівня, або дещо більша залежно від специфіки мережі інтерв'юерів. Річ у тім, що дослідницькі центри, що спеціалізуються з проведення репрезентативних опитувань, мають розгалужену мережу інтерв'юерів, контролерів та їхніх координаторів у різних населених пунктах. Координатори організовують роботу інтерв'юерів та контролерів; контролери мають вибірково пройти за маршрутом і зібрати дані, на основі яких координатор пересвідчиться, що інтерв'юер справді спілкувався з респондентом, а не заповнив анкети, сидячи в себе вдома. Назви й специфіка організації процесу можуть різнитися: координаторів часто називають бригадирами, особливо коли їхні функції є ширшими, або супервізорами.
При проведенні загальноукраїнських опитувань інтерв'юери, контролери й координатори не їдуть здалеку: вони або мешкають у тому самому населеному пункті, або приїжджають до нього з відносно близького міста чи села. Якщо в дослідницького центру є інтерв'юери в тому самому місті, яке вас цікавить, вартість опитування буде нижчою, ніж коли необхідно приїздити з іншого населеного пункту. Отже, географічна віддаленість від офісу дослідницького центру, з яким бажаєте співпрацювати, зовсім не обов'язково підвищує вартість опитування: важлива специфіка мережі інтерв'юерів, а не те, де розташований офіс.
Дійсність на противагу міфу:
- • вартість залежить не стільки від того, де розташований головний офіс дослідницького центру по відношенню до того населеного пункту, де проходить опитування, скільки від того, чи поширюється мережа інтерв'юерів, контролерів і координаторів на той населений пункт, де потрібно провести опитування;
- • дослідницькі центри, що спеціалізуються із загальноукраїнських опитувань, мають мережі по всій країні, тобто охоплюють усі області;
- • відповідно інтерв'юери в будь-якому разі їхатимуть до майбутніх респондентів не з головного офісу, а з найближчого населеного пункту, де мешкають інтерв'юери мережі.
Міф 10. "Якщо я бачу повідомлення у ЗМІ про репрезентативне опитування, де не вказано похибки, а лише кількість опитаних, і при цьому знаю приблизний розмір генеральної сукупності, то зможу за формулою або таблицею визначити похибку результатів цього опитування".
Цей міф можна почути від людей, які вже почасти обізнані в основах репрезентативних опитувань і воліють застосувати свої знання на практиці в умовах неповного подання інформації про результати опитування. На жаль, власноруч точно визначити похибку в ситуації, коли про неї "забули" повідомити, заважає так званий дизайн-ефект, про який ішлося вище, в цьому розділі та який присутній в усіх опитуваннях, репрезентативних для певного населеного пункту, регіону або всієї країни.
У деяких випадках дизайн-ефект дорівнює 1, тобто жодною мірою не збільшує теоретичної похибки. Наприклад, якщо на виході з державної установи опитували кожного п'ятого відвідувача, який покидає приміщення, то, знаючи розмір вибірки та генеральної сукупності, справді можна самостійно порахувати похибку.
Однак найчастіше ми читаємо повідомлення про результати опитувань зі значно складнішими методиками формування вибірок. Коли опитують мешканців певного району, міста, області, регіону, України загалом, не опитують по одній людині на різних вулицях чи в різних містах, адже тоді опитування були б значно більш трудомісткі й відповідно дорожчі. Наприклад, у разі всеукраїнського опитування довелося б їхати до певного міста або села для того, щоб опитати лише одного мешканця. Для вибірки 2000 респондентів це вимагало б двох тисяч поїздок! Тому намагаються максимально коректно відібрати певну кількість квартир у певній кількості будинків на певній кількості вулиць тощо. Аналогічна ситуація, якщо проводять репрезентативне опитування студентів українських ВНЗ або викладачів: у таких випадках вибірки також формують суттєво складнішим чином з тих самих міркувань, і на кожному з етапів відбору додається похибка (треба коректно відібрати ВНЗ за різними ознаками, факультети, роки навчання й кафедри). Відповідно навіть у максимально грамотно спланованих дослідженнях часто присутній дизайн-ефект, що робить дійсну похибку дещо більшою за теоретичну.
Дійсність на противагу міфу:
- • читач повідомлення про результати репрезентативного опитування не зможе самостійно визначити похибку лише на основі обсягу вибірки та генеральної сукупності (потрібна також докладна інформація про процедуру формування вибірки);
- • при оприлюдненні результатів репрезентативного опитування саме ті, хто відповідають за це дослідження, мають зазначити довірчу ймовірність і максимальну похибку з урахуванням дизайн-ефекту, замість того щоб залишати читачів зі здогадами та спробами самостійних розрахунків похибки.
- [1] Хоча під екзит-полами зазвичай розуміють саме опитування виборців на виході з виборчих дільниць, цей же принцип можна застосувати й для опитування клієнтів певної установи (наприклад, для того щоб визначити, чи задоволені громадяни її послугами). У ширшому значенні екзит-пол – це будь-яке опитування людей на виході з певної організації, установи, території. Інакше кажучи, у найширшому значенні поняття "екзит-пол" є синонімічним словосполученню "опитування на виході".
- [2] Подеколи при формуванні вибірки може трапитися помилка, що спричинить деяку неточність результатів. У такому разі результати екзит-полів різних дослідницьких центрів будуть менш подібними між собою, ніж очікували б дослідники, а отже, проведення кількох незалежних екзит-полів одночасно різними дослідницькими центрами є свого роду взаємним контролем для фахівців, які планують і реалізовують опитування, і дозволяє бути більш впевненими в отриманому результаті.
- [3] Натомість в епідеміології частіше можна натрапити на ймовірність 0,99, тобто 99%.
- [4] Імовірність рівно 100% можлива для суцільного опитування, але не вибіркового. Якщо ж ми опитуємо лише певну вибіркову сукупність, то вносимо бодай невеличку ймовірність розбіжності, що результати, дійсні для вибіркової сукупності, є ідентичними ситуації в загальній сукупності.
- [5] Для чорних і сірих кульок максимальна похибка насправді буде ще меншою ніж 5%, оскільки похибка є максимальною при значеннях, близьких до 50%, і зменшується в міру наближення показників до 0 або 100.
- [6] Зі стислим описом того, як формували репрезентативну вибірку в одному з опитувань Євромайдану, можна ознайомитися в такій публікації у вільному доступі в мережі Інтернет (див. с. 19-20 щодо методики формування вибірки): Паниотто В. Украина. Евромайдан / Владимир Паниотто // Вестник общественного мнения: Данные. Анализ. Дискуссии. — 2013. – № 3-4 (166). – М.: Аналитический Центр Юрия Левады (Левада-Центр); Междисциплинарный академический центр социальных наук (Интерцентр). – С. 17-23. У цій публікації йдеться про опитування 7-8 грудня 2013 року, проведене Київським міжнародним інститутом соціології на замовлення Фонду "Демократичні ініціативи імені Ілька Кучеріва". Аналітичний Центр Юрія Левади (Левада-Центр) – авторитетний російський дослідницький центр; один із небагатьох, які публікували інформацію про Євромайдан, що суперечила версії, пропагованій керівництвом Російської Федерації.