< Попер   ЗМІСТ   Наст >

Невибіркові похибки в обстеженнях підприємств. Обробка не відповідей

Для забезпечення якості вибіркових обстежень не менш важливе значення має попередження і зменшення невибіркових обстежень.

Як уже зазначалося, невибіркові похибки - це похибки, які виникають з причин, що не пов'язані з випадковим відбором одиниць для обстеження, зокрема, через недоліки основи вибірки, наявність не-відповідей, навмисне чи ненавмисне викривлення даних статистиком чи респондентом, невдалі формулювання питань у анкеті та пояснення в інструкції щодо її заповнення, неправильну організацію обстеження, недоліки введення, передання, редагування та кодування даних тощо.

Одними із найбільш поширених видів невибіркових похибок є похибки охоплення та похибки, спричинені відсутніми відповідями. Розрізняють три типи похибок охоплення:

  • - недоохоплення: коли не усі одиниці цільової сукупності присутні в основі вибірки;
  • - надохоплення: коли в основі вибірки є такі одиниці, що не належать до цільової сукупності;
  • - подвійний облік: коли одиниці цільової сукупності представлені в основі два і більше разів.

Недоохоплення є найбільш серйозним типом похибки охоплення, що спричиняє зміщення вибіркових оцінок. Виявити недоохоплення можна, наприклад, виявивши підприємства, яких немає в основі вибірки структурного обстеження, але вони є у фінансовій звітності.

Однією із суттєвих причин виникнення похибок у вибіркових обстеженнях за діяльністю підприємств, а відповідно - розбіжностей між характеристиками їх генеральної та вибіркової сукупностей, є відсутність або неповнота відповідей респондентів. За висновками фахівців [стара 74-76], причинами відсутності відповідей можуть бути:

  • - відмова відповідати;
  • - відсутність контакту з підприємством унаслідок зміни фактичних адреси і номера телефону респондентів;
  • - підприємство ліквідоване або перебуває на стадії ліквідації;
  • - підприємство реорганізоване шляхом приєднання до головного або здало звіт за іншою формою, як структурна одиниця більшого підприємства;
  • - на підприємство поширюється спрощена система оподатковування;
  • - звіт не подано через відсутність бухгалтера чи директора. Причинами неповних відповідей є помилки при зборі первинних статистичних даних або неякісність матеріалу (анкет тощо), недбалість, а також незнання, нездатність або небажання респондентів відповідати на деякі запитання обстеження.

Виправити ситуацію за відсутності відповідей допоможуть такі методичні кроки [74]:

  • - визначення видів відсутніх відповідей підприємств;
  • - класифікація методів опрацювання матеріалів з відсутніми відповідями;
  • - агрегований контроль якості обробки даних за відсутності відповідей респондентів (часткової і повної);
  • - розрахунок похибки оцінки з урахуванням результатів обробки матеріалів з відсутніми відповідями.

Розрізняють два види пропусків даних.

Якщо у бланку анкети відсутні будь-які результати обстеження одиниці спостереження, маємо справу з повною відсутністю відповіді.

Якщо відсутні дані лише за деякими пунктами анкети, - це неповна відповідь. Неповними відповідями вважаються також помилкові і неконкретні відповіді, внесені у бланк анкети через нерозуміння питання, неточності або просто неуважність.

В обох випадках пропуски можуть бути як випадковими, так і невипадковими. Можна припустити, що відсутність відповіді переважно не є випадковою.

У табл. 3.6 наведені зведені дані про причини невідповідей та їх рівні у вибіркових обстеженнях малих підприємств у 2008 році.

Таблиця 3.6. Рівні невідповідей за причинами у вибірковому обстеженні малих підприємств в Україні

Причина

Рівень невідповідей, %

Ліквідовано (або в стадії ліквідації)

3,5

Визнано банкрутом (або відкрито справу щодо визнання банкрутом)

1,6

Не знайдено за наявними адресами в ході проведення статистичного обстеження, при цьому підприємство мало найманих працівників та/або здійснювало реалізацію продукції

6,9

Не знайдено за наявними адресами в ході проведення статистичного обстеження, при цьому підприємство не мало найманих працівників та/або не здійснювало реалізацію продукції

33,7

Не відповідає умовам відбору (фермерське господарство з чисельністю менше 50 осіб, зміна ОПФГ, перетворено на філію або відокремлений підрозділ)

2,0

Категорична відмова звітувати

0,4

Відмова звітувати (призупинена діяльність, новостворене підприємство) та має найманих працівників або здійснювало реалізацію продукції (робіт, послуг)

2,4

Відмова звітувати (призупинена діяльність, новостворене підприємство) та не має найманих працівників або не здійснювало реалізацію продукції (робіт, послуг)

47,2

Інші причини

2,3

Рівні відповідей (аналогічно рівні невідповідей) відповідно бувають такими:

  • - рівень повних відповідей: відношення кількості одиниць, що мають дані за всіма ознаками, до загальної кількості одиниць, що мали обстежуватись;
  • - рівень часткових відповідей: відношення кількості одиниць, для яких дані є принаймні за кількома ознаками, до загальної кількості одиниць, що мали обстежуватись.

Існують три підходи до проблем обробки матеріалів за відсутності відповідей.

Перший підхід - ігнорування пропущених даних. Пропущені значення позначають як "нема відповіді" і роботу проводять тільки з повними даними. Такий підхід застосовують, якщо кількість відсутніх відповідей у файлі даних обстеження незначна.

Другий підхід - обробка пропущених даних на стадії оцінки. Як правило, застосовується до випадків повної відсутності відповідей.

Перший метод - перезваження, може виконуватися на різних рівнях: страта, область, одиниця спостереження. Основна ідея - збільшення ваги тих респондентів, які відповіли, для врахування відсутніх відповідей.

Другий метод - вирівнювання, використовується тільки в тому випадку, коли доступна додаткова (допоміжна) інформація із зовнішніх джерел.

Третій підхід - заповнення пропусків значеннями показників на стадії редагування даних, перед стадією оцінки. Рекомендується застосовувати тоді, коли відповіді є неповними. Однак на практиці буває краще використовувати метод заповнення, ніж перезваження, і за повної відсутності відповідей, особливо якщо існує додаткова інформація.

Методи заповнення пропусків діляться на дві категорії: детермінанти і стохастичні.

Детермінантні методи передбачають внесення точних значень. До них належать:

  • - логічний;
  • - історичний;
  • - заповнення середнім;
  • - заповнення з добором (h-t deck): послідовним, випадковим, найближчого сусіда;
  • - заповнення без добору;
  • - заповнення за регресією і відношенням;
  • - методи багатократного заповнення.

До стохастичних належать методи, у яких значення, що вноситься, може бути визначене з деяким ступенем випадковості:

  • - заповнення методом випадкового добору;
  • - методом випадкового добору в класах;
  • - стохастичне заповнення за регресією.

Методи заповнення можуть бути застосовані до всієї множини даних або незалежно усередині класів, причому класи будуються на підставі змінних, що є однорідними усередині класів.

Окремо можна відзначити метод обробки пропусків на етапі збору даних при обстеженні, що належить до методів заповнення. Він полягає у заміні об'єкта, що не відповів, іншим об'єктом, не внесеним до вибірки. Оскільки ті, хто дає відповіді, можуть систематично відрізнятися від тих, кого не вдається опитати, то одержувану вибірку неправильно розглядати як повну.

При обробці матеріалів за повної відсутності відповідей сукупність підприємств поділяють на три групи:

  • - підприємства, що припинили (призупинили) діяльність або виходять за межі обстеження;
  • - активні підприємства (які провадять діяльність);
  • - підприємства, про становище яких не вдалося одержати достовірної інформації.

Дані підприємств першої групи не відновлюються, а підприємств другої і третьої груп обробляються по-різному (з урахуванням того, що підприємства третьої групи можуть також не провадити економічну діяльність).

Два найпоширеніших методи обробки за повної відсутності відповідей - це: заповнення випадковим добором і перезважування.

Обробляти неповні відповіді технологічно складно, тому, як правило, виокремлюють обмежену кількість ознак (2-5), що становлять основний інтерес для обстеження, стосовно яких ідентифікують і відновлюють неповні відповіді.

Для обробки неповних відповідей доцільно застосовувати детермінантні методи, якщо це можливо. Для цього необхідно або передбачати надлишкову інформацію в банку обстеження, або мати якісну інформацію з інших джерел.

Заповнення з добором (h-t deck) є основним методом при автоматичній обробці неповних відповідей. Також застосовується метод заповнення за регресією. Метод перезважування застосовується рідко, оскільки вимагає розрахунку великої кількості вагових коефіцієнтів.

Загалом у процесі обробки даних вибіркових обстежень виділяють такі етапи:

  • - виправлення індивідуальних даних;
  • - відновлення даних (за відсутності відповідей);
  • - поширення результатів обстеження на всю сукупність. Агрегований контроль - це етап обробки даних, проведений перед етапом екстраполяції, наприкінці індивідуальної обробки даних щодо підприємства. Він здійснюється автоматично і призначений для виявлення нетипових одиниць обстеження (аномалій), їхнього впливу на кінцеві результати, а також для контролю якості обробки відповідей респондентів.

Аналіз грунтується на попередньо визначеному стандарті або критерії, від якого відхиляються деякі параметри певного підприємства.

Результатом роботи є перелік нетипових підприємств, що передається менеджеру обстеження для подальшого виправлення або підтвердження.

 
< Попер   ЗМІСТ   Наст >