< Попер   ЗМІСТ   Наст >

Надійність тестів, її обчислення

Психологічний тест можна вважати ефективним за його відповідності таким основним умовам: застосування шкали інтервалів, надійність, валідність, дискриміна-тивність, наявність нормативних даних та їх стандарти-зованість. Надійність як один із основних критеріїв забезпечує незалежність результатів тестів від дії випадкових факторів. Результат вимірювання безпосередньо залежить від стабільності вимірюваної ознаки. Якщо ознака лабільна (змінювана), наприклад настрій, то результат вимірювання її не може бути настільки ж точним, як результат вимірювання стабільної ознаки, наприклад знання орфографії. Надійність - характеристика методики, що відображає точність психодіагностичних вимірів, а також стійкість результатів тесту до дії сторонніх факторів. У широкому розумінні вона засвідчує, наскільки виявлені у досліджуваного ознаки за тестовими результатами є відображенням дійсних ознак вимірюваних властивостей і наскільки на тестові результати впливають випадкові фактори. У вузькому (методичному) розумінні надійність є мірою узгодженості результатів тесту, отриманих під час першого і повторного застосування, в одних і тих самих досліджуваних у різний час за допомогою різних, але однакових за характером, наборів тестових завдань або за інших змін умов дослідження.

Ступінь надійності вимірювання визначають за допомогою коефіцієнта надійності ( коефіцієнта реліабільності) - кореляційного коефіцієнта, що показує відповідність результатів вимірювань, зроблених за однакових умов однією особою (тобто,у який спосіб відтворені результати вимірювання).

Надійність характеризує точність вимірювання, констатує, наскільки правильні дані тестування. Якщо на етапі перевірки якості тесту досліджувані одержують оцінки, які відрізняються від попередніх, це свідчить про ненадійність тесту. Недостатню надійність тестів можуть спричинити:

  • - несприйняття умов тестування (зміни поведінки досліджуваних, наявність додаткових перешкод, присутність сторонніх осіб, незадовільні освітленість приміщення, температура повітря тощо);
  • - недосконалість тесту (нечіткість інструкцій, принципова різнорідність завдань, можливість суб'єктивізму при інтерпретації виконань тощо);
  • - внутрішні стани досліджуваних (утома, роздратування, апатія, нервозність та ін.) та їхнє ставлення до тестування;
  • - інформаційно-соціальні обставини (різна динаміка у встановленні контакту з особою, яка проводить тестування);
  • - досвід роботи з цим тестом, ставлення до тестування загалом.

Дослідник повинен докласти максимальних зусиль, щоб усунути вплив негативних факторів. Кількісно надійність тесту виражають за допомогою коефіцієнтів надійності. Процедура обчислення значень цих коефіцієнтів вимагає встановлення кореляції рангів усіх членів вибірки, стосовно яких тест перевіряють перед упровадженням у психодіагностичну практику. Величина коефіцієнта надійності тим більша, чим стабільніше місце (ранг) досліджуваних стосовно всіх інших рангів у вибірці.

Кожен результат вимірювання містить "істинну" і "спотворену" частини, співвідношення яких при конструюванні тестів оцінюють за допомогою повторного тестування, поділу навпіл, розщеплення рівнобіжного тестування.

Метод повторного тестування (ретестування) дає змогу обробити завдання, розв'язані одними і тими самими досліджуваними у різний час, визначити взаємозв'язок результатів, виражений у коефіцієнті надійності. Ре-тестова надійність обчислюється відповідно до результатів першого чи другого обстеження зі збереженням рангових місць досліджуваних у вибірці при ретестуванні. Коефіцієнт надійності дорівнює коефіцієнту кореляції між результатами таких обстежень. При використанні інтервальних шкал застосовують коефіцієнт кореляції добутку моментів Пірсона. Для шкал порядку міри стійкості до перетестування визначають за допомогою коефіцієнта рангової кореляції Спірмена або Кендалла. Метод повторного тестування рідко застосовують для вимірювання успішності, тому що при повторному тестуванні слід брати до уваги ефект тренування, що виявляється тим помітніше, чим легше запам'ятовується завдання і коротший проміжок часу між першим і другим обробленням отриманих даних. У великому часовому проміжку велика ймовірність зміни досліджуваної якості. Ретестова надійність дає змогу встановити ступінь незалежності результатів тестування від різних впливів.

Коефіцієнт ретестової надійності повинен бути не нижчим за 0,80. Якщо він не досягає цього показника, точність виміру є недостатньою, а процедура тестування потребує додаткової стандартизації.

Збільшення часового інтервалу між першим і другим обстеженнями зумовлює тенденцію до зниження показників кореляції внаслідок впливу таких факторів, як вікові зміни вимірюваних тестом властивостей, події, що змінюють стан і особливості розвитку досліджуваних якостей. Тому при визначенні ретестової надійності обирають нетривалі часові інтервали (до декількох місяців), а при обстеженні дітей молодшого віку - ще менші, оскільки вікові зміни і їх розвиток відбуваються швидше.

Повторні дослідження з тривалим часовим проміжком іноді здійснюють для оцінювання прогностичної валідності, елементів конструктивної валідності, пов'язаних з диференціацією за віковим критерієм. Визначення ретестової надійності за таких обставин обмежується аналізом короткострокових випадкових змін, що характеризують тест як вимірювальну процедуру.

Недоліками методу повторного тестування є формування у досліджуваних навичок роботи з певною методикою; запам'ятовування і відтворення ними у повторному обстеженні правильних і неправильних відповідей.

Для усунення сторонніх впливів на оцінку ретестової надійності дослідник, з огляду на суттєвість і цілі застосовуваної методики, може змінювати часовий інтервал, формувати стійкі навички у досліджуваних перед проведенням ретестування. Однак всі його зусилля повинні ґрунтуватися на дотриманні наукових методик. Через певний інтервал часу випадкові коливання результатів обстеження будуть виражені менше. Ця закономірність зумовлює проведення вимірювань у різних вікових групах досліджуваних, що особливо притаманне методикам, призначеним для обстеження у широкому віковому діапазоні (наприклад, "Шкала розумового розвитку Станфорда - Біне", "Шкала виміру інтелекту Векслера"). Показники ретестової надійності у представників старших вікових груп вищі.

Метод визначення надійності шляхом ретестування придатний для перевірки сенсомоторних проб, тестів швидкості та інших методик, що мають велику кількість пунктів (наприклад, "Мінесотський багатоаспектний особистісний опитувальник").

Метод поділу навпіл передбачає поділ одноразово виконаних завдань. Наприклад, завдання з парними та непарними номерами обробляють окремо або здійснюють їх поділ на основі іншого принципу. Після поділу навпіл визначають взаємозв'язок отриманих результатів, а далі одержують інформацію про надійність методу вимірювання.

Цей метод дає змогу охарактеризувати ступінь однорідності (гомогенності) усіх завдань тесту, що засвідчує повноту відображення в ньому певного психічного феномену. Усі завдання тесту повинні бути взаємоузгоджені, несуперечливі та односпрямовані.

Тест є надійним, якщо отриманий при зіставленні коефіцієнт перевищує 0,75, якщо ні - укладач повинен переробити чи вилучити завдання.

Метод розщеплення полягає у виконанні досліджуваним завдань двох рівнозначних частин тесту. За нормального або наближеного до нормального розподілу оцінок у тесті розв'язання випадкового набору завдань з різних частин тесту утворює аналогічний розподіл (за однорідності завдань тесту).

Для оцінювання надійності методом розщеплення вибирають дві еквівалентні за характером і ступенем труднощів групи завдань. Поділ їх на рівні частини здійснюють через поділ на парні і непарні (якщо завдання у тесті ранговані за ступенем суб'єктивних труднощів) або поділ пунктів за принципом наближеності чи рівності значень індексів труднощів і дискримінативності.

Метод рівнобіжного тестування передбачає розроблення укладачем кількох взаємозамінних наборів завдань, які за змістом подібні, але не ідентичні, і нагадують варіанти завдань шкільної контрольної роботи. Для застосування цього методу необхідні два різні набори завдань, які виконують безпосередньо один за одним у зручний час. Ефект запам'ятовування не виникає, тому що актуальна постановка завдань у кожному наборі інша. Взаємозв'язок результатів першого і другого наборів завдань виражають за допомогою коефіцієнта надійності, який встановлюється методом кореляційного аналізу результатів обох тестувань. Величина коефіцієнта не повинна бути меншою від 0,75. У протилежному разі виникає необхідність перевірки ступеня стандартизованості іспиту і зміни змісту тих завдань, що не відповідають аналогам.

 
< Попер   ЗМІСТ   Наст >