Методи визначення кореляційних характеристик
При малому обсязі вибірки визначення статистичних оцінок коефіцієнта кореляції і коефіцієнтів регресії за даними вибірки здійснюється за формулами:
де - в = о-;2,
О* = а*2 і К (х, у) вибіркові дисперсії і кореляційний момент величин х і у.
Приклад. Знайти коефіцієнт кореляції і рівняння регресії за даними вибірки (табл. 6.25).
Таблиця 6.25. Експериментальні показники дослідження
хі |
3,1 |
1,5 |
3,7 |
2,8 |
0,5 |
3,5 |
4,5 |
2,0 |
0,9 |
уі |
1,7 |
1,2 |
3,0 |
2,5 |
0,7 |
2,2 |
2,6 |
1,9 |
1,8 |
Проміжні розрахунки сум для хі, уі, х], у2, хіуі виконані в таблиці 6.26. Вибіркові середні (середні арифметичні) значення х і у:
Таблиця 6.26
Вибіркові дисперсії і кореляційний момент величин х і у:
Значення коефіцієнта кореляції і коефіцієнтів регресії за даними вибірки:
Отже, вибіркові прямі регресії у на х і х на у описуються рівняннями: у - 1,96 = 0,43 (х - 2,50); х - 2,50 = 1,62 (у - 1,96).
Нелінійна кореляція
Якщо лінії регресії не мають вигляд прямих, оцінювання щільності зв'язку за допомогою коефіцієнта кореляції може привести до помилкових висновків. У таких випадках критеріями тісноти зв'язку є показники, котрі характеризують концентрацію дослідних точок навколо кривих регресії.
Сутність цих показників пов'язана з розподілом загальної дисперсії однієї з досліджуваних величин (наприклад, у) на систематичну (ст2(х)) і випадкову (ст^^) складові:
Систематична складова загальної дисперсії величини у є дисперсією умовних математичних очікувань у (х) відносно загального математичного очікування М (у):
Вона характеризує форму кривої регресії і не пов'язана з випадковим характером досліджуваних величин.
Випадковою складовою загальної дисперсії величини у називається дисперсія значень у відносно функції регресії у на х:
Складову можна також охарактеризувати як середню з умовних
дисперсій величини у для всіх можливих значень х. Вона характеризує випадкове розсіювання дослідних точок відносно кривої регресії.
Найбільш поширеним показником щільності зв'язку при нелінійній кореляції є кореляційне відношення т]у, або 77,, запропоноване К.Пірсоном, яке визначається виразами:
де сту(х) і стх(у) - середні квадратичні відхилення, що відповідають систематичній складовій дисперсій сту2 і стх2.
Величина кореляційних відношень завжди лежить у межах між 0 і 1. Якщо т], = 77 , = 1, випадкові складові обох дисперсій агу/ і а, дорівнюють нулю, тобто залежність між у і х є функціональною.
Рівність 77у/ = 0 свідчить про те, що у (х) = М (у) = const, тобто лінія регресії являє собою горизонтальну пряму, яка проходить через точку М (х), М (у). У цьому випадку величини у і х називаються некорельованими.
Значення показників 77, і 77, зазвичай наближені один до одного, але в окремих випадках можуть суттєво відрізнятися.
Співвідношення між коефіцієнтом кореляції rxy і кореляційними відношеннями 77у/, 77 x/ визначаються нерівностями
коли будь-який з показників , 77х/ дорівнюватиме нулю, то й гху = 0.
Наближеність величин 77, і 77, до коефіцієнта кореляції гху свідчить про те, що кореляція наближено може вважатися лінійною.
Вирази для вибіркових значень кореляційного відношення 77х/, г] ,, мають вигляд, подібний до:
У частковому випадку, коли кожному із значень хі відповідає ряд значень у, вибіркове значення ст^2х) систематичної складової дисперсії величини у знаходиться за формулою
Так само для випадку, коли кожному із значень уі відповідає ряд значень х:
У загальному випадку:
де сумування виконується за всіма п парами спостережень, а умовні середні у (х) і х (у) знаходяться для кожної точки як одинати (або абсциси) ліній регресії, що вираховуються за методом найменших квадратів.
Приклад. Знайти кореляційне відношення -ц^ між величинами експериментальними у і х за даними вибірки (табл. 6.27).
Таблиця 6.27. Експериментальні показники дослідження
Умовні середні значення у:
Загальне середнє значення у:
Систематична складова загальної дисперсії величини у за формулою (6.85) дорівнює:
Загальна вибіркова дисперсія величини у:
Кореляційне відношення за формулою (6.83) дорівнює:
З розрахунку видно, що між величинами у і х існує досить тісна кореляційна залежність.