Теремко Соціологія (2001)

Коефіцієнти зв’язку між двома ознаками. Кореляційний і регресійний аналіз.

Одним із важливих завдань аналізу даних є пошук та оцінка взаємозв'язків між окремими ознаками для певної сукупності об'єктів. Вирішувати цю проблему починають з побудови кореляційних таблиць (їх ще називають таблицями спряженості двох ознак, двомірними таблицями). Вони дають змогу впорядковувати інформацію про розподіл сукупності об'єктів за двома ознаками. Такі таблиці мають прямокутну форму. Кількість рядків у них дорівнює кількості можливих значень однієї ознаки, а кількість стовпчиків — кількості можливих значень другої ознаки. В наведеній нижче таблиці в клітинці на перетині другого рядка і третього стовпчика знаходиться число 42 (в центрі клітинки) — кількість робітниць (значення ознаки «Стать» — «жіноча»), що не задоволені умовами праці (значення ознаки «Задоволеність умовами праці» — «не задоволений»).

Задовол . Не зовсім задовол. Не задовол. Всього

Чол. 18.40% 75,94% 5.66%

39 161 12 212

86.67% 64.66% 22.22% 60.92%

Жін. 4.41% 64.71% 30.88%

6 88 42 136

13.33% 35.34% 77.78% 39.08%

Всього 45 249 54

12.93% 71.55% 15.52%

Крім того, двомірна таблиця, як правило, містить ще один додатковий стовпчик і ще один додатковий рядок — так звані маргінальні стовпчик та рядок. У таблиці маргінали помічені словом «Всього». Кожна клітинка маргінального стовпчика містить суму чисел відповідного рядка, тобто кількість об'єктів, що мають відповідне значення першої ознаки (незалежно від того, якого значення для цих об'єктів набуває друга ознака), а також відсоток, який становить це число відносно загальної кількості об'єктів. Так, з маргінального стовпчика

таблиці бачимо, що на підприємстві працює 136 жінок (39,08% від загальної кількості працюючих). Маргінальний рядок містить відповідні суми стовпчиків таблиці.

У кожній клітинці таблиці, як правило, записують відсоток, відносно відповідного значення в маргінальному стовпчику (цей відсоток записують вище від самого числа) та відсоток відносно відповідного значення в маргінальному рядку (записують нижче від числа). Якщо знову повернутися до клітинки в другому рядку третього стовпчика таблиці, побачимо, що кількість не задоволених умовами праці жінок (таких на підприємстві 42) становить 30,88 % від загальної кількості жінок (всього на підприємстві 136 жінок) та 77,78 % від загальної кількості незадоволених умовами праці (всього умовами праці на підприємстві не задоволені 54 працівники).

Числа в таблиці свідчать, що серед жінок відсоток незадоволених умовами праці на підприємстві значно вищий, ніж серед чоловіків. Отже, є підстави для гіпотези, що стать працівника та його задоволеність умовами праці взаємопов'язані, Вміння читати двовимірні таблиці приходить неодра-Зу — потрібна практика. Нелегко знаходити закономірності в досить великих за розміром таблицях. Крім того, далеко не завжди явно простежується зв'язок між ознаками. Тому на практиці наявність зв'язку між двома ознаками встановлюють за допомогою так званого критерію х2, який базується на аналізі частот, записаних в клітинках таблиці, і дає змогу робити висновки про те, чи можна висувати й аналізувати гіпотезу про наявність зв'язку між двома ознаками.

Застосовуючи зазначений критерій, необхідно обчислити коефіцієнт Хі-квадрат за формулою (формула залежить від частот в клітинках таблиці та маргінальних частот), а одержане значення порівняти з табличним (критичним). При цьому слід мати на увазі певний рівень значущості (ймовірність прийняття хибного рішення) — в соціології, як правило, 0,05 або 0,01. Крім того, табличне значення залежить від кількості ступенів свободи, що визначають за кількістю рядків та стовпчиків таблиці. Отже, для заданого рівня значущості та кількості ступенів свободи необхідно знайти в таблиці критичне значення і порівняти його з обчисленим. Якщо обчислене значення більше від критичного, то факт існування зв'язку можна вважати встановленим. Силу зв'язку можна оцінити обчисленням та аналізом коефіцієнтів спряженості (Пірсона, Чупрова, Крамера). Значення цих коефіцієнтів знаходяться в інтервалі від нуля до одиниці та мають такий зміст: чим ближче значення до одиниці, тим тісніший зв'язок. Якщо обидві ознаки, між якими вивчають зв'язок, мають лише по

два значення (тобто фіксують наявність або відсутність даної ознаки в об'єкта), то для таких «чотирьохклітинкових» таблиць обчислюють коефіцієнти асоціації та контингенцїі.

Якщо певному значенню однієї величини відповідає сукупність значень другої, то між цими двома величинами існує кореляційний зв'язок. Він зустрічається тоді, коли на досліджуване явище впливає не один, а багато факторів. Наприклад, стаж впливає на продуктивність праці, але не остаточно визначає її, бо залежить і від рівня освіти, віку, кваліфікації працівника та інших факторів. Оскільки явища суспільного життя складні та багатофакторні, зв'язок між ознаками в соціології практично завжди кореляційний.

Якщо кожному значенню однієї ознаки відповідає сукупність значень другої ознаки, близько розміщених коло свого середнього значення (тобто всі значення сукупності не дуже відрізняються від свого середнього арифметичного), то такий кореляційний зв'язок вважають сильнішим. Кількісно сила кореляційного зв'язку оцінюють за допомогою коефіцієнтів кореляції.

Для кількісних ознак часто використовують коефіцієнт Пірсона (ч), що оцінює силу зв'язку за лінійної кореляції (тобто в припущенні, що значення однієї ознаки пов'язані з відповідними середніми другої ознаки лінійною залежністю). Всі значення коефіцієнта кореляції Пірсона належать інтервалу від —1 до 1. Знак коефіцієнта показує «напрямок» зв'язку: додатне значення свідчить про «прямий» зв'язок (зростання однієї ознаки зумовлює зростання другої ознаки), від'ємне значення — про «зворотний» зв'язок, а значення «О» — про відсутність лінійного кореляційного зв'язку. Наприклад, зв'язок між заробітною платою робітника та кількістю виготовлених ним деталей — прямий, а між заробітною платою та кількістю бракованих деталей — зворотний.

При ч=1 або ч=1 маємо функціональний зв'язок між ознаками (тобто кожному значенню однієї ознаки відповідає одне значення другої ознаки і ці значення пов'язані лінійною залежністю). Отже, чим далі значення коефіцієнта Пірсона від нуля (чим більша його абсолютна величина), тим тісніший лінійний кореляційний зв'язок існує між ознаками. Але якщо ч=0, то це означає відсутність лише лінійного зв'язку, а не відсутність зв'язку між ознаками взагалі, зв'язок може існувати, але нелінійний. Для оцінювання сили нелінійного зв'язку використовують кореляційне відношення, що набуває значення між 0 та 1 (0 означає відсутність зв'язку, а 1 — функціональний зв'язок).

Для ознак, заданих в порядкових шкалах, обчислюють рангові коефіцієнти кореляції (Спірмена та Кендела), які також набувають значення між —1 та 1 й інтерпретуються так само, як і коефіцієнт кореляції Пірсона.

Якщо встановлено кореляцію між двома ознаками, то це не означає, що визначено причинний зв'язок між ними, а лише те, що одна з ознак частково спричинила іншу чи обидві ознаки і є наслідком деяких спільних для них причин. Зауважимо, що кількісна оцінка кореляційних зв'язків не може замінити спеціальних знань, але може допомогти дослідникові відкинути несуттєві зв'язки, чіткіше окреслити напрям пошуків, порівняти вплив різних факторів тощо. Крім того, коефіцієнти часткової кореляції дають змогу оцінити зв'язок між двома ознаками, усуваючи вплив однієї або декількох інших ознак. Якщо після усунення впливу третьої ознаки коефіцієнт кореляції між двома ознаками збільшується, то третя ознака ослаблює зв'язок, а якщо зменшується, то саме ця третя ознака певною мірою спричиняє наявність цього зв'язку (тобто зв'язок, можливо, є лише наслідком впливу цієї третьої ознаки). Обчислити коефіцієнти часткової кореляції досить складно через коефіцієнти кореляції Пірсона. Обсяг обчислень зростає з кількістю тих ознак, вплив яких бажають усунути. Силу спільного зв'язку сукупності ознак дає змогу оцінити коефіцієнт множинної кореляції.

Методи регресійного аналізу дають змогу не тільки оцінити силу зв'язку між двома ознаками, а й встановити вид цього зв'язку у вигляді рівняння (рівняння регресії), що описує залежність між середнім значенням однієї ознаки (залежної, поведінку якої вивчають) та значеннями певної сукупності ознак (незалежних, вплив яких на залежну ознаку намагаються оцінити). В соціологічних дослідженнях, як правило, відбувається пошук такої залежності у лінійному вигляді (у вигляді лінійного рівняння), тому йдеться про рівняння багатовимірної (множинної) лінійної регресії.

Знання залежності у вигляді рівняння дає змогу не тільки пояснювати поведінку залежної ознаки, а й прогнозувати її значення за різних змін значень незалежних ознак. Наприклад, на основі аналізу факторів, що впливають на рівень заробітної плати на підприємстві, було побудовано рівняння лінійної регресії:

у=4,27 ХІ-1,83х2-9,20

Воно описує зв'язок між заробітною платою у (залежна ознака, вимірюється в гривнях і двома такими незалежними ознаками, як стаж х( (вимірюється в роках) та освітній рівень х2 (вимірюється в роках) працівника. Аналіз цього рівняння

наводить на думку, що зростання трудового стажу працівника на один рік зумовлює зростання його середньої заробітної платні на 4,27 грн., а зростання освітнього рівня на один рік — зростання середньої заробітної плати лише на 1,83 грн. Отже, на даному підприємстві трудовий стаж значно більше впливає на середню заробітну плату працівника, ніж його освітній рівень. Якість рівняння регресії (наскільки точно рівняння регресії описує зв'язок між ознаками) оцінюють коефіцієнтом множинної кореляції.

Суттєвим для одержання надійних, статистичне обґрунтованих результатів є оцінка значущості статистичних показників. Це цілий комплекс математичних процедур, що дають змогу відповісти на низку питань щодо розрахованих статистичних показників та параметрів вибіркової сукупності. Так, обчисливши коефіцієнт кореляції між двома ознаками та одержавши число, що не дорівнює нулю, цілком логічно постає питання, чи справді цей коефіцієнт суттєво відрізняється від нуля (а отже, фіксує наявність лінійного кореляційного зв'язку), чи ця різниця випадкова і спричинена лише похибкою нашої вибірки. На таке питання можна дати відповідь, оцінивши значущість відмінності коефіцієнта кореляції від нуля, звернувши особливу увагу на обсяг вибірки та рівень значущості (ймовірність прийняття хибного рішення). Ця процедура така ж, як і процедура застосування критерію х2 і дає змогу обчислити за певною формулою критерій, а одержане значення порівнюється з табличним. На основі результатів порівняння і робиться висновок.

Крім оцінки значущості відмінності від нуля коефіцієнта кореляції між двома ознаками, часто застосовують і процедури оцінки значущості різниці між двома відсотками ( наприклад, різниці між відсотками незадоволених умовами праці на даному підприємстві серед жінок та чоловіків), різниці між двома середніми (між середньою заробітною платою на одному й на іншому підприємствах), двох коефіцієнтів кореляції. Для кожної такої задачі існують формула обчислення критерію та статистичні таблиці, якими користуються для порівняння.