корелация

Какво е корелация:

Корелацията означава сходство или връзка между две неща, хора или идеи . Това е сходство или еквивалентност, която съществува между две различни хипотези, ситуации или обекти.

В областта на статистиката и математиката корелацията се отнася до мярка между две или повече свързани променливи.

Терминът корелация е женствено съществително, което произхожда от латинската корелация.

Корелацията на думата може да бъде заменена със синоними като: отношение, уравнение, връзка, кореспонденция, аналогия и връзка.

Коефициент на корелация

В статистиката коефициентът на корелация на Пиърсън (r), който също се нарича коефициент на корелация на продукта-момент, измерва връзката между две променливи в една и съща метрична скала.

Функцията на корелационния коефициент е да се определи интензивността на връзката, която съществува между известните набори от данни или информация.

Стойността на коефициента на корелация може да варира между -1 и 1 и полученият резултат определя дали корелацията е отрицателна или положителна.

За да се интерпретира коефициента е необходимо да се знае, че 1 означава, че корелацията между променливите е перфектна положителна и -1 означава, че е перфектно отрицателна . Ако коефициентът е равен на 0, това означава, че променливите не зависят един от друг.

В статистиката има и коефициент на корелация на Spearman, който носи това име в чест на статистикът Чарлз Спиърмън. Функцията на този коефициент е да се измери интензивността на връзката между две променливи, независимо дали те са линейни или не.

Корелацията на Спирмън служи за оценка дали интензивността на връзката между двете анализирани променливи може да бъде измерена чрез монотонна функция (математическа функция, която запазва или инвертира първоначалната връзка на поръчката).

Изчисляване на корелационния коефициент на Пиърсън

Метод 1) Изчисляване на корелационния коефициент на Пиърсън при използване на ковариация и стандартно отклонение.

където

S XY е ковариантност;

S x и S y представляват съответно стандартното отклонение на променливите x и y.

В този случай изчислението включва първо откриване на ковариацията между променливите и стандартното отклонение на всяка от тях. Тогава ковариацията се дели на умножението на стандартните отклонения.

Често изявлението вече дава или стандартните отклонения на променливите, или ковариацията между тях, само чрез прилагане на формулата.

Метод 2) Изчисляване на корелационния коефициент на Pearson със сурови данни (без ковариация или стандартно отклонение).

С този метод най-пряката формула е както следва:

Например, ако приемем, че имаме данни с n = 6 наблюдения на две променливи: ниво на глюкозата (y) и възраст (x), изчислението следва следните стъпки:

Стъпка 1) Създайте таблицата със съществуващите данни: i, x, y и добавете празни колони за xy, x² и y²:

Стъпка 2: Умножете x и y, за да попълните колоната "xy". Например в ред 1 ще имаме: x1y1 = 43 × 99 = 4257.

Стъпка 3: Повишаване на стойностите на колона x и записване на резултатите в колона x². Например, в първия ред ще имаме x 1 2 = 43 × 43 = 1849.

Стъпка 4: Направете същото като в стъпка 3, сега използвайки y колоната и запишете квадрата на вашите стойности в y² колоната. Например, в първия ред ще имаме: y 1 2 = 99 × 99 = 9801.

Стъпка 5: Получете сумата от всички номера на колони и поставете резултата в долния колонтитул на колоната. Например, сумата на колоната Age X е равна на 43 + 21 + 25 + 42 + 57 + 59 = 247.

Стъпка 6: Използвайте горната формула, за да получите коефициента на корелация:

Така имаме:

Коефициент на корелация на Spearman

Изчисляването на коефициента на корелация на Спирман е малко по-различно. За тази цел трябва да организираме данните си в следната таблица:

1. След като обявихме 2 чифта данни, трябва да ги въведем в таблицата. Например:

2. В колона "Класиране А" ще класифицираме наблюденията, които са в "Дата А" по нарастващ начин, като "1" е най-ниската стойност в колоната, en (общ брой наблюдения), най-високата стойност в колона "Дата А" ". В нашия пример това е:

3. Ние правим същото, за да получим колона "Класиране Б", като сега използваме наблюденията в колона "Данни Б":

4. В колона "d" поставяме разликата между двата класирания (A - B). Тук сигналът няма значение.

5. Повдигнете всяка от стойностите в колона "d" и запишете в колона d²:

6. Добавете всички данни от колона "d²". Тази стойност е Σd². В нашия пример Σd² = 0 + 1 + 0 + 1 = 2

7. Сега използваме формулата на Spearman:

В нашия случай n е равно на 4, като разглеждаме броя редове от данни (което съответства на броя на наблюденията).

8. Накрая, заместваме данните в предишната формула:

Линейна регресия

Линейната регресия е формула, използвана за оценка на възможната стойност на променлива (y), когато са известни стойностите на други променливи (x). Стойността на "x" е независимата или обяснителна променлива и "y" е зависимата променлива или отговор.

Линейната регресия се използва, за да се провери как стойността на "y" може да варира като функция на променлива "x". Линията, съдържаща стойностите на проверката на вариацията, се нарича линейна регресионна линия.

Ако обяснителната променлива "x" има единична стойност, регресията ще се нарича проста линейна регресия .