Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Сущность корреляционно-регрессионного анализа



 

Корреляционно-регрессионный анализ включает в себя измерение тесноты и направления связи, а также установление аналитического выражения (формы) связи.

Наиболее простым вариантом корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками (результативным и факторным или между двумя факторными). Математически эту зависимость можно выразить как зависимость результативного показателя у от факторного показателя х. Связи могут быть прямые и обратные. В первом случае с увеличением признака х увеличивается и признак у, при обратной связи с увеличением признака х уменьшается признак у.

При изучении связи экономических показателей производства (деятельности) используют различного вида уравнения прямолинейной и криволинейной связи. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, то в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют в линейную форму.

Однако на практике иметь место различные формы связи:

1. Прямолинейная:

2. Криволинейная  в виде:

параболы второго порядка (или высших порядков): ,

гиперболы: .

показательной функции:      и т.д.

Параметры для всех этих уравнений связи, как правило, определяют из системы нормальных уравнений, которые должны отвечать требованию метода наименьших квадратов (МНК):

Если связь выражена параболой второго порядка ( ), то систему нормальных уравнений для отыскания параметров a0 , a1 , a2 (такую связь называют множественной, поскольку она предполагает зависимость более чем двух факторов) можно представть в виде

Итак, уравнение одно факторной (парной) линейной корреляционной связи имеет вид:

где  - теоретические значения результативного признака, полученные по уравнению регрессии;

а0, а1 - коэффициенты (параметры) уравнения регрессии.

Параметры уравнения регрессии (а0 и а1) находятся методом наименьших квадратов на основе решения системы уравнений (линейного):

n ´ a0 + a1 å x = åy

a0 åx + a1 å x2 = åxy

где n – объём выборки.

Эта система решается в общем виде:

или

Правильность расчетных значений , найденных по уравнению  может быть проверена сравнением сумм   (при этом возможно некоторое расхождение вследствие округления расчетов).

Значимость коэффициентов простой линейной регрессии (применительно к совокупностям, у которых n<30 осуществляют с помощью t-критерия Стьюдента. При этом вычисляют расчетные (фактические) значения tкритерия:

- для параметра

- для параметра

 - среднее квадратическое отклонение результативного признака у от выравненньтх значений .

или  – среднее квадратическое отклонение факторного признака х от общей средней .

Вычисленные по формулам  и  значения, сравнивают с критическими t, которые определяют по таблице Стьюдента с учетом принятого уровня значимости  (вероятности, с которой может быть опровергнута гипотеза о том или ином законе распределения) и числом степеней свободы (числоv свободно (неограниченно) варьирующих элементов совокупности , где n - число факторных признаков в уравнении) вариации . В социально-экономических исследованиях уровень значимости  обычно принимают равным 0,05. Параметр признается значимым (существенным) при условии, если tрасч>tтабл. В таком случае практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями.

Проверка адекватности регрессионной модели может быть дополнена корреляционным анализом. для этого необходимо определить тесноту корреляционной связи между переменными х и у. Теснота корреляционной связи, как и любой другой, может быть измерена эмпирическим корреляционным отношением , когда  (межгрупповая дисперсия) характеризует отклонения групповых средних результативного признака от общей средней:

Теоретическое множественное корреляционное отношение, называемое также совокупным индексом корреляции, выражается через дисперсию:

Теоретическое корреляционное отношение применяется дня измерения тесноты связи при линейной и криволинейной зависимостях между результативным и факторным признаком.

Корреляционное отношение может находиться в пределах от 0 до 1, т. е. ( ). Чем ближе корреляционное отношение к 1, тем связь между признаками теснее.

При линейной форме уравнения применяется другой показатель тесноты связи - линейный коэффициент корреляции:

Линейный коэффициент корреляции может принимать любое значение в пределах от –1 до +1. Чем ближе коэффициент корреляции по абсолютному значению к 1, тем теснее взаимосвязь между признаками (табл. 7.1). При |r|=1 зависимость между признаками практически линейная. Знак при линейном коэффициенте корреляции указывает направление связи: знак + означает прямую зависимость, а знак – обратную.

 

 

Таблица 7.1.

Количественные критерии оценки тесноты связи (шкала Чеддока)

Величина коэффициента корреляции r 0,1 – 0,3 0,3 – 0,5 0,5 – 0,7 0,7 – 0,9 0,9 – 1,0
Характеристика силы связи Слабая умеренная заметная высокая весьма высокая

Средняя                Сильная

 

Квадрат линейного коэффициента корреляции r2 называется линейным коэффициентом детерминации. Из определения коэффициента детерминации очевидно, что его числовое значение всегда заключено в пределах от 0 до 1, т. е. 0 ≤ r2 ≤ 1. Степень тесноты связи полностью соответствует теоретическому корреляционному отношению, которое является более универсальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.

Факт совпадений и несовпадений значений теоретического корреляционного отношения и линейного коэффициента корреляции r используется для оценки формы связи.

Для оценки значимости коэффициента корреляции используют t-критерий Стьюдента, который применяется при распределении, отличном от нормального.

Коэффициент корреляции, исчисленный по данным сравнительно небольшой статистической совокупности, может искажаться под действием случайных причин. Поэтому необходима проверка их сущности. Для оценки значимости коэффициента корреляции r применяется t -критерий Стьюдента. При этом определяется фактическое значение критерия tрасч  :

Исчисленное tрасч  сравнивается с критерием tк (критическое значение показателя), которое берется из таблицы значений t-критерия Стьюдента с учетом заданного уровня значения a и числа степеней свободы k. Если tрасч>tк, то величина коэффициента корреляции признается существенной (значимой для принятия решения).

 

7.2. Непараметрические показатели связи. *Ранговые коэффициенты связи

 

В статистической практике могут встречаться такие случаи, когда качества факторных и результативных признаков не могут быть выражены численно. Поэтому для измерения тесноты зависимости необходимо использовать другие показатели. Для этих целей используются так называемые непараметрические методы.

К непараметрическим методам исследования можно отнести коэффициент ассоциации Ка и коэффициент контингенции Кк , которые используются, если, например, необходимо исследовать тесноту зависимости между качественными признаками, каждый из которых представлен в виде альтернативных признаков.

Для определения этих коэффициентов создается расчетная таблица (таблица «четырех полей») (табл. 7.2), где статистическое сказуемое схематически представлено в следующем виде:

Таблица 7.2.

Таблица «четырех полей»

 

Признаки А (да) А (нет) Итого
В (да) a b a + b
В (нет) с d c + d
Итого a + c b + d n

 

Здесь а, b, c, d - частоты взаимного сочетания (комбинации) двух альтернативных признаков ; n - общая сумма частот.

Коэффициент ассоциации можно рассчитать по формуле

Коэффициент контингенции рассчитывается по формуле

Нужно иметь в виду, что для одних и тех же данных коэффициент контингенции (изменяется от -1 до +1) всегда меньше коэффициента ассоциации.

Если необходимо оценить тесноту связи между альтернативными признаками, которые могут принимать любое число вариантов значений, применяется коэффициент взаимной сопряженности ПирсонаП ).

Для исследования такого рода связи первичную статистическую информацию располагают в форме таблицы:

Таблица 7.3.

 

Вспомогательная таблица для расчета коэффициента взаимной сопряженности

 

Признаки A B C Итого
D m11 m12 m13 ∑m1j
E m21 m22 m23 ∑m2j
F m31 m32 m33 ∑m3j
Итого ∑mj1 ∑mj2 ∑mj3 П

 

Здесь mij - частоты взаимного сочетания двух атрибутивных признаков; П - число пар наблюдений.

Коэффициент взаимной сопряженности Пирсона определяется по формуле

где - показатель средней квадратической сопряженности:

 

Коэффициент взаимной сопряженности изменяется от 0 до 1.

Наибольшее распространение имеют ранговые коэффициенты корреляции, в основу которых положен принцип нумерации значений статистического ряда. При использовании коэффициентов корреляции рангов коррелируются не сами значения показателей х и у, а только номера их мест, которые они занимают в каждом ряду значений. В этом случае номер каждой отдельной единицы будет ее рангом.

Непараметрические методы широко применяются в маркетинговх и социологических исследованиях.

 


Поделиться:



Последнее изменение этой страницы: 2019-06-09; Просмотров: 358; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.031 с.)
Главная | Случайная страница | Обратная связь