Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Парная корреляция и регрессия.



В задачах анализа взаимосвязей каждой единице стат. Совокупность ставится в соответствие несколько варьирующих признаков, т.е. на стадии стат. наблюдения для каждой единицы совокупности фиксируется несколько варьирующих признаков.В простейшем случае каждая единица описывается 2 признаками.Такие задачи называются задачами анализа парной корреляции ирегрессии.

Варьирующие признаки, описывающие единицы стат. совокупности

делятся на 2 категории:

- признак результат – y

- фактический признак xi

Связь между признаками может иметь различный характер. В одних случаях значения результата целиком определяется значением факторных признаков. Такие связи называют функциональными; изучаются в статистике при помощи индексного метода.Любая задача анализа взаимосвязей может быть представлена 2связанными между собой и взаимодополняющими этапами.

1. выявление того, как в среднем изменяется признак-результат под влиянием изменений одного или нескольких факторных признаков.

Регрессионный анализ приводит к получению регрессионной модели, количественно связывающей изменение факторного признака и признака-результата.

ŷ x = f(x); ŷ x = a0 + a1x – простая линейная модель регрессии

ŷ x = a0 + a1/x – гипербола

ŷ x = a0 + a1x + a2x2 - парабола

Регрессионные связи м.б. классифицированы на прямые и обратные.Если результат в среднем уменьшается при увеличение фактора– обратная; при уменьшении – прямая. Различают линейные и нелинейные связи.

2. Оценка степени тесноты связи результативного и факторных признаков. Результатом решения этой задачи является вычислениепоказателя, характеризующего тесноту связи. Общее название этих показателей – коэффициент корреляции.

В процессе исследования связей, в зависимости от конкретных условий и целей работы, могут решаться обе подзадачи, либо одна из них.

Корреляционная таблица

На практике часто исследования проводятся по большому числу наблюдений. В этом случае исходные данные удобно представлять в сводной корреляционной таблице.

При этом анализу подвергаются сгруппированные данные по факторному X и по результативному Y признакам, т.е. уравнение парной регрессии целесообразно строить на основе сгруппированных данных.

Если значения признаков X и Y заданы в определенных интервалах (a – b), то для каждого интервала сначала определяют его середину (x´ /y´ = (a+b)/2), а затем уже коррелируют значения и и строят уравнения регрессии между ними.

Корреляционная матрица – симметрическая, полуположительно определенная матрица R из коэффициентов корреляции элементов

k-мерного случайного вектора x с ненулевыми дисперсиями.

Парная корреляционная зависимость – зависимость между двумя признаками, один из которых – признак-результат или зависимая переменная, второй – признак-фактор или независимая переменная

Множественная корреляционная зависимость – зависимость между одним признаком-результатом и двумя и более признаками-факторами

Показатели корреляции называются показателями или характеристиками тесноты корреляционной связи. К этим показателям относятся:

Ø Коэффициент корреляции (парный, множественный и частный).

Ø Коэффициент детерминации (парный, множественный и частный).

Ø Корреляционное отношение (эмпирическое и теоретическое).

Индекс корреляции

Коэффициент корреляции

Исторически первым показателем тесноты связи был парный коэффициент корреляции, предложенный Пирсоном. Он основан на сопоставлении вариации признака-фактора и признака-результата.

cov =

Среднее значение произведения отклонений индивидуальных значений результативного признака от своего среднего называется ковариацией (показатель оценивает совместное изменение двух признаков).

Однако показатель ковариации сложно содержательно комментировать. Нормированное значение показателя ковариации – это парный показатель корреляции Пирсона .

Достоинства коэффициента корреляции: величина изменяется по модулю от нуля до единицы. Близость коэффициента к нулю свидетельствует об отсутствии корреляционной зависимости. Близость к единице – о тесной корреляционной зависимости.

- связь практически отсутствует;

- связь заметная;

- связь умеренная;

- связь заметная.

Парный коэффициент корреляции – симметричный показатель:

Это означает, что высокое значение коэффициента корреляции не подтверждает причинно-следственной связи. Что есть фактор, а что есть результат, не имеет значения. Эта связь устанавливается на основе теоретического анализа изучаемого объекта.

Знак при коэффициенте корреляции означает наличие прямой или обратной зависимости.

Коэффициент детерминации

Необходимость оценки парной зависимости связана с темя, что из множества факторов, определяющих результат, очень часто выделяются доминирующие факторы, то есть оказывающие наибольшее влияние. Иногда целью исследования является изучение влияния одного конкретного фактора.

Чаще на практике изучается множественная корреляционная зависимость, когда изучается влияние двух и более факторов на признак-результат. Теснота связи между комплексом факторов и результативным признаком оценивается с помощью множественного коэффициента корреляции.

 

 

r2 – показатель, который называется коэффициентом детерминации. Он характеризует долю объясненной дисперсии результативного признака, то есть долю факторной дисперсии в общей дисперсии результативного признака.

Множественный коэффициент корреляции изменяется от нуля до единицы. Комментарий конкретных значений множественного коэффициента корреляции аналогичен комментарию значений парногокоэффициента корреляции.

Квадрат множественного коэффициента корреляции R2множественный коэффициент детерминации, который характеризует долю факторной дисперсии результативного признака в общей дисперсии, выражается, как правило, в процентах.

Факторная дисперсия – это дисперсия признака-результата, обусловленная вариацией признаков-факторов, включенных в анализ.

Остаточная дисперсия – это дисперсия признака-результата, обусловленная влиянием факторов, не включенных в анализ.

Общая дисперсия признака-результата обусловлена всеми факторами, влияющими на результат.

Пример:

R2=0.67=67%. Вариация показателя рождаемости в регионах Российской Федерации на 67% обусловлена показателем среднедушевого дохода.

При изучении множественной корреляционной зависимости рассчитывается также частный коэффициент корреляции, характеризующий тесноту связи между одним признаком фактором и признаком-результатом при условии элиминирования влияния других факторов, включенных в анализ.

Корреляционное отношение

Коэффициенты корреляции пригодны в большей для оценки линейной зависимости между изучаемыми признаками. Если связь нелинейная, то следует отдать предпочтение показателю, который называется корреляционное отношение . Оно может быть:

Ø Эмпирическое (т.е. рассчитанное по данным аналитической группировки).

Ø Теоретическое (т.е. рассчитанное по результатам регрессионного анализа).

- эмпирическое

- теоретическое

- выровненное или полученное по уравнению регрессии значение признака-результата у i-ой единицы теоретическое значение признака-результата.

yi – исходные данные.

Корреляционное отношение изменяется также от нуля до единицы и комментируется аналогично коэффициенту корреляции.

Квадрат корреляционного отношения ( )- коэффициент детерминации.

Индекс корреляции

Индекс корреляции рассчитывается по следующей формуле:


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-08-24; Просмотров: 2498; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.023 с.)
Главная | Случайная страница | Обратная связь