Корреляционно-регрессионный анализ. Метод корреляции рангов. Измерение тесноты и проверка существенности связи.

⇐ ПредыдущаяСтр 32 из 51Следующая ⇒

Коэффициент корреляции рангов (Спирмана): , где d-разница рангов по 2ум признакам; , - ранг (порядковый номер в ряду); n-количество рангов (уровней ряда).

Для расчета, r, х, у нумеруются по отдельности в порядке возрастания или убывания, т. е. им присваивает определенный ранг . Если встречается несколько одинаковых значений x и y, то каждому значению присваивается средний ранг.

, связь тесная; , связь слабая; вблизи 1 и 0, дает недостоверный результат.

Корреляционно-регрессионный анализ – это комплекс методов статистического измерения взаимосвязей, основанный на регрессионной модели.

Теоретическая линия регрессии – линия, вокруг которой группируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи.

Этапы КРА:

1). Теоретическое обоснование регрессионной модели. Решаются задачи: выбор факторных признаков (качественный анализ); выбор формы уравнения регрессии.

2). Оценка параметров уравнения регрессии. Зависимость может быть прямой (корреляция «+») и обратной (корреляция «-»). В зависимости от характера изменения у(х), связи могут быть линейными и нелинейными. Выравнивание по прямой: найти уравнение связи, значит, найти параметры уравнения.

, а, b=?

По МНК строим си уравнений: . Решаем, определяем а, b.

Коэффициент эластичности показывает, на сколько % изменится y при изменении x на 1%: .

Рассеивание точек корреляционного поля может быть очень велико и, следовательно, вычисленное уравнение регрессии может давать большую погрешность. Вычисление сред. ошибки уравнения регрессии в целом и по каждому его параметру:

- среднеквадратическая ошибка уравнения регрессии: -число значений, -количество параметров уравнения.

Оценить величину ср. квадратической ошибки можно сопоставлением ее: со сред. значением результативного признака у; со сред. квадратическим отклонением признака у: если , то использование данного уравнения целесообразно.

- среднеквадратическая ошибка параметров уравнения: ; .

3). Измерение тесноты связи основано на правиле сложения дисперсий.

Общая дисперсия, измеряющая общую вариацию за счет действия всех факторов:

Факторная (теоретическая) дисперсия измеряет вариацию у за счет действия факторного признака: .

Ее удобно определять:

Остаточная дисперсия характеризует вариацию у за счет всех факторов, кроме х:

Коэффициент детерминации: доля теоретической дисперсии в общей, характеризует не всю вариацию у(х), а лишь ту ее часть, которая соответствует линейному уравнению регрессии, т. е. показывает удельный вес вариации результативного признака линейно связанной вариации с вариацией факторного признака:

Индекс корреляции (теоретическое корреляционное отношение) характеризует тесноту связи: . , связь отсутствует; , связь тесная.

Линейный коэффициент корреляции показывает не только тесноту, но и направление связи, но применим только для прямой линии:

4). Проверка существенности связи:

. связь существенна (не случайна)

.В регрессионной модели, как и в аналитической группировке, все эти вычисления при малом объеме выборке корректны, если признак имеет распределение, близкое к нормальному.

Метод главных компонент

Метод главных компонент.

Дает возм-ть по m исходным признакам выделить m главных компонент. При этом пространство глав. компонент ортогонально(оси перпендикулярны). Предположив линейную форму связи, получаем ур-е F=X∙ B, где В-вектор параметрических значений лин-го ур-я связи. С исп-ем метода множителей Лагранжа получим характеристическое ур-е для поиска собственных знач-й λ j. |S-λ ∙ E|=0. Из мн-ва знач-й λ j относительно первого наибольшего знач-я λ 1 находим вектор В1 знач-й первой главной компоненты F1. Для второго по величине λ 2- вектор знач-й В2 для компонента F2… Для λ m находим вектор Вm знач-й для главной компоненты Fm. Т.о. Вj- это вектор величин, представляющих координаты главных компонент Fr в пространстве признаков R^m_x (m-размерность, x-признаки). Векторы Вj также характеризуют силу связи главной компоненты и j-го признака. Если матрицу знач-й исходных признаков Х(n× m) стандартизировать, то получим матрицу стандартизированных знач-й признаков Z(n× m), элементы которой Zij=(xij-xj¯ )/σ ij. [n-число набл-й, m-число признаков, r-число латентных признаков]. Из Z нах-ся матрица парных корреляций R(m× m)=(1/n)∙ Z’∙ Z. Алгоритм метода гл. компонент: X→ Z→ R→ U→ V → A→ F или X → S→ /\→ A→ F. S -матрица ковариации. Рекуррентные соотношения Фадеева для нах-я собственных чисел: 1) A1=R, P1=tr(A1)-сумма эл-в гл. диагоналей R, B1=A1-P1∙ E. 2) A2=R∙ B1, P2=1/2tr(A2), B2=A2-P2∙ E. m) Am=R∙ Bm-1, Pm=1/mtr(Am), Bm=Am-Pm∙ E. Опр-ль |R|=Pm. Составляем характеристическое ур-е: λ ^m-P₁λ ^m^-1-P₂λ ^m^-2-…-P_m=0, корнями которого яв-ся λ _{1, 2, …}_m. В матричное ур-е |R- λ E|∙ U=0 подставляем λ _{1, 2, …}_m и получаем однородную с-му ур-й, которая имеет мн-во решений. Выбираем одно удобное решение.и получаем матрицу U. Далее находим матрицу V след. образом V=Uj / |Uj|, где . Рез-ты применения мет. гл. компонент представляются данными матрицы отображения А. A=V∙ /\^1/2, (-1≤ aij≤ 1), .

Возможна итоговая запись зависимости знач-й исх. признаков от знач-й гл. компонент: Z=A∙ F’ или Zij=a_j₁∙ f₁_i+a_j₂∙ f₂_i++a_jm∙ f_mi, либо знач-й гл. компонент от знач-й элементарных признаков: F=A^-1∙ Z’ или f_ri=1/λ _r∙ (a₁_r∙ z_i₁+a₂_r∙ z_i₂++a_mr∙ z_im).

n₁ n₂ … n_n

F₁f₁₁ f₁₂…f₁_n

F= F₂ f₂₁ f₂₂…f₂_n

F_m f_m₁ f_m₂…f_mn

(n-объекты, F-компоненты).

Аналитические выводы по рез-м расчетов и опр-е названий главным компонентам дается после нах-я матрицы F.

Оценка уровня информативности и поиск названий главных компонент. Задачу распознавания главных компонент и опр-я для них названий решают субъективно на основе весовых коэф-в a_ir из матрицы отображения А. Для каждой главной компоненты Fr мн-во знач-й a_ir разбивается на 4 мн-ва: W1- подмн-во незначимых весовых коэф-в; W2- подмн-во значимых весовых коэф-в; W3- подмн-во значимых весовых коэф-в, не участвующих в формировании названия главной компоненты Fr; W4=W2-W3- подмн-во знач-й весовых коэфф-в, участвующих в формировании названия главной компоненты Fr.

а крит1 берется равным наибольшему знач-ю W1. а крит.2- граничное знач-е между W3 и W2-W3, берется равным наименьшему знач-ю мн-ва W2-W3. Подтверждение значимости признаков xj (zj), участвующих в формировании названия главной компоненты, можно получить с помощью коэф-та информативности

Набор объясняющих признаков считается приемлемым, если знач-е Ku≥ 75%. Отрицательные знаки весовых коэф-в матрицы А могут существенно затруднить выводы и выбор названий гл. компонент. Нелогичность знаков весовых коэф-в, нечеткая стр-ра гл. компонент, когда все весовые коэф-ты имеют близкие по величине знач-я, становятся причиной затруднительной интерпретируемости гл. компонент. Эта проблема реш-ся удалением из анализа мало значимых гл. компонент или поворотом пространства гл. компонент.

Метод главных факторов.

Алгоритм метода гл. факторов: матрица исх. данных X(n× m)→ матрица стандартизированных знач-й признаков Z(n× m)→ матрица корреляции R(m× m) или матрица ковариации S(m× m)→ редуцированная матрица корреляций или ковариаций Rh (m× m) → матрица факторного отображения А(m× r)→ матрица факторного отображения после поворота W(m× r)- может отсутствовать→ матрица знач-й факторов F(n× r), т.о. опр-ся полож-е n наблюдаемых объектов в пространстве R^r_F c r числом факторных осей. [n-число набл-й, m-число признаков, r-число латентных признаков]. Если матрицу знач-й исходных признаков Х стандартизировать, то получим матрицу стандартизированных знач-й признаков Z, элементы которой Zij=(xij-xj¯ )/σ ij. Из Z нах-ся матрица парных корреляций R(m× m)=(1/n)∙ Z’∙ Z. Метод гл. факторов яв-ся развитием метода гл. компонент. Осн. отличие заключ-ся в исп-ии редуцированной корреляционной матрицы Rh, на главной диагонали которой расположены не единицы, как в матрице R, а характеристики общности h_j². Методы поиска общностей: 1) метод наибольшей корреляции: на глав. диагонали записывается наибольший по | | коэф-т корреляции. 2) метод Барта: по каждому столбцу матрицы находят ср. знач-е коэф-та корреляции . Если сравнительно велико, за общностью принимается знач-е, которое несколько выше наибольшего в столбце коэф-та корреляции. Если сравнительно мало, то несколько ниже. 3) метод триад. 4) метод малого центроида. В ходе метода гл. факторов опр-ся собственные знач-я и собственные векторы матрицы Rh из рав-ва (Rh- λ E)U={0}. Для матрицы А= V∙ /\^1/2Vj=Uj / |Uj|, , .

Сущ-ют 2 группы способов нах-я пар-ров λ j и ajr: 1. способы, ориентированные на алгоритм метода гл. компонент. «-»: неэкономичны. 2. способы, позволяющие последовательно, начиная с первого, устанавливать знач-я собственных чисел и собственных векторов. Последующие шаги вып-ся после предварительной проверки на достаточность информативности уже выделенных главных факторов. Такой подход счит-ся классическим в факторном анализе. Чаще всего исп-ся метод, разработанный Хоттелингом. Он позволяет сравнительно быстро выделить небольшое число общих факторов, учитывающих почти всю суммарную общность. Метод яв-ся итерационным. На 1 этапе редуцированную матрицу Rh парных корреляций многократно возводят в степень, обычно в четную, чем добиваются сходимости к первому собственному знач-ю λ 1. Затем вычисляют соответствующее знач-е собственного вектора U1 и факторные нагрузки aj1. В завершении этапа находят воспроизведенную корреляционную матрицу R⁺=A₁∙ A₁’. Далее рассмотрим разность Rh-R⁺- остаточную матрицу парных корреляций. Если она существенна, переходят ко 2 этапу. И описанная выше итерация повторяется относительно второго собственного числа λ 2, вычисляемого по данным матрицы остаточных коэф-в корреляции. Итерации повторяются до тех пор, пока разность Rh-R⁺не становится достаточно малой. В ходе итераций рассчитываются , (к- № итерации, i -№ признака) где - компонента вектора Р на k-том шаге. Вектор , где компоненты Si на k-том шаге: . Итерации происходят до тех пор, пока не будут достаточно малы, < .

Задача вращения пространства общих факторов реш-ся с целью улучшения их интерпретируемости в том случае, когда нагрузки a_jr в стр-ре факторов Fr имеют примерно равные распределения или отрицательны. Центр распределения любой m-мерной сов-ти опр-ся по средним значениям признаков. В отличие от опр-я центра, выбор поворота с-мы координат осуществить сложнее. При этом оптимизируется поворот при условии, что факторные оси проходят через наиболее плотное скопление точек так, что больш-во точек распределения располагается в близи оси и как можно ближе к началу координат. Вращение пространства координат м.б. ортогональным, когда взаимодействие факторов исключается, и косоугольным, порождающим их корреляционные связи. Наиболее простым яв-ся ортогональное вращение. Оно производится умножением матрицы факторных нагрузок А на ортогональную матрицу Т={r× r}, задающую угол поворота. Матрица поворота по часовой стрелке для r=2: ,

против часовой стрелки:

Матрица поворота против часовой стрелки для r=3: Т=Т₁₂∙ Т₁₃∙ Т₂₃

При большей размерности с-мы координат принцип построения с-мы аналогичен T’∙ T=E. Выбор угла вращения с-мы факторов яв-ся наиболее сложным вопросом при улучшении факторной стр-ры. Часто его решают субъективно, Н, после построения граф. изображ-я разброса точек, отображающих располож-е элементарных признаков в пространстве общих факторов. Успех реш-я вопроса б. опр-ся опытом самого исследователя, а также м. применяться аналитич. подходы. В частотности при ортогональном вращении наилучший угол поворота рекомендуется находить по формуле:

где k, l- пара номеров факторов Fk и Fl из матрицы А. Т.о. матрица поворота W=A∙ T. Т.к. , кроме того знач-я м.б.> 1, то матрицу W следует нормализовать, т.е. .

⇐ Предыдущая 27 28 29 30 313233 34 35 36 Следующая ⇒