Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Корреляционно-регрессионный анализ. Метод корреляции рангов. Измерение тесноты и проверка существенности связи.
Коэффициент корреляции рангов (Спирмана): , где d-разница рангов по 2ум признакам; , - ранг (порядковый номер в ряду); n-количество рангов (уровней ряда). Для расчета, r, х, у нумеруются по отдельности в порядке возрастания или убывания, т. е. им присваивает определенный ранг . Если встречается несколько одинаковых значений x и y, то каждому значению присваивается средний ранг. , связь тесная; , связь слабая; вблизи 1 и 0, дает недостоверный результат. Корреляционно-регрессионный анализ – это комплекс методов статистического измерения взаимосвязей, основанный на регрессионной модели. Теоретическая линия регрессии – линия, вокруг которой группируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи. Этапы КРА: 1). Теоретическое обоснование регрессионной модели. Решаются задачи: выбор факторных признаков (качественный анализ); выбор формы уравнения регрессии. 2). Оценка параметров уравнения регрессии. Зависимость может быть прямой (корреляция «+») и обратной (корреляция «-»). В зависимости от характера изменения у(х), связи могут быть линейными и нелинейными. Выравнивание по прямой: найти уравнение связи, значит, найти параметры уравнения. , а, b=? По МНК строим си уравнений: . Решаем, определяем а, b. Коэффициент эластичности показывает, на сколько % изменится y при изменении x на 1%: . Рассеивание точек корреляционного поля может быть очень велико и, следовательно, вычисленное уравнение регрессии может давать большую погрешность. Вычисление сред. ошибки уравнения регрессии в целом и по каждому его параметру: - среднеквадратическая ошибка уравнения регрессии: -число значений, -количество параметров уравнения. Оценить величину ср. квадратической ошибки можно сопоставлением ее: со сред. значением результативного признака у; со сред. квадратическим отклонением признака у: если , то использование данного уравнения целесообразно. - среднеквадратическая ошибка параметров уравнения: ; . 3). Измерение тесноты связи основано на правиле сложения дисперсий. Общая дисперсия, измеряющая общую вариацию за счет действия всех факторов: Факторная (теоретическая) дисперсия измеряет вариацию у за счет действия факторного признака: . Ее удобно определять: Остаточная дисперсия характеризует вариацию у за счет всех факторов, кроме х: Коэффициент детерминации: доля теоретической дисперсии в общей, характеризует не всю вариацию у(х), а лишь ту ее часть, которая соответствует линейному уравнению регрессии, т. е. показывает удельный вес вариации результативного признака линейно связанной вариации с вариацией факторного признака: Индекс корреляции (теоретическое корреляционное отношение) характеризует тесноту связи: . , связь отсутствует; , связь тесная. Линейный коэффициент корреляции показывает не только тесноту, но и направление связи, но применим только для прямой линии: 4). Проверка существенности связи: . связь существенна (не случайна) .В регрессионной модели, как и в аналитической группировке, все эти вычисления при малом объеме выборке корректны, если признак имеет распределение, близкое к нормальному. Метод главных компонент Метод главных компонент. Дает возм-ть по m исходным признакам выделить m главных компонент. При этом пространство глав. компонент ортогонально(оси перпендикулярны). Предположив линейную форму связи, получаем ур-е F=X∙ B, где В-вектор параметрических значений лин-го ур-я связи. С исп-ем метода множителей Лагранжа получим характеристическое ур-е для поиска собственных знач-й λ j. |S-λ ∙ E|=0. Из мн-ва знач-й λ j относительно первого наибольшего знач-я λ 1 находим вектор В1 знач-й первой главной компоненты F1. Для второго по величине λ 2- вектор знач-й В2 для компонента F2… Для λ m находим вектор Вm знач-й для главной компоненты Fm. Т.о. Вj- это вектор величин, представляющих координаты главных компонент Fr в пространстве признаков Rmx (m-размерность, x-признаки). Векторы Вj также характеризуют силу связи главной компоненты и j-го признака. Если матрицу знач-й исходных признаков Х(n× m) стандартизировать, то получим матрицу стандартизированных знач-й признаков Z(n× m), элементы которой Zij=(xij-xj¯ )/σ ij. [n-число набл-й, m-число признаков, r-число латентных признаков]. Из Z нах-ся матрица парных корреляций R(m× m)=(1/n)∙ Z’∙ Z. Алгоритм метода гл. компонент: X→ Z→ R→ U→ V → A→ F или X → S→ /\→ A→ F. S -матрица ковариации. Рекуррентные соотношения Фадеева для нах-я собственных чисел: 1) A1=R, P1=tr(A1)-сумма эл-в гл. диагоналей R, B1=A1-P1∙ E. 2) A2=R∙ B1, P2=1/2tr(A2), B2=A2-P2∙ E. m) Am=R∙ Bm-1, Pm=1/mtr(Am), Bm=Am-Pm∙ E. Опр-ль |R|=Pm. Составляем характеристическое ур-е: λ m-P1λ m-1-P2λ m-2-…-Pm=0, корнями которого яв-ся λ 1, 2, …m. В матричное ур-е |R- λ E|∙ U=0 подставляем λ 1, 2, …m и получаем однородную с-му ур-й, которая имеет мн-во решений. Выбираем одно удобное решение.и получаем матрицу U. Далее находим матрицу V след. образом V=Uj / |Uj|, где . Рез-ты применения мет. гл. компонент представляются данными матрицы отображения А. A=V∙ /\1/2, (-1≤ aij≤ 1), . Возможна итоговая запись зависимости знач-й исх. признаков от знач-й гл. компонент: Z=A∙ F’ или Zij=aj1∙ f1i+aj2∙ f2i++ajm∙ fmi, либо знач-й гл. компонент от знач-й элементарных признаков: F=A-1∙ Z’ или fri=1/λ r∙ (a1r∙ zi1+a2r∙ zi2++amr∙ zim). n1 n2 … nn F1 f11 f12…f1n F= F2 f21 f22…f2n Fm fm1 fm2…fmn (n-объекты, F-компоненты). Аналитические выводы по рез-м расчетов и опр-е названий главным компонентам дается после нах-я матрицы F. Оценка уровня информативности и поиск названий главных компонент. Задачу распознавания главных компонент и опр-я для них названий решают субъективно на основе весовых коэф-в air из матрицы отображения А. Для каждой главной компоненты Fr мн-во знач-й air разбивается на 4 мн-ва: W1- подмн-во незначимых весовых коэф-в; W2- подмн-во значимых весовых коэф-в; W3- подмн-во значимых весовых коэф-в, не участвующих в формировании названия главной компоненты Fr; W4=W2-W3- подмн-во знач-й весовых коэфф-в, участвующих в формировании названия главной компоненты Fr. а крит1 берется равным наибольшему знач-ю W1. а крит.2- граничное знач-е между W3 и W2-W3, берется равным наименьшему знач-ю мн-ва W2-W3. Подтверждение значимости признаков xj (zj), участвующих в формировании названия главной компоненты, можно получить с помощью коэф-та информативности . Набор объясняющих признаков считается приемлемым, если знач-е Ku≥ 75%. Отрицательные знаки весовых коэф-в матрицы А могут существенно затруднить выводы и выбор названий гл. компонент. Нелогичность знаков весовых коэф-в, нечеткая стр-ра гл. компонент, когда все весовые коэф-ты имеют близкие по величине знач-я, становятся причиной затруднительной интерпретируемости гл. компонент. Эта проблема реш-ся удалением из анализа мало значимых гл. компонент или поворотом пространства гл. компонент.
Метод главных факторов. Алгоритм метода гл. факторов: матрица исх. данных X(n× m)→ матрица стандартизированных знач-й признаков Z(n× m)→ матрица корреляции R(m× m) или матрица ковариации S(m× m)→ редуцированная матрица корреляций или ковариаций Rh (m× m) → матрица факторного отображения А(m× r)→ матрица факторного отображения после поворота W(m× r)- может отсутствовать→ матрица знач-й факторов F(n× r), т.о. опр-ся полож-е n наблюдаемых объектов в пространстве RrF c r числом факторных осей. [n-число набл-й, m-число признаков, r-число латентных признаков]. Если матрицу знач-й исходных признаков Х стандартизировать, то получим матрицу стандартизированных знач-й признаков Z, элементы которой Zij=(xij-xj¯ )/σ ij. Из Z нах-ся матрица парных корреляций R(m× m)=(1/n)∙ Z’∙ Z. Метод гл. факторов яв-ся развитием метода гл. компонент. Осн. отличие заключ-ся в исп-ии редуцированной корреляционной матрицы Rh, на главной диагонали которой расположены не единицы, как в матрице R, а характеристики общности hj2. Методы поиска общностей: 1) метод наибольшей корреляции: на глав. диагонали записывается наибольший по | | коэф-т корреляции. 2) метод Барта: по каждому столбцу матрицы находят ср. знач-е коэф-та корреляции . Если сравнительно велико, за общностью принимается знач-е, которое несколько выше наибольшего в столбце коэф-та корреляции. Если сравнительно мало, то несколько ниже. 3) метод триад. 4) метод малого центроида. В ходе метода гл. факторов опр-ся собственные знач-я и собственные векторы матрицы Rh из рав-ва (Rh- λ E)U={0}. Для матрицы А= V∙ /\1/2 Vj=Uj / |Uj|, , . Сущ-ют 2 группы способов нах-я пар-ров λ j и ajr: 1. способы, ориентированные на алгоритм метода гл. компонент. «-»: неэкономичны. 2. способы, позволяющие последовательно, начиная с первого, устанавливать знач-я собственных чисел и собственных векторов. Последующие шаги вып-ся после предварительной проверки на достаточность информативности уже выделенных главных факторов. Такой подход счит-ся классическим в факторном анализе. Чаще всего исп-ся метод, разработанный Хоттелингом. Он позволяет сравнительно быстро выделить небольшое число общих факторов, учитывающих почти всю суммарную общность. Метод яв-ся итерационным. На 1 этапе редуцированную матрицу Rh парных корреляций многократно возводят в степень, обычно в четную, чем добиваются сходимости к первому собственному знач-ю λ 1. Затем вычисляют соответствующее знач-е собственного вектора U1 и факторные нагрузки aj1. В завершении этапа находят воспроизведенную корреляционную матрицу R+=A1∙ A1’. Далее рассмотрим разность Rh-R+- остаточную матрицу парных корреляций. Если она существенна, переходят ко 2 этапу. И описанная выше итерация повторяется относительно второго собственного числа λ 2, вычисляемого по данным матрицы остаточных коэф-в корреляции. Итерации повторяются до тех пор, пока разность Rh-R+ не становится достаточно малой. В ходе итераций рассчитываются , (к- № итерации, i -№ признака) где - компонента вектора Р на k-том шаге. Вектор , где компоненты Si на k-том шаге: . Итерации происходят до тех пор, пока не будут достаточно малы, < . Задача вращения пространства общих факторов реш-ся с целью улучшения их интерпретируемости в том случае, когда нагрузки ajr в стр-ре факторов Fr имеют примерно равные распределения или отрицательны. Центр распределения любой m-мерной сов-ти опр-ся по средним значениям признаков. В отличие от опр-я центра, выбор поворота с-мы координат осуществить сложнее. При этом оптимизируется поворот при условии, что факторные оси проходят через наиболее плотное скопление точек так, что больш-во точек распределения располагается в близи оси и как можно ближе к началу координат. Вращение пространства координат м.б. ортогональным, когда взаимодействие факторов исключается, и косоугольным, порождающим их корреляционные связи. Наиболее простым яв-ся ортогональное вращение. Оно производится умножением матрицы факторных нагрузок А на ортогональную матрицу Т={r× r}, задающую угол поворота. Матрица поворота по часовой стрелке для r=2: , против часовой стрелки: Матрица поворота против часовой стрелки для r=3: Т=Т12∙ Т13∙ Т23 . При большей размерности с-мы координат принцип построения с-мы аналогичен T’∙ T=E. Выбор угла вращения с-мы факторов яв-ся наиболее сложным вопросом при улучшении факторной стр-ры. Часто его решают субъективно, Н, после построения граф. изображ-я разброса точек, отображающих располож-е элементарных признаков в пространстве общих факторов. Успех реш-я вопроса б. опр-ся опытом самого исследователя, а также м. применяться аналитич. подходы. В частотности при ортогональном вращении наилучший угол поворота рекомендуется находить по формуле: , где k, l- пара номеров факторов Fk и Fl из матрицы А. Т.о. матрица поворота W=A∙ T. Т.к. , кроме того знач-я м.б.> 1, то матрицу W следует нормализовать, т.е. . Популярное:
|
Последнее изменение этой страницы: 2016-08-24; Просмотров: 792; Нарушение авторского права страницы