|
Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Тема 5. Многомерные статистические методы ⇐ ПредыдущаяСтр 5 из 5
Многомерный статистический анализ – раздел математической статистики, посвященный математическим методам построения оптимальных планов сбора, систематизации и обработки многомерных статистических данных, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов. Под многомерным признаком понимается р-мерный вектор К основным методам многомерного статистического анализа можно отнести кластерный анализ, дискриминантный анализ, компонентный анализ, факторный анализ и метод канонических корреляций. Данные методы имеют достаточно сложный математический аппарат и обычно являются частью статистических пакетов прикладных программ. Кластерный анализ – это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп, «сгустков» наблюдений (кластеров, таксонов). При этом не требуется априорной информации о распределении генеральной совокупности. Выбор конкретного метода кластерного анализа зависит от цели классификации. Кластерный анализ используется при исследовании структуры совокупностей социально-экономических показателей или объектов: предприятий, регионов, социологических анкет и т.д. От матрицы исходных данных переходим к матрице нормированных значений Z c элементами где j =1, 2, …, k – номер показателя, i=1, 2, …, n – номер наблюдения;
В качестве расстояния между двумя наблюдениями
Если
Полученные значения удобно представить в виде матрицы расстояний
Так как матрица R симметрическая, т.е. Используя матрицу расстояний, можно реализовать агломеративную иерархическую процедуру кластерного анализа. Расстояния между кластерами определяют по принципу «ближайшего соседа» или «дальнего соседа». В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором- между наиболее удаленными друг от друга. Принцип работы иерархических агломеративных процедур состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга. На первом шаге алгоритма каждое наблюдение Компонентный анализ предназначен для преобразования системы k исходных признаков в систему k новых показателей (главных компонент). Главные компоненты не коррелированны между собой и упорядочены по величине их дисперсий, причем первая главная компонента имеет наибольшую дисперсию, а последняя, k – я, - наименьшую. В задачах снижения размерности и классификации обычно используется m первых компонент ( Для простоты изложения алгоритма ограничимся случаем трех переменных. На основании матрицы исходных данных
вычисляем оценки параметров распределения трехмерной генеральной совокупности
Получаем оценку матрицы парных коэффициентов корреляции: Преобразуем матрицу R в диагональную матрицу Характеристический многочлен имеет вид
где E – единичная матрица. Приняв где Решая это уравнение и учитывая выполнение неравенства где Отсюда получаем собственные значения Собственные значения характеризуют вклады соответствующих главных компонент в суммарную дисперсию исходных признаков Найдем теперь матрицу преобразования V - ортогональную матрицу, составленную из собственных векторов матрицы R. Собственный вектор
Примем
Тогда окончательно собственный вектор
Находим норму вектора имеет вид и является ортогональной Матрица факторных нагрузок получается по формуле
где Таким образом, нагрузка l-й главной компоненты Элемент матрицы факторных нагрузок Матрица факторных нагрузок A используется для экономической интерпретации главных компонент, которые представляют собой линейный функции исходных признаков. Значения главных компонент для каждого i-объекта
Z- матрица нормированных значений наблюдаемых переменных Таким образом, значения главных компонент получаем из выражения
где Полученные главные компоненты позволяют классифицировать множество исходных признаков на группы, обобщающими показателями которых и являются главные компоненты. В силу ортогональности (независимости) главные компоненты удобны для построения на них уравнения регрессии ввиду отсутствия мультиколлинеарности главных компонент. Для построения уравнения регрессии на главных компонентах в качестве исходных данных следует взять вектор наблюдаемых значений результативного признака y и вместо матрицы значений исходных показателей X – матрицу вычисленных значений главных компонент F. Популярное:
|
Последнее изменение этой страницы: 2016-08-24; Просмотров: 1240; Нарушение авторского права страницы