Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Временные ряды с использованием процесса скользящего среднего могут иметь место, когда уровни динамического ряда характеризуются случайной колеблемостью.



Модели ARMA

Соединение в одной модели авторегрессионного процесса ARи модели скользящего среднего МА приводит к модели авторе­грессионного процесса со скользящими средними в остатках

(ARMА — отанглийскогоAuto RegressiveMoving Average):

(5.65)

В модели (7) в качестве объясняющих переменных рас­сматриваются лаговые значения зависимой переменной с р ин­тервалами сдвига и скользящие средние порядка q для остат­ков авторегрессии. Иными словами, модель включает в себя AR (р) и МА (q). Ее принято обозначать ARMA (р, q). Например, ARMA (3, 2) имеет вид

(5.66)

При практической реализации моделей ARMA наиболее сложным является выбор числа лагов р и q.

Инструментом идентификации модели ARMA является изуче­ние частной автокорреляционной функции по моделям с раз­ным числом лагов. Частная автокорреляционная функция (PACFPartialAutocorrelationFunction) представляет собой серию частных коэффициентов автокорреляции (РАС), кото­рые измеряют связь между текущим уровнем динамического ряда и предыдущими значениями в усло­виях, когда влияние других промежуточных временных ла­гов устранено. Так, частный коэффициент автокорреляции при лаге k будет представлять собой корреляцию и , очищенную от влияния .

Обозначим частный коэффициент автокорреляции с ла­гом kчерез ρ (k). При k = 0 ρ (0) = 1 (уровни ряда коррелиру­ют сами с собой); при k = 1 , где — коэффици­ент автокорреляции первого порядка. Это равенство связано с тем, что при расчете ρ (1) отсутствуют промежуточные лаги. Вычисление ρ более высокого порядка можно производить по формулам

 

 

 

Для авторегрессионного процесса порядка ρ частная авто­корреляционная функция отлична от нуля при kρ и равна нулю при k> ρ . Это и позволяет определять порядок ρ про­цесса AR. Так, для модели AR (1): ρ (2) близ­ко к нулю.

Для модели типа МА (q) порядок q определяется по поведе­нию автокорреляционной функции: при k рrа стремится к нулю. Для модели ARMA (р, q) автокорреляционная функция характеризуется убыванием, начинающимся с лага q, а час­тная автокорреляционная функция убывает, начиная с лага ρ. Так, для модели ARMA (1, 1) при > 0 ACF наблюдает экс­поненциальное затухание с лага 1, aPACF — осциллирующее убывание с лага 1. При < 0 ACF для модели ARMA (1, 1) на­блюдает осциллирующее убывание с лага 1, aPACF — экспо­ненциальное затухание с лага 1.

 

Модели ARIMA

Дляполучения стационарного ряда могут рассчитываться раз­ности уровней временного ряда ∆ разного порядка d. Модель, в которой соединены нахождение последовательных разно­стей временного ряда порядка d и ARMA, — модель порядка (р, q), получила название авторегрессионной интегриро­ванной модели скользящей средней—ARIMA(AutoregressiveIntegratedMovingAverage).

Модель ARIMA обладает тремя параметрами: р — порядок авторегрессии AR; d — порядок последовательных разностей уровней временных рядов, обеспечивающий стационарность ряда, и q — порядок скользящей средней МА.

В общем виде модель ARIMA (р, d, q) выражается формулой

(5.67)

где k-я последовательная разность уровней , т.е. — нормально распределенные случайные величины с нулевым математическим ожиданием и постоянной дисперсией.

Из модели (5.67) для можно получить модель для ис­ходного динамического ряда с помощью выражения:

(5.68)

Так, если модель ARIMA(1, 1, 1) имеет вид то динамический ряд описывается моделью

так как

Модель ARIMA практически пригодна для большинства вре­менных рядов. При d = 0 и q = 0 модель AR1MAпревращается в процесс AR

Если р = 0, d = 0 и q = 1, 2, …, k, то имеем модель МА

Наиболее распространены модели ARIMA с параметрами р, dи q, не превышающими двух. Современные компьютерные программы предлагают разные варианты оценивания пара­метров модели ARIMA, среди которых преобладает оценка ме­тодом максимального правдоподобия. Такой подход можно ви­деть при реализации модели ARIMA в системе SPSS[1].

 

Методология построения модели ARIMA для исследуемого времен­ного ряда включает следующую последовательность шагов.

На первом шаге необходимо получить стационарный ряд. При тести­ровании исходных данных на стационарность прежде всего использует­ся визуальный анализ графика. Например, уже на этом этапе можно об­наружить ярко выраженную трендовую составляющую.

Также в методике Бокса—Дженкинса рекомендуется проводить ана­лиз АКФ (ЧАКФ). Быстрое убывание значений выборочной АКФ явля­ется простым критерием стационарности (аналогичное поведение долж­на демонстрировать и ЧАКФ).

Часто на этом этапе используются статистические тесты на нали­чие единичного корня (тест Дики—Фуллера, расширенный тест Дики- Фуллера).

Для перехода к стационарному ряду традиционно применяют опера­тор взятия последовательных разностей (процедуру дискретного диффе­ренцирования). Быстрое затухание АКФ будет свидетельствовать о том, что необходимая для стационарности ряда степень разности достигнута.

На втором шаге после получения стационарного ряда исследуется характер поведения выборочных АКФ и ЧАКФ, выдвигаются гипотезы о значениях параметров p (порядок авторегрессии) и q (порядок скользя­щего среднего).

При этом следует иметь в виду, что выборочные корреляционные функции могут не демонстрировать детального сходства с теоретическими. Поэтому для идентификации модели могут использоваться главные черты АКФ, при расхождении более тонких деталей, в результате формируется базовый набор, включающий 1—2 или даже большее число моделей.

На третьем шаге после осуществления идентификации моделей не­обходимо оценить их параметры. В современных эконометрических па­кетах прикладных программ используются разные подходы (МНК, нели­нейный МНК, метод максимального правдоподобия (ММП)). Все эти оценки при больших объемах выборок асимптотически эквивалентны.

На следующем, четвертом шаге для проверки каждой пробной моде­ли на адекватность анализируется ряд ее остатков. У адекватной модели остатки должны быть похожими на белый шум, т. е. их выборочные ав­токорреляции не должны существенно отличаться от нуля.

При проверке значимости коэффициентов АКФ используются два подхода:

■ проверка значимости каждого коэффициента автокорреляции отдельно;

■ проверка значимости множества коэффициентов автокорреля­ции как группы.

Первый подход опирается на работу Бартлетта, показавшего, что ес­ли модель адекватна исходным данным и ошибки представляют собой белый шум, то распределение коэффициентов автокорреляции прибли­жается к нормальному с нулевым математическим ожиданием и дисперсией , т.е. к .

Поэтому если выборочный коэффициент автокорреляции выходитза интервал , то нулевая гипотеза о равенстве нулю коэффициентарк отвергается.

Второй подход опирается на Q-статистику Бокса—Пирса, позволяю­щую проверить равенство нулю сразу т первых значений АКФ остатков. Q-статистика определяется как

Q = n

При нулевой гипотезе об отсутствии автокорреляции статистика Qимеет -распределение с v = τ -p-q степенями свободы, где р, q-пара­метры ARMA модели.

Если Q> , то как группа первые τ коэффициентов автокорреля­ции значимы (т. е. не все , равны нулю).

В некоторых эконометрических пакетах включена модификация этого подхода — тест Бокса-Льюнга. Соответствующая статистика в этом случае определяется выражением:

= n(n+ 2)

имеет такое же асимптотическое распределение, как и Q, однако ее распределение ближе к для конечных выборок. В практических руководствах рекомендуется рассматривать (но не более 50).

Кроме того, при построении модели ARIMA необходимо проверить значимость коэффициентов (по t-критерию). При этом модель не должна содержать лишних параметров, т. е. уменьшение числа пара­метров будет способствовать появлению значимой автокорреляции ос­татков.

Если в результате проверки несколько моделей оказываются адек­ватными исходным данным, то при окончательном выборе следует учесть два требования:

■ повышение точности (качество подгонки модели);

■ уменьшение числа параметров модели.

Воедино эти требования сведены в информационном критерии Акайка (Akaikeinformationcriterion (AIC)), определяемом формулой:

где — уровни ряда остатков.

Очевидно, что выбор следует сделать в пользу модели с меньшим значением AIC.

Аналогичный характер носит критерий Шварца (Schwarzcriterion), усиливающий требование уменьшения количества параметров модели:

На заключительном этапе с помощью модели, выбранной на четвертом шаге, можно строить точечный и интервальный прогноз на L шагов вперед.

Сезонная модель Бокса—Дженкинса может быть представлена в виде: ARIMA(p, d, q)(Ps, Ds, Qs), где к параметрам модели р, d, q добавлены: Ps сезонный параметр авторегрес­сии; Qs — сезонный параметр скользящего среднего; Ds— параметр, опреде­ляющий порядок сезонной разности (сезонной производной).

При наличии ярко выраженной сезонной компоненты целесооб­разно включение в модель сезонного дифференцирования. Однако при решении практических экономических задач не рекомендуется ис­пользовать сезонные производные больше первого порядка. Также лучше не применять модели, у которых сумма порядков разностей (се­зонных и несезонных) больше двух, т. е. желательно выдерживать соот­ношение:

d+Ds ≤ 2.

Определение значений параметров сезонной авторегрессии SAR(Ps) и сезонного скользящего среднего SMA(Ds) также опирается на исследова­ние АКФ и ЧАКФ. Только теперь все типичные проявления, всплески бу­дут удалены друг от друга на величину лага S, где S — период сезонности.

При идентификации полной сезонной модели ARIMA(p, d, q)(Ps, As, Qs) часто сначала используют процедуру логарифмирования исходного ряда (для снижения дисперсии процесса), затем берут одну несезонную и одну сезонную разности (дифференцирование для несезонной части может и не потребоваться). На следующем этапе исследуется поведение АКФ и ЧАКФ для полученного производного ряда.

В некоторых эконометрических пакетах реализованы процедуры ав­томатического подбора структуры модели Бокса—Дженкинса.

Однако окончательный выбор модели все же должен оставаться за исследователем-экспертом, хорошо представляющим предметную область. Иногда можно построить две модели, одинаково хорошо соот­ветствующие данным на ретроспективном участке (например, модель с порядком дифференцирования 1 и АR-членами и модель с большим порядком дифференцирования и MA-членами). Однако предлагаемые прогнозы у этих моделей могут существенно различаться. Поэтому окончательный выбор между такими моделями должен опираться на представления исследователя о виде нестационарности исходного ря­да, о характере его трендовой составляющей.

Успех применения мощного, гибкого, но в то же время сложного аппарата модели ARIMA во многом зависит от практического опыта и квалификации исследователя, а процедуры автоматического выбора вида модели призваны лишь облегчить его аналитическую деятельность.

 

Пример 5.8.Известны данные экспорта и импорта РФ (в млрд. долларов США) за период с 1-го квартала 2002 года по второй квартал 2015 года. Требуется осуществить прогноз с применением модели ARIMAна 3-й и 4- кварталы 2015 года.

 

Рассмотрим более подробно динамические ряды экспорта и импорта. Их данные представлены в табл.5.13, а графическая иллюстрация -на рисунке 5.11.

 

 

Экспорт и импорт РФ

Таблица 5.13

 

 

Рис. 5.11. Динамические ряды экспорта и импорта РФ

 

В период с 3-го квартала 2008 по 1- квартал 2009 гг. наблюдается влияние мирового финансового кризиса – объемы экспорта за этот период снизились на 77, 5 млрд. долл., а импорта – на 43, 8 млрд. долларов.Восстановительный период завершился по экспорту в 4-ом квартале, а по импорту – во 2-ом квартале 2011 года.

Следующее снижение объёмов экспорта и импорта наблюдается со 2-го квартала 2014 года. В первом квартале 2015 года по экспорту оно составило 42, 6, а по импорту – 33, 4 млрд. долларов США. По сравнению с соответствующим кварталом 2013 года объёмы экспорта снизились на 32, 0%, а импорта – на 44, 2%.

Из полученного графического изображения можно выдвинуть предположение о наличии систематической и сезонной компонент, а так же случайной компоненты. Наличие систематической компоненты можно объяснить присутствием долговременно действующих факторов, формирующих динамику (график имеет постоянную тенденцию к возрастанию). Наличие же сезонной компоненты объясняется присутствием колебаний на графике (выбросов) с определенной периодичностью. Объемы экспорта и импорта увеличиваются к декабрю каждого года и резко снижаются в январе следующего за ним.

В целях уменьшения вариации результативных признаков, обусловленной различным количеством рабочих часов в кварталах года, введем в качестве результативных переменных объёмы экспорта и импорта в час.

Кроме того, в процессе решения берётся натуральный логарифм, преследуя ранее упомянутую цель.

 

 

 


Рис. 5.12. Логарифм экспорта (в час) РФ

 

Для прогнозирования будем использовать модель ARIMA с интервенцией. Особенностью данной модели является возможность учёта спада в динамике внешнеторгового оборота под влиянием мирового финансового кризиса.

Наличие основной тенденции означает, что ряд данных не является стационарным. На этапе идентификации модели ARIMA необходимо добиться того, чтобы ряд первоначально нестационарный стал стационарным; это означает, что его среднее постоянно, а выборочные дисперсия и автокорреляция не меняются во времени. По этой причине обычно необходимо брать последовательные разности ряда до тех пор, пока ряд не станет стационарным. Для того чтобы определить необходимый порядок разности, нужно исследовать график ряда и автокоррелограммы.

Сильные изменения уровня (сильные скачки вверх или вниз) обычно требуют взятия несезонной разности первого порядка. Сильные изменения наклона требуют взятия разности второго порядка. Сезонная составляющая требует взятия соответствующей сезонной разности. Если имеется медленное убывание выборочных коэффициентов автокорреляции в зависимости от лага, обычно берут разность первого порядка.

В результате проведенного анализа было выявлено, что наиболее подходящим является взятие первых и четвертых разностей для устранения тренда и сезонности ряда.

В итоге формируется график разностей (рис.5.13). Из графика на рис. видно, что ряд стал стационарным.

 

 

 


Рис. 5.13. Исходный ряд после взятия первых и четвертых разностей

На этапе идентификации модели необходимо решить, как много параметров авторегрессии (p) и скользящего среднего (q) должно присутствовать в модели процесса. На практике часто число параметров p или q ограничивают значением 2.

В ходе анализа исходного ряда, была выявлена интервенция на 27 квартале из-за резкого спада внешнеторгового оборота России под влиянием мирового финансового кризиса. В связи с этим для прогнозирования экспорта России использовалась модельARIMA с постоянной устойчивой интервенцией в27 квартале.

Для нахождения качественной модели было проанализировано несколько комбинаций параметров (p, d, q)(P, D, Q). Среди адекватных моделей выбрана наиболее точная - модель ARIMA(0, 1, 0)(0, 1, 1), результаты которой представлены в табл. 5.14, 5.15и на рис.5.13.

 

Параметры модели прогноза объёмов экспорта

Таблица 5.14

Исход.: Экспорт в час, млн. долл. США (Таблица0609.sta) Преобразования: ln(x), D(1), D(4) (Прерванная АРПСС) Модель(0, 1, 0)(0, 1, 1) Сезонный лаг: 4 MS Остаток=, 01318
  Парам. Асимпт. Асимпт. p Нижняя Верхняя Интерв. Интерв. Асимпт.
Qs(1) 0, 852619 0, 093471 9, 12176 0, 000000 0, 664472 1, 040767      
Омега(1) -0, 223677 0, 085869 -2, 60487 0, 012338 -0, 396522 -0, 050832 пост/уст  
Дельта1) 0, 733754 0, 116116 6, 31914 0, 000000 0, 500024 0, 967484 пост/уст -0, 840114

 

 

Результаты прогноза объёмов экспорта

Таблица 5.15

 

Номер квартала Прогноз Нижний 90% Верхний 90% Отношение значения верхней границы к нижней
194, 20 160, 15 235, 47 1, 47
211, 55 161, 07 277, 84 1, 72
218, 32 156, 35 304, 85 1, 95
226, 30 153, 91 332, 74 2, 16

 

 

Рис.5.14. Прогноз объёмов экспорта

Принято считать, что если отношение верхней границы прогноза к её нижней границе меньше двух, то прогноз считается достаточно точным. Как следует из данных таб. 5.15 упомянутое условие выполняется только для 55 и 56 кварталов, т.е. для 3-го и 4-го кварталов 2015 года.

Как видно из графика (рис.5.15), выборочная плотность распределения остатков достаточно хорошо аппроксимируется нормальным законом распределения, что является одним из признаков адекватности построенной модели.

 

 

Рис.5.15. Выборочная плотность распределения остатков

 

 

В результате анализа остатков установлено, что они практически не коррелированы, имеют равную вариацию на всем протяжении ряда (кроме 27 квартала) и нет очевидного тренда или сдвига их. Из графиков (рис.5.16, 5.17) видно, что остатки практически являются белым шумом.

 

 

Рис.5.16. Автокорреляционная функция остатков

 

 

Рис.5.17. Частная автокорреляционная функция остатков

 

Соответствующие таблицы и графики по импорту приведены ниже.

 

Параметры модели прогноза объёмов импорта

Таблица 5.16

Исход.: Импорт в час, млн. долл. США (Таблица0609.sta) Преобразования: ln(x), D(1), D(4) (Прерванная АРПСС) Модель(0, 1, 0)(0, 1, 1) Сезонный лаг: 4 MS Остаток=, 01030
  Парам. Асимпт. Асимпт. p Нижняя Верхняя Интерв. Интерв. Асимпт.
Qs(1) 0, 686282 0, 260973 2, 62971 0, 011583 0, 160971 1, 211593      
Омега(1) -0, 217437 0, 089076 -2, 44103 0, 018553 -0, 396737 -0, 038137 пост/уст  
Дельта1) 0, 743828 0, 084907 8, 76053 0, 000000 0, 572919 0, 914736 пост/уст -0, 848790

 

Результаты прогноза объёмов импорта

Таблица 5.17

 

Номер квартала Прогноз Нижний 90% Верхний 90% Отношение значения верхней границы к нижней
95, 65 80, 66 113, 41 1, 41
101, 70 79, 92 129, 40 1, 62
85, 50 63, 65 114, 84 1, 80
93, 14 66, 25 130, 95 1, 98

 

 

 

Рис.5.18. Прогноз объёмов импорта

 

 

 

Рис.5.19. Выборочная плотность распределения остатков

 

 

Рис.5.20. Автокорреляционная функция остатков

 

 

 

Рис.5.21.Частная автокорреляционная функция остатков

 

Таким образом, с доверительной вероятностью 0, 9 объёмы экспорта и импорта в млрд. долларов США составят:

 

Экспорт
Номер квартала 2015 года Прогноз Нижний 90% Верхний 90% Отношение значения верхней границы к нижней
102, 54 84, 56 124, 33 1, 47
109, 58 83, 44 143, 92 1, 72

 

Импорт
Номер квартала 2015 года Прогноз Нижний 90% Верхний 90% Отношение значения верхней границы к нижней
50, 50 42, 59 59, 88 1, 41
52, 68 41, 40 67, 03 1, 62

 

КЛАСТЕРНЫЙ АНАЛИЗ

ОБЩАЯ ХАРАКТЕРИСТИКА ПРОЦЕДУР КЛАСТЕРИЗАЦИИ

 

Кластерный анализ и его роль в социально-экономических исследованиях.

При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания. Это происходит, например, при решении задач сегментирования рынка, построения типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка отдельных товаров, изучения и прогнозирования экономической депрессии и многих других проблем.

Кластерный анализ — один из методов многомерной статистики — наиболее ярко отражает черты многомерности в процедуре классификации объектов. Название «кластерный анализ» происходит от английского слова «cluster» — гроздь, скопление. Впервые определил предмет кластерного анализа и дал его описание исследователь Трион (Тгуоп) в 1939 г. [3].

Главное назначение кластерного анализа — разбиение множества исследуемых объектов, характеризуемых совокупностью признаков*, на однородные в соответствующем понимании группы (кластеры). Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Иными словами, предполагается выделение компактных, удаленных друг от друга групп объектов или отыскание «естественного» разбиения совокупности на области скопления.

Кластерный анализ является одним из направлений статистического исследования социально-экономических процессов, которые связаны с изучением массовых явлений.

Пример 3.1. Некая фирма собирается начать выпуск нового стирального порошка. Разработана анкета, содержащая ряд вопросов, характеризующих отношение респондентов к свойствам продукта. Респонденты должны проранжировать факторы по степени их значимости, начиная с самого важного, — от 1 до 8. Строгое определение понятий «объект» и «признак» будет дано в подпараграфе 3.1.2.

Результаты классификации объектов (респондентов) по переменным (свойствам продукта) представлены в табл. 3.1.

Таблица 3.1

Результаты классификации респондентов по предпочтениям

Свойства продукта Ранги свойств по сегментам
1 (18%) 2 (7%) 3 (60%) 4 (15%)
Моющая способность
Отдушка
Цена
Безвредность
Эффект отбеливания
Подсинивание
Быстрое растворение
Отсутствие пыления

 

Получилось четыре сегмента, существенно различающиеся между собой по наиболее важным признакам продукта. Эти признаки выделены в таблице. Их можно назвать «сегментообразующими». Легко видеть, что сегмент 3 — самый крупный (60% от выборки). Это прагматики, для которых важнейшей характеристикой продукта является его цена, а также такие качества, как моющая способность и эффект отбеливания. В следующем по величине сегменте 1, напротив, на первом месте стоит безвредность порошка, цена же занимает последнее место.

Далее может проводиться сегментация по вопросам, касающимся, например, стиля поведения респондентов («покупаю дешевые», «пользуюсь новинками» и т.п.).

Таким образом, результаты кластерного анализа фактически опишут портрет потребителя с рациональной (свойства стирального порошка) и эмоциональной (оценка степени согласия с утверждениями) точек зрения. На основе их можно определить целевую группу качеств, расставить акценты в рекламном сообщении, избавиться от иллюзий относительно исключительности своего товара по какому-либо определенному свойству и т.д.

Большое достоинство кластерного анализа в том, что он позволяет выполнить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ, в отличие от большинства математико-статистических методов, не накладывает никаких ограничений на вид изучаемых объектов и позволяет рассматривать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры рынка, когда показатели весьма разнообразны и затруднительно применение традиционных эконометрических подходов.

Кластерный анализ играет важную роль и для совокупностей временных рядов, характеризующих экономическое развитие. В частности, можно выделить периоды, когда значения соответствующих показателей были достаточно близкими, а также определить группы показателей, динамика которых во времени наиболее схожа.

Необходимость развития и использования методов кластерного анализа продиктована прежде всего тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности. Построение классификаций особенно актуально для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Методы кластерного анализа могут применяться с целью сжатия информации, в условиях постоянного увеличения и усложнения потоков статистических данных. При этом в задачах социально- экономического прогнозирования весьма перспективно сочетание кластерного анализа с другими количественными методами (с корреляционно-регрессионным, факторным анализом и т.п.).

Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения. Так, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникнуть определенные скажения, а также потеряться индивидуальные черты отдельных объектов за счет замены их характеристик обобщенными значениями параметров кластера.

3.1.2. Расстояния между объектами и кластерами

Различия между схемами решения задач классификации во многом определяются тем, что понимают под сходством, однородностью объектов.

Введем вначале такие ключевые для данной главы понятия, как объект и признак.

Под объектами будем подразумевать конкретные предметы исследования, нуждающиеся в классификации. Такими объектами могут быть, например, потребители продукции, отличающиеся своими предпочтениями, различные регионы или страны, предприятия, их продукция и т.п.

Признак (синонимы: свойство, переменная, характеристика) представляет собой конкретное свойство объекта.

Различные свойства могут выражаться как числовыми, так и нечисловыми значениями. Например, объем производства может измеряться в килограммах или тоннах, цена жилья — в тысячах рублей (долларов) и т.п. Такие признаки называются количественными (непрерывными). Над ними можно производить арифметические операции.

В отличие от числовых характеристик ряд признаков может иметь дискретные, прерывистые значения. В свою очередь, дискретные признаки делятся на две группы. Первая группа — порядковые (ранговые) переменные. Таким признакам присуще свойство упорядоченности значений. К ним можно отнести возраст, этаж дома, год выпуска и др. Значения ранговых переменных представляются натуральными числами. Вторая группа дискретных признаков не имеет такой упорядоченности и носит название номинальных переменных. Это переменные, принимающие два значения (дихотомические) или более. Этим значениям можно поставить в соответствие некоторые числа, которые, однако, не будут отражать какой-либо упорядоченности значений переменной. Примером таких признаков может быть пол респондента, тип дома, вид транспортного средства и т.п. Эти признаки относятся к шкале наименований. Их можно считать качественными характеристиками объектов.

Обычной формой представления исходных данных в задачах кластерного анализа служит прямоугольная таблица «объект — признак»

каждая строка которой представляет результат измерений m рассматриваемых признаков на одном из n обследованных объектов.

 

Пример 3.2. Пусть имеется 13 объектов, у которых измерено два признаками Y(табл. 3.2).

Таблица 3.2

Совокупность объектов с двумя признаками

Испытуемый Признак X Признак Y
A
B
C
D
E
F
G
H
I
J
K
L
M

 

Непосредственная инспекция таблицы данных не позволяет увидеть то, что является очевидным, но после построения диаграммы рассеяния (рис. 3.1) совокупность объектов распадается на три хорошо различимые группы.

Рис. 3.1. Диаграмма рассеяния

 

Объекты внутри кластера более «похожи» друг на друга, чем на объекты из других групп. Таким образом, кластерный анализ ориентирован на выделение некоторых геометрически удаленных групп, внутри которых объекты близки.

В кластерном анализе для количественной оценки сходства вводится понятие «расстояние между объектами». Кроме термина «расстояние» в литературе часто встречаются и другие термины — «метрика», «мера», которые подразумевают метод вычисления того или иного конкретного расстояния.

Если каждый объект описывается т признаками, то он может быть представлен как точка в m-мерном пространстве, и сходство с другими объектами будет определяться как соответствующее расстояние.

Расстоянием между i-м и j-м объектами в пространстве признаков называется такая величина , которая удовлетворяет следующим аксиомам:

1) (неотрицательность);

2) (симметрия);

3) (неравенство треугольника, здесь q — номер объекта);

4) если , то (различимость нетождественных объектов);

5) если , то (неразличимость тождественных объектов).

Меру близости (сходства) объектов удобно представить как величину, обратную расстоянию между объектами.

В многочисленных изданиях, посвященных кластерному анализу, описано более 50 различных способов вычисления расстояния между объектами. Выбор расстояния является узловым моментом исследования. От него во многом зависит окончательный вариант разбиения объектов на классы при данном алгоритме. Чаще других используются следующие меры расстояния между объектами:

1) евклидово расстояние

2) взвешенное евклидово расстояние

3) расстояние Миньковского

4) расстояние city-block (расстояние городских кварталов)

где — расстояние между i-м и j-м объектами;

m — число переменных (признаков), которыми описываются объекты;

— значения k- й переменной соответственно у i-го и j-го объектов;

— вес, приписываемый к-й переменной, пропорциональный степени важности признака в задаче классификации;

p — показатель степени, определяемый исследователем.

Дадим несколько комментариев к приведенным выше мерам расстояний между объектами.

Евклидово расстояние — одно из наиболее известных расстояний, которое доступно для восприятия и понимания в


Поделиться:



Популярное:

  1. I. Когда все это закончится?
  2. Starbucks и привычка добиваться успеха. Когда сила воли доходит до автоматизма
  3. АБСОЛЮТНО ОБЪЕКТИВНОЕ И НЕПРЕДВЗЯТОЕ СРАВНЕНИЕ ЗАМЕЧАТЕЛЬНОГО И ПЕРСПЕКТИВНОГО СНАРЯДА СНОУБОРДА С ТАКИМ ОТСТАЛЫМ И ЗАСТОЙНЫМ ЯВЛЕНИЕМ, КАК ГОРНЫЕ ЛЫЖИ
  4. Авраам встал рано утром, оседлал осла своего, взял с собою двоих из отроков своих и Исаака, сына своего; наколол дров для всесожжения, и встав пошел на место, о котором сказал ему Бог. (Быт. 22:3).
  5. Автокорреляция уровней динамического ряда и характеристика его структуры
  6. Административные процедуры как правовой институт в структуре административного процесса
  7. Алфавитный способ группировки литературы используется в том случае, когда список невелик по объему (до 40 наименований).
  8. Альтернативные схемы APT первого ряда
  9. Анализ заводского технологического процесса
  10. Анализ производственного процесса корпорации.
  11. Аналитические абстрактные функции и ряды Тейлора.
  12. Антимонопольная политика проводится с использованием различных инструментов, но основными ее задачами являются снижение цен и увеличение объемов продаж на рынке.


Последнее изменение этой страницы: 2016-03-25; Просмотров: 1410; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.129 с.)
Главная | Случайная страница | Обратная связь