Временные ряды с использованием процесса скользящего среднего могут иметь место, когда уровни динамического ряда характеризуются случайной колеблемостью.

Модели ARMA

Соединение в одной модели авторегрессионного процесса ARи модели скользящего среднего МА приводит к модели авторегрессионного процесса со скользящими средними в остатках

(ARMА — отанглийскогоAuto Regressive — Moving Average):

(5.65)

В модели (7) в качестве объясняющих переменных рассматриваются лаговые значения зависимой переменной с р интервалами сдвига и скользящие средние порядка q для остатков авторегрессии. Иными словами, модель включает в себя AR (р) и МА (q). Ее принято обозначать ARMA (р, q). Например, ARMA (3, 2) имеет вид

(5.66)

При практической реализации моделей ARMA наиболее сложным является выбор числа лагов р и q.

Инструментом идентификации модели ARMA является изучение частной автокорреляционной функции по моделям с разным числом лагов. Частная автокорреляционная функция (PACF — PartialAutocorrelationFunction) представляет собой серию частных коэффициентов автокорреляции (РАС), которые измеряют связь между текущим уровнем динамического ряда и предыдущими значениями в условиях, когда влияние других промежуточных временных лагов устранено. Так, частный коэффициент автокорреляции при лаге k будет представлять собой корреляцию и , очищенную от влияния .

Обозначим частный коэффициент автокорреляции с лагом kчерез ρ (k). При k = 0 ρ (0) = 1 (уровни ряда коррелируют сами с собой); при k = 1 , где — коэффициент автокорреляции первого порядка. Это равенство связано с тем, что при расчете ρ (1) отсутствуют промежуточные лаги. Вычисление ρ более высокого порядка можно производить по формулам

Для авторегрессионного процесса порядка ρ частная автокорреляционная функция отлична от нуля при k ≤ ρ и равна нулю при k> ρ . Это и позволяет определять порядок ρ процесса AR. Так, для модели AR (1): ρ (2) близко к нулю.

Для модели типа МА (q) порядок q определяется по поведению автокорреляционной функции: при k рr_а стремится к нулю. Для модели ARMA (р, q) автокорреляционная функция характеризуется убыванием, начинающимся с лага q, а частная автокорреляционная функция убывает, начиная с лага ρ. Так, для модели ARMA (1, 1) при > 0 ACF наблюдает экспоненциальное затухание с лага 1, aPACF — осциллирующее убывание с лага 1. При < 0 ACF для модели ARMA (1, 1) наблюдает осциллирующее убывание с лага 1, aPACF — экспоненциальное затухание с лага 1.

Модели ARIMA

Дляполучения стационарного ряда могут рассчитываться разности уровней временного ряда ∆ разного порядка d. Модель, в которой соединены нахождение последовательных разностей временного ряда порядка d и ARMA, — модель порядка (р, q), получила название авторегрессионной интегрированной модели скользящей средней—ARIMA(AutoregressiveIntegratedMovingAverage).

Модель ARIMA обладает тремя параметрами: р — порядок авторегрессии AR; d — порядок последовательных разностей уровней временных рядов, обеспечивающий стационарность ряда, и q — порядок скользящей средней МА.

В общем виде модель ARIMA (р, d, q) выражается формулой

(5.67)

где — k-я последовательная разность уровней , т.е. — нормально распределенные случайные величины с нулевым математическим ожиданием и постоянной дисперсией.

Из модели (5.67) для можно получить модель для исходного динамического ряда с помощью выражения:

(5.68)

Так, если модель ARIMA(1, 1, 1) имеет вид то динамический ряд описывается моделью

так как

Модель ARIMA практически пригодна для большинства временных рядов. При d = 0 и q = 0 модель AR1MAпревращается в процесс AR

Если р = 0, d = 0 и q = 1, 2, …, k, то имеем модель МА

Наиболее распространены модели ARIMA с параметрами р, dи q, не превышающими двух. Современные компьютерные программы предлагают разные варианты оценивания параметров модели ARIMA, среди которых преобладает оценка методом максимального правдоподобия. Такой подход можно видеть при реализации модели ARIMA в системе SPSS^{^[1]}.

Методология построения модели ARIMA для исследуемого временного ряда включает следующую последовательность шагов.

На первом шаге необходимо получить стационарный ряд. При тестировании исходных данных на стационарность прежде всего используется визуальный анализ графика. Например, уже на этом этапе можно обнаружить ярко выраженную трендовую составляющую.

Также в методике Бокса—Дженкинса рекомендуется проводить анализ АКФ (ЧАКФ). Быстрое убывание значений выборочной АКФ является простым критерием стационарности (аналогичное поведение должна демонстрировать и ЧАКФ).

Часто на этом этапе используются статистические тесты на наличие единичного корня (тест Дики—Фуллера, расширенный тест Дики- Фуллера).

Для перехода к стационарному ряду традиционно применяют оператор взятия последовательных разностей (процедуру дискретного дифференцирования). Быстрое затухание АКФ будет свидетельствовать о том, что необходимая для стационарности ряда степень разности достигнута.

На втором шаге после получения стационарного ряда исследуется характер поведения выборочных АКФ и ЧАКФ, выдвигаются гипотезы о значениях параметров p (порядок авторегрессии) и q (порядок скользящего среднего).

При этом следует иметь в виду, что выборочные корреляционные функции могут не демонстрировать детального сходства с теоретическими. Поэтому для идентификации модели могут использоваться главные черты АКФ, при расхождении более тонких деталей, в результате формируется базовый набор, включающий 1—2 или даже большее число моделей.

На третьем шаге после осуществления идентификации моделей необходимо оценить их параметры. В современных эконометрических пакетах прикладных программ используются разные подходы (МНК, нелинейный МНК, метод максимального правдоподобия (ММП)). Все эти оценки при больших объемах выборок асимптотически эквивалентны.

На следующем, четвертом шаге для проверки каждой пробной модели на адекватность анализируется ряд ее остатков. У адекватной модели остатки должны быть похожими на белый шум, т. е. их выборочные автокорреляции не должны существенно отличаться от нуля.

При проверке значимости коэффициентов АКФ используются два подхода:

■ проверка значимости каждого коэффициента автокорреляции отдельно;

■ проверка значимости множества коэффициентов автокорреляции как группы.

Первый подход опирается на работу Бартлетта, показавшего, что если модель адекватна исходным данным и ошибки представляют собой белый шум, то распределение коэффициентов автокорреляции приближается к нормальному с нулевым математическим ожиданием и дисперсией , т.е. к .

Поэтому если выборочный коэффициент автокорреляции выходитза интервал , то нулевая гипотеза о равенстве нулю коэффициентар_к отвергается.

Второй подход опирается на Q-статистику Бокса—Пирса, позволяющую проверить равенство нулю сразу т первых значений АКФ остатков. Q-статистика определяется как

Q = n

При нулевой гипотезе об отсутствии автокорреляции статистика Qимеет -распределение с v = τ -p-q степенями свободы, где р, q-параметры ARMA модели.

Если Q> , то как группа первые τ коэффициентов автокорреляции значимы (т. е. не все , равны нулю).

В некоторых эконометрических пакетах включена модификация этого подхода — тест Бокса-Льюнга. Соответствующая статистика в этом случае определяется выражением:

= n(n+ 2)

имеет такое же асимптотическое распределение, как и Q, однако ее распределение ближе к для конечных выборок. В практических руководствах рекомендуется рассматривать (но не более 50).

Кроме того, при построении модели ARIMA необходимо проверить значимость коэффициентов (по t-критерию). При этом модель не должна содержать лишних параметров, т. е. уменьшение числа параметров будет способствовать появлению значимой автокорреляции остатков.

Если в результате проверки несколько моделей оказываются адекватными исходным данным, то при окончательном выборе следует учесть два требования:

■ повышение точности (качество подгонки модели);

■ уменьшение числа параметров модели.

Воедино эти требования сведены в информационном критерии Акайка (Akaikeinformationcriterion (AIC)), определяемом формулой:

где — уровни ряда остатков.

Очевидно, что выбор следует сделать в пользу модели с меньшим значением AIC.

Аналогичный характер носит критерий Шварца (Schwarzcriterion), усиливающий требование уменьшения количества параметров модели:

На заключительном этапе с помощью модели, выбранной на четвертом шаге, можно строить точечный и интервальный прогноз на L шагов вперед.

Сезонная модель Бокса—Дженкинса может быть представлена в виде: ARIMA(p, d, q)(P_s, D_s, Q_s), где к параметрам модели р, d, q добавлены: P_s — сезонный параметр авторегрессии; Qs — сезонный параметр скользящего среднего; D_s— параметр, определяющий порядок сезонной разности (сезонной производной).

При наличии ярко выраженной сезонной компоненты целесообразно включение в модель сезонного дифференцирования. Однако при решении практических экономических задач не рекомендуется использовать сезонные производные больше первого порядка. Также лучше не применять модели, у которых сумма порядков разностей (сезонных и несезонных) больше двух, т. е. желательно выдерживать соотношение:

d+D_s ≤ 2.

Определение значений параметров сезонной авторегрессии SAR(P_s) и сезонного скользящего среднего SMA(D_s) также опирается на исследование АКФ и ЧАКФ. Только теперь все типичные проявления, всплески будут удалены друг от друга на величину лага S, где S — период сезонности.

При идентификации полной сезонной модели ARIMA(p, d, q)(Ps, As, Qs) часто сначала используют процедуру логарифмирования исходного ряда (для снижения дисперсии процесса), затем берут одну несезонную и одну сезонную разности (дифференцирование для несезонной части может и не потребоваться). На следующем этапе исследуется поведение АКФ и ЧАКФ для полученного производного ряда.

В некоторых эконометрических пакетах реализованы процедуры автоматического подбора структуры модели Бокса—Дженкинса.

Однако окончательный выбор модели все же должен оставаться за исследователем-экспертом, хорошо представляющим предметную область. Иногда можно построить две модели, одинаково хорошо соответствующие данным на ретроспективном участке (например, модель с порядком дифференцирования 1 и АR-членами и модель с большим порядком дифференцирования и MA-членами). Однако предлагаемые прогнозы у этих моделей могут существенно различаться. Поэтому окончательный выбор между такими моделями должен опираться на представления исследователя о виде нестационарности исходного ряда, о характере его трендовой составляющей.

Успех применения мощного, гибкого, но в то же время сложного аппарата модели ARIMA во многом зависит от практического опыта и квалификации исследователя, а процедуры автоматического выбора вида модели призваны лишь облегчить его аналитическую деятельность.

Пример 5.8.Известны данные экспорта и импорта РФ (в млрд. долларов США) за период с 1-го квартала 2002 года по второй квартал 2015 года. Требуется осуществить прогноз с применением модели ARIMAна 3-й и 4- кварталы 2015 года.

Рассмотрим более подробно динамические ряды экспорта и импорта. Их данные представлены в табл.5.13, а графическая иллюстрация -на рисунке 5.11.

Экспорт и импорт РФ

Таблица 5.13

Рис. 5.11. Динамические ряды экспорта и импорта РФ

В период с 3-го квартала 2008 по 1- квартал 2009 гг. наблюдается влияние мирового финансового кризиса – объемы экспорта за этот период снизились на 77, 5 млрд. долл., а импорта – на 43, 8 млрд. долларов.Восстановительный период завершился по экспорту в 4-ом квартале, а по импорту – во 2-ом квартале 2011 года.

Следующее снижение объёмов экспорта и импорта наблюдается со 2-го квартала 2014 года. В первом квартале 2015 года по экспорту оно составило 42, 6, а по импорту – 33, 4 млрд. долларов США. По сравнению с соответствующим кварталом 2013 года объёмы экспорта снизились на 32, 0%, а импорта – на 44, 2%.

Из полученного графического изображения можно выдвинуть предположение о наличии систематической и сезонной компонент, а так же случайной компоненты. Наличие систематической компоненты можно объяснить присутствием долговременно действующих факторов, формирующих динамику (график имеет постоянную тенденцию к возрастанию). Наличие же сезонной компоненты объясняется присутствием колебаний на графике (выбросов) с определенной периодичностью. Объемы экспорта и импорта увеличиваются к декабрю каждого года и резко снижаются в январе следующего за ним.

В целях уменьшения вариации результативных признаков, обусловленной различным количеством рабочих часов в кварталах года, введем в качестве результативных переменных объёмы экспорта и импорта в час.

Кроме того, в процессе решения берётся натуральный логарифм, преследуя ранее упомянутую цель.

Рис. 5.12. Логарифм экспорта (в час) РФ

Для прогнозирования будем использовать модель ARIMA с интервенцией. Особенностью данной модели является возможность учёта спада в динамике внешнеторгового оборота под влиянием мирового финансового кризиса.

Наличие основной тенденции означает, что ряд данных не является стационарным. На этапе идентификации модели ARIMA необходимо добиться того, чтобы ряд первоначально нестационарный стал стационарным; это означает, что его среднее постоянно, а выборочные дисперсия и автокорреляция не меняются во времени. По этой причине обычно необходимо брать последовательные разности ряда до тех пор, пока ряд не станет стационарным. Для того чтобы определить необходимый порядок разности, нужно исследовать график ряда и автокоррелограммы.

Сильные изменения уровня (сильные скачки вверх или вниз) обычно требуют взятия несезонной разности первого порядка. Сильные изменения наклона требуют взятия разности второго порядка. Сезонная составляющая требует взятия соответствующей сезонной разности. Если имеется медленное убывание выборочных коэффициентов автокорреляции в зависимости от лага, обычно берут разность первого порядка.

В результате проведенного анализа было выявлено, что наиболее подходящим является взятие первых и четвертых разностей для устранения тренда и сезонности ряда.

В итоге формируется график разностей (рис.5.13). Из графика на рис. видно, что ряд стал стационарным.

Рис. 5.13. Исходный ряд после взятия первых и четвертых разностей

На этапе идентификации модели необходимо решить, как много параметров авторегрессии (p) и скользящего среднего (q) должно присутствовать в модели процесса. На практике часто число параметров p или q ограничивают значением 2.

В ходе анализа исходного ряда, была выявлена интервенция на 27 квартале из-за резкого спада внешнеторгового оборота России под влиянием мирового финансового кризиса. В связи с этим для прогнозирования экспорта России использовалась модельARIMA с постоянной устойчивой интервенцией в27 квартале.

Для нахождения качественной модели было проанализировано несколько комбинаций параметров (p, d, q)(P, D, Q). Среди адекватных моделей выбрана наиболее точная - модель ARIMA(0, 1, 0)(0, 1, 1), результаты которой представлены в табл. 5.14, 5.15и на рис.5.13.

Параметры модели прогноза объёмов экспорта

Таблица 5.14

Исход.: Экспорт в час, млн. долл. США (Таблица0609.sta) Преобразования: ln(x), D(1), D(4) (Прерванная АРПСС) Модель(0, 1, 0)(0, 1, 1) Сезонный лаг: 4 MS Остаток=, 01318

Парам. Асимпт. Асимпт. p Нижняя Верхняя Интерв. Интерв. Асимпт.

Qs(1) 0, 852619 0, 093471 9, 12176 0, 000000 0, 664472 1, 040767

Омега(1) -0, 223677 0, 085869 -2, 60487 0, 012338 -0, 396522 -0, 050832 пост/уст

Дельта1) 0, 733754 0, 116116 6, 31914 0, 000000 0, 500024 0, 967484 пост/уст -0, 840114

Результаты прогноза объёмов экспорта

Таблица 5.15

Номер квартала Прогноз Нижний 90% Верхний 90% Отношение значения верхней границы к нижней

194, 20 160, 15 235, 47 1, 47

211, 55 161, 07 277, 84 1, 72

218, 32 156, 35 304, 85 1, 95

226, 30 153, 91 332, 74 2, 16

Рис.5.14. Прогноз объёмов экспорта

Принято считать, что если отношение верхней границы прогноза к её нижней границе меньше двух, то прогноз считается достаточно точным. Как следует из данных таб. 5.15 упомянутое условие выполняется только для 55 и 56 кварталов, т.е. для 3-го и 4-го кварталов 2015 года.

Как видно из графика (рис.5.15), выборочная плотность распределения остатков достаточно хорошо аппроксимируется нормальным законом распределения, что является одним из признаков адекватности построенной модели.

Рис.5.15. Выборочная плотность распределения остатков

В результате анализа остатков установлено, что они практически не коррелированы, имеют равную вариацию на всем протяжении ряда (кроме 27 квартала) и нет очевидного тренда или сдвига их. Из графиков (рис.5.16, 5.17) видно, что остатки практически являются белым шумом.

Рис.5.16. Автокорреляционная функция остатков

Рис.5.17. Частная автокорреляционная функция остатков

Соответствующие таблицы и графики по импорту приведены ниже.

Параметры модели прогноза объёмов импорта

Таблица 5.16

Исход.: Импорт в час, млн. долл. США (Таблица0609.sta) Преобразования: ln(x), D(1), D(4) (Прерванная АРПСС) Модель(0, 1, 0)(0, 1, 1) Сезонный лаг: 4 MS Остаток=, 01030

Парам. Асимпт. Асимпт. p Нижняя Верхняя Интерв. Интерв. Асимпт.

Qs(1) 0, 686282 0, 260973 2, 62971 0, 011583 0, 160971 1, 211593

Омега(1) -0, 217437 0, 089076 -2, 44103 0, 018553 -0, 396737 -0, 038137 пост/уст

Дельта1) 0, 743828 0, 084907 8, 76053 0, 000000 0, 572919 0, 914736 пост/уст -0, 848790

Результаты прогноза объёмов импорта

Таблица 5.17

Номер квартала Прогноз Нижний 90% Верхний 90% Отношение значения верхней границы к нижней

95, 65 80, 66 113, 41 1, 41

101, 70 79, 92 129, 40 1, 62

85, 50 63, 65 114, 84 1, 80

93, 14 66, 25 130, 95 1, 98

Рис.5.18. Прогноз объёмов импорта

Рис.5.19. Выборочная плотность распределения остатков

Рис.5.20. Автокорреляционная функция остатков

Рис.5.21.Частная автокорреляционная функция остатков

Таким образом, с доверительной вероятностью 0, 9 объёмы экспорта и импорта в млрд. долларов США составят:

Экспорт

Номер квартала 2015 года Прогноз Нижний 90% Верхний 90% Отношение значения верхней границы к нижней

102, 54 84, 56 124, 33 1, 47

109, 58 83, 44 143, 92 1, 72

Импорт

Номер квартала 2015 года Прогноз Нижний 90% Верхний 90% Отношение значения верхней границы к нижней

50, 50 42, 59 59, 88 1, 41

52, 68 41, 40 67, 03 1, 62

КЛАСТЕРНЫЙ АНАЛИЗ

ОБЩАЯ ХАРАКТЕРИСТИКА ПРОЦЕДУР КЛАСТЕРИЗАЦИИ

Кластерный анализ и его роль в социально-экономических исследованиях.

При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания. Это происходит, например, при решении задач сегментирования рынка, построения типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка отдельных товаров, изучения и прогнозирования экономической депрессии и многих других проблем.

Кластерный анализ — один из методов многомерной статистики — наиболее ярко отражает черты многомерности в процедуре классификации объектов. Название «кластерный анализ» происходит от английского слова «cluster» — гроздь, скопление. Впервые определил предмет кластерного анализа и дал его описание исследователь Трион (Тгуоп) в 1939 г. [3].

Главное назначение кластерного анализа — разбиение множества исследуемых объектов, характеризуемых совокупностью признаков*, на однородные в соответствующем понимании группы (кластеры). Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Иными словами, предполагается выделение компактных, удаленных друг от друга групп объектов или отыскание «естественного» разбиения совокупности на области скопления.

Кластерный анализ является одним из направлений статистического исследования социально-экономических процессов, которые связаны с изучением массовых явлений.

Пример 3.1. Некая фирма собирается начать выпуск нового стирального порошка. Разработана анкета, содержащая ряд вопросов, характеризующих отношение респондентов к свойствам продукта. Респонденты должны проранжировать факторы по степени их значимости, начиная с самого важного, — от 1 до 8. Строгое определение понятий «объект» и «признак» будет дано в подпараграфе 3.1.2.

Результаты классификации объектов (респондентов) по переменным (свойствам продукта) представлены в табл. 3.1.

Таблица 3.1

Результаты классификации респондентов по предпочтениям

Свойства продукта	Ранги свойств по сегментам
1 (18%)	2 (7%)	3 (60%)	4 (15%)
Моющая способность
Отдушка
Цена
Безвредность
Эффект отбеливания
Подсинивание
Быстрое растворение
Отсутствие пыления

Получилось четыре сегмента, существенно различающиеся между собой по наиболее важным признакам продукта. Эти признаки выделены в таблице. Их можно назвать «сегментообразующими». Легко видеть, что сегмент 3 — самый крупный (60% от выборки). Это прагматики, для которых важнейшей характеристикой продукта является его цена, а также такие качества, как моющая способность и эффект отбеливания. В следующем по величине сегменте 1, напротив, на первом месте стоит безвредность порошка, цена же занимает последнее место.

Далее может проводиться сегментация по вопросам, касающимся, например, стиля поведения респондентов («покупаю дешевые», «пользуюсь новинками» и т.п.).

Таким образом, результаты кластерного анализа фактически опишут портрет потребителя с рациональной (свойства стирального порошка) и эмоциональной (оценка степени согласия с утверждениями) точек зрения. На основе их можно определить целевую группу качеств, расставить акценты в рекламном сообщении, избавиться от иллюзий относительно исключительности своего товара по какому-либо определенному свойству и т.д.

Большое достоинство кластерного анализа в том, что он позволяет выполнить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ, в отличие от большинства математико-статистических методов, не накладывает никаких ограничений на вид изучаемых объектов и позволяет рассматривать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры рынка, когда показатели весьма разнообразны и затруднительно применение традиционных эконометрических подходов.

Кластерный анализ играет важную роль и для совокупностей временных рядов, характеризующих экономическое развитие. В частности, можно выделить периоды, когда значения соответствующих показателей были достаточно близкими, а также определить группы показателей, динамика которых во времени наиболее схожа.

Необходимость развития и использования методов кластерного анализа продиктована прежде всего тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности. Построение классификаций особенно актуально для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Методы кластерного анализа могут применяться с целью сжатия информации, в условиях постоянного увеличения и усложнения потоков статистических данных. При этом в задачах социально- экономического прогнозирования весьма перспективно сочетание кластерного анализа с другими количественными методами (с корреляционно-регрессионным, факторным анализом и т.п.).

Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения. Так, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникнуть определенные скажения, а также потеряться индивидуальные черты отдельных объектов за счет замены их характеристик обобщенными значениями параметров кластера.

3.1.2. Расстояния между объектами и кластерами

Различия между схемами решения задач классификации во многом определяются тем, что понимают под сходством, однородностью объектов.

Введем вначале такие ключевые для данной главы понятия, как объект и признак.

Под объектами будем подразумевать конкретные предметы исследования, нуждающиеся в классификации. Такими объектами могут быть, например, потребители продукции, отличающиеся своими предпочтениями, различные регионы или страны, предприятия, их продукция и т.п.

Признак (синонимы: свойство, переменная, характеристика) представляет собой конкретное свойство объекта.

Различные свойства могут выражаться как числовыми, так и нечисловыми значениями. Например, объем производства может измеряться в килограммах или тоннах, цена жилья — в тысячах рублей (долларов) и т.п. Такие признаки называются количественными (непрерывными). Над ними можно производить арифметические операции.

В отличие от числовых характеристик ряд признаков может иметь дискретные, прерывистые значения. В свою очередь, дискретные признаки делятся на две группы. Первая группа — порядковые (ранговые) переменные. Таким признакам присуще свойство упорядоченности значений. К ним можно отнести возраст, этаж дома, год выпуска и др. Значения ранговых переменных представляются натуральными числами. Вторая группа дискретных признаков не имеет такой упорядоченности и носит название номинальных переменных. Это переменные, принимающие два значения (дихотомические) или более. Этим значениям можно поставить в соответствие некоторые числа, которые, однако, не будут отражать какой-либо упорядоченности значений переменной. Примером таких признаков может быть пол респондента, тип дома, вид транспортного средства и т.п. Эти признаки относятся к шкале наименований. Их можно считать качественными характеристиками объектов.

Обычной формой представления исходных данных в задачах кластерного анализа служит прямоугольная таблица «объект — признак»

каждая строка которой представляет результат измерений m рассматриваемых признаков на одном из n обследованных объектов.

Пример 3.2. Пусть имеется 13 объектов, у которых измерено два признаками Y(табл. 3.2).

Таблица 3.2

Совокупность объектов с двумя признаками

Испытуемый	Признак X	Признак Y
A
B
C
D
E
F
G
H
I
J
K
L
M

Непосредственная инспекция таблицы данных не позволяет увидеть то, что является очевидным, но после построения диаграммы рассеяния (рис. 3.1) совокупность объектов распадается на три хорошо различимые группы.

Рис. 3.1. Диаграмма рассеяния

Объекты внутри кластера более «похожи» друг на друга, чем на объекты из других групп. Таким образом, кластерный анализ ориентирован на выделение некоторых геометрически удаленных групп, внутри которых объекты близки.

В кластерном анализе для количественной оценки сходства вводится понятие «расстояние между объектами». Кроме термина «расстояние» в литературе часто встречаются и другие термины — «метрика», «мера», которые подразумевают метод вычисления того или иного конкретного расстояния.

Если каждый объект описывается т признаками, то он может быть представлен как точка в m-мерном пространстве, и сходство с другими объектами будет определяться как соответствующее расстояние.

Расстоянием между i-м и j-м объектами в пространстве признаков называется такая величина , которая удовлетворяет следующим аксиомам:

1) (неотрицательность);

2) (симметрия);

3) (неравенство треугольника, здесь q — номер объекта);

4) если , то (различимость нетождественных объектов);

5) если , то (неразличимость тождественных объектов).

Меру близости (сходства) объектов удобно представить как величину, обратную расстоянию между объектами.

В многочисленных изданиях, посвященных кластерному анализу, описано более 50 различных способов вычисления расстояния между объектами. Выбор расстояния является узловым моментом исследования. От него во многом зависит окончательный вариант разбиения объектов на классы при данном алгоритме. Чаще других используются следующие меры расстояния между объектами:

1) евклидово расстояние

2) взвешенное евклидово расстояние

3) расстояние Миньковского

4) расстояние city-block (расстояние городских кварталов)

где — расстояние между i-м и j-м объектами;

m — число переменных (признаков), которыми описываются объекты;

— значения k- й переменной соответственно у i-го и j-го объектов;

— вес, приписываемый к-й переменной, пропорциональный степени важности признака в задаче классификации;

p — показатель степени, определяемый исследователем.

Дадим несколько комментариев к приведенным выше мерам расстояний между объектами.

Евклидово расстояние — одно из наиболее известных расстояний, которое доступно для восприятия и понимания в

⇐ Предыдущая 11 12 13 14 15 16 17 18 1920