Процедура и техника дискриминантного анализа

⇐ ПредыдущаяСтр 8 из 8

Дальнейшее изложение понятий и техники дискриминантного анализа мы будем иллюстрировать примерами из психолого-педагогического исследования, одной из задач которого была классификация учителей на группы.

Для выполнения этого исследования были сформированы две группы испытуемых. Первую группу, названную «рядовые» составили педагоги, чьи профессиональные показатели не превышали среднего уровня (85 человек). Во вторую, названную «элита» (45 человек), вошли педагоги, которые, по мнению экспертов, были лучшими представителями своей профессии (напомним, что ДА относится к задачам группировки испытуемых на заданные группы или, что то же самое, к алгоритмам распознавания образов «с учителем»).

В результате тестирования испытуемых было получено более 40 показателей (переменных)[1], характеризующих каждого из них. Задача состояла в выработке решающего правила (уравнения) для отнесения каждого испытуемого к своей группе (классу). В ДА предполагается, что если процент верных классификаций окажется высоким, то это значит, что «учитель» справился со своей задачей, и мы можем пользоваться найденным уравнением для классификации неизвестных испытуемых.

Важным является вопрос, все ли переменные, описывающие испытуемых, нужно включать в обработку с помощью ДА? Следует иметь в виду, что переменные, которые не дают значимых межгрупповых различий, из ДА следует исключить. В нашем примере для определения переменных, подлежащих исключению, было проведено сравнение групп по каждой переменной с помощью t-критерия Стьюдента. Оказалось, что статистически значимо группы различаются только по 8 из более чем 40 переменных. Именно к этим переменным и была применена процедура ДА.

Процедуру и технику ДА будем обсуждать в соответствии с последовательными этапами реализации компьютерной программы ДА в пакете STATGRAF.

Процедуры интерпретации

Первый вопрос, который следует обсудить, связан с методами интерпретации. Задача интерпретации связана с определением числа и значимости канонических дискриминантных функцийи с выяснением их значений для объяснения различий между классами.

Каноническая дискриминантная функция является линейной комбинацией дискриминантных переменных. Ее уравнение, называемое дискриминантным, имеет следующий вид:

F_km = U₀+U₁X₁_km+U₂X₂_km+ … +U_pX_ikm

где F_km – значение канонической дискриминантной функции для m-го объекта в группе K; X_ikm – значение дискриминантной переменной X_i для m-го объекта в группе K; U_i – коэффициенты, обеспечивающие выполнение требуемых условий.

Коэффициенты для F_km подбираются таким образом, чтобы ее средние значения для различных классов как можно больше отличались друг от друга.

STATGRAF рассчитывает стандартизированные и нестандартизованные коэффициенты канонической дискриминантной функции. Разница между ними заключается в следующем: нестандартизованные коэффициенты – в отличие от стандартизованных – рассчитываются на основании матрицы, содержащей исходные значения наблюдений, которые не приведены к стандартной форме.

Нестандартизованные коэффициенты канонической дискриминантной функции необходимы для определения положения наблюдений (объектов) в дискриминантом пространстве (табл. 4.1).

Таблица 4.1

Нестандартизованные коэффициенты канонической дискриминантной

функции

В	М	Q1	Q4	АSОл	МРСл	0-D	E-D	Const.
0, 03	0, 16	0, 04	0, 14	0, 01	0, 24	0, 23	-0, 18	-3, 5

Именно они являются коэффициентами при переменных в дискриминантном уравнении

F = 0, 03´ В + 0, 16´ Мк + 0, 04´ Q1 + 0, 14´ Q4 + 0, 01´ ASOл 4 + 0, 2´ МРСл + 0, 23´ OD - 0, 17´ ED - 3, 5

Значение функции интерпретируется как координата объекта (учителя) в пространстве этой функции. Пространство канонической дискрининантной функции задается совокупностью объектов наблюдения, в нашей случае это координаты 130 учителей (85 рядовых - гр. I и 45 элитных - гр. 2).

Значение дискриминантной функции измеряется в единицах стандартного отклонения, то есть значение F для данного учителя представляет число стандартных отклонений точки от главного центроида или, другими словами, положение точки на оси, где нулевая точка - главный центроид.

Центроид - это воображаемая точка, координаты которой есть среднее значение переменных в данной группе. Главный центроид – это точка пространства, в которой все дискриминантные переменные принимают средние (по всем наблюдениям) значения. Другими словами, это центральное положение всех точек, представляющих наблюдения. При графическом изображении дискриминантных функций в главном центроиде помещается начало координат, так как в этом случае рассматриваемые группы и объекты соотносятся с центром системы.

У нас есть две группы - значит - два центроида: Ц1 = -0, 43, Ц2 = +0, 81 (эти значения также рассчитываются программой ДА STATGRAFа). Центроиды можно использовать для изучения различий между группами, так как они занимают положение типичных представителей соответствующей группы.

Число канонических дискриминантных функций не может быть больше числа групп минус 1. Значит при наличии двух групп возможна только одна функция. В таком случае точки, соответствующие объектам, располагаются вдоль некоторой прямой.

Можно построить график-гистограмму распределения объектов относительно этой оси. В качестве примера мы нанесли на график значения канонической дискриминантной функции для 10 первых членов из каждой группы (рис. 1).

Расположив групповые гистограммы одну над другой, легко сравнивать относительное положение групп. График показывает, что группы вполне различимы. Центроиды хорошо отделимы друг от друга.

По значению канонической дискриминатной функции, вычисленной для конкретного человека, можно сделать заключение о том, насколько типично положение данного человека среди участников группы. Возможность эта появляется потому, что дискриминантные значения выражены в единицах стандартного отклонения, то есть имеют единый масштаб. Например, значения канонической дискриминантной функции для учителей с условными номерами 86, 89 и 92 равны соответственно 1, 8; 0, 7 и -0, 3. № 89 располагается рядом с центроидом группы (Ц₂ = +0, 8) и может считаться типичным ее представителем. № 86 и № 92 отклоняются от своего центроида более чем на стандартное отклонение. Известно, что в пределах стандартного отклонения лежит 68% всех наблюдений, значит № 89 и № 92 входят в оставшиеся 32%, то есть находятся на границах своей группы.

Рис. 4.1 Распределение значений канонической дискриминантной функции для десяти произвольно взятых членов из каждой группы. Ось абсцисс является канонической дискриминантной функцией, измеренной в единицах стандартного отклонения.

_{+ ++}

_{++ ++ + + +}

Гр.1 (рядовые) --_*_*_*_*_*

-1^ц1 0 ^ц2 +1

^{-0, 43 0, 81}

₊₊

₊ _{+ +++ ++ +}

Гр.2 (элита) --_*_*_*_*_{* * *}

-1ц1 0 ц2 +1

^{-0, 43 -03} 0, 81 ^{1, 8}

Стандартизованные коэффициенты показывают вклад переменной в значение функции. Их полезно применять для выявления тех переменных, которые значат больше других для характеристики изучаемой области реальности. Абсолютная величина коэффициента анализируется в стандартной форме: чем она больше, тем больше вклад этой переменной. Для нашей функции максимален вклад переменной 0D, затем по убывающей следуют шкалы ED, Мк, МРСл, Q₄, Q₁, В, aso_л. Этот ранжир указывает на особую значимость для профессии педагога особенностей поведения в конфликтных ситуациях, которые измеряются шкалами 0D и ED из методики Розенцвейга. Причем, значимость переменной ОД (максимальный вклад) в 8, 3 раза превосходит значимость переменной ASOл (минимальный вклад).

Таблица 4.2

Стандартизованные коэффициенты канонической дискриминантной функции

B	M	Q1	Q4	ASOл	MPCл	O-D	E-D
0.09	0.34	0.11	0.28	0.06	0.29	0.5	-0.39

Процедуры классификации

Следующий вопрос, который мы обсудим, знакомясь с дискриминантным анализом, связан с методами классификации.

Классификация – это особый вид деятельности исследователя, в котором либо дискриминантные переменные, либо канонические дискриминантные функции используются для предсказания класса, к которому более вероятно принадлежит некоторый объект. Существует несколько процедур классификации, но все они сравнивают положение объекта с каждым из центроидов классов, требуют определения понятия «расстояния» между объектом и каждым центроидом группы, чтобы можно было приписать объект к «ближайшей» группе. Классификация проводится с помощью линейной комбинации дискриминантных переменных. Ищется такая комбинация, которая максимизирует различия между группами, но минимизирует дисперсию внутри групп. Особая линейная комбинация для каждой группы называется классифицирующая функция [2]. Она имеет вид:

Н_к= В_к0 +В_к1Х₁ + В_к2Х₂ +… + В_к_n Х_n

Где Н_к – значение функции для группы К, а В_к – коэффициенты простой классифицирующей функции. STATGRAF (и все другие компьютерные программы ДА) рассчитывают эти коэффициенты. В нашем случае имеется две группы, значит две классифицирующие функции:

Таблица 4.3

Коэффициенты простой классифицирующей функции

	В	М_К	Q₁	Q₄	ASOЛ	МРСл	OD	ED	const
Н₁	0.2	0.7	0.36	1.2	0.37	5.54	1.68	3.1	47.6
Н₂	0.24	0.88	0.41	1.33	0.36	5.83	1.97	2.84	52.16

H_I = 0, 2´ В + 0, 7´ М_К + 0, 36´ Q₁ + 1, 2´ Q₄ - 0, 37´ ASOл +5, 54´ МРСл +

+ 1, 68´ OD + 3, 1´ ED - 47, 6

Н₂ = 0, 24´ В + 0, 88´ М_К + 0, 41´ Q₁ + 1, 33´ Q₄ - 0, 36´ АSОл +

+ 5, 83´ МРСл +1, 97´ 00 + 2, 84´ ED - 52, 16

Классификация производится следующим образом: подсчитываются значения H_I и Н₂; объект относится к той группе, у которой значения Н больше.

Проведем для примера классификацию трех человек из элитной группы под условными номерами 1, 2, 3.

Таблица 4.4

	№ 1	№ 2	№ 3
H_I	42, 9		35, 8
H₂			37, 1

У всех трех значение Н₂ больше, значит их следует отнести к элитной группе. Здесь мы показали, как работает функция, классифицируя " известных" учителей (тех, принадлежность которых к одной из групп известна заранее). Именно на этих учителях строилась классифицирующая функция, происходило обучение системы. Теперь в уравнения можно подставлять значения переменных неизвестных людей (например, абитуриентов) и относить их к потенциально успешным или к таким, у кого потенциал успешности под вопросом.

Обобщенную меру «расстояния» между объектом и каждым центроидом группы предложил индийский статистик Махаланобис – расстояние Махаланобиса D², после вычисления которого для каждого класса объект классифицируется в группу с наименьшим D². Это класс, чей типичный профиль по дискриминантным переменным больше похож на профиль этого объекта. Если расстояние до ближайшего класса велико, то согласие между профилями будет плохим, но по сравнению с любым другим классом – хорошим.

Оказалось, что статистика D²обладает теми же свойствами, что и статистика c². Расстояние, таким образом, измеряется в «c²-единицах». Поэтому, в соответствии с закономерностями c²-распределения, мы можем ожидать, что большинство объектов будет группироваться вблизи центроида, и их плотность будет убывать по мере удаления от центроида. Зная расстояние от центроида, можно сказать, какая часть класса находится ближе к центроиду, а какая – дальше от него. Следовательно, можно оценить вероятность того, что объект, настолько-то удаленный от центроида, принадлежит к классу. Эта вероятность рассчитывается компьютерными программами ДА.

К классификации обычно обращаются как к средству предсказания принадлежности к группе " неизвестных" объектов, но можно использовать ее также для проверки точности процедуры классификации. Для этого берутся " известные" объекты и к ним применяются правила классификации.

Доля правильно классифицированных объектов говорит о точности процедуры и косвенно подтверждает степень разделения классов. Результат описывается в " классификационной матрице".

Таблица 4.5

Итоговая классификация

«обучающая» группа	Верный прогноз	Ошибочный прогноз	всего
частота	процент	частота	процент	частота	процент
		76, 47		23, 53
		73, 33		26, 67

В первой группе всего 85 человек. Из них классифицировано правильно (отнесено к первой группе) 65 человек или 76 %, неправильно (отнесено ко второй группе) 20 человек, то есть допущено 24% ошибок. Аналогично из 45 человек второй группы верно классифицировано 33 человека или 73%.

Всего верно классифицировано 65 + 33 = 98 человек из 130. Таким образом, точность предсказания равна 98: 130 = 0, 75 или 75% Процентное содержание как мера точности предсказания считается наиболее подходящей мерой дискриминантной информации.

ТЕМА 5. МАТЕМАТИКО-СТАТИСТИЧЕСКИЙ МЕТОД

КЛАССИФИКАЦИИ В ПСИХОЛОГИИ:

ВАРИАНТЫ МОДЕЛИ КЛАСТЕРНОГО АНАЛИЗА

Назначение

Кластерный анализ решает задачу построения классификации, то есть разделения исходного множества объектов на группы (классы, кластеры). При этом предполагается, что у исследователя нет исходных допущений ни о составе классов, ни об их отличии друг от друга. Приступая к кластерному анализу, исследователь располагает лишь информацией о характеристиках (признаках) для объектов, позволяющей судить о сходстве (различии) объектов, либо только данными об их попарном сходстве (различии). В литературе часто встречаются синонимы кластерного анализа: автоматическая классификация, таксономический анализ, анализ образов (без обучения).

Несмотря на то, что кластерный анализ известен относительно давно, распространение эта rpyппаметодов получила существенно позже, чем другие многомерные методы, такие, как факторный анализ. Лишь после публикации книги «Начала численной таксономии» биологами Р. Сокэл и П. Снит в 1963 году начинают появляться первые исследования с использованием этого метода. Тем не менее, до сих пор в психологии известны лишь единичные случаи удачного применения кластерного анализа, несмотря на его исключительную простоту. Вызывает удивление настойчивость, с которой психологи используют для решения простой задачи классификации (объектов, признаков) такой сложный метод, как факторный анализ. Вместе с тем кластерный анализ не только гораздо проще и нагляднее решает эту задачу, но и имеет несомненное преимущество: результат его применения не связан с потерей даже части исходной информации о различиях объектов или корреляции признаков.

Варианты кластерного анализа – это множество простых вычислительных процедур, используемых для классификации объектов. Классификация объектов – это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов. Более точно, кластерный анализ – это процедура упорядочивания объектов в сравнительно однородные классы на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям.

Существует множество вариантов кластерного анализа, но наиболее широко используются методы, объединенные общим названием иерархический кластерный анализ {Hierarchical Cluster Analysis). В дальнейшем под кластерным анализом мы будем подразумевать именно эту группу методов. Рассмотрим основной принцип иерархического кластерного анализа на примере.

Пример

Предположим, 10 студентам предложили оценить проведенное с ними занятие по двум критериям: увлекательность (Pref) и полезность (Use). Для оценки использовалась 10-балльная шкала. Полученные данные (2 переменные для 10 студентов – табл. 5.1) легко представить в виде графика двумерного рассеивания (рис. 5.1).

Таблица 5.1

Pref
Use

Конечно, классификация объектов по результатам измерения всего двух переменных не требует применения кластерного анализа: группировки и так можно выделить путем визуального анализа. Так, в данном случае наблюдаются четыре группировки: 9, 2, 3 –- занятие полезное, но не увлекательное; 1, 10, 8 – занятие увлекательное, но бесполезное; 5, 7 – занятие и полезное и увлекательное; 4, 6 – занятие умеренно увлекательное и умеренно полезное. Даже для трех переменных можно обойтись и без кластерного анализа, так как компьютерные программы позволяют строить трехмерные графики. Но для 4 и более переменных визуальный анализ данных практически невозможен. Тем не менее, общий принцип классификации объектов при помощи кластерного анализа не зависит от количества измеренных признаков, так как непосредственной информацией для этого метода являются различия между классифицируемыми объектами.

Кластерный анализ объектов, для которых заданы значения количественных признаков начинается с расчета различий для всех пар объектов. В качестве меры различия выбирается расстояние между объектами в P-мерном пространстве признаков, чаще всего – евклидово расстояние или его квадрат. В данном случае Р= 2 и евклидово расстояние между объектами i и j определяется формулой:

d_v= (x_l-x_j)²+(y_l-y_j)²,

где х – это значения одного, а у – другого признака.

На первом шаге кластерного анализа путем перебора всех пар объектов определяется пара (или пары) наиболее близких объектов, которые объединяются в первичные кластеры. Далее на каждом шаге к каждому первичному кластеру присоединяется объект (кластер), который к нему ближе. Этот процесс повторяется до тех пор, пока все объекты не будут объединены в один кластер. Критерий объединения объектов (кластеров) может быть разным и определяется методом кластерного анализа. Основным результатом применения иерархического кластерного анализа является дендрограмма – графическое изображение последовательности объединения объектов в кластеры. Для данного примера дендрограмма приведена на рис.2

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

3 ò ø

9 ò ô ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ø

2 ò ÷ ó

8 ò û ò ø ó

10 ò ÷ ù ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ø ó

1 ò ò ò ÷ ù ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ÷

5 ò û ò ò ò ò ò ò ò ò ò ò ò ø ó

7 ò ÷ ù ò ò ò ò ò ò ò ÷

4 ò ò ò ò ò û ò ò ò ò ò ò ò ÷

6 ò ò ò ò ò ÷

Рис 5. 2. Дендрограмма для 10 студентов (метод средней связи)

На дендрограмме номера объектов следуют по вертикали. По горизонтали отмечены расстояния (в условных единицах), на которых происходит объединение объектов в кластеры. На первых шагах происходит образование кластеров: (3, 9, 2) и (5, 7). Далее образуется кластер (8, 10, 1) – расстояния между этими объектами больше, чем между теми, которые были объединены на предыдущих шагах. Следующий кластер – (4, 6). Далее в один кластер объединяются кластеры (5, 7) и (4, 6), и т. д. Процесс заканчивается объединением всех объектов в один кластер. Количество кластеров определяет по дендрограмме сам исследователь. Так, судя по дендрограмме, в данном случае можно выделить три или четыре кластера.

Как видно из примера, кластерный анализ – это комбинаторная процедура, имеющая простой и наглядный результат. Широта возможного применения кластерного анализа очевидна настолько же, насколько очевиден и его смысл. Классифицирование или разделение исходного множества объектов на различающиеся группы – всегда первый шаг в любой умственной деятельности, предваряющий поиск причин обнаруженных различий.

Можно указать ряд задач, при решении которых кластерный анализ является более эффективным, чем другие многомерные методы:

§ разбиение совокупности испытуемых на группы по измеренным признакам с целью дальнейшей проверки причин межгрупповых различий по внешним критериям, например, проверка гипотез о том, проявляются ли типологические различия между испытуемыми по измеренным признакам;

§ применение кластерного анализа как значительно более простого и наглядного аналога факторного анализа, когда ставится только задача группировки признаков на основе их корреляции;

§ классификация объектов на основе непосредственных оценок различий между ними (например, исследование социальной структуры коллектива по данным социометрии – по выявленным межличностным предпочтениям).

Несмотря на различие целей проведения кластерного анализа, можно выделить общую его последовательность как ряд относительно самостоятельных шагов, играющих существенную роль в прикладном исследовании:

1. Отбор объектов для кластеризации. Объектами могут быть, в зависимости от цели исследования: а) испытуемые; б) объекты, которые оцениваются испытуемыми; в) признаки, измеренные на выборке испытуемых.

2. Определение множества переменных, по которым будут различаться объекты кластеризации. Для испытуемых – это набор измеренных признаков, для оцениваемых объектов – субъекты оценки, для признаков – испытуемые. Если в качестве исходных данных предполагается использовать результаты попарного сравнения объектов, необходимо четко определить критерии этого сравнения испытуемыми (экспертами).

3. Определение меры различия между объектами кластеризации. Это первая проблема, которая является специфичной для методов анализа различий: многомерного шкалирования и кластерного анализа. Применяемые меры различия и требования к ним подробно обсуждаются в теме, посвященной многомерному шкалированию.

4. Выбор и применение метода классификации для создания групп сходных объектов. Это вторая и центральная проблема кластерного анализа. Ее весомость связана с тем, что разные методы кластеризации порождают разные группировки для одних и тех же данных. Хотя анализ и заключается в обнаружении структуры, на деле в процессе кластеризации структура привносится в данные, и эта привнесенная структура может не совпадать с реальной.

5. Проверка достоверности разбиения на классы.

Последний этап не всегда необходим, например, при выявлении социальной структуры группы. Тем не менее, следует помнить, что кластерный анализ всегда разобьет совокупность объектов на классы, независимо от того, существуют ли они на самом деле. Поэтому бесполезно доказывать существенность разбиения на классы, например, на основании достоверности различий между классами по признакам, включенным в анализ. Обычно проверяют устойчивость группировки – на повторной идентичной выборке объектов. Значимость разбиения проверяют по внешним критериям – признакам, не вошедшим в анализ.

Методы кластерного анализа

Непосредственными данными для применения любого метода кластеризации является матрица различий между всеми парами объектов. Определение или задание меры различия является первым и необходимым шагом кластерного анализа.

Из всего множества методов кластеризации наиболее распространены так называемые иерархические агломеративные методы. Название указывает на то, что классификация осуществляется путем последовательного объединения (агломерации) объектов в группы, оказывающиеся в результате иерархически орга-низованными. Эти методы – очень простые комбинаторные процедуры, отличающиеся критерием объединения объектов в кластеры.

Критерий объединения многократно применяется ко всей матрице попарных расстояний между объектами. На первых шагах объединяются наиболее близкие объекты, находящиеся на одном уровне сходства. Затем поочередно присоединяются остальные объекты, пока все они не объединятся в один большой кластер. Результат работы метода представляется графически в виде дендрограммы – ветвистого древовидного графика.

Существуют различные методы иерархического кластерного анализа, в частности, в программе SPSS предлагается 7 методов. Каждый метод дает свои результаты кластеризации, но три из них являются наиболее типичными. Поэтому рассмотрим результаты применения этих методов к одним и тем же данным из нашего примера.

Метод одиночной связи (Single Linkage) – наиболее понятный метод, который часто называют методом «ближайшего соседа» (Nearest Neighbor). Алгоритм начинается с поиска двух наиболее близких объектов, пара которых образует первичный кластер. Каждый последующий объект присоединяется к тому кластеру, к одному из объектов которого он ближе.

На рис 3. приведен результат применения метода. Сопоставляя эту ден-дрограмму с рис. 1, можно заметить, что объект 4 присоединяется к кластеру (8, 10, 1) и на том же расстоянии – к объекту 6 в связи с тем, что расстояние от объекта 4 до объекта 6 такое же, что и до объекта 1.

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

3 ò ø

9 ò ô ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ø

2 ò ÷ ó

5 ò û ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ø ó

7 ò ÷ ó ó

8 ò ò ò ò ò ø ù ò ò ò ò ò ò ò ò ò ò ò ÷

10 ò ò ò ò ò ü ò ò ò ò ò ò ò ò ò ò ò ø ó

1 ò ò ò ò ò ÷ ù ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ÷

4 ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ú

6 ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ÷

Рис 5. 3. Дендрограмма для 10 студентов (метод одиночной связи)

Из рисунка видно, что метод имеет тенденцию к образованию длинных кластеров «цепочного» вида. Таким образом, метод имеет тенденцию образовывать небольшое число крупных кластеров. К особенностям метода можно отнести и то, что результаты его применения часто не дают возможности определить, как много кластеров находится в данных.

Метод полной связи (Complete Linkage) часто называют методом «дальнего соседа» (Furthest Neighbor). Правило объединения этого метода подразумевает, что новый объект присоединяется к тому кластеру, самый далекий элемент которого находится ближе к новому объекту, чем самые далекие элементы других кластеров. Это правило является противоположным предыдущему и более жестким. Поэтому здесь наблюдается тенденция к выделению большего числа компактных кластеров, состоящих из наиболее похожих элементов.

Сравним результат применения метода полной связи (рис. 19.4), метода одиночной связи (рис. 19.3) и фактическую конфигурацию объектов (рис. 19.2). Различия в работе методов проявляются прежде всего в отношении объектов 4 и 6. Метод полной связи объединяет их в отдельный кластер и соединяет с кластером (5, 7) раньше, чем с кластером (8, 10, 1) – в отличие от метода одиночной связи.

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

3 ò ø

9 ò ô ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ø

2 ò ÷ ó

5 ò û ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ø ó

7 ò ÷ ó ó

8 ò ò ò ò ò ø ù ò ò ò ò ò ò ò ò ò ò ò ÷

10 ò ò ò ò ò ü ò ò ò ò ò ò ò ò ò ò ò ø ó

1 ò ò ò ò ò ÷ ù ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ÷

4 ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ú

6 ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ò ÷

Рис. 5. 4. Дендрограмма для 10 студентов (метод полной связи)

Объект 4 присоединяется сначала к объекту 6, потому что этот последний к нему ближе, чем самый дальний объект кластера (8, 10, 1). На этом же основании кластер (4, 6) присоединяется к кластеру (5, 7), потому что самый дальний объект 6 кластера (4, 6) ближе к самому дальнему объекту 7 кластера (5, 7), чем к самому дальнему объекту 8 кластера (8, 10, 1).

Метод средней связи (Average Linkage) или межгрупповой связи {Between Groups Linkage) занимает промежуточное положение относительно крайностей методов одиночной и полной связи. На каждом шаге вычисляется среднее арифметическое расстояние между каждым объектом из одного кластера и каждым объектом из другого кластера. Объект присоединяется к данному кластеру, если это среднее расстояние меньше, чем среднее расстояние до любого другого кластера. По своему принципу этот метод должен давать более точные результаты классификации, чем остальные методы. То, что объединение кластеров в методе средней связи происходит при расстоянии большем, чем в методе одиночной связи, но меньшем, чем в методе полной связи, и объясняет промежуточное положение этого метода. Результат применения метода изображен на рис.2. Поскольку объектов в нашем примере немного, результаты применения методов полной и средней связи различаются незначительно.

В реальных исследованиях обычно имеются десятки классифицируемых объектов, и применение каждого из указанных методов дает существенно разные результаты для одних и тех же данных. Опыт и литературные данные свидетельствуют, что наиболее близкий к реальной группировке результат позволяет получить метод средней связи. Но это не означает бесполезность применения двух других методов. Метод одиночной связи «сжимает» пространство, образуя минимально возможное число больших кластеров. Метод полной связи «расширяет» пространство, образуя максимально возможное число компактных кластеров. Каждый из трех методов привносит в реальное соотношение объектов свою структуру и представляет собой как бы свою точку зрения на реальность. Исследователь, в зависимости от стоящей перед ним задачи, вправе выбрать тот метод, который ему больше подходит.

Численность классов является отдельной проблемой в кластерном анализе. Сложность заключается в том, что не существует формальных критериев позволяющих определить оптимальное число классов. В конечном итоге это определяется самим исследователем исходя из содержательных соображений. Однако для предварительного определения числа классов исследователь может обратиться к таблице последовательности агломерации {Agglomeration schedule). Эта таблица позволяет проследить динамику увеличения различий по шагам кластеризации и определить шаг, на котором отмечается резкое возрастание различий. Оптимальному числу классов соответствует разность между числом объектов и порядкового номера шага, на котором обнаружен перепад различий. Более подробно порядок оценки численности классов рассмотрен на примере компьютерной обработки.

⇐ Предыдущая 1 2 3 4 5 6 78