Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Алгоритм К внутригрупповых средних.



Ш1. Выбираются К исходных центров кластеров Z1(1), …, Zk(1). Этот выбор производится произвольно. Ш2. Заданное множество образов {х} распределяется по K кластерам по следующему правилу:

хÎ Sj(k), если || х – zj(k) ||< || х - zi(k) || для всех i= 1, 2, ..., K, i≠ j, где Sj(k)—множество образов, входящих в кластер с центром zj(k). В случае равенства решение принимается произвольным образом. Ш 3. На основе пред-го шага определяются новые центры кластеров zj(k+1), j = 1, 2, ..., К, исходя из условия, что сумма квадратов расстояний между всеми образами, принадлежащими множеству Sj(K), и новым центром кластера должна быть минимальной. Т. е. новые центры кластеров zj(k+1) выбираются таким образом, чтобы минимизировать показатель качества

Новые центры кластеров определяются как

где Nj—число выборочных образов, входящих в множество Sj(k).

Ш 4. Проверяется равенство zj(k+1) = zj(k) при j=1, 2, ..., К, которое является условием сходимости алгоритма, и при его достижении выполнение алгоритма заканчивается. В противном случае алгоритм повторяется от шага 2. Качество работы алгоритмов, основанных на вычислении К внутригрупповых средних, зависит от числа выбираемых центров кластеров, от выбора исходных центров кластеров, от последовательности осмотра образов и от геом-х особенностей данных.

Алгоритм ISODATA.

{x1, x2, ..., xN} – исходный набор образов. Ш1: Задаются параметры, определяющие процесс кластеризации:

К—необходимое число кластеров; QNпараметр, с которым сравнивается количество выборочных образов, вошедших в кластер; Qs параметр, характеризующий среднеквадратичное отклонение; Qc—параметр, характеризующий компактность; L— максимальное количество пар центров кластеров, которые можно объединить; J — допустимое число циклов итерации. Ш2: заданные N образов распределяются по кластерам, соответствующим выбранным исходным центрам, по правилу

xÎ Sj, если ||х – zj|| < ||х – zi||, i=1, 2, ..., Nc; i¹ j, где

Sj-подмножество образов выборки, включённых в кластер с центром Zj. Ш3: ликвидируются подмножества образов, в состав которых входит менее QN элементов, т. е. если для некоторого j выполняется условие Nj < QN, то подмножество Sj исключается из рассмотрения и значение Nc уменьшается на 1. Ш4: каждый центр кластера zj, j=1, 2, ..., Nc, локализуется и корректируется посредством приравнивания его выборочному среднему, найденному по соответствующему подмножеству Sj, т. е.

j=1..Nc, где Nj —число объектов, вошедших в подмножество Sj. Ш5: вычисляется среднее расстояние Dj между объектами, входящими в подмножество Sj, и соответствующим центром кластера по формуле Ш6: вычисляется обобщённое среднее расстояние между объектами, находящимися в отдельных кластерах, и соответствующими центрами кластеров по ф-ле Ш7: а) если текущий цикл итерации – последний, то задается Qc=0, переход к шагу 11. б) Если условие Nc< =К/2 выполняется, то переход к шагу 8. в) Если текущий цикл итерации имеет четный порядковый номер или выполняется условие Nc> =K/2, то переход к шагу 11; в противном случае процесс итерации продолжается. Ш8: для каждого подмножества выборочных образов с помощью соотношения , i=1..n, j=1..Nc вычисляется вектор среднеквадратичного отклонения σ j = (σ 1j, σ 2j, ..., σ nj)', где п есть размерность образа, xik, есть i-я компонента k-ro объекта в подмножестве Sj, zij есть i-я компонента вектора, представляющего центр кластера zj, и Njколичество выборочных образов, включенных в подмножество Sc. Каждая компонента вектора среднеквадратичного отклонения σ j характеризует среднеквадратичное отклонение образа, входящего в подмножество Sj, по одной из главных осей координат.

Ш9: в каждом векторе среднеквадратичного отклонения sj, j=1, 2, ..., Nc, отыскивается максимальная компонента sjmax. Ш10: Если для любого s jmax, j=1, 2, ..., Nc, выполняются условия s jmax> Qs, и а) и

Nj> 2(QN+1), или б) Nj < К/2, то кластер с центром zj расщепляется на два новых кластера с центрами zj+ и zj- соответственно, кластер с центром zj ликвидируется, а значение Nc увеличивается на 1. Для определения центра кластера zj+ к компоненте вектора zj, соот-й макс-й компоненте вектора s j, прибавляется заданная величина gj; центр кластера zj- опред-я вычитанием этой же величины gj из той же самой компоненты вектора zj. В качестве величины gj можно выбрать некоторую долю значения макс-й среднеквадратичной компоненты sjmax, т. е. положить gj = ks jmax, где 0 < k ≤ 1. При выборе gj следуег руковод-я в основном тем, чтобы ее величина была достаточно большой для различения разницы в расстояниях от произвольного образа до новых двух центров кластеров, но достаточно малой, чтобы общая структура кластеризации существенно не изменилась. Если расщепление происходит на этом шаге, надо перейти к шагу 2, в противном случае продолжать выполнение алгоритма. Ш11: вычисляются расстояния Dij между всеми парами центров кластеров:

Dij =l| zi - zj ||, i=1, 2, ..., Nc-1; j=i+1, 2, ..., Nc. Ш12: Расстояния Dij сравниваются с параметром Qc. Те L расстояний, которые оказались меньше Qc, ранжируются в порядке возрастания:

[Di1j1, Di2j2, ..., DiLjL, ] причем Di1j1 < Di2j2 < ... < DiLjL, . a L—максимальное число пар центров кластеров, которые можно объединить. Следующий шаг осуществляет процесс слияния кластеров. Ш13: кластеры с центрами zil и zjl, i=1, 2, ..., L, объединяются (при усл, что в текущем цикле итерации процедура слияния не прим-ь ни к тому, ни к др-у кластеру), причем новый центр кластера опр-я по формуле

Центры кластеров zil и zjl ликвидируются и значение Nc уменьшается на 1.

Ш14: если текущий цикл итерации—послед-й, то выполнение алг-ма прекращ-ся. В противном случае следует возврат-я либо к ш1, если по предписанию польз-ля меняется к-л из параметров, определяющих процесс кластеризации, либо к ш2, если в очередном цикле итерации параметры процесса должны остаться неизменными. Завершением цикла итерации считается каждый переход к ш1 или 2.

 

 


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-07-14; Просмотров: 939; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.01 с.)
Главная | Случайная страница | Обратная связь