Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Сокращение матрицы сходства



Матрица сходства содержит полную информацию о структуре ассоциаций в сознании человека. Однако непосредственный анализ матрицы сходства вызывает затруднения, связанные с ее большим объемом. Поэтому матрица сходства преобразуется в более простую форму представления информации, позволяющую более эффективно анализировать результаты психосемантического исследования. Дело в том, что объекты и признаки, представленные в сознании человека, определенным образом связаны между собой. Поэтому, переход от анализа отдельных объектов и признаков к их независимым группам дает возможность избавиться от избыточной информации. Сокращение матрицы сходства направлено на определение минимального количества независимых в сознании испытуемого объектов и признаков, определение их субъективной группировки и классификации испытуемым и получение наглядных и доступных для интерпретации результатов. Оно осуществляется с помощью методов многомерного статистического анализа. В зависимости от того, сокращается ли матрица сходства между объектами или между признаками, используется математический аппарат кластерного или факторного анализа.

Кластерный анализ

Кластерный анализ предназначен для объединения объектов, сходных по множеству признаков в группы или так называемые кластеры с помощью методов автоматической классификации или распознавания образов без учителя. Свое название кластерный анализ получил от английского слова «cluster», означающего гроздь. Если объекты располагаются в пространстве признаков неоднородно, то их можно сгруппировать. Существует большое количество алгоритмов кластерного анализа, к сожалению не всегда дающих одинаковые результаты. Простая кластеризация позволяет получить множество непересекающихся классов, исключающих друг друга, иерархическая кластеризация дает множество кластеров, включенных друг в друга в виде дерева, объединяя объекты в классы при различных уровнях сходства.

Достаточно простой, эффективный и наглядный алгоритм иерархического кластерного анализа заключается в последовательном попарном объединении наиболее сходных объектов. Среди матрицы расстояний N*N ищется пара наиболее близко расположенных точек. Соответствующие этим точкам объекты объединяются в кластер, причем, оба объекта, вошедшие в кластер, исключаются из дальнейшего анализа и заменяются одним. Вычисляются координаты точки, соответствующей этому кластеру и располагающейся точно посередине между двумя исходными точками. Перерасчитываются расстояния между вновь полученным кластером и остальными объектами. Таким образом, матрица расстояний сокращается на 1. Затем алгоритм повторяется сначала. При этом могут объединяться как точки, соответствующие отдельным объектам, так и точки, представляющие кластеры уже объединившихся ранее объектов. Данная процедура повторяется до тех пор, пока не останется всего 2 кластера.

Результаты кластерного анализа могут быть наглядно представлены в виде дендрограммы, или дерева (Рис. 3), где различные ветви дерева соответствуют различным объектам и кластерам. Последовательное соединение ветвей выражает объединение соответствующих объектов или кластеров. При этом, чем ближе к вершине соединяются между собой ветви, тем более сходны между собой соответствующие этим ветвям кластеры. При этом не исключено, что кластер может состоять из одного единственного объекта, если он слишком отличается от всех остальных. Таким образом, результаты иерархического кластерного анализа объектов в форме дендрограммы являются графическим представлением структуры их субъективной группировки в сознании испытуемого. Наиболее сходные по множеству субъективных признаков объекты попадают в общие кластеры.

 

           1         3         2         5         4         Объединяются

                 
       

 


                                                                                         (2) и (5)

 


                                                                                         (1) и (3)

 

                                                                                         (2, 5) и (4)

 

                                                                                         (1,3) и (2, 5, 4)

 

Рис. 3. Пример результатов кластерного анализа в виде дендрограммы

 

В примере, представленном на Рис. 3, можно разделить объекты на два, три или более кластера. При делении на два кластера один из них будет включать объекты 1 и 3, а второй - объекты 2, 5 и 4. При делении на три кластера первый объединит объекты 1 и 3, второй - 2 и 5, а в тритий кластер войдет только один объект 4.

Перемещаясь от основания дерева к вершине, можно последовательно выделять группы все более сходных объектов. При этом количество необходимых для интерпретации кластеров может определяться исходя из двух критериев. Во-первых, количество кластеров должно находиться в диапазоне от 5 до 9. При меньшем количестве кластеров в них может попадать слишком большое число объектов, в том числе и слишком разнородных, которые может быть трудно обобщить. Большее количество кластеров дает слишком дробную группировку, разводящую по разным кластерам на самом деле достаточно сходные объекты. Во-вторых, объекты, объединяющиеся на расстоянии менее 1 стандартного отклонения, являются достаточно близкими, и их следует считать объектами одного кластера. Разумеется, эти критерии являются условными и представляют собой лишь удобные эвристические правила, полученные на основании опыта интерпретации и не имеющие статистического обоснования.



Факторный анализ

Факторный анализ предназначен для объединения сходных между собой признаков в факторы. Фактор – это группа признаков, коррелирующих между собой и не коррелирующих с другими признаками. Если представить признак как вектор, задающий определенное измерение пространства, то коэффициент корреляции между признаками будет представлен как косинус угла между соответствующими векторами. Тогда коррелирующие признаки будут представлены косоугольными (облическими) векторами, а некоррелирующие – прямоугольными (ортогональными). Если представить фактор как ось пучка векторов, то проекция вектора признака на ось фактора будет нагрузкой этого признака на фактор, которая тем больше, чем сильнее коррелирует с фактором данный признак. Если множество коррелирующих признаков разделяется на несколько подмножеств, образуя несколько пучков векторов, то их можно объединить в несколько соответствующих факторов, которые объясняют определенную долю дисперсии данных. В каждый фактор будут входить показатели, имеющие максимальную абсолютную нагрузку на данный фактор.

Графическая иллюстрация принципа факторного анализа представлена на Рис. 4. Рисунок наглядно демонстрирует корреляцию признаков 1, 2 и 3 между собой, что позволяет объединить их в фактор F1, а также отсутствие корреляции признаков 1, 2 и 3 с признаком 4. При этом, поскольку признак 1 в большей степени коррелирует c фактором F1, проекция вектора V1 на ось F1 больше, чем проекция вектора V4.

     
 
Фактор F1

 


Рис. 4. Пример графического выражения факторного анализа.

 

Существует большое количество алгоритмов факторного анализа, наиболее простым из которых является метод главных компонент, основанный на вычислении собственных значений и собственных векторов матрицы корреляций между признаками. В результате факторного анализа матрица коэффициентов корреляции между признаками М*М преобразуется в матрицу факторных весов или нагрузок М признаков на L факторов, где L<<М (Рис. 5). Факторы упорядочены по уменьшению процента вклада в суммарную дисперсию или количества признаков, входящих в них, то есть, первый фактор является наиболее информативным и включает наибольшее число признаков, второй – меньшее число и т. д. В каждый фактор включается столько процентов признаков, сколько процентов дисперсии он описывает.


 

Матрица коэффициентов корреляции между признаками

 

Матрица факторных нагрузок признаков

 

Признаки

Факторы

Признаки 1 2 M   F1 F2
1             1    
2           è 2    
               
               
M             M    
              % вклада    

 

Рис. 5. Табличное выражение факторного анализа

 

Фактор идентифицируется признаками, входящими в него с максимальными по абсолютной величине факторными весами. Признаки, входящие в один фактор, коррелируют с другими признаками, входящими в этот фактор и не коррелируют с признаками, включенными в другие факторы. Таким образом, факторы независимы между собой, то есть, ортогональны и образуют прямоугольные оси субъективного многомерного семантического пространства признаков. Поскольку, чем больше номер фактора, тем меньше показателей в него входит, количество факторов ограничивается номером фактора, в который еще входит более одного признака.

Число факторов зависит от количества и разнообразия субъективных признаков и определяет размерность семантического пространства. Как правило, для интерпретации результатов психосемантического исследования бывает достаточно первых двух-трех факторов, объединяющих наибольшее количество признаков. Поэтому, для упрощения можно ограничиться вычислением нагрузок признаков лишь на первые несколько факторов. В этом случае о размерности семантического пространства косвенно можно судить по информативности первого фактора. Чем больше признаков он включает, тем меньше их в оставшихся факторах и тем меньше размерность семантического пространства.

Поскольку факторы соответствуют действительно независимым субъективным признакам, их можно представить как прямоугольные оси координат. Тогда каждому объекту соответствует некоторая точка, проекции которой на оси координат выражают значение факторных оценок данного объекта. Графическое представление объектов в виде точек в пространстве двух независимых признаков называется двухмерной диаграммой рассеивания, или скатерграммой (Рис. 6).

 


 

     
Фактор 1

 

 


                          3                                                        7

                                          1

                                                                                                                        4

                                                                                         2         8

 

                                                          5

                          11

 

                                          10

 

                                                                                                                        6

                                                                                                                        9

 

     
 
Фактор 2

 


Рис. 6. Пример результатов факторного анализа в виде скатерграммы

 

Чем ближе между собой две точки в двухмерном пространстве факторов, тем больше сходство соответствующих этим точкам объектов. Положение точки относительно оси фактора характеризует степень выраженности соответствующего этому фактору признака у данного объекта. В примере, представленном на Рис. 6, видно, что объекты разделяются на три группы: первая группа включает в себя объекты 3, 1, 5, 11 и 10, вторая группа объединяет объекты 7, 4, 2 и 8, в третью группу включаются объекты 6 и 9. Поскольку расположение точек в пространстве субъективных признаков наглядно отображает структуру представлений человека о различных объектах действительности, скатерграмма в психосемантическом исследовании представляет собой своего рода семантическую карту сознания.


Поделиться:



Последнее изменение этой страницы: 2019-04-10; Просмотров: 251; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.023 с.)
Главная | Случайная страница | Обратная связь