Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Общие методы анализа информации



К общим методам анализа информации относят наиболее общие, то есть применяемые в различных конкретных науках методы обработки данных. К ним относятся методы анализа текстов (контент-анализ), методы группировок и классификаций, включая кластерный анализ, методы обобщения измерений (расчеты средних и дисперсий), методы выявления наличия зависимостей (дисперсионный анализ), методы выявление видов зависимостей (корреляционые, регрессионные методы и методы проверки гипотез о видах и параметрах распределений случайных величин), методы выявления скрытых факторов (факторный анализ). Остановимся на некоторых наиболее часто используемых.

Контент-анализ

Контент-анализ (англ. content analysis )– анализ связи содержания информации с ее целевым назначением.

Контент-анализ может быть применен для изучения совокупности любых текстов как письменных, так и устных. Основные процедуры контент-анализа связаны с переводом качественной информации на язык количественной информации. С этой целью выделяют два типа единиц - смысловые или качественные единицы анализа и единицы счета или количественные единицы. Единицами анализа могут быть темы, идеи, оценки, суждения, символы, термины, понятия и др. При этом смысловые единицы (единицы анализа) выделяются на основе гипотез исследования, а единицы количественной информации - с учетом характера источника и поставленных задач.

В качестве единиц счета могут использоваться частота употребления тех или иных понятий, терминов, слов, темы и т.п., физическая протяженность, площадь текстов, число строк, длительность трансляции и т.п.

При использовании контент-анализа обязательна проверка результатов на надежность. Для этого используется либо экспертная оценка, либо проверка с помощью других методов (опрос, интервью), либо данные сопоставляются с данными результатов других исследований.

 

Методы группировок и классификаций

Методы группировок

Любая задача многомерного анализа так или иначе сводится к нахождению группировки (группи­руются или объекты, или признаки).

Формализа­ция задачи (то есть ее математическая постановка) в большой сте­пени зависит от того, в каком виде представлена исходная статис­тическая информация. Как правило, исходная информация для соци­ально-экономического исследования задается или матрицей типа " объект-признак", или матрицей связи " объект-объект", причем при переходе от матрицы " объект-признак" к матрице " объект-объект" возникает вопрос о выборе меры близости объектов. При нахождении группировок в одних случаях имеются некоторые априорные сведения о существовании групп (классов) объектов или признаков, которые требуется найти в результате анализа данных, в других случаяхничего не известно ни о количестве классов, ни об их составе.

Задачи многомерного анализа, или задачи группировки объек­тов, усложнены часто тем, что у исследователя нет четкого предс­тавления, какие признаки следует брать в качестве классифицирую­щих. В связи с этим на первом этапе анализа возникает вопрос или о выборе информативной системы признаков, или о нахождении фак­торных конструкций в системе признаков. Выбор системы информа­тивных признаков осуществляется в режиме диалога " человек-ЭВМ" чаще всего на основе анализа корреляционной матрицы или с ис­пользованием методов факторного анализа (метода главных компонент) и для решения этой проблемы существует целый ряд методов. Кним наряду с методом главных компонент и факторным анализом следует также от­нести канонический анализ, метод корреляционных плеяд, метод экстремальной группировки параметров, методы таксономии и дру­гие. Эти методы можно разделить на две группы. Методы первой группы характеризуются уменьшением размерности признакового пространства за счет замены набора исходных признаков некоторыми их комбинациями. При использовании методов первой группы в мно­гомерном анализе социально-экономической информации значительную сложность для исследователя представляет интерпретация формально полученных " искусственных" признаков в построенном признаковом пространстве. Методы второй группы позволяют выделить связанные группы признаков на основе их взаимосвязи. При этом в качестве представителей групп выбирают сами признаки, с помощью которых и интерпретируют полученные результаты группировки. В качестве примеров первого и второго типа приведем некоторые известные ме­тоды.

Метод главных компонент является представите­лем первой группы методов.

Пусть - число объектов, - число признаков, тогда норми­рованное значение -ro признака, полученное из исходной инфор­мации типа " объект-признак", необходимо представить в виде

где - -я главная компонента;

- вес -й компоненты в -й переменной (факторная нагрузка -гo фактора).

Начальными данными метода является корреляционная или кова­риационная матрица, которую строят по исходной информации. Из­вестно, что полная дисперсия -го признака

где - доля полной дисперсии -ro признака, относящаяся к -й главной компоненте ( ).

Тогда

,

где - номер признака ( );

- номер главной компоненты ( ),

есть полный вклад -й главной компоненты в дисперсию всех признаков и та доля общей дисперсии, которую рассматриваемая главная компонента объясняет. Хотя число подученных главных ком­понент равно числу исходных признаков, только небольшое число главных компонент имеет существенные вклады в объясняемую дис­персию. Главные компоненты, имеющие достаточно малые вклады, исключают из рассмотрения. Число наиболее весомых компонент сос­тавляет обычно не больше чем четвертую часть от числа рассмат­риваемых признаков. Тогда объясняемая дисперсия

,

где - число " весомых" главных компонент ( ).

Факторные нагрузки есть коэффициен­ты корреляции между фактором и исходным признаком .

Для применения методов факторного анализа к качественным данным, измеренным на ранговых и номинальных шкалах, разработан аппарат качественного факторного анализа, который осно­ван на идее аппроксимации матрицы связи линейной комбинацией матриц определенной блочной структуры, каждая из которых интерп­ретируется как некоторый качественный фактор.

В статистических исследованиях " проверенным" методом агре­гирования исходных признаков является алгоритм экстремальной группировки параметров. По этому алгоритму формировалось, например, признаковое пространство для построения типологии де­мографических статусов поселений. В основу алгорит­ма экстремальной группировки параметров для группировки этих признаков и выделения факторов положен подход, связанный с экстремизацией некоторого функционала, зависящего как от способа группировки, так и от выбора факторов. Разбиение, экстремирующее этот функционал, и представляет экстремальную группировку приз­наков. В качестве примера рассмотрим один из алгоритмов экстре­мальной группировки параметров.

Пусть коэффициент корреляции (или ковариации) двух случай­ных величин Х и Y есть X, Y . Дисперсия случайной величины Х X, X X 2.

Пусть множество параметров (признаков) раз­бито на непересекающиеся группы и заданы случай­ные величины , такие, что

,

которые называются факторами.

Рассматривается функционал

.

Алгоритм экстремальной группировки параметров решает задачу максимизации этого функционала как по разбиению параметров на множества , так и по выбору случайных величин .

Максимизация соответствует требованию такого разбиения параметров, когда в одну группу попадают наиболее " близкие" меж­ду собой параметры. Действительно, при максимизации функционала для каждого фиксированного набора случайных величин в -ю группу будут попадать такие параметры, которые наиболее " близки" к ; в то же время среди всех возможных наборов слу­чайных величин будет отбираться такой набор, то каждая из величин в среднем наиболее " близка" ко всем пара­метрам из своей группы.

Если группы параметров заданы, то оптималь­ный набор факторов можно найти в результате незави­симой максимизации каждого слагаемого функционала :

При фиксированном множестве параметров фактор , удов­летворяющий записанному выше условию, находится по формуле

, (1)

где - компоненты собственного вектора матрицы R l = {( )}, , соответствующего ее наибольшему собственному числу. С другой стороны, если величины заданы, то разбие­ние параметров на группы , обеспечивающее максимум , должно удовлетворять условию:

для каждого

,

так как в противном случае можно было бы увеличить, перебро­сив параметр из группы в ту группу , для которой это со­отношение неверно.

Следующий итерационный алгоритм[54], опре­деляет одновременно группы и факторы . Идея его заключается в следующем.

Пусть на -м шаге итерации построено разбиение . Для каждой группы параметров строят факторы по формуле (1) и новое, -е разбиение по правилу:

относится к группе , если

. (2)

В том случае, когда существуют два или более факторов и та­кой параметр , что для этих факторов и этого параметра в фор­муле (2) имеет место равенство, параметр относится к одной из соответствующих групп произвольно. Для найденных тем или иным способом факторових содержательная интерпретация осуществляется с помощью одномерных группировок совокупности всех изучаемых объектов по каждому из имеющихся факторов. Формирование группи­ровок проводится в диалоге человека с ЭВМ и контролируется исс­ледователем. При этом полезно строить гистограммы значений объ­ектов по выбранному фактору, а затем уже проводить группировку тем или иным методом с учетом интерпретируемости полученных ре­зультатов.

К первой группе методов, заменяющих набор рассматриваемых признаков некоторыми их комбинациями, можно отнести и каноничес­кий анализ.

Каноническая корреляция - это корреляция между линейными функциями двух множеств случайных величин, кото­рая характеризуется максимально возможными значениями коэффици­ентов корреляции. В теории канонической корреляции случайные ве­личины X 1, X 2, ..., Xs и X s+1, X s+2, …, X s+t линейно преобразу­ются в так называемые канонические случайные величины Y 1, Y 2, ..., Y sи Y s+1, Y s+2, …, Y s+t, такие, что:

1) все величины Y имеют нулевое математическое ожидание и единичную дисперсию;

2) внутри каждого из двух множеств величины Y некоррелированы;

3) любая величина Y из первого множества коррелирована лишь с одной величиной из второго множества;

4) ненулевые коэффициенты корреляции между величинами Y из разных множеств имеют максимальное значение. В многомерном статистическом анализе с помощью метода канонической корреляции осуществляется переход к новой системе координат, в которой кор­реляция между X 1, X 2, ..., Xs и X s+1, X s+2, …, X s+t проявляется наиболее отчетливо. В результате анализа канонической корреляции может оказаться, что взаимосвязь между двумя множествами пол­ностью описывается корреляцией между несколькими каноническими случайными величинами.

Каноническую корреляцию целесообразно использовать при комплексном анализе социально-экономических блоков в исследова­нии развития региона.

Примером методов второй группы может быть метод корреляци­онных плеяд. Плеяда - группа признаков, в которой корреляци­онная связь (внутриплеядная связь) достаточно велика, а связь между признаками из разных групп (межплеядная связь) мала. Мера корреляционной связи может быть выбрана по-разному. Например, как сумма модулей коэффициентов корреляции между признаками од­ной группы. По корреляционной матрице строят граф, который разрыванием " малых" связей преобразуют в несколько подграфов. В каждом подграфе выбирают признаки (один или несколько), с помощью которых описывают полученные плеяды признаков.

Ввиду простоты этот метод часто применяют на ранних стадиях анализа.

Анализ и группировку исходных признаков как количественных, так и качественных можно также осуществить, применив метод глав­ных кластеров к транспонированной исходной матрице " объ­ект-признак".

Выявляя группы признаков и выбирая " представителей" этих групп, решают задачу нахождения системы информативных признаков для дальнейшего исследования изучаемого явления или процесса.

После выбора информативной системы признаков следующей задачей в процессе анализа социально-экономической информации является задача группировки объектов. В большинстве случаев - это задача типологизации или классификации объектов изучаемой совокупности.

По способу построения группировок все методы классификации (как признаков, так и объектов) делятся на алгоритмические и вариационные. Алгоритмический метод использует некоторые эвристические соображения исследователя, на основании которых и формируются классы. Основное требование в этом подходе к формируемым классам - их компактность. Под компактной группой в некотором пространстве понимают такое множество точек этого пространства, для которого средняя внутренняя связь больше, чем сред­няя связь вовне (или среднее внутреннее расстояние, наоборот, меньше, чем среднее расстояние вовне). Успешное применение этих алгоритмов предполагает наличие у исследователя некоторых априорных сведений о реально существующих группах изучаемой совокупности. Эвристические алгоритмы, как правило, линейны, то есть, число операций в них пропорционально числу классифицируемых объектов.

Примером эвристического алгоритма, применяемого при форми­ровании классов объектов, служит известный алгоритм Мак Кина (или метод центров). Рассмотрим этот алгоритм.

Исходной информацией служит матрица " объект-признак" или матрица связи " объект-объект".

Рассмотрим случай, когда исходной является таблица " объ­ект-признак", в которой на ( )-м месте записано значение -го признака, соответствующее -му объекту, - . Объект изучаемой совокупности представля­ется в таблице в виде строки значений признаков на этом объекте или в виде точки в -мерном признаковом пространстве.

Первый шаг алгоритма - выбор в пространстве признаков точек (объектов), число которых равно числу требуемых классов. Эти объекты задаются из содержательных или из формальных соображе­ний. Они также могут быть выбраны случайным образом.

Блок " Класс" распределяет объекты - по классам так, чтобы расстояние от объекта до соответствующего ему центра было мини­мальным. Для количественных признаков может быть выбрано евкли­дово расстояние в .

Блок " Центр" работает после блока " Класс". Этот блок перес­читывает центры классов. Для каждого класса новые координаты его центра в пространстве признаков получаются как координаты центра тяжести каждого класса. Теперь дадим формальное описание алго­ритма:

1°. Задаются точек в пространстве призна­ков, которые объявляются центрами классов.

2°. Объект относится к -му классу, , если при достигает минимума - расстояние между объектом и центром -го класса на -й итерации.

3°. Пересчитываются центры классов.

,

где - вектор значений признаков на -м объекте;

- мощность (число объектов) класса .

Пункты 2° и 3° выполняются для всех . Если мас­сив объектов исчерпан, а последовательность центров не стабили­зировалась, то описанный процесс повторяется с самого начала, причем в качестве исходных центров выбираются центры, подучивши­еся на последней итерации.

Метод Мак Кина с исходной матрицей " объект-объект" заключается в следующем. Центры выбираются по ис­ходной матрице связи " объект-объект" следующим образом. Выбира­ется максимальный по модулю отрицательный элемент . Объекты с номерами и объявляются центрами - это самые " далекие" в смысле меры связи объекты. Затем выбирается элемент , такой, что | | максимальна, причем .

После шагов будем иметь центров . В качестве центра берется объект с таким номером , что отрицательны, а | | максимальна по всем таким .

Процесс построения центров заканчивается, если исчерпаны все объекты с указанным свойством.

Блок " Класс" в этой схеме работает следующим образом. Для каждого объекта производится сравнение по величине связей с каждым из центров . Объект относится к классу , если

,

то есть объект относится к самому " близкому" в смысле меры свя­зи центру.

Блок " центр" в качестве нового центра -го класса вы­бирает объект этого класса, такой, что

.

Алгоритм заканчивает работу, когда процесс стабилизируется.

Для безмашинного («ручного») счета может быть использован метод вроцлавской таксономии, который был впервые применен при классификации воеводств Польши по демографическим данным. Этот метод по своей идее похож на метод корреляционных плеяд: строят граф (дерево максимальной длины), а затем его разрезают по реб­рам с минимальными связями. Имеется множество алгоритмов, напри­мер, " Краб" в, в которых " разрезание" по ребрам осуществля­ется по критерию, представленному некоторой функцией многих пе­ременных, сконструированной из эвристических соображений. Алго­ритмы, основанные на дереве максимальной длины, применяют на стадии предварительного анализа.

Вариационный подход к решению задачи конструирования груп­пировки обычно предполагает наличие некоторого критерия качества группировки. Этот критерий, как правило, выводится фор­мально из модели данных. Он или оценивает степень близости груп­пировки к некоторой " идеальной", или минимизирует " погрешность" в аппроксимационных моделях данных. В первом случае учитывается не только требование компактности групп, но и представление об их количестве и их наполненности. Так как сама сконструированная группировка в этом случае в силу эквивалентности качественного признака и разбиения (группировки) есть реализация некоторого латентного признака, порожденного свойством многомерности дан­ных, то по сути критерий качества группировки отражает степень " аппроксимации" всех признаков в совокупности одним сконструиро­ванным качественным признаком.

Во втором случае критерий качества выво­дится из самой модели данных, в которой предполагается, что матрица связи " порождена" однимили несколькими качественными факторами. Это может быть формализовано в модели тем, что матрицу связи " объект-объект" аппроксимируют линейной комбинацией матриц связи, вид каждой из которых алгоритмически определяется свойс­твами качественного фактора, ей соответствующего. Достигается это тем, что при конструировании качественного фактора оценива­ется степень учета исходной информации, в том числе и доля разброса исходных данных, участвующих в получении решения.

Примером вариационного подхода может служить группировка признаков методом экстремальной группировки параметров, а также все алгоритмы и методы в матричном подходе к анализу данных.

Наиболее хорошо зарекомендовавшим себя подходом в решении задач многомерной группировки является вариационный, исходной информацией для которого служит матрица связи " объект-объект", а сама группировка осуществляется в терминах связей между объекта­ми.

В качестве примера формализованной в рамках этого подхода задачи нахождения группировки может быть приведена следующая постановка задачи.

Пусть а = - матрица связей между объектами. Най­ти разбиение множества элементов на заранее не заданное число непересекающихся классов . которое максимизирует величину вида

суммы внутренних связей в за вычетом определенного порогово­го значения .

При этом считают, что диагональные элементы . Оказывается, что если оптимально в смысле критерия , то:

а) сумма внутренних связей

в каждом классе неотрицательна;

б) суммарная связь

между любыми двумя классами и неположительна.

Схема алгоритмов локальной оптимизации включает в себя три части и начинается с тривиального разбиения множества объектов на одноэлементных классов. Алгоритм " Объединение" на каждом шаге объединяет такие классы и , связи между кото­рыми максимальны до тех пор, пока все величины не станут отрицательными. Дальнейшие объединения не нужны, так как они уменьшают значение критерия.

Полученное разбиение улучшается с помощью алгоритма " Пере­мещение", после чего проводится проверка: удовлетворяет ли полу­ченное разбиение необходимым условиям оптимальности а) и б).

После проверки те классы, которые не удовлетворяют условию а), рассыпаются на одноэлементные подклассы, после чего опять применяется объединение с последующим перемещением - и так до тех пор, пока условия а) и б) не окажутся выполненными.

Количество классов разбиения определя­ется только величиной порога, который часто из содержательных педставлений о конкретной задаче легче задать интуитивно, чем более формальную величину числа классов. В связи с работой в итеративном режиме " человек-ЭВМ" при построении классификации появились и сформулированы требования к методам, с помощью которых они осуществляются: универсальность, интерпретируемость результатов, адаптируемость.

 

Кластерный анализ

КЛАСТЕР (англ. Cluster (группа)) в прикладной статистике– группа объектов такая, что средний квадрат внутригруппового расстояния в какой-либо метрике до центра группы меньше среднего квадрата расстояния до общего центра в исходной совокупности.

КЛАСТЕРНЫЙ АНАЛИЗ (англ. Cluster analysis )– реализация математических методов, предназначенных для формирования относительно «отдаленных» друг от друга групп «близких» между собой объектов во введенных мерах близости между ними. По смыслу аналогичен терминам: автоматическая классификация, таксономия, распознавание об­разов без учителя. Используется для анализа структуры совокупностей социально-экон. по­казателей по заданной матрице коэффициен­тов корреляции между ними, социально-экон. объектов (предприятий, регионов, социологи­ческих анкет), описанных многими априорно равноправными признаками, и т. п.

Алгоритмические процедуры К. а. обычно включают параметры, задаваемые исследовате­лем (число классов, порог значимости и т. п.), что позволяет получать несколько решений, из к-рых исследователь выбирает наилучшее с точки зрения интерпретации в терминах теоре­тических представлений о конкретном изучае­мом явлении.

В современной статистике для построения многомерных группировок обычно используют один из подходов: факторный анализ или кластер-анализ. Как известно, факторный анализ состоит в переходе к малому числу латентных (скрытых) переменных — факторов и проведении классификации объектов по этим факторам. Это один из самых распространенных методов анализа многомерной информации. Так, в региональных социально-экономических и демографических исследованиях городов и населенных пунктов обычно использованы методы факторного анализа.

Что касается кластер-анализа, то он позволяет анализировать одновременно много признаков, но обычные методы и программы кластер-анализа имеют ряд недостатков:

- много априорных параметров (число классов, порог существенности связей и т.д.);

- непосредственным результатом кластер-анализа является состав классов (групп), а все характеристики этих классов, необходимые для интерпретации, носят внешний характер по отношению к рассматриваемой модели.

Таким образом, и эти наиболее часто используемые модели анализа данных не лишены недостатков, которые можно считать уже традиционными — это недостаточное соответствие между математической формализацией (моделью) и той реальностью, которую эта модель призвана отражать. Можно выделить причины этого несоответствия:

1) зачастую используются методы, разработанные для нужд других наук, в то время как методы, весьма полезные в социально-экономических исследованиях, остаются неизвестными исследователям;

2) при использовании математико-статистических методов часто не учитывается, что каждый математический метод имеет свою область эффективности и предполагает определенную модель явления, которая, как правило, отражает лишь какую-то сторону реальности.

В исследованиях социально-экономического развития регионов предлагается использовать две модели, которые в какой-то степени преодолевают указанные недостатки.

Первая модель — метод главных кластеров основана на линейной модели агрегирования данных и в качестве решения содержит, кроме состава классов, ряд параметров самой модели.

Рассмотрим идею этого метода, алгоритмическую реализацию его, а также возможности предлагаемой модели для статистического анализа полученных в результате работы алгоритма группировок многомерных объектов и их содержательной интерпретации.

Исходная информация в методе главных кластеров предполагается заданной в виде матрицы " объект-признак" и порождается суммами " вкладов" отдельных кластеров. Модель является линейной, и соотношения модели аналогичны соотношениям модели главных компонент. Полученные в результате работы алгоритма группировки описываются параметрами, заложенными в самой модели: оценивается вклад каждого кластера в дисперсию исходных данных и на этой основе оценивается сравнительная значимость кластеров, указываются эталонные значения признаков для каждого кластера, а также веса признаков в каждом кластере.

Применяемый метод позволяет не фиксировать число кластеров заранее, а определить в процессе решения на основе анализа соответствующей доли дисперсии до исчерпания всех объектов множества.

Итак, модель имеет следующий вид. Пусть Y = - матрица данных " объект-признак",

где - номер объекта ( );

- номер признака ( );

- значение -го признака на ­ -м объекте ( ; ).

Обозначим через искомые кластеры (группы), численности которых равны соответственно. Количество самих кластеров, а также число объектов в каждой из групп заранее не определены. Каждому кластеру сопоставим два нижеследующих вектора:

-мерный вектор

, где

и -мерный вектор ,

где - " эталонное" значение признака для объектов кластера ( ; ).

В этих терминах модель имеет следующий вид:

,

где - " невязки" соотношений модели агрегирования, ( ; ).

Заметим, что матрица Y может быть стандартизована (хотя это и не обязательно).

Необходимо найти векторы f t, a t ( ) исходя из требования минимизации суммарной квадратичной невязки

.

При реализации этого метода используется принцип последовательного исчерпания данных, аналогичный тому, который используется в методе главных компонент. Метод главных кластеров основан на той же модели агрегирования, что и метод главных компонент, но принимает " нуль-единичные" значения, а не произвольные, как в методе главных компонент. Согласно указанному принципу, кластеры и связанные с ним векторы f t, a t отыскиваются последовательно на основе остаточных матриц связи. Полученное решение удовлетворяет следующему соотношению:

, (3)

где - суммарная дисперсия исходных данных;


Поделиться:



Последнее изменение этой страницы: 2017-03-15; Просмотров: 3970; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.105 с.)
Главная | Случайная страница | Обратная связь