Интеллектуальный анализ данных

Для обоснования принятия решений необходимы знания, которые добывают из различных источников.

На начальном этапе подготовки данных к использованию в аналитической сфере они представляют знания как «хорошо структурированные данные или метаданные» (рисунок)1.

В зависимости от признаков различают следующие виды знаний:

1. Фактические и стратегические знания. Фактические зна- ния позволяют специалисту предметной области решать кон- кретные задачи. К ним относятся факты, взаимосвязи, системы понятий, правила. Стратегические знания позволяют определить поведение объектов в ближайшем или отдаленном будущем.

2. Факты и эвристики. Факты — это хорошо известные и описанные обстоятельства. К ним относятся также эконо- мические категории, известные и описанные закономерности и т. д. Эвристики — знания, опыт, навыки специалистов в со- ответствующих предметных областях. Они являются объек- том изучения и внедрения в информационные системы раз- личного назначения.

3. Декларативные и процедурные знания. Декларативные знания очевидны (например, выручка — сумма, полученная в результате продажи товаров); процедурные являются, по су- ществу, алгоритмами преобразования декларативных знаний, действий над ними.

4. Интенсиональные и экстенсиональные знания. Первые явля- ются знаниями о связях между объектами (их атрибутами) рассмат- риваемой предметной области; вторые — свойствами объектов, их состояниями, значениями свойств в пространстве и динамике.

5. Глубинные и поверхностные знания. Глубинные знания содержат подробные сведения о структуре предметной области, законах поведения структуры в целом и отдельных ее элемен- тов, достоверные и полные отражения взаимосвязей элементов структуры и т. д. Поверхностные знания касаются лишь внеш- них свойств и связей с рассматриваемым объектом(ами) (пере-

1 См.: Белов В. С. Указ. соч.— С. 62.

чень необходимых сведений о пользовательских свойствах упо- мянутых или других изделий).

6. Жесткие и мягкие знания. Жесткие знания отражают сис- темы или объекты с четко выраженными свойствами, связями, поведением, которые легко описываются качественными и ко- личественными признаками: например, логико-дедуктивной системой показателей. Мягкие знания отображают, соответст- венно, системы и объекты с трудно поддающимися описанию или формализации свойствами и связями; дают нечеткие, раз- мытые решения и множественность рекомендаций.

Классификация знаний и взаимосвязь между ними

Рассмотрим процессы получения знаний.

Первый процесс — это «извлечение» знаний из живого ис- точника — эксперта, специалиста с целью их идентификации и возможной формализации, помещения в базу знаний и по- строения на этой основе экспертных систем, а также в других целях. Такой процесс относят к инженерии знаний.

Второй процесс — это «добыча» скрытых от пользователя знаний из данных, помещенных в различного рода компьютерные информационные системы, в том числе базы данных различного назначения, информационные хранилища. Второй процесс на- зывают Data mining, что означает интеллектуальный анализ.

Для обработки накопленных в различных источниках и мес- тах сбора и хранения данных и выполнения интеллектуального анализа используются все достижения математической науки и информационных технологий: методы линейной алгебры, классического математического анализа, дискретной математи- ки, многомерного статистического анализа и т. д.

В экономической предметной области применение методов поиска решений, условий неотрицательности и других свойств математических моделей путем дедуктивного получения след- ствий, исходя из предварительно сформулированных предпосы- лок, относится к разделу экономической науки, называемому математической экономикой.

Анализ количественных закономерностей и взаимозависи- мостей в экономике, который выполняется статистическими ме- тодами, относится к эконометрике.

Традиционная математическая статистика долгое время была основной методологией анализа данных в экономической и других предметных областях. Однако базовая концепция усред- нения по выборке часто приводит к операциям над фиктивными величинами. В экономике средние значения ряда показателей по различным предприятиям иногда создают искаженное представле- ние об отсталости или, наоборот, о незаурядных успехах ряда пред- приятий, отраслей или регионов и, следовательно, сглаживают их.

Вопросы для OLAP:

¾ Каковы средние показатели рентабельности предпри- ятий в регионе?

¾ Каковы средние размеры счетов клиентов банка — фи- зических лиц?

¾ Какова средняя величина ежедневных покупок по укра- денной или фальшивой кредитной карточке?

Вопросы для Data mining:

¾ Какова характерная совокупность значений показателей финансово-хозяйственной деятельности предприятий в регионе?

¾ Каков типичный портрет клиента — физического лица, отказывающегося от услуг банка?

¾ Существуют ли стереотипные схемы покупок для случа- ев мошенничества с кредитными карточками? 1

1 См.: Белов В. С. Указ. соч.— С. 63.

Работа по интеллектуальной обработке данных происходит в сфере закономерностей. Основными задачами интеллекту- ального анализа являются:

¾ выявление взаимозависимостей, причинно-следственных связей, ассоциаций и аналогий; определение значений факторов времени; локализация событий или явлений;

¾ классификация событий и ситуаций; определение про- филей различных факторов;

¾ прогнозирование хода процессов, событий. Многомерный статистический анализ удерживает свои по-

зиции и в жесткой области знаний. Он делится на факторный, дисперсионный, регрессионный, корреляционный, кластерный методы анализа (кроме того, он является также сферой интере- сов Data mining). Эти методы анализа позволяют решать много- численные задачи в области экономики, менеджмента, юрис- пруденции, которые являются составной частью аналитической подготовки принятия решений.

Вначале рассмотрим специфические методы Data mining,

а затем области их применения.

Помимо перечисленных традиционных методов многомер- ного статистического анализа широко применяются специфиче- ские методы интеллектуального анализа, происходящие из смеж- ных областей информационных технологий (IT-систем) и дос- тижений различных областей науки.

К специфическим методам интеллектуального анализа

относятся:

¾ методы нечеткой логики;

¾ системы рассуждений на основе аналогичных случаев;

¾ классификационные и регрессионные деревья решений;

¾ нейронные сети;

¾ генетические алгоритмы;

¾ байесовское обучение (ассоциации);

¾ кластеризация и классификация;

¾ эволюционное программирование;

¾ алгоритмы ограниченного перебора1.

1 См.: Белов В. С. Указ. соч.— С. 64.

Методы нечеткой логики предназначены для описания пло- хо формализуемых объектов из состава мягких знаний. Над ни- ми также совершаются мягкие вычисления. Используется поня- тие «лингвистическая переменная», значения которой опреде- ляются через нечеткие множества, а они представляются базо- вым набором значений или базовой числовой шкалой.

Системы рассуждений на основе аналогичных случаев — case based reasoning (CBR) — основаны на том, что принятие решения осуществляется по прецеденту, наиболее подходящему к данной ситуации с учетом определенных корректив. Иногда решение принимается на основе учета всех примеров, находя- щихся в хранилище данных.

Деревья решений основаны на иерархической древовидной структуре классифицирующих правил. Решения об отнесении того или иного объекта или ситуации к соответствующему классу при- нимаются по ответам на вопросы, стоящие в узлах дерева. Поло- жительный ответ означает переход к правому узлу следующего уровня, отрицательный — к левому узлу. Процесс разделения про- должается до полного ответа на все поставленные вопросы.

Нейронные сети означают упрощенную аналогию нервной системы живого организма. Разработаны модели нейронных се- тей. Распространенной моделью является многослойный пер- септрон с обратным распространением ошибки. Нейроны рабо- тают в составе иерархической сети: нейроны нижележащего слоя своими выходами соединены с входами нейронов вышеле- жащего слоя. На нейроны нижнего слоя подаются значения входных параметров, которые являются сигналами, передаю- щимися в следующий слой. При этом они ослабляются или уси- ливаются в зависимости от числовых значений, которые прида- ются межнейронным связям, называемым весами. На выходе нейрона верхнего слоя вырабатывается сигнал, являющийся от- ветом сети на введенные значения входных параметров. Для по- лучения необходимых значений весов сеть необходимо «трени- ровать» на примерах с известными значениями входных пара- метров и правильных ответов на них. Подбирают такие веса, которые обеспечивают наибольшую близость ответов нейрон- ной сети к правильным.

Генетические алгоритмы представляют собой поисковый метод, используемый для нахождения наилучшего решения или совокупности решений. Он основан на идее естественного отбо- ра. Построение генетических алгоритмов начинается с кодиров- ки исходных логических закономерностей, называемых, как и в биологии, хромосомами. Набор таких кодов называют попу- ляцией хромосом. Далее применяется функция пригодности, ко- торая выделяет наиболее подходящие элементы для дальнейших операций. Это может быть отбор в какие-либо группы, но воз- можен и вариант применения скрещивания и мутации с целью получения нового поколения. Алгоритм работает над изменени- ем старой популяции до тех пор, пока новая не будет отвечать заданным требованиям.

Байесовское обучение (ассоциации) применяется в тех случаях, когда сложилась ситуация увязки между собой неко- торых событий. Например, заселение новостроек сопровож- дается приобретением мебели и других предметов домашнего обихода. Необходимо выявить количественные характеристи- ки этой связи.

Кластеризация и классификация. Слово «кластеризация» происходит от английского cluster — пучок, сгусток. Кластери- зация предусматривает разделение совокупности схожих объек- тов на группы — кластеры по наибольшей близости их призна- ков. Проблема состоит в том, что оценка проводится не по од- ному какому-либо признаку, а одновременно по их совокупно- сти. Разработаны алгоритмы кластеризации, которые пересчи- тывают значения признаков в некоторую величину, харак- теризующую «расстояние» между объектами рассматриваемой совокупности, и объединяют близкие объекты в кластеры. Клас- сификация отличается от кластеризации тем, что выявляются признаки, объединяющие объекты, которые уже состоят в груп- пах. Этими методами занимается также и эконометрика.

Эволюционное программирование. В этой методике предпо- ложения строятся в виде программ на внутреннем языке про- граммирования. Процесс построения программ выглядит как эво- люция в среде программ. После нахождения в этой среде подхо- дящей программы система начинает вносить в нее необходимые корректировки. Методика реализована российской системой

Polyanalist. Специальный модуль этой системы переводит най- денные зависимости на доступный язык формул и таблиц.

Алгоритмы ограниченного перебора. Они вычисляют часто- ты комбинаций простых логических событий в группах данных. На основании оценки полученных частот делается заключение о полезности комбинаций для обнаружения ассоциаций в дан- ных, прогнозирования и других целей.

Перечисленные методы стали широко применяться в связи с развитием в последнее десятилетие XX в. самих методик и соответствующих инструментальных средств. Они эффективны в тех ситуациях, когда обычные методы анализа трудно или невоз- можно применить из-за отсутствия сведений о характере или зако- номерностях исследуемых процессов, взаимозависимостях явле- ний, фактов, поведении объектов и систем из различных предмет- ных областей, в том числе в социальной и экономической.

Рассмотрим области применения методов Data mining.

При отсутствии априорной информации, ее неполноте об объектах и их поведении с помощью этих методов Data mining решаются следующие задачи:

¾ выделение в данных групп записей, сходных по некото- рым признакам;

¾ нахождение и аппроксимация зависимостей, связываю- щих анализируемые параметры или события;

¾ поиск наиболее значимых параметров в данной пробле- ме (задаче);

¾ выявление данных, характеризующих значительные или существенные отклонения от сложившихся ранее закономерно- стей (анализ отклонений);

¾ прогнозирование развития объектов, систем, процессов на основе хранящейся ретроспективной информации или с ис- пользованием принципов обучения на известных примерах и дру- гие задачи1.

Для получения адекватного решения используется какой- либо из рассмотренных методов или они используются в ком- плексе.

1 Белов В. С. Указ. соч.— С. 65.

Контрольные вопросы и задания

1. Для чего используются статические ИАС?

2. Какие преимущества и недостатки имеют МOLAP-системы?

3. Какие преимущества и недостатки имеют ROLAP-системы?

4. В чем заключается концепция Data mining?

5. Где используется Data mining?

Библиографический список

Основная литература

1. Белов, В. С. Информационно-аналитические системы. Основы проектирования и применения: учеб. пособие / В. С. Белов.— М.: МЭСИ, 2004.— С. 55–65.

2. Информационные системы в экономике: учеб. для студентов вузов / под ред. Г. А. Титоренко.— 2-е изд., перераб. и доп.— М.: ЮНИТИ-ДАНА, 2009.— C. 166–204.

3. Марков, А. С. Базы данных: введение в теорию и методологию: учеб. / А. С. Марков, К. Ю. Лисовский.— М.: Финансы и статистика, 2006.— С. 189–206.

Дополнительная литература

1. Григорьев, Ю. А. Банки данных: учеб. / Ю. А. Григорьев, Г. И. Ревунков.— М.: МГТУ им. Н. Э. Баумана, 2002.— 320 с.

2. Дунаев, С. С. Доступ к базам данных и техника работы в сети. Практические приемы современного программирования / С. С. Дунаев.— М.: Диалог-МИФИ, 1999.— 416 с.

3. Емельянова, Н. З. Основы построения автоматизированных ин- формационных систем: учеб. пособие / Н. З. Емельянова, Т. Л. Пар- тыка, И. И. Попов.— М.: ФОРУМ: ИНФРА-М, 2007.— 416 с.

4. Смирнова, Г. Н. Проектирование экономических информаци- онных систем: учеб. / Г. Н. Смирнова, А. А. Сорокин, Ю. Ф. Тель- нов.— М., 2001.— 512 с.

5. Тельнов, Ю. Ф. Интеллектуальные информационные системы в экономике: учеб. / Ю. Ф. Тельнов.— М., 2001.— 306 с.

Примеры информационно-аналитических

Систем

План

6.1. Информационно-аналитическая система налоговой службы.

6.2. Информационно-аналитическая система бюджетного процесса.

6.3. Информационно-аналитическая система казначейства.

6.4. Информационно-аналитическая система региональных органов управления.

⇐ Предыдущая 7 8 9 10 111213 14 15 16 Следующая ⇒

Последнее изменение этой страницы: 2017-05-11; Просмотров: 298; Нарушение авторского права страницы