Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Интеллектуальный анализ данных



Для обоснования принятия решений необходимы знания, которые добывают из различных источников.

На начальном этапе подготовки данных к использованию в аналитической сфере они представляют знания как «хорошо структурированные данные или метаданные» (рисунок)1.

В зависимости от признаков различают следующие виды знаний:

1. Фактические и стратегические знания. Фактические зна- ния позволяют специалисту предметной области решать кон- кретные задачи. К ним относятся факты, взаимосвязи, системы понятий, правила. Стратегические знания позволяют определить поведение объектов в ближайшем или отдаленном будущем.

2. Факты и эвристики. Факты — это хорошо известные и описанные обстоятельства. К ним относятся также эконо- мические категории, известные и описанные закономерности и т. д. Эвристики — знания, опыт, навыки специалистов в со- ответствующих предметных областях. Они являются объек- том изучения и внедрения в информационные системы раз- личного назначения.

3. Декларативные и процедурные знания. Декларативные знания очевидны (например, выручка — сумма, полученная в результате продажи товаров); процедурные являются, по су- ществу, алгоритмами преобразования декларативных знаний, действий над ними.

4. Интенсиональные и экстенсиональные знания. Первые явля- ются знаниями о связях между объектами (их атрибутами) рассмат- риваемой предметной области; вторые — свойствами объектов, их состояниями, значениями свойств в пространстве и динамике.

5. Глубинные и поверхностные знания. Глубинные знания содержат подробные сведения о структуре предметной области, законах поведения структуры в целом и отдельных ее элемен- тов, достоверные и полные отражения взаимосвязей элементов структуры и т. д. Поверхностные знания касаются лишь внеш- них свойств и связей с рассматриваемым объектом(ами) (пере-

 
 

1 См.: Белов В. С. Указ. соч.— С. 62.


чень необходимых сведений о пользовательских свойствах упо- мянутых или других изделий).

6. Жесткие и мягкие знания. Жесткие знания отражают сис- темы или объекты с четко выраженными свойствами, связями, поведением, которые легко описываются качественными и ко- личественными признаками: например, логико-дедуктивной системой показателей. Мягкие знания отображают, соответст- венно, системы и объекты с трудно поддающимися описанию или формализации свойствами и связями; дают нечеткие, раз- мытые решения и множественность рекомендаций.

 
 

Классификация знаний и взаимосвязь между ними

 

Рассмотрим процессы получения знаний.

Первый процесс — это «извлечение» знаний из живого ис- точника — эксперта, специалиста с целью их идентификации и возможной формализации, помещения в базу знаний и по- строения на этой основе экспертных систем, а также в других целях. Такой процесс относят к инженерии знаний.

Второй процесс — это «добыча» скрытых от пользователя знаний из данных, помещенных в различного рода компьютерные информационные системы, в том числе базы данных различного назначения, информационные хранилища. Второй процесс на- зывают Data mining, что означает интеллектуальный анализ.


Для обработки накопленных в различных источниках и мес- тах сбора и хранения данных и выполнения интеллектуального анализа используются все достижения математической науки и информационных технологий: методы линейной алгебры, классического математического анализа, дискретной математи- ки, многомерного статистического анализа и т. д.

В экономической предметной области применение методов поиска решений, условий неотрицательности и других свойств математических моделей путем дедуктивного получения след- ствий, исходя из предварительно сформулированных предпосы- лок, относится к разделу экономической науки, называемому математической экономикой.

Анализ количественных закономерностей и взаимозависи- мостей в экономике, который выполняется статистическими ме- тодами, относится к эконометрике.

Традиционная математическая статистика долгое время была основной методологией анализа данных в экономической и других предметных областях. Однако базовая концепция усред- нения по выборке часто приводит к операциям над фиктивными величинами. В экономике средние значения ряда показателей по различным предприятиям иногда создают искаженное представле- ние об отсталости или, наоборот, о незаурядных успехах ряда пред- приятий, отраслей или регионов и, следовательно, сглаживают их.

Вопросы для OLAP:

¾ Каковы средние показатели рентабельности предпри- ятий в регионе?

¾ Каковы средние размеры счетов клиентов банка — фи- зических лиц?

¾ Какова средняя величина ежедневных покупок по укра- денной или фальшивой кредитной карточке?

Вопросы для Data mining:

¾ Какова характерная совокупность значений показателей финансово-хозяйственной деятельности предприятий в регионе?

¾ Каков типичный портрет клиента — физического лица, отказывающегося от услуг банка?

¾ Существуют ли стереотипные схемы покупок для случа- ев мошенничества с кредитными карточками? 1

 

1 См.: Белов В. С. Указ. соч.— С. 63.


Работа по интеллектуальной обработке данных происходит в сфере закономерностей. Основными задачами интеллекту- ального анализа являются:

¾ выявление взаимозависимостей, причинно-следственных связей, ассоциаций и аналогий; определение значений факторов времени; локализация событий или явлений;

¾ классификация событий и ситуаций; определение про- филей различных факторов;

¾ прогнозирование хода процессов, событий. Многомерный статистический анализ удерживает свои по-

зиции и в жесткой области знаний. Он делится на факторный, дисперсионный, регрессионный, корреляционный, кластерный методы анализа (кроме того, он является также сферой интере- сов Data mining). Эти методы анализа позволяют решать много- численные задачи в области экономики, менеджмента, юрис- пруденции, которые являются составной частью аналитической подготовки принятия решений.

Вначале рассмотрим специфические методы Data mining,

а затем области их применения.

Помимо перечисленных традиционных методов многомер- ного статистического анализа широко применяются специфиче- ские методы интеллектуального анализа, происходящие из смеж- ных областей информационных технологий (IT-систем) и дос- тижений различных областей науки.

К специфическим методам интеллектуального анализа

относятся:

¾ методы нечеткой логики;

¾ системы рассуждений на основе аналогичных случаев;

¾ классификационные и регрессионные деревья решений;

¾ нейронные сети;

¾ генетические алгоритмы;

¾ байесовское обучение (ассоциации);

¾ кластеризация и классификация;

¾ эволюционное программирование;

¾ алгоритмы ограниченного перебора1.

 
 

1 См.: Белов В. С. Указ. соч.— С. 64.


Методы нечеткой логики предназначены для описания пло- хо формализуемых объектов из состава мягких знаний. Над ни- ми также совершаются мягкие вычисления. Используется поня- тие «лингвистическая переменная», значения которой опреде- ляются через нечеткие множества, а они представляются базо- вым набором значений или базовой числовой шкалой.

Системы рассуждений на основе аналогичных случаев — case based reasoning (CBR) — основаны на том, что принятие решения осуществляется по прецеденту, наиболее подходящему к данной ситуации с учетом определенных корректив. Иногда решение принимается на основе учета всех примеров, находя- щихся в хранилище данных.

Деревья решений основаны на иерархической древовидной структуре классифицирующих правил. Решения об отнесении того или иного объекта или ситуации к соответствующему классу при- нимаются по ответам на вопросы, стоящие в узлах дерева. Поло- жительный ответ означает переход к правому узлу следующего уровня, отрицательный — к левому узлу. Процесс разделения про- должается до полного ответа на все поставленные вопросы.

Нейронные сети означают упрощенную аналогию нервной системы живого организма. Разработаны модели нейронных се- тей. Распространенной моделью является многослойный пер- септрон с обратным распространением ошибки. Нейроны рабо- тают в составе иерархической сети: нейроны нижележащего слоя своими выходами соединены с входами нейронов вышеле- жащего слоя. На нейроны нижнего слоя подаются значения входных параметров, которые являются сигналами, передаю- щимися в следующий слой. При этом они ослабляются или уси- ливаются в зависимости от числовых значений, которые прида- ются межнейронным связям, называемым весами. На выходе нейрона верхнего слоя вырабатывается сигнал, являющийся от- ветом сети на введенные значения входных параметров. Для по- лучения необходимых значений весов сеть необходимо «трени- ровать» на примерах с известными значениями входных пара- метров и правильных ответов на них. Подбирают такие веса, которые обеспечивают наибольшую близость ответов нейрон- ной сети к правильным.


Генетические алгоритмы представляют собой поисковый метод, используемый для нахождения наилучшего решения или совокупности решений. Он основан на идее естественного отбо- ра. Построение генетических алгоритмов начинается с кодиров- ки исходных логических закономерностей, называемых, как и в биологии, хромосомами. Набор таких кодов называют попу- ляцией хромосом. Далее применяется функция пригодности, ко- торая выделяет наиболее подходящие элементы для дальнейших операций. Это может быть отбор в какие-либо группы, но воз- можен и вариант применения скрещивания и мутации с целью получения нового поколения. Алгоритм работает над изменени- ем старой популяции до тех пор, пока новая не будет отвечать заданным требованиям.

Байесовское обучение (ассоциации) применяется в тех случаях, когда сложилась ситуация увязки между собой неко- торых событий. Например, заселение новостроек сопровож- дается приобретением мебели и других предметов домашнего обихода. Необходимо выявить количественные характеристи- ки этой связи.

Кластеризация и классификация. Слово «кластеризация» происходит от английского cluster — пучок, сгусток. Кластери- зация предусматривает разделение совокупности схожих объек- тов на группы — кластеры по наибольшей близости их призна- ков. Проблема состоит в том, что оценка проводится не по од- ному какому-либо признаку, а одновременно по их совокупно- сти. Разработаны алгоритмы кластеризации, которые пересчи- тывают значения признаков в некоторую величину, харак- теризующую «расстояние» между объектами рассматриваемой совокупности, и объединяют близкие объекты в кластеры. Клас- сификация отличается от кластеризации тем, что выявляются признаки, объединяющие объекты, которые уже состоят в груп- пах. Этими методами занимается также и эконометрика.

Эволюционное программирование. В этой методике предпо- ложения строятся в виде программ на внутреннем языке про- граммирования. Процесс построения программ выглядит как эво- люция в среде программ. После нахождения в этой среде подхо- дящей программы система начинает вносить в нее необходимые корректировки. Методика реализована российской системой


Polyanalist. Специальный модуль этой системы переводит най- денные зависимости на доступный язык формул и таблиц.

Алгоритмы ограниченного перебора. Они вычисляют часто- ты комбинаций простых логических событий в группах данных. На основании оценки полученных частот делается заключение о полезности комбинаций для обнаружения ассоциаций в дан- ных, прогнозирования и других целей.

Перечисленные методы стали широко применяться в связи с развитием в последнее десятилетие XX в. самих методик и соответствующих инструментальных средств. Они эффективны в тех ситуациях, когда обычные методы анализа трудно или невоз- можно применить из-за отсутствия сведений о характере или зако- номерностях исследуемых процессов, взаимозависимостях явле- ний, фактов, поведении объектов и систем из различных предмет- ных областей, в том числе в социальной и экономической.

Рассмотрим области применения методов Data mining.

При отсутствии априорной информации, ее неполноте об объектах и их поведении с помощью этих методов Data mining решаются следующие задачи:

¾ выделение в данных групп записей, сходных по некото- рым признакам;

¾ нахождение и аппроксимация зависимостей, связываю- щих анализируемые параметры или события;

¾ поиск наиболее значимых параметров в данной пробле- ме (задаче);

¾ выявление данных, характеризующих значительные или существенные отклонения от сложившихся ранее закономерно- стей (анализ отклонений);

¾ прогнозирование развития объектов, систем, процессов на основе хранящейся ретроспективной информации или с ис- пользованием принципов обучения на известных примерах и дру- гие задачи1.

Для получения адекватного решения используется какой- либо из рассмотренных методов или они используются в ком- плексе.

 

 
 

1 Белов В. С. Указ. соч.— С. 65.


Контрольные вопросы и задания

1. Для чего используются статические ИАС?

2. Какие преимущества и недостатки имеют МOLAP-системы?

3. Какие преимущества и недостатки имеют ROLAP-системы?

4. В чем заключается концепция Data mining?

5. Где используется Data mining?

 

Библиографический список

Основная литература

1. Белов, В. С. Информационно-аналитические системы. Основы проектирования и применения: учеб. пособие / В. С. Белов.— М.: МЭСИ, 2004.— С. 55–65.

2. Информационные системы в экономике: учеб. для студентов вузов / под ред. Г. А. Титоренко.— 2-е изд., перераб. и доп.— М.: ЮНИТИ-ДАНА, 2009.— C. 166–204.

3. Марков, А. С. Базы данных: введение в теорию и методологию: учеб. / А. С. Марков, К. Ю. Лисовский.— М.: Финансы и статистика, 2006.— С. 189–206.

Дополнительная литература

1. Григорьев, Ю. А. Банки данных: учеб. / Ю. А. Григорьев, Г. И. Ревунков.— М.: МГТУ им. Н. Э. Баумана, 2002.— 320 с.

2. Дунаев, С. С. Доступ к базам данных и техника работы в сети. Практические приемы современного программирования / С. С. Дунаев.— М.: Диалог-МИФИ, 1999.— 416 с.

3. Емельянова, Н. З. Основы построения автоматизированных ин- формационных систем: учеб. пособие / Н. З. Емельянова, Т. Л. Пар- тыка, И. И. Попов.— М.: ФОРУМ: ИНФРА-М, 2007.— 416 с.

4. Смирнова, Г. Н. Проектирование экономических информаци- онных систем: учеб. / Г. Н. Смирнова, А. А. Сорокин, Ю. Ф. Тель- нов.— М., 2001.— 512 с.

5. Тельнов, Ю. Ф. Интеллектуальные информационные системы в экономике: учеб. / Ю. Ф. Тельнов.— М., 2001.— 306 с.


 

 

Примеры информационно-аналитических

Систем

План

6.1. Информационно-аналитическая система налоговой службы.

6.2. Информационно-аналитическая система бюджетного процесса.

6.3. Информационно-аналитическая система казначейства.

6.4. Информационно-аналитическая система региональных органов управления.

 


Поделиться:



Последнее изменение этой страницы: 2017-05-11; Просмотров: 341; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.033 с.)
Главная | Случайная страница | Обратная связь