Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Интеллектуальный анализ данных
Для обоснования принятия решений необходимы знания, которые добывают из различных источников. На начальном этапе подготовки данных к использованию в аналитической сфере они представляют знания как «хорошо структурированные данные или метаданные» (рисунок)1. В зависимости от признаков различают следующие виды знаний: 1. Фактические и стратегические знания. Фактические зна- ния позволяют специалисту предметной области решать кон- кретные задачи. К ним относятся факты, взаимосвязи, системы понятий, правила. Стратегические знания позволяют определить поведение объектов в ближайшем или отдаленном будущем. 2. Факты и эвристики. Факты — это хорошо известные и описанные обстоятельства. К ним относятся также эконо- мические категории, известные и описанные закономерности и т. д. Эвристики — знания, опыт, навыки специалистов в со- ответствующих предметных областях. Они являются объек- том изучения и внедрения в информационные системы раз- личного назначения. 3. Декларативные и процедурные знания. Декларативные знания очевидны (например, выручка — сумма, полученная в результате продажи товаров); процедурные являются, по су- ществу, алгоритмами преобразования декларативных знаний, действий над ними. 4. Интенсиональные и экстенсиональные знания. Первые явля- ются знаниями о связях между объектами (их атрибутами) рассмат- риваемой предметной области; вторые — свойствами объектов, их состояниями, значениями свойств в пространстве и динамике. 5. Глубинные и поверхностные знания. Глубинные знания содержат подробные сведения о структуре предметной области, законах поведения структуры в целом и отдельных ее элемен- тов, достоверные и полные отражения взаимосвязей элементов структуры и т. д. Поверхностные знания касаются лишь внеш- них свойств и связей с рассматриваемым объектом(ами) (пере- 1 См.: Белов В. С. Указ. соч.— С. 62. чень необходимых сведений о пользовательских свойствах упо- мянутых или других изделий). 6. Жесткие и мягкие знания. Жесткие знания отражают сис- темы или объекты с четко выраженными свойствами, связями, поведением, которые легко описываются качественными и ко- личественными признаками: например, логико-дедуктивной системой показателей. Мягкие знания отображают, соответст- венно, системы и объекты с трудно поддающимися описанию или формализации свойствами и связями; дают нечеткие, раз- мытые решения и множественность рекомендаций. Классификация знаний и взаимосвязь между ними
Рассмотрим процессы получения знаний. Первый процесс — это «извлечение» знаний из живого ис- точника — эксперта, специалиста с целью их идентификации и возможной формализации, помещения в базу знаний и по- строения на этой основе экспертных систем, а также в других целях. Такой процесс относят к инженерии знаний. Второй процесс — это «добыча» скрытых от пользователя знаний из данных, помещенных в различного рода компьютерные информационные системы, в том числе базы данных различного назначения, информационные хранилища. Второй процесс на- зывают Data mining, что означает интеллектуальный анализ. Для обработки накопленных в различных источниках и мес- тах сбора и хранения данных и выполнения интеллектуального анализа используются все достижения математической науки и информационных технологий: методы линейной алгебры, классического математического анализа, дискретной математи- ки, многомерного статистического анализа и т. д. В экономической предметной области применение методов поиска решений, условий неотрицательности и других свойств математических моделей путем дедуктивного получения след- ствий, исходя из предварительно сформулированных предпосы- лок, относится к разделу экономической науки, называемому математической экономикой. Анализ количественных закономерностей и взаимозависи- мостей в экономике, который выполняется статистическими ме- тодами, относится к эконометрике. Традиционная математическая статистика долгое время была основной методологией анализа данных в экономической и других предметных областях. Однако базовая концепция усред- нения по выборке часто приводит к операциям над фиктивными величинами. В экономике средние значения ряда показателей по различным предприятиям иногда создают искаженное представле- ние об отсталости или, наоборот, о незаурядных успехах ряда пред- приятий, отраслей или регионов и, следовательно, сглаживают их. Вопросы для OLAP: ¾ Каковы средние показатели рентабельности предпри- ятий в регионе? ¾ Каковы средние размеры счетов клиентов банка — фи- зических лиц? ¾ Какова средняя величина ежедневных покупок по укра- денной или фальшивой кредитной карточке? Вопросы для Data mining: ¾ Какова характерная совокупность значений показателей финансово-хозяйственной деятельности предприятий в регионе? ¾ Каков типичный портрет клиента — физического лица, отказывающегося от услуг банка? ¾ Существуют ли стереотипные схемы покупок для случа- ев мошенничества с кредитными карточками? 1
1 См.: Белов В. С. Указ. соч.— С. 63. Работа по интеллектуальной обработке данных происходит в сфере закономерностей. Основными задачами интеллекту- ального анализа являются: ¾ выявление взаимозависимостей, причинно-следственных связей, ассоциаций и аналогий; определение значений факторов времени; локализация событий или явлений; ¾ классификация событий и ситуаций; определение про- филей различных факторов; ¾ прогнозирование хода процессов, событий. Многомерный статистический анализ удерживает свои по- зиции и в жесткой области знаний. Он делится на факторный, дисперсионный, регрессионный, корреляционный, кластерный методы анализа (кроме того, он является также сферой интере- сов Data mining). Эти методы анализа позволяют решать много- численные задачи в области экономики, менеджмента, юрис- пруденции, которые являются составной частью аналитической подготовки принятия решений. Вначале рассмотрим специфические методы Data mining, а затем области их применения. Помимо перечисленных традиционных методов многомер- ного статистического анализа широко применяются специфиче- ские методы интеллектуального анализа, происходящие из смеж- ных областей информационных технологий (IT-систем) и дос- тижений различных областей науки. К специфическим методам интеллектуального анализа относятся: ¾ методы нечеткой логики; ¾ системы рассуждений на основе аналогичных случаев; ¾ классификационные и регрессионные деревья решений; ¾ нейронные сети; ¾ генетические алгоритмы; ¾ байесовское обучение (ассоциации); ¾ кластеризация и классификация; ¾ эволюционное программирование; ¾ алгоритмы ограниченного перебора1. 1 См.: Белов В. С. Указ. соч.— С. 64. Методы нечеткой логики предназначены для описания пло- хо формализуемых объектов из состава мягких знаний. Над ни- ми также совершаются мягкие вычисления. Используется поня- тие «лингвистическая переменная», значения которой опреде- ляются через нечеткие множества, а они представляются базо- вым набором значений или базовой числовой шкалой. Системы рассуждений на основе аналогичных случаев — case based reasoning (CBR) — основаны на том, что принятие решения осуществляется по прецеденту, наиболее подходящему к данной ситуации с учетом определенных корректив. Иногда решение принимается на основе учета всех примеров, находя- щихся в хранилище данных. Деревья решений основаны на иерархической древовидной структуре классифицирующих правил. Решения об отнесении того или иного объекта или ситуации к соответствующему классу при- нимаются по ответам на вопросы, стоящие в узлах дерева. Поло- жительный ответ означает переход к правому узлу следующего уровня, отрицательный — к левому узлу. Процесс разделения про- должается до полного ответа на все поставленные вопросы. Нейронные сети означают упрощенную аналогию нервной системы живого организма. Разработаны модели нейронных се- тей. Распространенной моделью является многослойный пер- септрон с обратным распространением ошибки. Нейроны рабо- тают в составе иерархической сети: нейроны нижележащего слоя своими выходами соединены с входами нейронов вышеле- жащего слоя. На нейроны нижнего слоя подаются значения входных параметров, которые являются сигналами, передаю- щимися в следующий слой. При этом они ослабляются или уси- ливаются в зависимости от числовых значений, которые прида- ются межнейронным связям, называемым весами. На выходе нейрона верхнего слоя вырабатывается сигнал, являющийся от- ветом сети на введенные значения входных параметров. Для по- лучения необходимых значений весов сеть необходимо «трени- ровать» на примерах с известными значениями входных пара- метров и правильных ответов на них. Подбирают такие веса, которые обеспечивают наибольшую близость ответов нейрон- ной сети к правильным. Генетические алгоритмы представляют собой поисковый метод, используемый для нахождения наилучшего решения или совокупности решений. Он основан на идее естественного отбо- ра. Построение генетических алгоритмов начинается с кодиров- ки исходных логических закономерностей, называемых, как и в биологии, хромосомами. Набор таких кодов называют попу- ляцией хромосом. Далее применяется функция пригодности, ко- торая выделяет наиболее подходящие элементы для дальнейших операций. Это может быть отбор в какие-либо группы, но воз- можен и вариант применения скрещивания и мутации с целью получения нового поколения. Алгоритм работает над изменени- ем старой популяции до тех пор, пока новая не будет отвечать заданным требованиям. Байесовское обучение (ассоциации) применяется в тех случаях, когда сложилась ситуация увязки между собой неко- торых событий. Например, заселение новостроек сопровож- дается приобретением мебели и других предметов домашнего обихода. Необходимо выявить количественные характеристи- ки этой связи. Кластеризация и классификация. Слово «кластеризация» происходит от английского cluster — пучок, сгусток. Кластери- зация предусматривает разделение совокупности схожих объек- тов на группы — кластеры по наибольшей близости их призна- ков. Проблема состоит в том, что оценка проводится не по од- ному какому-либо признаку, а одновременно по их совокупно- сти. Разработаны алгоритмы кластеризации, которые пересчи- тывают значения признаков в некоторую величину, харак- теризующую «расстояние» между объектами рассматриваемой совокупности, и объединяют близкие объекты в кластеры. Клас- сификация отличается от кластеризации тем, что выявляются признаки, объединяющие объекты, которые уже состоят в груп- пах. Этими методами занимается также и эконометрика. Эволюционное программирование. В этой методике предпо- ложения строятся в виде программ на внутреннем языке про- граммирования. Процесс построения программ выглядит как эво- люция в среде программ. После нахождения в этой среде подхо- дящей программы система начинает вносить в нее необходимые корректировки. Методика реализована российской системой Polyanalist. Специальный модуль этой системы переводит най- денные зависимости на доступный язык формул и таблиц. Алгоритмы ограниченного перебора. Они вычисляют часто- ты комбинаций простых логических событий в группах данных. На основании оценки полученных частот делается заключение о полезности комбинаций для обнаружения ассоциаций в дан- ных, прогнозирования и других целей. Перечисленные методы стали широко применяться в связи с развитием в последнее десятилетие XX в. самих методик и соответствующих инструментальных средств. Они эффективны в тех ситуациях, когда обычные методы анализа трудно или невоз- можно применить из-за отсутствия сведений о характере или зако- номерностях исследуемых процессов, взаимозависимостях явле- ний, фактов, поведении объектов и систем из различных предмет- ных областей, в том числе в социальной и экономической. Рассмотрим области применения методов Data mining. При отсутствии априорной информации, ее неполноте об объектах и их поведении с помощью этих методов Data mining решаются следующие задачи: ¾ выделение в данных групп записей, сходных по некото- рым признакам; ¾ нахождение и аппроксимация зависимостей, связываю- щих анализируемые параметры или события; ¾ поиск наиболее значимых параметров в данной пробле- ме (задаче); ¾ выявление данных, характеризующих значительные или существенные отклонения от сложившихся ранее закономерно- стей (анализ отклонений); ¾ прогнозирование развития объектов, систем, процессов на основе хранящейся ретроспективной информации или с ис- пользованием принципов обучения на известных примерах и дру- гие задачи1. Для получения адекватного решения используется какой- либо из рассмотренных методов или они используются в ком- плексе.
1 Белов В. С. Указ. соч.— С. 65. Контрольные вопросы и задания 1. Для чего используются статические ИАС? 2. Какие преимущества и недостатки имеют МOLAP-системы? 3. Какие преимущества и недостатки имеют ROLAP-системы? 4. В чем заключается концепция Data mining? 5. Где используется Data mining?
Библиографический список Основная литература 1. Белов, В. С. Информационно-аналитические системы. Основы проектирования и применения: учеб. пособие / В. С. Белов.— М.: МЭСИ, 2004.— С. 55–65. 2. Информационные системы в экономике: учеб. для студентов вузов / под ред. Г. А. Титоренко.— 2-е изд., перераб. и доп.— М.: ЮНИТИ-ДАНА, 2009.— C. 166–204. 3. Марков, А. С. Базы данных: введение в теорию и методологию: учеб. / А. С. Марков, К. Ю. Лисовский.— М.: Финансы и статистика, 2006.— С. 189–206. Дополнительная литература 1. Григорьев, Ю. А. Банки данных: учеб. / Ю. А. Григорьев, Г. И. Ревунков.— М.: МГТУ им. Н. Э. Баумана, 2002.— 320 с. 2. Дунаев, С. С. Доступ к базам данных и техника работы в сети. Практические приемы современного программирования / С. С. Дунаев.— М.: Диалог-МИФИ, 1999.— 416 с. 3. Емельянова, Н. З. Основы построения автоматизированных ин- формационных систем: учеб. пособие / Н. З. Емельянова, Т. Л. Пар- тыка, И. И. Попов.— М.: ФОРУМ: ИНФРА-М, 2007.— 416 с. 4. Смирнова, Г. Н. Проектирование экономических информаци- онных систем: учеб. / Г. Н. Смирнова, А. А. Сорокин, Ю. Ф. Тель- нов.— М., 2001.— 512 с. 5. Тельнов, Ю. Ф. Интеллектуальные информационные системы в экономике: учеб. / Ю. Ф. Тельнов.— М., 2001.— 306 с.
Примеры информационно-аналитических Систем План 6.1. Информационно-аналитическая система налоговой службы. 6.2. Информационно-аналитическая система бюджетного процесса. 6.3. Информационно-аналитическая система казначейства. 6.4. Информационно-аналитическая система региональных органов управления.
|
Последнее изменение этой страницы: 2017-05-11; Просмотров: 341; Нарушение авторского права страницы