Системы интеллектуального анализа данных

⇐ ПредыдущаяСтр 17 из 33Следующая ⇒

Системы OLAP, так же как и классические системы математической статистической обработки информации, в настоящий момент далеко не всегда могут удовлетворить потребности современных аналитиков. Прежде всего они построены на принципах существования гипотез у пользователя. Однако нередко именно формулировка гипотезы оказывается самой сложной задачей при реализации бизнес-анализа для последующего принятия решений, поскольку далеко не все закономерности в данных очевидны с первого взгляда. И в этом случае применяются системы интеллектуального анализа данных (ИАД), называемые в зарубежной литературе Data Mining. Термин Data Mining означает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа. Цель этого поиска — представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные услуги либо зависимость их приобретения от каких-то характеристик потребителя).

В общем случае процесс ИАД состоит из трех стадий:

– выявление закономерностей (свободный поиск);

– использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование);

– анализ исключений, предназначенный для выявления и толкования аномалий в найденных закономерностях.

Иногда в явном виде выделяют промежуточную стадию проверки достоверности найденных закономерностей между их нахождением и использованием (стадия валидации).

Все методы ИАД подразделяются на две большие группы по принципу работы с исходными обучающими данными.

В первой группе исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и/или анализа исключений; это так называемые методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является затрудненность их использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят наибольшую пользу.

Во второй группе методов информация вначале извлекается из первичных данных и преобразуется в некоторые формальные конструкции (их вид зависит от конкретного метода). Согласно предыдущей классификации, этот этап выполняется на стадии свободного поиска, которая у методов первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результаты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных. При этом полученные конструкции могут быть либо «прозрачными» (интерпретируемыми), либо «черными ящиками» (нетрактуемыми).

Выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:

– ассоциация – высокая вероятность связи событий друг с другом (например, один товар часто приобретается вместе с другим);

– последовательность – высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой);

– классификация – имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила);

– кластеризация – закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы, они выявляются автоматически в процессе обработки данных;

– временные закономерности – наличие шаблонов в динамике поведения тех или иных данных (типичный пример – сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.

Сегодня существует довольно большое количество разнообразных методов исследования данных, применяемых в системах ИАД:

– регрессионный, дисперсионный и корреляционный анализ;

– методы анализа в конкретной предметной области, базирующиеся на эмпирических моделях;

– нейросетевые алгоритмы, идея которых основана на аналогии с функционированием нервной ткани и заключается в том, что исходные параметры рассматриваются как сигналы, преобразующиеся в соответствии с имеющимися связями между «нейронами», а в качестве ответа, являющегося результатом анализа, рассматривается отклик всей сети на исходные данные. Связи в этом случае создаются с помощью так называемого обучения сети посредством выборки большого объема, содержащей как исходные данные, так и правильные ответы;

– алгоритмы – выбор близкого аналога исходных данных из уже имеющихся исторических данных (называются также методом «ближайшего соседа»);

– деревья решений – иерархическая структура, базирующаяся на наборе вопросов, подразумевающих ответ «Да» или «Нет»; несмотря на то что данный способ обработки данных далеко не всегда идеально находит существующие закономерности, он довольно часто используется в системах прогнозирования в силу наглядности получаемого ответа;

– кластерные модели (иногда также называемые моделями сегментации) применяются для объединения сходных событий в группы на основании сходных значений нескольких полей в наборе данных; также весьма популярны при создании систем прогнозирования;

– алгоритмы ограниченного перебора, вычисляющие частоты комбинаций простых логических событий в подгруппах данных;

– эволюционное программирование – поиск и генерация алгоритма, выражающего взаимозависимость данных, на основании изначально заданного алгоритма, модифицируемого в процессе поиска; иногда поиск взаимозависимостей осуществляется среди каких-либо определенных видов функций (например, полиномов).

⇐ Предыдущая 12 13 14 15 161718 19 20 21 Следующая ⇒

Последнее изменение этой страницы: 2019-06-09; Просмотров: 370; Нарушение авторского права страницы