Экстенсиональный и интенсиональный аспекты классификации

⇐ ПредыдущаяСтр 14 из 32Следующая ⇒

Классификация - это выделение на основе существенных признаков из некоторого множества понятий универсального класса всех входящих в него подмножеств (подклассов) и установление между выделенными подмножествами отношения порядка. Признаки, на основе которых производится выделение из универсального класса всех его подклассов, называются классификационными. Если K₀ – некоторый класс, a K₁, К₂, ..., К_n – его подклассы, то

Æ.

Однако в общем случае не обязательно, чтобы выполнялось соотношение К_iÇ К_j = Æ .

Каждый из классов К_iв свою очередь может быть подвергнут дальнейшему разбиению на подклассы K_j, так что

и т. д. В результате возникает определенная структура взаимосвязей между классами, которая содержит важную семантическую информацию о предметной области. В частности, между классами устанавливается отношение порядка

Полученная структура классов полностью характеризуется их экстенсионалами, так как определяется вхождением сущностей ПО в классы и их взаимосвязями друг с другом. Это экстенсиональный аспект классификации. На экстенсиональном уровне классификацию можно рассматривать как алгебру K=(K_i, Ì ) с теоретико-множественной операцией включения.

Правила построения упорядоченной системы классов опираются на совокупность тех признаков, которыми обладают классифицируемые понятия, т. е. используют информацию, которая заключена в интенсионале понятий.

В классификации важны оба указанных выше аспекта – интенсиональный и экстенсиональный. Интенсиональный аспект отображает сходство сущностей (понятий) некоторого класса по совокупности классификационных признаков, а экстенсиональный аспект позволяет указать множество (класс) тех сущностей, которые обладают заданной совокупностью признаков.

Таксономия и мерономия

В классификационных системах класс сходных сущностей называют классификационным таксоном, а способ членения этих сущностей на отдельные части позволяющий установить их сходство, - мерономией. Таким образом, таксой - это объем (экстенсионал) некоторого класса, а мерономия - содержание (интенсионал) понятия, связываемого с данным классом. Если таксономия определяет знание о внешней структуре связей между классами сущностей ПО, используя многоуровневую абстракцию обобщения и отношение ЕСТЬ-НЕКОТОРЫЙ, то мерономия задает внутреннее устройство классов с помощью отношения ЧАСТЬ- ЦЕЛОЕ.

Таксономия и мерономия тесно связаны между собой. С одной стороны, признаки сущностей служат для разделения и распознавания сущностей, а с другой - для группирования сходных сущностей в классы (таксоны).

Упорядоченную совокупность признаков, характеризующих данный таксой с точки зрения внутренней структуры входящих в него сущностей, называют архетипом.

Архетип - это некоторая внутренняя структура, которую можно обнаружить во всех сущностях соответствующего таксона.

Здесь уместно указать на существенное различие между схемой класса, понимаемой как подмножество множества имен классификационных признаков, дополненного собственными характеристическими признаками класса, и архетипом. Дело в том, что в архетип таксона входят не только имена признаков, но и их значения. Другими словами, с архетипом в классификации связывают интенсионал таксона.

Архетип - это структура отдельных частей классов, составляющих классификационную схему. Эти части называют в классификации меронами. Фактически это значит, что мероны совпадают с классификационными признаками понятий. Как видно из диаграммы выявленных взаимосвязей понятий классификации, логики и семиотики, чем больше таксон, тем менее разнообразно, менее детализировано внутреннее строение входящих в него сущностей и, наоборот, чем меньше таксой, тем детальнее должно быть описание внутренней структуры сущностей таксона. Это значит, что отношение порядка может быть установлено не только для таксонов, но и для архетипов соответствующих классов.

Отсюда следует, что классификация – это совокупность двух структур: таксонов и архетипов, упорядоченных по включению. Если структура таксонов позволяет установить близость элементов, охватываемых классификационной схемой, в зависимости от объема соответствующего таксона (сущности тем более сходны друг с другом, чем меньше тот таксон, к которому они одновременно принадлежат), то структура признаков (архетип) характеризует сходство сущностей таксона исходя из их внутреннего устройства (сущности тем ближе друг к другу, чем больше множество их общих признаков).

Рис. 1. Диаграмма, связей понятий в классификации, логике и семиотике

Структура таксонов характеризует экстенсиональный аспект классификационной системы, а структура меронов – интенсиональный, что позволяет определить класс как тройку

К = < arhK, taxK, shmK >,

где arhK и taxK соответственно обозначают архетип и таксон данного класса.

Средства описания архетипов аналогичны средствам, используемым для формализации интенсионала, но на практике, при построении реальных классификационных схем, большее распространение получил теоретико-множественный подход.

Обратим внимание, что архетип класса, являясь его интенсиональной характеристикой, не совпадает с интенсионалом сущностей, входящих в этот класс: он лишь содержит необходимую и достаточную информацию о классификационных признаках сущностей, позволяющих принять однозначное решение о вхождении сущности в таксой (экстенсионал) класса.

Диаграмма теоретико-множественных связей между классом и понятиями, которые используются для построения классификационной схемы, представлена на рис. 2.

Рис. 2. Диаграмма теоретико-множественных связей между классом и понятиями;

(для простоты при установлении связей между схемами классов и понятий не учтена возможность введения собственных характеристических признаков классов)

Таксономия и мерономия понятий в совокупности обеспечивают двойственное описание классификационной структуры. С математической точки зрения здесь возникают две алгебраические системы: алгебра таксонов и алгебра архетипов.

Роль классификации в изучении реального мира заключается в возможности сравнивать между собой не отдельно взятые сущности, а целые классы таких сущностей (таксоны). Минимальные таксоны, которые могут быть выделены в рамках некоторого универсального класса, называются видами. Тогда все остальные таксоны можно рассматривать как множество видов. Чем меньше таксон, к которому принадлежат виды, тем они ближе друг к другу. Для выяснения вопроса о степени близости видов необходимо уметь сопоставлять их внутренние структуры, что относится уже к сфере действия мерономии.

Типы классификаций

Как уже указывалось ранее, между таксонами существуют определенные взаимосвязи. Наиболее простая связь между двумя таксонами – отношение включения. Таксон Т_i содержится в таксоне T_j, если все виды таксона Т_i принадлежат таксону T_j. Кроме того, таксоны могут быть связаны отношением пересечения.

Если таксоны Т_i и T_j имеют непустое пересечение и один из них содержится в другом, то

классификационная структура таксонов по отношению включения является древовидной. Каждый таксон в этой структуре принадлежит определенному уровню в дереве (рис. 3). Наиболее ярким примером древовидной классификации, является Универсальная десятичная классификация (УДК). Как будет показано ниже, алгебраическая структура архетипов может быть как древовидной, так и иметь более сложное строение.

Рис. 3. Алгебраическая структура таксона в древовидной классификации

Возможна и противоположная ситуация: архетипы образуют структуру типа дерево, а множество всех таксонов организовано не в виде дерева, а устроено более сложно. Например, этими свойствами обладает рубрикатор реферативных журналов. Так, выпуск «Теоретическая кибернетика» входит как в раздел «Математика», так и в раздел «Автоматика и телемеханика», т. е. древовидность таксонов не выполняется, однако архетипы, как показано ниже, организованы в виде древовидной структуры.

Наконец, в заключение рассмотрим два случая, когда древовидной структурой не обладают ни таксоны, ни архетипы. Как станет ясно позже, данный тип классификации является наиболее универсальным. Строение множества таксонов и определяющих его архетипов задается более сложными алгебраическими структурами, известными в математике как решетки. Решетки могут быть определены как множества, для любой пары элементов которых можно указать наибольший и наименьший элементы. Это определение фактически задает на исходном множестве двойное отношение порядка: «сверху вниз» и «снизу вверх». Это, как мы увидим далее, позволяет установить глубокую связь между таксономией и мерономией, присущей классификационным схемам данного типа. Простейшими классификационными структурами данного типа являются булевы классификации. К другому типу таксономической структуры относятся фасетная или комбинативная классификации. В качестве фасетов (аспектов) такой классификации выступают признаки понятий, имеющие различные имена. Каждый признак определяет разбиение множества сущностей на непересекающиеся подмножества первого уровня. Попарные пересечения таксонов первого уровня, которые задаются признаками с различными именами, дают таксоны второго уровня, тройные пересечения – таксоны третьего уровня и т. д. В результате таксон может быть взаимосвязан с двумя и более таксонами верхнего уровня.

Следовательно, комбинативная классификационная структура не является древовидной. Как и в случае булевых классификаций, алгебраическая структура комбинативных классификаций является решеткой.

Древовидные классификации

Проведем сопоставление различных типов классификационных схем путем сравнения структур их таксономических решеток по отношению теоретико-множественного включения входящих в них таксонов. Отношение включения является на множестве таксонов также и отношением порядка. Простейшая классификационная схема - древовидная иерархия. Порядок называется древовидным, если для двух таксонов Т_i и T_j, либо Т_i Ì Т_j, либо Т_i Ç T_j пусто.

Для древовидной классификации существует максимальный таксон, включающий в себя все остальные таксоны, и для каждого таксона совокупность подчиненных ему таксонов образует совокупность непересекающихся подмножеств. В качестве примера древовидной классификации рассмотрим Универсальную десятичную классификацию документов.

В соответствии с принципами построения УДК потенциальное множество всех документов делится на десять непересекающихся классов, которые индексируются цифрами от 0 до 9. Каждый из полученных таким образом классов снова разбивается в свою очередь на десять подклассов и т. д. В результате некоторому классу приписывается цифровой код, который рассматривается и как имя соответствующего таксона документов, и как архетип класса, состоящий лишь из одного признака. Значения признака этого архетипа определяются последней цифрой кода, а имя признака - остальными цифрами. Например, код 535.31 может интерпретироваться как имя таксона ГЕОМЕТРИЧЕСКАЯ ОПТИКА или как признак со значениями «призма» - 535.315, «тонкие линзы» -535.316, «толстые линзы» - 535.317 и т. д. Очевидно, что в этом случае каждый архетип (признак) подчинен лишь одному более старшему архетипу, т. е. для УДК характерны иерархичность не только таксонов, но и архетипов. При этом каждый документ принадлежит некоторой рубрике УДК, которая в дальнейшем уже не делится. Причем чем меньше таксой класса документов, тем длиннее цифровой код, являющийся архетипом класса, и, наоборот, чем больше таксой, тем меньше цифровой код архетипа, т. е. мы имеем дело как бы с обратной иерархией архетипов.

Отметим, что иерархия признаков десятичной классификации обычно находит свое реальное отражение в классификаторе или тезаурусе информационной системы в виде иерархии соответствующих статей.

Булевы классификации

Другим видом классификационной схемы является ситуация, когда таксоны образуют структуру булевой алгебры. В этом случае на выделенной системе классов K_i задаются теоретико-множественные операции объединения (È ), пересечения (Ç ) и разности ( / ). Тогда исходная система классов превращается в булеву алгебру

Данный тип классификационной схемы возникает, например, в случае использования дескрипторов для классификации текстов документов. В качестве примера рассмотрим множество терминов, состоящее из четырех дескрипторов: d₁, d₂, d₃, d₄. Тогда структура таксонов может состоять (рис. 4) из одного таксона Т₀, включающего все наличные тексты; четырех таксонов первого уровня Т₁¹, Т₂¹, Т₃¹, Т₄¹, включающих тексты, содержащие по одному дескриптору d₁, d₂, d₃ или d₄; шести таксонов второго уровня T₁², Т₂², Т₃², Т₄², T₅², Т₆², включающих тексты, содержащие по одной из пар дескрипторов (d₁, d₂), (d₁, d₃), (d₁, d₄), (d₂, d₃), (d₂, d₄), (d₃, d₄); четырех таксонов третьего уровня T₁³, Т₂³, Т₃³, Т₄³, включающих тексты, содержащие тройки дескрипторов (d₁, d₂, d₃), (d₁, d₂, d₄), (d₁, d₃, d₄), (d₂, d₃, d₄), и одного таксона четвертого уровня, включающего тексты, содержащие все четыре дескриптора (d₁, d₂, d₃, d₄).

Рис. 4. Булева классификационная структура таксонов документов

Архетипами соответствующих классов документов будут выступать множества значений дескрипторов:

arhK₁¹ = {d₁}, arhK₂¹ = {d₂}, arhK₃¹ = {d₃}, аrhK₄¹ = {d₄};

arhK₁² = {d₁, d₂}, arhK₂² = {d₁, d₃}, arhK₃² = {d₁, d₄},

arhK₄² = {d₂, d₃}, arhK₅² = {d₂, d₄}, arhK₆² = {d₃, d⁴};

arhK₁³ = {d₁, d₂, d₃}, arhK₂³ = {d₁, d₂, d₄}, arhK₃³ = {d₁, d₃, d₄}, arhK₄³ = {d₂, d₃, d₄};

arhK₁⁴ = {d₁, d₂, d₃, d₄}.

Если изучать данную классификационную структуру с точки зрения внутреннего строения ее архетипов, т.е. исходя из наличия в тексте совокупности тех или иных дескрипторов, то получим антиизоморфную картину (рис. 5).

Сопоставление таксономической структуры текстов и их внутреннего строения на основе входящих в них дескрипторов показывает, что объединению таксонов текстов соответствует пересечение множеств дескрипторов, входящих в соответствующие архетипы, а пересечению таксонов текстов – объединение множеств дескрипторов архетипов.

Структура таксонов по включению антиизоморфна структуре всех подмножеств множества дескрипторов {d₁, d₂, d₃, d₄}, т.е. булевой решетке. Действительно, включение таксона Т_i Ì T_j означает, что таксон Т_iопределяется какими-то дополнительными дескрипторами, т.е. если таксону Т_i сопоставить архетип arh К_i, а таксону T_j - архетип arh K_j, то будет выполняться соотношение arh К_i É arh K_j.

Рис. 5. Антиизоморфная структура архетипов поисковых образов документов

Комбинативные классификации

Комбинативные (фасетные) классификации возникают как результат классификации понятий по совокупности имен и значений их признаков.

Фасеты такой классификации определяются булевыми операциями над именами признаков и образуют булеву алгебру. Очевидно, что классификацию текстов на основании содержащихся в них дескрипторов с этой точки зрения можно рассматривать как однофасетную, так как мы имеем только один признак ДЕСКРИПТОР для всех терминов, используемых при классификации текстов. Но в комбинативных классификациях, как правило, полагают, что классификационные признаки сущностей не являются множественными.

Для выделения таксонов каждый фасет в свою очередь подвергается дополнительному делению на основе использования значений признаков. Так, если имеются признаки А, В, С, то в комбинативной классификации можно выделить три фасета первого уровня – F^A, F^B, F^C; три фасета второго уровня – F^AB, F^AC, F^BC и один фасет третьего уровня F^ABC. Таксоны первого уровня Т₁^A, T₂^A, …, T_n^A, T₁^B,..., Т_m^B, Т₁^C,... образуются путем деления каждой из фасет F^A, F^B, F^C на основе значений признаков. Таксоны второго уровня могут быть получены путем попарных пересечений таксонов первого уровня и т.д. Количество таксонов на первом уровне определяется суммарной мощностью доменов значений признаков

Общее число уровней в комбинативной классификации равно количеству признаков.

Как видно из рис. 6, структура таксонов комбинативной классификации по отношению включения не является иерархической. Если рассматривать структуру связей между отдельными фасетами, то получим булеву алгебру.

Рис. 6. Фасетная классификационная система

Архетипы классов комбинативной классификации представляют собой подмножество множества пар {(А_i, а_jⁱ)} имен и значений признаков. Для рассмотренного выше примера архетипами классов второго уровня будут множества:

В качестве примера рассмотрим комбинативную классификацию множества сущностей {e₁, e₂, е₃, e₄, e₅, e₆, e₇, e₈}, содержащих признаки с именами А, В, С, D и значениями dom А = {a₁, а₂, а₃}, dom В = {b₁, b₂}, dom С = {c₁, c₂, c₃} и dom D = {d₁, d₂, d₃, d₄}.

Пусть значения признаков по сущностям распределены следующим образом:

e₁ = (a₁, b₁, c₁, d₁), е₂ = (a₁, b₁, c₂, d₁),

е₃ = (a₁, b₂, c₁, d₃), е₄ = (a₁, b₃, c₂, d₃),

e₅ = (а₂, b₂, c₁, d₄), е₆ = (а₂, b₃, c₁, d₄),

е₇ = (а₂, b₃, c₂, d₄), e₈ = (а₂, b₃, c₁, d₂).

Тогда классификационная решетка рассматриваемой предметной области может быть представлена в виде рис. 7. На первом уровне решетки находятся таксоны, которые определяются одиночными значениями признаков, на втором - они определяются парными комбинациями признаков, на третьем - тройками значений признаков.

Таксон Т₀ содержит сущности, принадлежащие всей ПО, так как на него не накладывается никаких ограничений, а таксон T^ABCD пуст вследствие того, что в ПО отсутствуют сущности, обладающие всеми допустимыми значениями признаков одновременно. Отметим также, что в классификационной решетке отсутствуют классы сущностей первого уровня со значениями свойств b₁ и b₂, так как о множествах объектов {e₁, e₂} и {е₃, e₅} можно сделать более точное утвержцение, чем то, что эти классы сущностей обладают свойствами b₁ и b₂. Действительно, таксон T₁ содержит сущности, обладающие как признаком b₁, так и признаком a₁, а таксон T₁ – сущности, имеющие признаки b₂ и C₁. Множества {e₁, e₂} и {е₃, е₅}, выделенные на основании только одного признака b₁ или b₂, являются не классами, а предклассами. При свершении некоторых событий предклассы могут переходить в класс и, наоборот, классы могут превращаться в предклассы.

Отметим, что третий уровень классификационной решетки фактически содержит информацию, совпадающую с признаками ПО, за исключением таксона Т₆, в который попали сущности e₆ и e₈, не различимые на основании классификационных признаков с именами А, В и С, но имеющие различные характеристические признаки: сущность e₆ имеет свойство d₄, а сущность e₈ – признак d₂.

В работе показано, что для рассматриваемого множества таксонов классификационной решетки могут быть выделены таксоны - образующие, позволяющие путем выполнения над ними теоретико-множественной операции пересечения получить все остальные таксоны решетки.

Рис. 7. Пример классификационной решетки гипотетической ПО

Из рис. 7 видно, что в качестве классов-образующих для классификационной решетки необходимо взять таксоны T₁^A, T₁^C, Т₂^C, T₁^B, Т₂^A, T₁^AB, T₁^BC.

Очевиден и общий алгоритм выделения классов-образующих. Для этого достаточно к классам первого уровня решетки присоединить те классы более низких уровней, которые получены из предклассов первого уровня, чтобы получить искомый класс.

Комбинативные классификации имеют ряд преимуществ перед иерархическими классификациями, обеспечивая многоаспектное классифицирование информации, возможность произвольного комбинирования классификационных признаков, большую глубину понятий и возможность гибкого включения новых признаков.

СОБЫТИЯ И ПРОЦЕССЫ

⇐ Предыдущая 9 10 11 12 131415 16 17 18 Следующая ⇒