Тема 4. Мировые и национальные информационные ресурсы – осно- ва информационного обеспечения АБИС

⇐ ПредыдущаяСтр 2 из 5Следующая ⇒

Определение понятия «информационные ресурсы» Официальным и наиболее общепринятым является определение ИР, приведенное в Федеральном законе " Об информации, информатизации и за- щите информации": " Информационные ресурсы – отдельные документы и отдельные массивы документов, документы и массивы документов в инфор- мационных системах (библиотеках, архивах, фондах, банках данных, других информационных системах). С точки зрения языковых норм напрашивается ответ: поскольку для рус- ского языка понятие " ресурс" является неисчисляемым (т. е. нельзя сказать пять ресурсов). Однако в том же законе информационные ресурсы рассмат- риваются скорее как исчисляемые объекты, поскольку речь идет об их учете и регистрации, принятии на бухгалтерский баланс и прочих действиях, кото- рые можно совершать только с конкретными объектами. Более того, в интер- нет-сленге термин " информационный ресурс" укоренился в значении адре- суемая единица информации. Отсюда и общеизвестная аббревиатура URL – универсальный указатель ресурса. В таком употреблении термин " информа- ционный ресурс" действительно обозначает конкретные исчисляемые объек- ты, являясь обобщением понятий " документ", " файл", " массив", " фонд" и т. п. Из приведенного выше определения следует, что информационные ре- сурсы могут представлять собой либо документы (т. е. информацию с рекви- зитами, позволяющими их идентифицировать), либо массивы документов. Информационные массивы Одним из важнейших видов информационных объектов, с которым ча- сто отождествляют сами ресурсы, является понятие информационного масси- ва. Основными характеристиками этого вида ресурсов (информационных объектов) являются следующие: • массив создается в результате целенаправленного сбора, систематиза- ции или упорядочения информации; • массив представляет собой совокупность некоторых элементарных ин- формационных единиц (например, документов, строк или записей), к каждой из которых возможен индивидуальный доступ; • массиву свойственны функциональная и часто (но не всегда) тематиче- ская и видовая однородность; • имеется практическая возможность идентификации массива как само- стоятельного объекта; • массив допускает количественное измерение. В качестве дефиниции этого вида ресурсов предлагается использовать определение БД, имеющееся в Директиве Европейского союза по правовой охране баз данных (директива 96/6): " Подборка произведений, данных или другой информации, системно или методически скомпонованных, к которой может быть осуществлен индивидуальный доступ с помощью электронных или иных средств". К таким объектам, безусловно, относятся собственно базы данных, сайты Интернета, регистры, каталоги, реестры, кадастры, библиотечные и ар- хивные фонды, электронные издания, электронные музеи, электронные кар- ты и др. Именно информационные массивы (а не вообще ресурсы) могут и долж- ны стать предметом учета, статистики и конкретного анализа. Применительно к электронным информационным массивам – базам дан- ных следует отметить, что наибольший опыт такого рода накоплен в НТЦ " Информрегистр", который ведет учет БД с 1989 г., ежегодно выпуская ката- лог " Базы данных России" (до 1992 г. выходил под названием " Базы данных СССР" ). Идентификатором в этой системe выступает номер государственной регистрации (включает указание на регистрирующую службу, дату регистра- ции и порядковый номер). Разные версии БД, отличающиеся по формальным признакам, а также по хронологии, идентификатором, не различаются. Основные проблемы, возникающие при идентификации БД входе их учета, следующие: • необходимость учета экземпляров (копий) БД, инсталлированных у пользователей; • динамическое слияние БД или разделение одной на несколько; • описание сложной БД как единой или состоящей из нескольких файлов; • отнесение к категории БД близких к ним информационных объектов (текстовых или графических файлов, мультимедийных электронных изданий, географических информационных систем и др.). В системах библиотечного учета в качестве идентификатора массива мо- жет выступать наименование его владельца (например, фонды Российской государственной библиотеки). Однако столь же часто наименование массива или его владельца не является достаточно информативным. Поэтому даже для получения предварительного представления, о каком массиве идет речь, требуется в той или иной форме описать его содержание, вид источника ин- формации и другие параметры. Поэтому другие фонды в пределах данной библиотеки именуются с учетом их назначения, содержания и др. (например, фонд рукописей, фонды открытого доступа и др.). Однако общей системы идентификации библиотечных фондов не существует. Фактически любой из них идентифицируется наименованием его владельца, т. е. библиотеки. Описание содержания информационных массивов Содержание соответствующих массивов может описываться по несколь- ким основаниям с использованием необходимых информационных языков. Основные принципы такого описания: • тематический; • объектный; • предметное (посткоординатное) описание; • локальные (специализированные) описания; • традиционные наименования. Тематический принцип. Он основан на отнесении информационного массива к отраслям знания или деятельности, в которых он создается и/или используется. Для тематического описания используются информационные языки классификационного типа, например Государственный рубрикатор НТИ, библиотечные и архивные классификации, а также такие инструменты, как Общероссийский классификатор отраслей народного хозяйства (ОКОНХ), Общероссийский классификатор видов экономической деятельно- сти, продукции и услуг (ОКДП) и его прообраз – международная система Standard Industrial Classification. Поскольку ОКДП недавно утвержден в качестве основного классифика- тора отраслей, совместимого с международной системой статистики, необхо- димо учитывать возможность его применения для классификации информа- ционных массивов. Сделать это, однако, будет очень непросто, поскольку ОКДП основан на совершенно чуждых для российской практики управления представлениях о структуре отраслей народного хозяйства. При этом исполь- зование какого-либо классификатора в целях статистики еще не означает воз- можности его применения для решения других задач, в частности в целях на- вигации. Тематический принцип применим к массивам, включающим текстовые (неструктурированные) документы. Он разработан полно и глубоко, имеет многолетние традиции, однако не всегда удобен для описания ресурсов, фор- мируемых и используемых за пределами традиционном информационно-би- блиотечной сферы. Недостатком языков, применяемых для тематического описания, являет- ся неоднозначность результатов классифицирования, осуществляемого почти исключительно интеллектуальными методами. Этот недостаток носит почти универсальный характер для линейных классификационных систем, особен- но обладающих достаточной глубиной (закон " множественной локализации" Перро) К тому же для описания тематики в разных странах и разных инфор- мационных сферах применяются различные классификации. Тематический принцип может основываться на отнесении массива к ка- кой-либо отрасли как по признаку происхождения, так и по принципу ис- пользования (банковская информация может пониматься как информация, возникшая в банках, или информация, предназначенная для использования в банках). В большинстве случаев эти понятия тождественны, и особенных проблем здесь не возникает. Однако при попытке построить сколько-нибудь строгую модель описания массивов необходимо четко представлять, о чем идет речь. Отнесение объектов к отрасли по принципу использования (назначения) более последовательно проводится в так называемых функциональных клас- сификациях, тесно примыкающих к тематическим. Наиболее характерный пример такого подхода – Международная классификация изобретений (МКИ). Нам, однако, неизвестны попытки использования МКИ или другой функциональной классификации для описания информационных массивов, поскольку применение таких языков вызывает относительно большие слож- ности для нетривиальных случаев и поэтому распространенность их невели- ка. Объектный принцип. По объектному принципу построена основная си- стема информационных языков, созданная в СССР для применения в автома- тизированных системах организационного управления, – Единая система классификации и кодирования технико-экономической и социальной инфор- мации (ЕСКК ТЭИ). В рамках ЕСКК ТЭИ созданы классификаторы различ- ных объектов реального мира: продукции, предприятий, профессий, работ и услуг, демографических показателей, языков, стран и пр. Этот принцип про- должает быть основным для описания ИР, используемых для управления и бизнеса. Объектный принцип лучше всего применим к хорошо структурирован- ным массивам, в частности фактографическим базам данных, возникающим в сфере управления. Оптимально применять его к кадастровой информации, где весьма четко выделяются описываемые множества объектов, например земельные участки или объекты недвижимости, а также к персональным дан- ным, где объектами информационных массивов выступают физические лица. Предметный (дескрипторный, посткоординатный) принцип. Давно известно, что любой документ с необходимой полнотой и точностью может быть описан свободным набором терминов, в качестве которых используют- ся ключевые слова, предметные рубрики, дескрипторы. В частности, терми- ны такого языка могут именовать отрасли знания или деятельности, а также объекты любого типа, их группы, классы, любые другие понятия, например процессы или свойства. В этом смысле предметный информационный язык интегрирует преимущества тематических, функциональных и объектных ин- формационных языков. Очевидно, это применимо и к описанию информационных массивов, поэтому предметный принцип применяется во многих справочных системах по информационным ресурсам (Gale's Directory, электронный и печатный ка- талоги баз данных России НТЦ " Информрегистр", " Энциклопедия информа- ционных ресурсов и систем" МБИТ, большинство каталогов информацион- ных ресурсов архивных фондов и др.). Информационные языки предметного типа удобны для поиска, но плохо приспособлены для навигации, идентификации информационных массивов, а также для решения различных задач управления информационными ресурса- ми, например для статистики информационной деятельности. Кроме того, в оптимальном варианте применение такого языка требует создания специали- зированного тезауруса и трудоемкой работы по согласованию (стандартиза- ции) применяемой терминологии. Вообще следует иметь в виду, что предметный (дескрипторный) язык описания любых информационных объектов (документов, данных, массивов) удобен для поиска конкретных информационных объектов и неудобен для решения задач, требующих интегрального описания этих объектов. Поэтому подавляющее число разработчиков автоматизированных си- стем стремится в той или иной степени сочетать тематические, объектные и предметные подходы к описанию и поиску информационных объектов. Локальный принцип. Локальными мы называем описания по прави- лам, принятым для отдельных классов информационных ресурсов. Принцип заведомо не универсален, но в определенных случаях удобен. Так, в международной информационной системе по глобальным данным GRID при описании содержания массивов используются следующие пара- метры: тип наблюдаемого географического объекта, его координаты, способ наблюдений или измерений, платформа наблюдений. Ясно, что эти парамет- ры применимы только для информационных массивов определенного вида. Локальных методов описания информационных массивов довольно много. Они применятся, например, в системах идентификации образователь- ных ресурсов, конструкторской, технологической, программной документа- ции и др. Локальные классификаторы ресурсов в настоящее время в изобилии представлены в Интернете. Составители практически всех проблемных, тема- тических и других каталогов ресурсов Интернета изобретают локальные классификации, пригодные только для узкого класса ресурсов. Это не следу- ет воспринимать как критику. Просто, разрабатывая какой-нибудь локальный классификатор, необходимо трезво оценивать сферу его применения. Традиционный принцип. В большинстве нестрогих обсуждений ин- формационные массивы классифицируют, точнее говоря, именуют, по тради- ционно сложившимся сферам информационной деятельности, в рамках кото- рых сформировались их определенные классы или устойчивое представление о существовании таких классов. Приводимые ниже термины, обозначающие эти классы, не образуют классификационного ряда в сколько-нибудь строгом смысле слова. Получающийся перечень неполон и противоречив, однако со- ответствующие термины распространены и привычны большинству практи- ческих работников в информационной сфере. Вот некоторые из терминов, традиционно применяемых к классам информационных массивов: • печатная (издательская) продукция; • научно-техническая информация; • библиотечные фонды; • нормативно-техническая информация (документация); • патентная информация; • информация о природных ресурсах; • экологическая информация; • геоинформация, геоданные; • учебно-образовательная информация; • справочно-энциклопедическая и словарная информация; • управленческая информация; • проектно-конструкторская информация (документация); • технологическая и производственная информация; правовая информа- ция; • финансово-экономическая (деловая, коммерческая) информация; • торгово-транспортная документация; • статистическая информация; • архивная документация; • реклама и т.д. Можно заметить, что большинство классов информационных массивов, поименованных таким образом, совпадает по аспекту описания с одним из названных выше параметров. Это может быть содержание информации, или вид информационного источника, или назначение, или класс информацион- ных (организационных) систем. Например, понятия " архивная", " научно-техническая" информация или " библиотечные фонды" обозначают вид системы, к которой принадлежит со- ответствующий массив. Понятия " нормативно-техническая", " статистическая" или " патентная" информация обозначают вид информационных источников (документов). Понятия " учебно-образовательная", " управленческая" информация или " реклама" обозначают функциональное назначение информации. Из сказанного можно сделать вывод, что в настоящее время не суще- ствует методологии универсального описания содержания информационных массивов. Такую методологию предстоит построить, комбинируя уже извест- ные способы описания в рамках более общего представления. Однако такое общее представление необходимо строить не абстрактно, а исходя из практи- ческих задач управления информационными ресурсами. Вид источника информации К содержанию информации тесно примыкает параметр, который часто называют видом источника информации или видом документов. Единой об- щепринятой классификации видов источников неизвестно, но можно приве- сти несколько сложившихся подходов к их классификации: •для опубликованных и некоторых неопубликованных документов ис- пользуется классификация их видов, принятая в библиотечно-библиографи- ческой практике и системе НТИ. Этот перечень приведен в ГОСТ 7.1, а также в ГОСТ 7.19; •для неопубликованных документов общая классификация видов отсут- ствует, но имеется несколько более или менее целостных классификаций для разных классов информационных ресурсов, например Единая система конструкторской документации (ЕСКД), Общероссийский классификатор управленческой документации (ОКУД), Международная система торго- во-транспортной документации (ЭДИ-ФАКТ) и др.; •для архивных документов используется специальная классификация видов, принятая в системе Росархива и основанная на идентификации орга- низаций и лиц – источников получения документов; •для отдельных классов документов, используемых, например, в здраво- охранении, геологии, армии и др., применяются соответствующие отрасле- вые или ведомственные классификации источников (см. пример с GRID, где в качестве способа классификации выступает комбинация способа измерения и платформы измерения географических объектов). Назначение информационных ресурсов В Национальном докладе " Информационные ресурсы России" указыва- ется, что основной проблемой российской информационной индустрии яв- ляется громадный разрыв между большим объемом созданных в России ИР и низким уровнем их использования. В соответствии с результатами статистического обследования информа- ционных ресурсов средний коэффициент использования (т. е. число инстал- ляций или коллективных пользователей) для российских БД составляет около 2, в то время как для западных БД он превышает 10. При этом примерно по- ловина российских БД используется только самими их создателями. Задача повышения эффективности ИР заключается именно в расшире- нии их использования как в форме товара продуктов, так и в форме обще- ственного продукта. Поэтому определение назначения ИР является важным инструментом управления ими. Опыт показывает, что владельцы ИР, особенно государственные, склон- ны преуменьшать возможности общественного использования, рассматривая их как ресурсы внутрикорпоративного или внутриведомственного предназна- чения. Это связано и со стремлением к монопольному владению информаци- ей, и с нежеланием нести затраты на обеспечение общественного доступа к ИР, и с другими факторами, препятствующими открытому доступу к инфор- мации. Поэтому для определения назначения ИР необходима разработка объек- тивных критериев, основанных на изучении их содержания и анализе обще- ственных потребностей. Основа для разработки таких критериев заложена в законе " Об информации, информатизации и защите информации", где опре- делены некоторые категории ИР, для которых запрещено устанавливать огра- ничения на доступ. Это относится к законодательной информации, сведениям, необходи- мым для безопасности граждан и населения в целом, к информации о дея- тельности органов власти и местного самоуправления. К данной категории отнесены также " документы, накапливаемые в открытых фондах библиотек и архивов, информационных системах органов государственной власти, орга- нов местного самоуправления, общественных объединений, организаций, представляющие общественный интерес или необходимые для реализации прав, свобод и обязанностей граждан" (ст, 10, п. 3). Очевидно, что эта последняя норма носит слишком общий характер. Определить, какие документы, принадлежащие организациям, представляют общественный интерес, весьма и весьма непросто. Здесь неизбежен конфликт интересов общества и конкретных владельцев ИР, поэтому необходим меха- низм установления общественной значимости ИР, вырабатываемый самим обществом. Классификация информационных ресурсов Что касается классификации ИР по назначению, то детальной общепри- нятой классификации такого рода не существует. В аналитических исследо- ваниях более или менее регулярно применяется деление ИР по этому призна- ку на четыре класса: • ИР для управления (регистры, кадастры, организационно-распоряди- тельная информация и др.); • ИР профессиональные (НТИ, геологическая, экологическая, меди- цинская информация и др.); • ИР для бизнеса (фондовый рынок, валютные курсы, недвижимость); • ИР массовые (новости, искусство, развлечения, спорт). Деление это достаточно условное. Например, не очень ясно, к каким классам нужно относить правовую, образовательную информацию и многие другие виды ИР. Объем информационных ресурсов Возьмем три наиболее распространенные формы информационных мас- сивов: библиотечные и архивные фонды, обычные БД (документографиче- ские и фактографические). Во всех случаях методики, принятые для измере- ния этих массивов, несоизмеримы между собой. В архивах принята следующая система. Архив как организация включа- ет несколько архивных фондов (основная единица учета на макроуровне), ко- торые могут разделяться в диахроническом измерении на описи. Архивные фонды состоят из множества дел (т.е. объем фонда измеряется числом дел), а последние – из множества листов. Единицей хранения является дело или лист. Существует и понятие документа, но оно является вспомогательным и в основных измерениях массивов не применяется. Копии документов, в том числе на микроносителях, а также созданные на основе архивных документов базы данных учитываются отдельно. Кроме того, используется понятие " кол- лекция", отличающееся от фонда принципом формирования. В библиотеках применяется система измерения всего фонда (как едино- го целого), выражаемая в числе единиц хранения (включая множество экзем- пляров одного документа). Иногда число экземпляров и наименований книг учитывается отдельно. В составе фондов могут выделяться части, учитывае- мые самостоятельно (фонды открытого доступа, собрания, фонды специаль- ного хранения, фонды периодики и проч.). Особо учитываются каталоги биб- лиотек (картотечные и электронные). Иногда отдельно ведется учет докумен- тов на разных языках. Базы данных, созданные библиотекой или ею приобре- тенные, в состав библиотечных фондов не входят и если учитываются, то отдельно. Документографические базы данных практически всегда измеряются числом содержащихся в них записей, т. е. полных текстов документов или их библиографических описаний либо рефератов. Важной характеристикой БД служит также глубина их ретроспективы. Иногда применяют измерение по физическому объему (например, в мегабайтах). Фактографические БД изме- ряются по числу описанных в них объектов, по числу используемых для опи- сания реквизитов, а также по физическому объему. Широко распространенные системы измерения ресурсов Интернета учи- тывают число серверов (хостов), число страниц (обычно представленных в определенных форматах, например только HTML) и общий объем докумен- тов (в гигабайтах), содержащихся на этих страницах. Таким образом, очевидно, что могут применяться как логические едини- цы измерения (число фондов, документов, объектов), так и физические (чис- ло листов, единиц хранения, мегабайт). При этом как физические, так и логи- ческие единицы измерения несоизмеримы между собой. Таким образом, методика измерения объема ИР требует дополнитель- ных исследований. Кроме того, необходимы единые метрологические стан- дарты и решение весьма сложной задачи по их внедрению в информацион- ную практику. Форма представления информации Форма представления информационного объекта или, иначе говоря, структурный тип, является признаком, наиболее важным с точки зрения тех- нологии обработки этого объекта. Исторически сложились следующие под- ходы к определению формы представления. Традиционный (докомпьютерный) подход, в рамках которого обычно выделялись текстовая, графическая, аудио- и видеоинформация. Классифика- ции каждого вида объектов формировались в соответствующей информаци- онной субкультуре и мало взаимодействовали друг с другом. Примерами та- ких субкультур были полиграфия, теле-радиовещание, кинопроизводство, ар- хивное дело, библиотечное дело и др. Классификации классического периода информатики (1960–1980 гг.) появились, когда данные стали отделять от программ, хорошо структуриро- ванную информацию – от плохо структурированной, формализованную от неформализованной, цифровые видео от аналоговых. В тот период появились новые виды информационных объектов, такие, как мультимедийные, трех- мерные модели физических объектов, электронные карты и др. Основное влияние на типологию оказали разработанные в те годы тех- нологии электронного представления различного рода информационных объектов баз данных и баз знаний, документальных ИПС, оцифровки графи- ки, автоматизированного проектирования, компьютерного моделирования распознавания образов и многие другие. В тот период предлагалось множе- ство различных классификаций форм представления информационных объектов, однако они были слишком связаны с технологиями, поэтому зача- стую менялись или исчезали вместе с ними. Современный этап типологии информационных объектов начался в 1990-е гг. с внедрением и широким распространением Интернета. Одно из наиболее революционных воздействии Интернета на различные информаци- онные отрасли заключалось в необходимости интеграции моделей и подхо- дов различных отраслей информационной индустрии В результате возникла необходимость в создании единого языка, позволяющего описать различные типы информационных объектов, для того чтобы стало возможным использо- вание соответствующих программных приложений. Таким языком, образова- лась спецификация MIME {Multipurpose Internet Mail Extention}, разработан- ная для электронной почты, но получившая распространение позже при воз- никновении веба. MIME-тип состоит из собственно типа (например, текст), подтипа, (например, гладкий текст) и одного или нескольких параметров (например, тип кодировки – ASCII). В качестве подтипа обычно указывается формат ин- формационного объекта. Основные типы и подтипы информационных объектов, принятые в спе- цификации MIМЕ текстовые объекты: • текст (гладкий, размеченный, html); • многочастный объект (смешанный, альтернативный, параллельный, многоцелевой); • сообщение (частичное, внешнее, пo RFC822); • изображение (gif, jpeg, tiff); • аудио (basic, wav); • видео (mpeg, quickdraw); • приложения (pdf, ppt, msword). Дальнейшее развитие классификация типов информационных объектов получилa в рамках Дублинского ядра метаданных. Всего в рамках этой систе- мы выделено девять типов. Ниже приводится перечень типов с дефинициями, принятыми разработчиками. 1.Коллекция. Множество, содержащее элементы. Ресурс описывается как группа, части ресурса могут быть описаны отдельно, к ним осуществлен отдельный доступ. 2.Данные. Информация представлена в определенной структуре (напри- мер, списки, таблицы, базы данных), обеспечивающей возможность прямой машинной обработки. 3.Событие. Непродолжительное, ограниченное во времени явление. Ме- таданные для события могут определять цель, место, длительность, субъек- тов события и связи с другими событиями и ресурсами. Примером являются выставки, конференции, семинары, презентации, представления, дискуссия и др. 4.Изображение. Ресурс, первично предназначенный служить для визу- ального представления, отличного от текста. К данному типу относятся изоб- ражения и фотографии физических объектов, рисунки, чертежи, мультипли- кация, фильмы, диаграммы, карты, музыкальная нотация. 5.Интерактивный объект. Объект данного типа требует взаимодействия с пользователем для того, чтобы быть понятым, исполненным или реализован- ным. Примеры: интерактивные формы на веб-страницах, апплеты, обучаю- щие средства, чаты, виртуальная реальность. 6.Сервис. Система, которая выполняет одну или более функцию для ко- нечного пользователя. Примеры: службы фотокопирования, банковский сер- вис, служба аутентификации, межбиблиотечный абонемент, веб-сервер. 7.Программные средства. Компьютерная программа в исходном или компилированном коде, которая пригодна в неизменном виде для инсталля- ции на другой машине. 8.Аудио. Ресурс, первоначально предназначенный служить для звуково- го представления. Например, ауди компакт-диск, запись речи или звуков. 9.Текст. Ресурс, первоначально представляющий собой слова для чтения (книги, письма, газеты, стихи, статьи, диссертации, рукописи). Данная классификация является, несомненно, результатом длительных дискуссий, в которых принимали участие высококвалифицированные специ- алисты многих стран, и потому она имеет будущее. Однако пока эта класси- фикация выглядит слишком непривычно: трудно признать видом информа- ционного ресурса банковское обслуживание, веб-сервер или событие реаль- ного мира. Следует иметь в виду, что в реальных задачах компьютерной обработки информации к различным типам информационных объектов применяются различные программные средства. Поэтому различные типы объектов описы- ваются специальными атрибутами, образуя разные структурные типы (моде- ли информационных объектов). Информация, данные, знания Специалисты в области информационных технологий по роду своей дея- тельности обязаны иметь четкое понятие о категориях " информация", " дан- ные", " знание". Во многих ситуациях часто бывает достаточно интуитивного понимания и интерпретации этих категорий. Но как это ни парадоксально, по такому, казалось бы, простому предмету существует достаточно много про- тиворечивых мнений. Информация (лат. informatio) – 1) сообщение о чем-либо; 2) сведения, являющиеся объектом хранения, переработки и передачи (например, генети- ческая информация); 3) в математике (кибернетике) – количественная мера устранения неопределенности (энтропия), мера организации системы; в тео- рии информации – раздел кибернетики, изучающий количественные законо- мерности, связанные со сбором, передачей, преобразованием и вычислением информации. Данные – 1) сведения, необходимые для какого-либо вывода, решения, процедуры (например: много данных, цифровые данные); 2) основания для чего-нибудь, качества (например: голосовые данные, иметь все данные для получения премии). Знание – 1) постижение действительности сознанием, наука (например: важная область знания, тяга к знанию); 2) совокупность сведений, познаний в какой-либо области (например: область знаний, тяга к знаниям). Теперь попытаемся уточнить эти определения. При всех коллизиях и взаимных трансформациях в категориях " информация", " данные", " знание" вполне отчетливо просматриваются явные отличия. Категории " информация" и " знание" с философской точки зрения действительно являются понятиями высокого уровня, отражающими наиболее существенные качества информа- ционных систем как объектов и явлений окружающего мира. Понятие " информация" необходимо рассматривать только при наличии источника и получателя информации, а также канала связи между ними. По- нятию " информации" также сопутствует интерпретация значения информа- ции, преобразование значения информации. Теория Клода Шеннона полно- стью строится на основе такого " коммуникационного" понимания информа- ции. Она описывает количественные характеристики связи – пропускную способность каналов, скорость передачи данных и т.п. Понятие " знание" обычно связывают с процессом принятия решений, а также изучения окружающего мира и обучения. Для принятия решения ха- рактерно понимание цели. Когда возникает цель? – когда осознается текущее состояние (ситуации, положения и т.п.) и формируется образ другого состоя- ния (собственно цели), которое нужно достигнуть. Для перехода из текущего состояния в другое (целевое) необходимы знания и данные. Знания – это опыт, инструмент, данные – это учет деталей и фактов, это вспомогательные элементы. Понятие " данные" – относительно новый термин, в общем случае харак- теризующий некоторый набор символов, который можно хранить, переда- вать, преобразовывать. Обычно данные являются входной информацией для какого-либо информационного процесса, системы. Например, для компьютерной программы или алгоритма входными дан- ными может быть символ или слово. Или другой пример. Для человека теле- фонный номер является данными, которые нужно передать на телефонную станцию, чтобы соединиться с нужным абонентом. Не нужно искать глубо- кий смысл в телефонном номере – исторически он может быть любым. Важ- но что он действует без ваших усилий. Информация (от лат. Informatio – объяснение) – любые сведения о ка- ком-либо событии, сущности, процессе и т.п., являющиеся объектом некото- рых операций: восприятия, передачи, преобразования, хранения и использо- вания, для которых существует содержательная интерпретация. Следователь- но, для восприятия информации необходима некоторая воспринимающая си- стема, которая может интерпретировать ее, в том числе преобразовывать, определять соответствие определенным правилам и т.п. Информация исполь- зуется во всех областях человеческой деятельности; любая взаимосвязь и координация действий возможны только благодаря информации. Данные относятся к способу представления, хранения и элементарным операциям обработки информации. Прежде всего, данные – это основа ин- формации. Образно говоря, данные – это текст в некотором алфавите, а ин- формация – это рассказ, сообщение, сведения, имеющие определенный смысл. Одна из главных особенностей данных состоит в том, что их становится невероятно много. В современных условиях массового применения компью- теров источников данных гигантское количество. Например, только при мо- делировании урагана на суперкомпьютере модель урагана генерирует несколько терабайт данных, а европейский адронный коллайдер (ускоритель элементарных частиц) способен за год обеспечить исследователей петабайта- ми данных. Существуют четыре аспекта работы с данными: определение данных, вычисление данных, манипулирование данными и их обработка, управление данными (администрирование данных). Ключевым понятием манипулирования данных является структура дан- ных типа " файл". Файл – это современный символ данных. Современная ин- формационная индустрия построена на работе и манипулировании файлами. Файловые структуры данных являются наиболее адекватными структурами для современных накопителей данных. Файл – это любой набор данных, со- стоящих из элементов одинаковой структуры – записей. В свою очередь за- пись представляет собой структуру, состоящую из полей. Поле – это мини- мальная поименованная структура данных. Пример – файл " Кадры"; запись – " Личное дело"; поле – " ФИО". Знание (англ. – Knowledge) – проверенные общественной практикой по- лезные сведения, которые могут многократно использоваться людьми для ре- шения тех или иных задач. Обычно понятие Знания трактуется с двух пози- ций: 1) как совокупность сведений и фактов в какой-либо области; 2) пости- жение действительности сознанием в виде науки. Современная ситуация добавляет еще один важный ракурс. Знания – это люди плюс информация, возведенные в степень средств распространения этой информации. В такой же степени, Знания – это умение найти нужную информацию и нужных людей, это умение организовать процесс, который направлен на достижение поставленной цели. Знание можно рассматривать как объект коммерции и автоматизации. Это логически полный ограниченный набор сведений для непосредственного решения требуемой задачи (ряда задач) подготовленный специалистами. Особенности знаний: 1.Внутренняя интерпретируемость. Каждая информационная единица должна иметь уникальное имя, по которому ИС находит ее, а также отвечает на запросы, в которых это имя упомянуто. Когда данные, хранящиеся в памя- ти, были лишены имен, то отсутствовала возможность их идентификации си- стемой. Данные могла идентифицировать лишь программа, извлекающая их из памяти по указанию программиста, написавшего программу. Что скрыва- ется за тем или иным двоичным кодом машинного слова, системе было неиз- вестно.

Если, например, в память ЭВМ нужно было записать сведения о сотруд- никах учреждения, представленные в табл. 1.1, то без внутренней интерпре- тации в память ЭВМ была бы занесена совокупность из четырех машинных слов, соответствующих строкам этой таблицы. При этом информация о том, какими группами двоичных разрядов в этих машинных словах закодированы сведения о специалистах, у системы отсутствуют. Они известны лишь про- граммисту, который использует данные табл. 1.1 для решения возникающих у него задач. Система не в состоянии ответить на вопросы типа " Что тебе из- вестно о Петрове? " или " Есть ли среди специалистов сантехник? ". 2. Структурированность. Информационные единицы должны обладать гибкой структурой. Для них должен выполняться " принцип матрешки", т.е. рекурсивная вложимость одних информационных единиц в другие. Каждая информационная единица может быть включена в состав любой другой, и из каждой информационной единицы можно выделить некоторые составляю- щие ее информационные единицы. Другими словами, должна существовать возможность произвольного установления между отдельными информацион- ными единицами отношений типа " часть – целое", " род – вид" или " элемент – класс". 3. Связность. В информационной базе между информационными едини- цами должна быть предусмотрена возможность установления связей различ- ного типа. Прежде всего эти связи могут характеризовать отношения между информационными единицами. Семантика отношений может носить декла- ративный или процедурный характер. Например, две или более информаци- онные единицы могут быть связаны отношением " одновременно", две ин- формационные единицы – отношением " причина – следствие" или отношени- ем " быть рядом". Приведенные отношения характеризуют декларативные знания. Если между двумя информационными единицами установлено отно- шение " аргумент – функция", то оно характеризует процедурное знание, свя- занное с вычислением определенных функций. Далее будем различать отно- шения структуризации, функциональные отношения, каузальные отношения и семантические отношения. С помощью первых задаются иерархии инфор- мационных единиц, вторые несут процедурную информацию, позволяющую находить (вычислять) одни информационные единицы через другие, третьи задают причинно – следственные связи, четвертые соответствуют всем остальным отношениям. 4. Семантическая метрика. На множестве информационных единиц в не- которых случаях полезно задавать отношение, характеризующее ситуацион- ную близость информационных единиц, т.е. силу ассоциативной связи между информационными единицами. Его можно было бы назвать отношением ре- левантности для информационных единиц. Такое отношение дает возмож- ность выделять в информационной базе некоторые типовые ситуации (напри- мер, " покупка", " регулирование движения на перекрестке" ). Отношение реле- вантности при работе с информационными единицами позволяет находить знания, близкие к уже найденным. 5. Активность. С момента появления ЭВМ и разделения используемых в ней информационных единиц на данные и команды создалась ситуация, при которой данные пассивны, а команды активны. Все процессы, протекающие в ЭВМ, инициируются командами, а данные используются этими командами лишь в случае необходимости. Для ИС эта ситуация не приемлема. Как и у человека, в ИС актуализации тех или иных действий способствуют знания, имеющиеся в системе. Таким образом, выполнение программ в ИС должно инициироваться текущим состоянием информационной базы. Появление в базе фактов или описаний событий, установление связей может стать источ- ником активности системы. Перечисленные пять особенностей информационных единиц определя- ют ту грань, за которой данные превращаются в знания, а базы данных пере- растают в базы знаний (БЗ). Совокупность средств, обеспечивающих работу с знаниями, образует систему управления базой знаний (СУБЗ). В настоящее время не существует баз знаний, в которых в полной мере были бы реализо- ваны внутренняя интерпретируемость, структуризация, связность, введена семантическая мера и обеспечена активность знаний. Модели представления знаний. Неформальные (семантические) мо- дели. Существуют два типа методов представления знаний (ПЗ): 1.Формальные модели ПЗ; 2.Неформальные (семантические, реляционные) модели ПЗ. Очевидно, все методы представления знаний, которые рассмотрены выше, включая продукции (это система правил, на которых основана продук- ционная модель представления знаний), относятся к неформальным моделям. В отличие от формальных моделей, в основе которых лежит строгая матема- тическая теория, неформальные модели такой теории не придерживаются. Каждая неформальная модель годится только для конкретной предметной об- ласти и поэтому не обладает универсальностью, которая присуща моделям формальным. Логический вывод – основная операция в СИИ – в формальных системах строг и корректен, поскольку подчинен жестким аксиоматическим правилам. Вывод в неформальных системах во многом определяется самим исследователем, который и отвечает за его корректность. Каждому из методов ПЗ соответствует свой способ описания знаний. 1. Логические модели. В основе моделей такого типа лежит формаль- ная система, задаваемая четверкой вида: М -. Множество Тесть множество базовых элементов различной природы, например слов из некото- рого ограниченного словаря, деталей детского конструктора, входящих в со- став некоторого набора и т.п.Важно, что для множества существует некото- рый способ определения принадлежности или непринадлежности произволь- ного элемента к этому множеству. Процедура такой проверки может быть любой, но за конечное число шагов она должна давать положительный или отрицательный ответ на вопрос, является ли х элементом множества Т. Обозначим эту процедуру П(Т). Множество Р есть множество синтаксических правил. С их помощью из элементов Т образуют синтаксически правильные совокупности. Например, из слов ограниченного словаря строятся синтаксически правильные фразы, из деталей детского конструктора с помощью гаек и болтов собираются новые конструкции. Декларируется существование процедуры П(Р), с помощью ко- торой за конечное число шагов можно получить ответ на вопрос, является ли совокупность X синтаксически правильной. В множестве синтаксически правильных совокупностей выделяется не- которое подмножество А. Элементы А называются аксиомами. Как и для других составляющих формальной системы, должна существовать процедура П(Л), с помощью которой для любой синтаксически правильной совокупно- сти можно получить ответ на вопрос о принадлежности ее к множеству А. Множество В есть множество правил вывода. Применяя их к элементам А, можно получать новые синтаксически правильные совокупности, к кото- рым снова можно применять правила из В. Так формируется множество вы- водимых в данной формальной системе совокупностей. Если имеется проце- дура П(В), с помощью которой можно определить для любой синтаксически правильной совокупности, является ли она выводимой, то соответствующая формальная система называется разрешимой. Это показывает, что именно правило вывода является наиболее сложной составляющей формальной си- стемы. Для знаний, входящих в базу знаний, можно считать, что множество А образуют все информационные единицы, которые введены в базу знаний из- вне, а с помощью правил вывода из них выводятся новые производные зна- ния. Другими словами формальная система представляет собой генератор по- рождения новых знаний, образующих множество выводимых в данной систе- ме знаний. Это свойство логических моделей делает их притягательными для использования в базах знаний. Оно позволяет хранить в базе лишь те знания, которые образуют множество А, а все остальные знания получать из них по правилам вывода. 2. Сетевые модели. В основе моделей этого типа лежит конструкция, названная ранее семантической сетью. В зависимости от типов связей, ис- пользуемых в модели, различают классифицирующие сети, функциональные сети и сценарии. В классифицирующих сетях используются отношения структуризации.

⇐ Предыдущая 123 4 5 Следующая ⇒

Последнее изменение этой страницы: 2019-06-08; Просмотров: 220; Нарушение авторского права страницы