Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Глава 4. Документальные системы



Глава 4. Документальные системы

4.1. Назначение и основные понятия

 

Классические модели и методы в теории БД изначально ориентировались на организацию хранения и обработки детально структурированных данных. Чаще всего эти данные представляли собой числовые значения, описывающие те или иные характеристики информационных объектов.

Однако на практике оказалось, что чаще информация представлена не в виде структурированных массивов данных, а в виде простых текстовых документов. Вследствие этого документальные БД (иногда их еще называют полнотекстовыми) сразу выделялись в особый тип баз данных. Исторически сложилось так, что за системами, ориентированными на работу с текстовыми документа­ми, укоренился термин информационно-поисковые системы (ИПС). Хотя, если быть точнее, их следует называть документальными ИПС (ДИПС), поскольку традиционные СУБД также являются ИПС, только фактографическими (ФИПС).

В отличие от традиционных БД, ориентированных на полное и точное пред­ставление данных достаточно простой смысловой структуры, документальные БД ориентированы на частичное, приближенное представление данных, имеющих значительно более сложную смысловую структуру, представленных на входе в форме текста.

Основной функцией любой ДИПС является информационное обеспечение потребителей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется с помощь главной операции ДИПС - проведения информационного поиска. Информационный поиск является про­цедурой отыскания документов, содержащих ответ на заданные потребителем вопросы (определения основных понятий в п. 4.1 приведены из работы [14]).

Заметим, что в отличие от ФИПС, которые в ответ на запрос потребителя осуществляют выдачу конкретных сведений (фактов), ДИПС в результате про­ведения информационного поиска предоставляют потребителю совокупность Документов, смысловое содержание которых соответствует его запросу.

Информационный поиск в системе проводится на основе поступившего от потребителя запроса на отыскание необходимой ему информации. Потребность человека в определенной информации в процессе его практической деятельно­сти носит название информационной потребности. Под действием получае­мой информации информационная потребность людей постоянно изменяется и трансформируется. Вследствие этого ее невозможно однозначно выразить и описать. Однако информационная потребность может быть представлена в виде некоторой последовательности ее частных значений в фиксированные момен­ты времени. Такое частное значение информационной потребности потребителя в определенные моменты времени, выраженное на естественном языке (ЕЯ) и представляет собой информационный запрос, с которым пользователь обращается к системе.

Однако запрос может быть неправильно сформулирован потребителем и не отражать его истинной информационной потребности в момент обращения системе. Таким образом, при проведении информационного поиска в системе фактически рассматривается не информационная потребность пользователя, а только информационный запрос, в ответ на который и выдаются те или иные документы системы. Следовательно, реакцию системы необходимо рассматривать не только по отношению к информационной потребности, но по отношению к информационному запросу.

Для выражения данных отношений в теории ДИПС введены два фундаментальных понятия: пертинентность и релевантность. Под пертинентностъю понимается соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называют пертинентными. Релевантность представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, носят название релевантных.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образов документов (ПОД). Для записи ПП и ПОД применяются специальные языки, называемые информационно-поисковыми (или просто информационными).

В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).

Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИПС определяете степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может задаваться явно или неявно. На самом деле КСС базируется не на ранее введение понятии релевантности, а на понятии формальной релевантности - соответствии содержания ПОД и ПП. Фактическая релевантность, понимаемая смысловое соответствие содержания документа информационному запросу, может быть установлена только человеком в процессе осмысления содержат документа и запроса.

Проблема формального представления смыслового содержания текста

Обработка входящей текстовой информации

Т.к. документы, поступающие на вход ДИПС, записаны на ЕЯ, в ней обязательно должна проводиться операция перевода текстов входных документов ЕЯ на ИПЯ. Тип используемого ИПЯ оказывает сильное влияние на суть процессов обработки информации в конкретных ДИПС. В случае применения ИПЯ дескрипторного типа такая операция перевода называется индексирование при использовании рубрикатора - рубрицированием.

На сегодняшний день среди дескрипторных ИПЯ наибольшее распространение в автоматизированных ДИПС получили языки без грамматики и без контроля по словарю. При их использовании говорят о полнотекстовом индексировании.

В операции перевода можно выделить два этапа:

1 Анализ смыслового содержания текста с целью выделения из него сведе­ний об известных системе объектах, их свойствах, а также отношениях между ними.

2. Выражение этих сведений на ИПЯ, т.е. принятие решения о приписыва­нии данному сообщению выражений на ИПЯ (о включении соответству­ющих выражений на ИПЯ в ПОД).

Этап анализа смыслового содержания текста связан с необходимостью ис­пользования лингвистических и экстралингвистических знаний. Лингвистичес­кие знания являются общими для одного языка и на сегодняшний день являют­ся достаточно хорошо формализованными, в то время как экстралингвистичес­кие сильно зависят от конкретной предметной области, а задача их формализа­ции является одной из самых сложных. В этой связи в современных ДИПС этап анализа текста чаще всего сводится к лингвистическому анализу, прово­димому с целью нормализации слов и словосочетаний. Под нормализацией слов понимается их приведение к канонической форме (например, для существи­тельных - именительному падежу, единственному числу и т.п.), под нормали­зацией словосочетаний - нормализация составляющих и запись их в опреде­ленной последовательности (например, сначала записывается основное слово, а затем - зависимые слова). Нормализованные слова и словосочетания часто называют терминами.

Автоматическое рубрицирование

в современных исследованиях по данной проблеме выделяют два основных подхода [18]: рубрицирование, основанное на знаниях, и рубрицирование, основанное на обучении по примерам.

Глава 4. Документальные системы

4.1. Назначение и основные понятия

 

Классические модели и методы в теории БД изначально ориентировались на организацию хранения и обработки детально структурированных данных. Чаще всего эти данные представляли собой числовые значения, описывающие те или иные характеристики информационных объектов.

Однако на практике оказалось, что чаще информация представлена не в виде структурированных массивов данных, а в виде простых текстовых документов. Вследствие этого документальные БД (иногда их еще называют полнотекстовыми) сразу выделялись в особый тип баз данных. Исторически сложилось так, что за системами, ориентированными на работу с текстовыми документа­ми, укоренился термин информационно-поисковые системы (ИПС). Хотя, если быть точнее, их следует называть документальными ИПС (ДИПС), поскольку традиционные СУБД также являются ИПС, только фактографическими (ФИПС).

В отличие от традиционных БД, ориентированных на полное и точное пред­ставление данных достаточно простой смысловой структуры, документальные БД ориентированы на частичное, приближенное представление данных, имеющих значительно более сложную смысловую структуру, представленных на входе в форме текста.

Основной функцией любой ДИПС является информационное обеспечение потребителей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется с помощь главной операции ДИПС - проведения информационного поиска. Информационный поиск является про­цедурой отыскания документов, содержащих ответ на заданные потребителем вопросы (определения основных понятий в п. 4.1 приведены из работы [14]).

Заметим, что в отличие от ФИПС, которые в ответ на запрос потребителя осуществляют выдачу конкретных сведений (фактов), ДИПС в результате про­ведения информационного поиска предоставляют потребителю совокупность Документов, смысловое содержание которых соответствует его запросу.

Информационный поиск в системе проводится на основе поступившего от потребителя запроса на отыскание необходимой ему информации. Потребность человека в определенной информации в процессе его практической деятельно­сти носит название информационной потребности. Под действием получае­мой информации информационная потребность людей постоянно изменяется и трансформируется. Вследствие этого ее невозможно однозначно выразить и описать. Однако информационная потребность может быть представлена в виде некоторой последовательности ее частных значений в фиксированные момен­ты времени. Такое частное значение информационной потребности потребителя в определенные моменты времени, выраженное на естественном языке (ЕЯ) и представляет собой информационный запрос, с которым пользователь обращается к системе.

Однако запрос может быть неправильно сформулирован потребителем и не отражать его истинной информационной потребности в момент обращения системе. Таким образом, при проведении информационного поиска в системе фактически рассматривается не информационная потребность пользователя, а только информационный запрос, в ответ на который и выдаются те или иные документы системы. Следовательно, реакцию системы необходимо рассматривать не только по отношению к информационной потребности, но по отношению к информационному запросу.

Для выражения данных отношений в теории ДИПС введены два фундаментальных понятия: пертинентность и релевантность. Под пертинентностъю понимается соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называют пертинентными. Релевантность представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, носят название релевантных.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образов документов (ПОД). Для записи ПП и ПОД применяются специальные языки, называемые информационно-поисковыми (или просто информационными).

В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).

Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИПС определяете степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может задаваться явно или неявно. На самом деле КСС базируется не на ранее введение понятии релевантности, а на понятии формальной релевантности - соответствии содержания ПОД и ПП. Фактическая релевантность, понимаемая смысловое соответствие содержания документа информационному запросу, может быть установлена только человеком в процессе осмысления содержат документа и запроса.


Поделиться:



Популярное:

  1. I) Получение передаточных функций разомкнутой и замкнутой системы, по возмущению относительно выходной величины, по задающему воздействию относительно рассогласования .
  2. I. РАЗВИТИИ ЛЕКСИЧЕСКОЙ СИСТЕМЫ ЯЗЫКА У ДЕТЕЙ С ОБЩИМ НЕДОРАЗВИТИЕМ РЕЧИ
  3. II. О ФИЛОСОФСКОМ АНАЛИЗЕ СИСТЕМЫ МАКАРЕНКО
  4. V) Построение переходного процесса исходной замкнутой системы и определение ее прямых показателей качества
  5. А. Разомкнутые системы скалярного частотного управления асинхронными двигателями .
  6. АВИАЦИОННЫЕ ПРИБОРЫ И СИСТЕМЫ
  7. Автоматизированные информационно управляющие системы сортировочных станций
  8. Автоматизированные системы диспетчерского управления
  9. Автоматическая телефонная станция квазиэлектронной системы «КВАНТ»
  10. Агрегатные комплексы и системы технических средств автоматизации ГСП
  11. Алгебраическая сумма всех электрических зарядов любой замкнутой системы остается неизменной (какие бы процессы ни происходили внутри этой системы).
  12. Алгоритм упорядочивания системы.


Последнее изменение этой страницы: 2017-03-11; Просмотров: 558; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.017 с.)
Главная | Случайная страница | Обратная связь