Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
ТЕМА 6. ФУНКЦИОНАЛЬНЫЕ ВОЗМОЖНОСТИ И УСТРОЙСТВО ИНФОРМАЦИОННО-ПРАВОВЫХ СИСТЕМ
Основные положения: Устройство справочно-правовых информационных систем. Информационные продукты. Основные информационные разделы: законодательство, судебная и правоприменительная практика, комментарии и консультации, образцы документов и формы отчетности. Устройство СПИС основано на общих принципах построения информационно-поисковых систем. 48 Модели организации хранения и поиска документов. Строго говоря, проблема поиска документа, отвечающего тем или иным критериям, возникает в любом хранилище данных, содержащем более одного документа. Очевидно, что решение этой проблемы, так или иначе замыкается на те способы, которые применяются при создании систем хранения. Можно указать два основных способа: использование иерархической модели; использование гипертекстовой модели. Использование иерархической модели подразумевает многоуровневую рубрикацию информационных ресурсов. Для выбора пути к нужному документу используются описания, составленные службой поддержки данной системы. Гипертекстовая модель позволяет связывать документы ссылками, которые располагаются непосредственно в тексте. Эти две модели имеют очевидные недостатки. Так как и многоуровневая рубрикация, и простановка ссылок выполняется высококвалифицированными специалистами, объем обработанных таким образом документов не может быть очень большим. По этой же причине страдает актуальность описания массива документов. Помимо этого связанные документы ограничены какой-либо одной предметной областью, о которой, к тому же, у пользователя системы может быть иное представление, чем у составителя рубрикатора. И, наконец, для нахождения необходимого документа пользователю таких систем потребуется просмотреть множество документов, полезной информацией в которых будут только ссылки на другие ресурсы. Эти проблемы становятся особенно острыми при больших объемах информации, высокой скорости их обновления и высокой разнородности потребностей пользователей. Помочь в решении этих проблем призваны информационно-поисковые системы (ИПС). Такие системы, однажды созданные, могут работать автономно. Принцип их взаимодействия с пользователем заключается в выдаче списка указателей на документы, удовлетворяющие запросу. Этот список может быть отсортирован по релевантности (степени соответствия документа запросу). Таким образом, ИПС может обеспечить очень быстрый поиск необходимого документа - при том, что от пользователя требуется лишь ввести запрос. Первые информационно-поисковые системы были созданы достаточно давно. Большинство открытий в этой области приходится на 70-е и 80-е годы. Сейчас, с развитием Интернета, количество пользователей этих систем исчисляется миллионами, а в скором будущем будет исчисляться миллиардами. Так же стремительно растет количество документов, хранящихся в Интернете, что ставит все более сложные задачи перед разработчиками ИПС. Основные принципы информационного поиска. Основные принципы информационного поиска были сформулированы еще в первой половине этого века. Между 1939 и 1945 годами У. Е. Баттеном была 49 разработана система для отыскания патентов. Каждый патент классифицировался в соответствии с понятиями, к которым он имел отношение. Для каждого понятия, использовавшегося в системе, была создана 800-позиционная перфокарта. При регистрации в системе нового патента находились карты, соответствующие тем понятиям, которые в нем рассматриваются, и в позиции пробивались номера патента. Чтобы найти патент, в котором рассматривается одновременно несколько понятий, необходимо было совместить карты, соответствующие этим понятиям. Номер нужного патента определялся из позиции просвета. Основные принципы информационного поиска с тех пор не изменились. На примере уже этой ИПС видно, как происходит процесс поиска. Во-первых, должен быть создан массив указателей на информационные ресурсы. Указатель (index) содержит в себе некое свойство документа и ссылки на документы, этим свойством обладающие. Указатели могут быть различных видов. Широко распространен, например, авторский указатель. Такой указатель позволяет получить ссылки на работы интересующего нас автора. Также указатели могут быть составлены и по другим атрибутам документа. В системе Баттена использовался предметный указатель, то есть документы классифицировались по понятиям (предметам), которые в них затрагиваются. Процесс создания указателей на документы называется индексированием, а термины, использующиеся для индексирования, называются терминами индексирования. В случае с авторским указателем роль терминов индексирования будут выполнять фамилии авторов хранящихся в фонде работ. Совокупность используемых терминов индексирования называется словарем. Массив указателей, полученный после индексации информационных ресурсов, называется индексом (Index database). После создания индекса к нему обращаются посредством запросов. Так как процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными, полученный запрос также должен быть переведен на язык индексирования. В индексе выполняется поиск соответствующих запросу документов, пользователю выдается список ссылок на подходящие ресурсы. Для повышения скорости индексирования и поиска словарь и индекс должны быть упорядочены по системе, наиболее отвечающей задачам поиска в данной предметной области. Предметное индексирование и механизм поиска. Когда говорят об информационно-поисковой системе, подразумевают, что она использует предметный указатель. Предметный указатель позволяет отыскивать документы, касающиеся некоего "предмета". Для составления предметного указателя анализируется содержание документа и определяется "предмет" или "предметы", о которых в документе идет речь. 50 Затем названия этих предметов переводятся на информационно-поисковый язык (ИПЯ). Таким образом, мы получаем поисковый образ документа (ПОД). Проиндексировав (создав поисковые образы) все информационные ресурсы, мы получаем то, что принято называть индексом (index database) - основной массив данных ИПС. Так как процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными, полученный запрос также должен быть переведен на ИПЯ. После сопоставления переведенного на ИПЯ запроса и поисковых образов документов пользователь получает список ссылок на документы, которые соответствуют, по мнению системы, его запросу.
Типовая схема ИПС, использующей предметное индексирование, представлена на рис. 6.1. Как видно, поиск происходит не по тексту документов, а по их поисковым образам, составленным на ИПЯ. Поэтому ИПЯ - основная часть информационно-поисковой системы, от которой в первую очередь зависит качество системы. В состав информационно-поискового языка входят: 1. Словарь терминов индексирования - множество терминов индек 2. Кодовый словарь - множество кодовых терминов. 3. Словарь входов - множество входных терминов. 4. Вспомогательные средства языка индексирования - средства, ис 5. Правила использования языка индексирования. Для повышения эффективности поиска словарь, используемый системой, должен быть контролируемым, то есть он должен быть организован таким образом, чтобы полнота и точность поиска была оптимальной. Очевидно, что организация словаря зависит от многих факторов - предметной области, в которой будет использоваться ИПС, характера интересов пользователей, степени их подготовки и т. д. Для улучшения результатов поиска необходимо определить степень специфичности терминов, используемых при индексации. Принято использовать два принципа - использование наиболее специфического термина, соответствующего объему и содержанию отражаемого понятия, и избыточное индексирование. Под избыточным индексированием понимается дополнение поискового образа терминами, связанными с основным. При этом могут использоваться термины, связанные как с основным отношением обобщения или спецификации, так и ассоциативной связью. Дополнение поискового образа терминами с ассоциативной связью может увеличить полноту поиска, но неизбежно понижает его точность. Недостатком избыточного индексирования является также увеличение объема поисковых образов. Для решения этой проблемы во многих ИПС используется избыточное индексирование не документов, а запросов. Использование предметного индексирования не исключает использования при создании поискового образа атрибутов документа. Это могут быть такие атрибуты, как данные об авторе, дата публикации, язык публикации и т. д. Стратегии поиска. Точность и полнота поиска зависят не только от характеристик самой ИПС, но и от того, как создается запрос. Идеальный запрос может быть составлен пользователем, в полном объеме знакомым с той предметной областью, которая его интересует, а также 52 с используемой ИПС. Но такому пользователю ИПС, очевидно, не нужна. Остальные же пользователи вынуждены довольствоваться или низкой точностью поиска, или низкой полнотой. Для повышения качества поиска можно использовать различные методы. Наиболее употребляемый из них - использование логических операторов AND, OR, NOT. Использование логических операторов - довольно простой способ повысить релевантность выдаваемых документов, но он имеет и свои недостатки. Главный из них - плохая масштабируемость. Применение оператора AND может сильно сузить выдачу, а оператора OR - сильно расширить. Степень точности и полноты поиска зависит от того, насколько общие термины использовались при формулировке запроса. Может быть неверным использование как наиболее общих терминов (возрастает уровень информационного шума), так и слишком специфичных терминов (снижается полнота поиска). Использование слишком специфичных терминов может быть чревато еще и тем, что в словаре ИПС этого термина может не оказаться. В общем виде процедура поиска является процедурой итеративной, то есть за этапом выдачи результатов поиска следует коррекция запроса, поиск по этому запросу и т. д. Схематично такая процедура показана на рис. 6.2. Коррекция запроса происходит исходя из количества полученных документов и их релевантности, и может выполняться как пользователем, так и самой информационно-поисковой системой. Рис. 6.2. Процедура поиска В зависимости от соотношения полноты и точности найденных документов пользователь может сузить или расширить область поиска, перейдя к более общим или, наоборот, более специфичным терминам, а также использовав родственные понятия. В случае поиска по нескольким терминам такая коррекция области поиска может происходить по одному из нескольких терминов, что позволяет изменять эту 53 область достаточно плавно. Может оказаться полезным знание пользователя о наличии определенно релевантных документов. Не найдя их в списке найденных документов, область поиска надо расширить. Коррекция запроса системой информационного поиска происходит на основании анализа документов, помеченных пользователем как наиболее точно отвечающих его потребности. В таком случае при следующем поиске система ищет те документы, в которых, помимо заданных в первоначальном запросе, содержатся термины, встречающиеся в документах, отмеченных пользователем. Улучшить результаты поиска можно различными способами, если функции для этого предоставляются интерфейсом информационно-поисковой системы. Интерфейс системы. Важным фактором, во многом определяющим эффективность поиска, может быть вид представления информации в программе, то есть ее интерфейс. По форме диалога, способу задания условия отбора и механизму поиска рассматриваемые программные средства можно разделить на два класса: системы рубрика-ционного типа; структурно-логические системы. Первые реализуются интерфейсом в виде иерархических последовательно раскрывающихся списков, через которые обеспечивается доступ к тематически связанным группам документов. Раскрывая очередную рубрику и перемещаясь, таким образом, по тематической иерархии, пользователь уточняет предметную область и увеличивает (усред-ненно) степень точности соответствия выдаваемых документов и информационной потребности. При таком решении предопределенность соотнесения документов с отдельными рубриками компенсируется логичностью естественно-научной классификационной схемы, заменяющей пользователю путеводитель. Структурно-логические методы формирования запроса обычно используются для работы с базами данных структурированной информации, когда каждый документ состоит из многих информационных полей, возможно, разного типа. Критерий отбора в этом случае строится как логическая комбинация простых, сводящихся к проверке условия присутствия или отсутствия в документе, слов (имен собственных или имен понятий, определяющих предмет поиска). При составлении запроса к системе используют либо "меню-ориентированный" подход, либо командную строку. Первый позволяет ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. Многие ИПС позволяют сохранять запросы пользователя - в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операто- 54 ров. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска - список идентификаторов документов, который объединяется или пересекается со списком, полученным при поиске документов по новым терминам. ИПС глобальных сетей. ИПС глобальной сети имеет отличия, обусловленные как характером сети, так и особенностями работы пользователей такой системы. Рассмотрим основные особенности использования ИПС в глобальной сети на примере сети Интернет. Схематично ИПС для Интернета выглядит так, как показано на рис. 6.3: Рис. 6.3. ИПС для Интернета Client (клиент) на этой схеме - это программа просмотра конкретного информационного ресурса. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь, все эти информационные ресурсы являются объектом поиска информационно-поисковой системы. User interface (пользовательский интерфейс) - способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотра результатов поиска. Search engine (поисковая машина) - служит для трансляции запроса на информационнопоисковом языке, в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю. 55 Index database (индекс базы данных) - индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса. Queries (запросы пользователя) - сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы. Index robot (робот индексирования) - служит для просмотра данных в Интернете и поддержания базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети. WWW sites - это весь Интернет, или, точнее, информационные ресурсы, просмотр которых обеспечивается программами просмотра. Как мы видим, источником информации о состоянии информационных ресурсов сети является робот-индексировщик. Это программа, которая по определенному алгоритму "заходит" на различные страницы, "читает" их и индексирует. Индекс поисковых систем Интернета обновляется с периодичностью около недели. Отсюда видно, что в индекс поисковой системы не могут попасть материалы, например, периодических изданий, так как выходят они заведомо чаще, чем обновляется индекс. Еще одна проблема заключается в том, что не все документы хранятся в виде файлов HTML, с которыми роботу работать легче всего. Если информация хранится в другом формате, может сложиться ситуация, когда адрес страницы, выдаваемой пользователю, содержит параметры, которые робот не знает, и, следовательно, он не может эти данные проиндексировать. Объем информации, опубликованной в Интернете, приводит также к ограничению количества терминов, которыми индексируется документ. Современные ИПС в Интернете используют порядка 100 терминов для индексации документа. Выбор терминов, используемых для индексации, зависит от реализации данной системы. Чаще всего первым критерием является отношение частоты употребления термина в документе к частоте употребления этого термина во всех ранее проиндексированных документах. То есть наибольший вес присваивается тем терминам, которые наиболее часто встречаются в данном документе и наиболее редко - во всех остальных проиндексированных документах. Термины, которые используются в очень большом количестве документов, при индексировании не используются совсем. Для определения терминов индексирования, используемых для создания поискового образа, робот может также использовать разметку индексируемой страницы. И в индексе присваивать наибольший вес 56 термину, используемому, например, в заголовке. Автор информационного ресурса также может повлиять на индексацию собственной страницы, указав роботу, какие термины надо использовать для индексирования. Но многие поисковые системы отказались от использования описаний ресурсов, представленных авторами. Это было сделано по причине недобросовестности некоторых авторов, которые использовали для описания своих страниц термины, наиболее часто встречающиеся в запросах. Так как на запрос могут быть выданы ссылки на сотни ресурсов, необходимо предоставить пользователю отсортированный список. Наиболее часто используется сортировка по релевантности. Она происходит по тем же принципам, что и отбор терминов, применяющихся при индексировании. Как уже отмечалась ранее, произвести точный поиск тем сложнее, чем шире круг потребностей пользователей системы. В глобальной сети эта проблема принимает глобальный же характер. Очень сильно усложняется поиск по причине непрофессионализма как пользователя, формулирующего запрос, так и автора информационного ресурса. И если непрофессионализм пользователя мешает лишь ему самому (если не считать непроизводительной загрузки поискового сервера), то непрофессионализм автора ресурса стоит гораздо больше. Многие отмечают все время растущий уровень шума в результатах, выдаваемых на запрос. Гипертекст. С точки зрения пользователя компьютера термин "Гипертекст" означает: "Текст, в котором отдельные термины (ссылки) на экране монитора выделены подсветкой, и определение которых может быть сразу выдано на экран". Гипертекст позволяет, как угодно глубоко, переходить по названиям-ссылкам, составляя все более полное представление о проблеме, и беспрепятственно, мгновенно возвращаться в первоначальный текст. Собственно говоря, благодаря гипертексту Вы и оказались на этой страничке. С 90-х гг. и до настоящего времени в СПИС реализован межпрограммный (или полный) гипертекст. Это значит, что в системе налажены гипертекстовые связи между документами любых компьютерных систем, содержащих разнородную информацию, разные типы и форматы данных. Межпрограммный гипертекст позволяет вызывать необходимую правовую поддержку в контекстно-зависимом режиме, то есть практически из любого информационного блока, нормативные документы становятся "понятны" любой программе. Гипертекстовые ссылки пронизывают всю систему, отражая как явные, так и косвенные связи ме- 57 жду документами. Например, в СПИС «Гарант», на сегодняшний день в системе присутствует около 14 500 000 ссылок. Сегодня полный гипертекст позволяет пользователям СПИС быстро отследить все явные и неявные связи любого документа, существенно упрощая анализ нормативного акта. Свободная навигация внутри системы по всему массиву законодательства дает возможность быстро находить тот или иной документ, мгновенно переносясь из одного информационного блока в другой. До внедрения полного гипертекста в СПИС присутствовал межбазовый гипертекст. В едином гипертекстовом поле системы стало возможным объединение любого количества информационных блоков, между документами которых присутствуют гипертекстовые связи. Также раньше в СПИС был реализован междокументный гипертекст. Само название говорит о том, что между документами одного информационного блока возможны гипертекстовые связи. Традиционные информационно-поисковые языки и их модификации. Наиболее распространенным ИПЯ является язык, позволяющий составить логические выражения из набора терминов. При этом используются булевые операторы AND, OR, NOT. Запрос при этом может выглядеть следующим образом: ((информационная and система) or ИПС) not СУБД В данном случае эта фраза означает: "Найди все документы, которые содержат одновременно слова "информационная" и "система", либо слово "ИПС", но не содержат слова "СУБД"". Запрос можно рассматривать как и реальный документ из базы данных. В нашем случае, фактически, мы имеем дело с двумя запросами: информационная and система not СУБД и ИПС not СУБД каждый из которых подразумевает как бы два действия: сначала найти все документы, содержащие необходимые пользователю термины, а потом отсеять те, которые содержат термин "СУБД". Такая схема достаточно проста, и поэтому наиболее широко применяется в современных информационно-поисковых системах. Но еще 20 лет тому назад были хорошо известны и ее недостатки. Булевый поиск плохо масштабирует выдачу. Оператор AND может очень сильно сократить число документов, которые выдаются на запрос. При этом все будет очень сильно зависеть от того, насколько типичными для базы данных являются поисковые термины. Оператор OR напротив может привести к неоправданно широкому запросу, в котором полезная информация затеряется за информационным шумом. Для успешного применения этого ИПЯ следует хорошо знать лексику системы и ее тематическую направленность. Как правило, для системы с 58 таким ИПЯ создаются специальные документально лексические базы данных со сложными словарями, которые называются тезаурусами и содержат информацию о связи терминов словаря друг с другом. Модификацией булевого поиска является взвешенный булевый поиск. Идея такого поиска достаточно проста. Считается, что термин описывает содержание документа с какой-то точностью, и эту точность выражают в виде веса термина. При этом взвешивать можно как термины документа, так и термины запроса. Запрос может формулироваться на ИПЯ, описанном выше, но выдача документов при этом будет ранжироваться в зависимости от степени близости запроса и документа. При этом измерение близости строится таким образом, чтобы обычный булевый поиск был бы частным случаем взвешенного булевого поиска. Языки типа "Like this". При внимательном рассмотрении взвешенного поиска закрадывается естественное желание вообще обойтись без логических коннекторов и измерять близость документа и запроса какими-либо другими критериями. Наиболее простой моделью этого типа является линейная модель индексирования и поиска, когда близость документа и запроса рассматривается как угол между ними. В этом случае высчитывается sin угла, который получают как скалярное произведение двух векторов. В соответствии со значением меры близости происходит ранжирование документов при выдаче ссылок на них пользователю. В традиционных системах существуют специальные службы, которые отлаживают длинные запросы. Рассмотренный подход дает возможность более мягкого расширения и уточнения запросов, но он также не гарантирует высоких показателей релевантности, в случае выбора неудачной лексики. Поиск в нечетких множествах. При этом типе поиска весь массив документов описывается как набор нечетких множеств терминов. Каждый термин определяет некую монотонную функцию принадлежности документам документального массива. Когда запрашивается AND, то это интерпретируется как минимум из двух функций, соответствующих терминам запросов, OR - как максимум, NOT - как 1-<значение функции>. В соответствии с полученными значениями результат поиска также ранжируется, как и в случае с поиском по мерам близости. Следует сразу сказать, что этот метод поиска используется только в исследовательских системах. Пороговые модели. На конечном этапе поиска выборка найденных документов ранжируется. Но, совершенно очевидно, что меры близости или поиск в нечетких множествах приводит к ранжированию всего массива документов в базе данных. Современные информационно- 59 поисковые системы имеют базы данных только индексов, занимающие гигабайты. Ранжировать целиком такие массивы довольно не просто. Поэтому применяются пороговые модели, которые задают пороговые значения для документов, выдаваемых пользователю. Кластерная модель и Вероятностная модель информационного поиска. В кластерной модели может использоваться два подхода. Первый заключается в том, что массив заранее разбивается на подмножества документов и при поиске высчитывается близость запроса некоторому подмножеству. В другом подходе кластер "накручивается" вокруг запроса и ближайших к нему терминов. Наиболее часто эта модель применяется в системах, уточняющих запрос по релевантности найденных документов. При вероятностной модели вычисляется вероятность принадлежности документа классу релевантных запросу документов. При этом используется вероятность принадлежности терминов запроса каждому из документов базы данных. Коррекция запроса по релевантности. Многие системы применяют механизм коррекции запроса по релевантности. Это означает, что процедура поиска носит интерактивный и итеративный характер. После проведения первичного поиска пользователь отмечает из всего списка найденных документов релевантные. На следующие итерации система расширяет/уточняет запрос пользователя терминами из этих документов и снова выполняет поиск. Так продолжается до тех пор пока пользователь не сочтет, что лучшего результата, чем он уже имеет добиться не удастся. Коррекция запроса по релевантности - это достаточно широко внедренный способ уточнения запросов. В некоторых системах пользователь может и не знать, о том, что эта процедура применяется. В этом случае несколько итераций выполняется без его вмешательства. Все справочно-правовые системы относятся к классу информационных продуктов. Информационный продукт - это документированная информация, подготовленная в соответствии с потребностями пользователей и представленная в форме товара. Информационными продуктами являются программные продукты, базы и банки данных и другая информация. Основные информационные разделы, которые присутствуют обязательно во всех СПИС это: законодательство, судебная и правоприменительная практика, комментарии и консультации, образцы документов и формы отчетности. Законодательство. Содержит разделы с актами международного права, национального и регионального законодательства. В этих разде- 60 лах располагаются международные договоры, нормативные акты, их официальные разъяснения, организационно-распорядительные акты государственных органов и другие официальные документы. Судебная и правоприменительная практика. Содержит разделы с правоприменительными актами. В эти разделы включены решения судов общей юрисдикции и арбитражных судов, а также иных государственных органов. Комментарии и консультации. Содержат разделы с неофициальными комментариями и консультациями специалистов. В этих разделах находятся развернутые комментарии к правовым актам, а также консультации по актуальным проблемам правоприменения, данные учеными-правоведами и специалистами государственных органов. Данные комментарии и консультации могут быть использованы в качестве дополнительного средства уяснения правовой нормы и должны рассматриваться в совокупности с действующими нормативными актами и их официальными разъяснениями по данной проблеме. Образцы документов и формы отчетности. Содержат разделы с образцами различных правовых и деловых документов и с формами отчетности (примерные образцы договоров, исковых заявлений, жалоб, разработанные специалистами в области права, а также типовые и примерные формы, утвержденные различными органами государственной власти; формы бухгалтерской, налоговой, статистической отчетности и первичного учета. |
Последнее изменение этой страницы: 2019-06-20; Просмотров: 232; Нарушение авторского права страницы