Системы ранжирования на основе алгоритмов: просмотр, индексирование и ранжирование

⇐ ПредыдущаяСтр 6 из 85Следующая ⇒

Практикам по оптимизации полезно знать, как работают просмотр, индексирование и ранжирование, поскольку это помогает им определить, какие действия необходимо предпринять для достижения своих целей. В этом разделе в основном описываются способы работы Google, Yahoo! и Microsoft, но, возможно, он неприменим для других популярных поисковых движков, таких как Baidu (Китай) и Naver (Корея).

Поисковые движки имеют несколько основных целей и функций. В их число входят следующие:

• просмотр и индексирование миллиардов документов (страниц и файлов), доступных в Интернете;

• ответы на запросы пользователей (с выдачей списков релевантных страниц).

Мы рассмотрим основы этих функций с нетехнической точки зрения.

Просмотр и индексирование

Представьте себе, что Интернет – это сеть станций в подземке большого города. Каждая станция – уникальный документ (обычно web-страница, но иногда это файл формата PDF, JPEG или другого формата). Поисковому движку нужен способ " проползти" по всему городу и найти по дороге все станции, поэтому он использует самый лучший из имеющихся маршрутов: ссылки между web-страницами (рис. 2.11).

Рис. 2.11. Лондонская подземка здесь используется как аналогия для обследования пауком

На нашем рисунке такие станции, как Embankment, Picadilly Circus и Moorgate, являются страницами, а соединяющие их линии представляют ссылки с этих страниц на другие страницы Интернета. Как только Google (нарисован внизу) доберется до Embankment, он увидит ссылки на Charing Cross, Westminster и Temple и сможет получить доступ к любой из этих страниц.

Структура ссылок сети Интернета связывает между собой все страницы, которые были сделаны публичными в результате установления ссылок на них. При помощи ссылок автоматизированные роботы поисковых движков, называемые " пауками" (именно поэтому они изображены в таком виде), могут добраться до многих миллиардов взаимосвязанных документов.

Когда поисковые движки находят эти страницы, их следующая задача состоит в том, чтобы сделать анализ кода этих страниц и сохранить элементы этих страниц в огромных массивах жестких дисков (чтобы при необходимости их можно было извлечь для ответа на запрос). Чтобы справиться с этой монументальной задачей по хранению миллиардов страниц (к которым можно получить доступ в доли секунды), поисковые движки создают огромные центры обработки данных.

Одна из ключевых концепций создания поискового движка – это решить, откуда начать поиск по сети. Несмотря на то, что теоретически начать можно из многих мест, в идеале следует начинать с доверенного набора web-сайтов. Фактором оценки доверия к вашему сайту можно считать расстояние (в количестве кликов) между вашим сайтом и наиболее доверенными сайтами. Мы более подробно обсудим роль доверия в алгоритмах поиска в разд. " Как ссылки влияют на рейтинги поисковых движков” главы 7.

Извлечение и рейтинги

В большинстве случаев поиск ответов начинается так, как показано на рис. 2.12.

Рис. 2.12. Начало поиска пользователя

Следующий шаг этого поиска начинается тогда, когда поисковый движок возвращает список релевантных страниц Интернета (в том порядке, который должен с наибольшей вероятностью удовлетворить пользователя). Этот процесс требует от поискового движка " перелопачивания" имеющихся у него миллиардов документов и выполнения двух задач:

• возвращения только тех результатов, которые относятся к запросу пользователя;

• ранжирования результатов по их важности (с учетом доверия и авторитета данного сайта). Именно на релевантность и важность должен влиять процесс поисковой оптимизации.

Релевантность – это степень, в которой содержимое возвращенного в результате поиска документа совпадает с намерением и терминами запроса пользователя. Релевантность документа увеличивается, если термины или фраза запроса пользователя встречаются в нем несколько раз и содержатся в заголовке страницы или в заголовках документа (или если ссылки на эту страницу ведут с релевантных страниц и используют релевантный якорный текст).

Релевантность можно считать первым шагом к " участию в игре". Если вы не релевантны запросу, то движок поиска не рассматривает вас на предмет включения в результаты поиска по данному запросу. Более подробно мы обсудим определение релевантности в разд. " Определение намерения пользователя и выдача релевантного и свежего контента” данной главы.

Важность (или популярность) – это относительная важность, измеряемая по цитированию (когда одна работа ссылается на другую, как это часто бывает в научных и деловых документах) данного документа (соответствующего запросу пользователя). Популярность данного документа увеличивается с каждым новым ссылающимся на него документом. В научном мире эта концепция известна под названием " анализ цитирования".

Представьте себе, что важность – это способ определения той конкретной страницы (из группы одинаково релевантных страниц), которая будет показана первой (второй, третьей и т. д.) в результатах поиска. Важными составляющими этого процесса являются относительный авторитет сайта и то доверие, которое движок поиска имеет к нему. Конечно, процесс оценки несколько сложнее и не все страницы одинаково релевантны. В конечном итоге, порядок ранжирования определяется комбинацией релевантности и важности.

Итак, когда вы видите страницу результатов поиска (рис. 2.13), то можете предположить, что поисковый движок (в данном случае это Yahoo! ) считает, что страница Superhero Stamps на USPS.com имеет самый высокий комбинированный показатель по релевантности и популярности для запроса marvel superhero stamps, в то время как страница Yahoo! Shopping имеет более низкий комбинированный показатель по релевантности и популярности.

Рис. 2.13. Пример результатов поиска по marvel superhero stamps

Популярность и релевантность определяются не вручную (для этого потребовалось бы привлечь все население Земли). Движки создают математические уравнения (алгоритмы), которые " отделяют зерна от плевел", а затем ранжируют зерна по качеству. Эти алгоритмы состоят из сотен компонентов. В области поискового маркетинга они часто называются факторами ранжирования или алгоритмическими критериями ранжирования.

Мы более подробно обсудим факторы (Google предпочитает термин " сигналы" ) ранжирования в разд. " Анализируем факторы ранжирования” данной главы.

⇐ Предыдущая 1 2 3 4 567 8 9 10 Следующая ⇒