Структуры ссылок, по которым могут ползать пауки

⇐ ПредыдущаяСтр 25 из 85Следующая ⇒

Как мы указывали в главе 2, поисковые движки используют ссылки, расположенные на web-страницах, чтобы найти другие web-страницы и web-сайты. По этой причине разработчикам web-сайтов следует потратить время и построить такую структуру ссылок, по которой легко сможет проползти паук. Многие сайты делают критическую ошибку – они прячут или затемняют свою навигацию такими способами, которые затрудняют работу пауков, тем самым не позволяя им включать эти страницы в индексы движков поиска. Посмотрите рис. 6.1, на котором показано, как может возникнуть эта проблема.

Рис. 6.1. Обеспечение поисковых движков такими структурами ссылок, по которым могут ползать пауки

Паук движка Google достиг страницы А и видит ссылки на страницы В и Е. Однако несмотря на то, что страницы C и D могут быть весьма важными, у паука нет способа добраться до них (и даже узнать о том, что они существуют), поскольку на эти страницы не указывает ни одна прямая ссылка, по которой можно было бы проползти.

Для Google эти страницы не существуют вовсе. Отличный контент, хорошее целевое использование ключевых слов и умный маркетинг совершенно не имеют значения, если паук не может даже добраться до этих страниц.

Чтобы напомнить вам состоявшееся в главе 2 обсуждение, мы приведем основные причины того, почему страницы могут быть недосягаемыми.

• Ссылки в виде форм.

Поисковые пауки не будут даже пытаться заполнять формы, поэтому весь контент (или ссылки), который доступен только через форму, является невидимым для пауков. Это справедливо даже по отношению к простым формам (таким, как регистрация пользователей, поля поиска, некоторые типы выпадающих списков).

• Ссылки в неподдающемся разбору коде JavaScript.

Если вы используете для ссылок JavaScript, то увидите, что поисковые движки либо не просматривают встроенные в них ссылки, либо дают этим ссылкам очень маленький вес.

• Ссылки внутри Flash, Java и других дополнительных модулей.

Встроенные в Java и дополнительные модули ссылки поисковым движкам невидимы. Поисковые движки делают успехи в области обнаружения ссылок внутри Flash, но не слишком на это надейтесь.

• Ссылки в файлах PowerPoint и PDF.

Файлы PowerPoint и PDF ничем не отличаются от Flash, Java и дополнительных модулей. Поисковые движки иногда сообщают о ссылках внутри файлов PowerPoint и PDF, но какой вес они получают, узнать нелегко.

• Ссылки на страницы, блокированные при помощи метатега Robots, rel=" NoFollow", или файла robots. txt.

Файл robots. txt представляет собой очень простое средство для предотвращения просмотра пауками страниц вашего сайта. Использование атрибута NoFollow для ссылки или размещение на странице с ссылкой тега Robots является указанием для поискового движка не передавать ссылочный " сок" по этой ссылке (эту концепцию мы рассмотрим далее в разд. " Поставка контента и управление поисковыми пауками”этой главы).

• Ссылки на страницах со многими сотнями и тысячами ссылок.

Компания Google предложила использовать не более 100 ссылок на странице, поскольку паук может прекратить просмотр остальных ссылок этой страницы. Этот " предел" имеет некоторую гибкость и особенно важные страницы могут иметь до 150 и даже 200 отслеживаемых ссылок. Однако в общем случае будет разумно ограничить количество ссылок на странице до 100, в противном случае вы рискуете потерять возможность просмотра пауками всех тех страниц, которые выходят за это предельное значение.

• Ссылки в фреймах или i-фреймах.

Технически ссылки во фреймах и i-фреймах просмотреть можно, но они представляют собой структурные проблемы для движков поиска в плане организации и отслеживания. Если вы не являетесь квалифицированным пользователем, который хорошо понимает, как поисковые движки индексируют и двигаются по ссылкам во фреймах, то лучше не использовать их в качестве места размещения ссылок для просмотра. Мы будем обсуждать фреймы и i-фреймы более подробно в разд. " Создание оптимальной информационной архитектуры” этой главы.

XML Sitemap

Компании Google, Yahoo! и Microsoft поддерживают протокол, известный как XML Sitemap. Google первой объявила его в 2005 г., а затем Yahoo! и Microsoft в 2006 г. согласились поддержать этот протокол. При помощи протокола Sitemap вы можете снабдить поисковые движки списком всех URL, которые вы бы хотели проиндексировать.

Добавление URL в файл Sitemap вовсе не является гарантией того, что этот URL будет просмотрен пауком или проиндексирован. Однако с его помощью можно просмотреть и проиндексировать те страницы, которые иначе не обнаруживаются и не индексируются. Кроме того, Sitemap помогает тем страницам, которые были переведены во вспомогательный индекс Google, вернуться обратно в главный индекс.

Эта программа является дополнением (а не заменой) обычного просмотра поискового движка по ссылкам. Преимущества Sitemap в следующем:

• для страниц, о которых поисковые движки уже знают вследствие регулярного их просмотра, используются предоставляемые вами метаданные, такие как дата последней модификации контента (lastmod date), частота изменений страницы (changefreq);

• для страниц, о которых движки не знают, используются предоставляемые вами дополнительные URL (для улучшения охвата просмотром);

• для тех URL, которые, возможно, имеют дубликаты, движки могут использовать данные Sitemap для выбора канонической версии;

• верификация/регистрация карт Sitemap может означать позитивный сигнал доверия/авторитета;

• эффект Sitemap в смысле просмотра/включения может оказывать позитивное воздействие второго порядка, как, например, улучшение рейтингов или повышенная популярность внутренних ссылок.

Инженер компании Google, который в форумах фигурирует как GoogleGuy (известный также как Matt Cutts, руководитель команды Google по web-спаму), объяснил протокол Sitemap компании Google следующим образом:

" Представьте себе, что на вашем сайте есть страницы А, В и С. Мы находим страницы А и В при помощи нормального просмотра по вашим ссылкам. Затем вы строите Sitemap и перечисляете в списке страницы В и С. Теперь появляется шанс, что мы просмотрим и страницу С, но мы этого не обещаем. Мы не выбросим страницу А только потому, что вы не включили ее в список вашей Sitemap. И само включение в список страницы, о которой мы не знали, не гарантирует того, что мы просмотрим ее. Но если по какой-то причине мы не видим никаких ссылок на С, либо мы знаем о странице С, но URL был отвергнут из-за слишком большого количества параметров или по другой причине, то появляется шанс, что мы просмотрим страницу С".

Sitemap использует простой формат XML, о котором вы можете прочитать по адресу http: //www.sitemaps.org. Sitemap – это полезный, а в некоторых случаях просто необходимый инструмент для вашего web-сайта. В частности, если у вас есть причина думать, что сайт не проиндексирован полностью, то Sitemap может помочь вам увеличить количество проиндексированных страниц. По мере того, как сайты растут в размерах, ценность файлов Sitemap существенно увеличивается (поскольку на новые включенные в них URL поступает дополнительный трафик).

Компоновка XML Sitemap

Первый шаг в процессе создания XML Sitemap – это создание файла. xml в соответствующем формате. Поскольку для создания XML Sitemap требуется определенный уровень технических знаний, то будет разумно с самого начала привлечь к процессу генерирования XML Sitemap вашу команду разработчиков. На рис. 6.2 показан пример кода из Sitemap.

Рис. 6.2. Образец кода XML Sitemap из Google.com

А сейчас перечислим то, что вы можете использовать для создания вашей XML Sitemap.

• Генератор XML Sitemap.

Это простой скрипт, который можете настроить для автоматического создания Sitemap. Генераторы Sitemap могут создавать Sitemap из списка URL, из журналов доступа либо из маршрута к каталогу (в котором хранятся статические файлы, соответствующие URL). Вот некоторые примеры генераторов XML Sitemap:

– google-sitemap_gen (http: //sourceforge.net/project/showfiles.php? group_id=137793& package_id=153422) компании SourceForge.net;

– ROR Sitemap Generator (http: //www.rorweb.com/rormap.htm);

– XML-Sitemaps.com Sitemap Generator (http: //www.xml-sitemaps.com/);

– Sitemaps Pal (http: //www.sitemapspal.com/);

– XML Echo (http: //sitemap.xmlecho.org/sitemap/).

• Простой текст.

Вы можете предоставить Google простой текстовый файл, который содержит по одному URL в каждой строке. Однако Google рекомендует, чтобы после создания текстового файла Sitemap для вашего сайта вы использовали генератор Sitemap для генерирования Sitemap из этого текстового файла (при помощи протокола Sitemap).

• Syndication feed.

Google принимает ленты Really Simple Syndication (RSS) 2.0 и Atom 1.0. Обратите внимание: возможно, что лента предоставляет информацию только по свежим URL.

⇐ Предыдущая 20 21 22 23 242526 27 28 29 Следующая ⇒