Блокировка файлом robots.txt

⇐ ПредыдущаяСтр 69 из 85Следующая ⇒

Проверьте ваш файл robots.txt (http: //www.yourdomain.com/robots.txt), чтобы понять, не блокируете ли вы доступ паукам к тем частям вашего сайта, которые они должны видеть. Эта ошибка встречается очень часто.

Инструменты Google Webmaster Tools и Bing Webmaster Tools предоставляют простые способы для того, чтобы увидеть, знают ли они о контенте, который блокируется от просмотра файлом robots.txt (рис. 10.3 и 10.4).

Рис. 10.3. Инструмент Google Webmaster Tools (ограничен файлом robots.txt)

Рис. 10.4. Инструмент Bing Webmaster Tools (блокирован REP)

Эти отчеты полезны тогда, когда у вас есть такой контент на сайте, который имеет ссылки на него (внутренние либо внешние), но поисковым движкам он не виден из-за файла robots.txt (и поэтому они не просматривают его).

Решение простое. Определите, какая строка в вашем файле robots.txt блокирует поисковые движки, и удалите ее (либо измените таким образом, чтобы контент больше не блокировался).

Блокировка метатегом robots

Метатег robots выглядит примерно так:

< meta name=" robots" content=" noindex, nofollow" >

Как мы уже утверждали в разд. " Поставка контента и управление поисковыми пауками” главы 6, установка атрибута NoIndex говорит поисковым движкам о том, что данную страницу не разрешается включать в индекс. Понятно, что необходимо проверить, не сделали ли вы этой ошибки.

Кроме того, тег NoFollow говорит поисковым движкам о том, что не нужно передавать " сок ссылок" тем страницам, на которые есть ссылки на данной странице. Если все ссылки на вашем сайте на данный элемент контента имеют атрибут NoFollow, то вы не передаете на данную страницу никакого " сока ссылок". Это указывает поисковым движкам о том, что вы не цените данную страницу. В результате они не индексируют этот контент (если больше никто не ссылается на него без использования NoFollow).

Для исправления нужно выявить те места, где на вашем сайте есть метатеги robots, и удалить их. Обратите внимание, что значением по умолчанию для метатега robots является index, follow, так что нет необходимости применять метатег в том случае, когда вам нужно именно это значение. Просто убедитесь в том, что у вас нет таких метатегов robots, которые изменяют это значение по умолчанию.

Отсутствие прямых ссылок

Вы можете обнаружить, что какой-то элемент контента не имеет ссылок или что все ссылки на этот контент имеют атрибут NoFollow. Вы можете сделать ссылки невидимыми для поисковых движков (показывать их только тем посетителям, которые имеют поддержку JavaScript или куки-файлов, либо каким-то образом зашифровать ссылки на контент). Решение здесь такое: убедитесь, что у вас реализованы только простые текстовые (или в виде изображений) ссылки на контент. Еще лучше, если вы сможете получить ссылки на контент с посторонних web-сайтов.

Требуется предоставление формы

Требование входа под регистрационной записью или предоставление формы какого-то другого типа для просмотра контента – это еще одна часто встречающаяся причина отсутствия просмотра пауками. Поисковые движки не будут пытаться заполнить форму для того, чтобы увидеть, что же находится за ней. Самое простое решение – убрать требование формы (если вы хотите, чтобы поисковые движки проиндексировали этот контент).

Однако некоторые сайты продают свой контент на условиях подписки и не хотят предлагать свой контент бесплатно. В октябре 2008 г. компания Google объявила концепцию First Click Free (http: //googlewebmastercentral.blogspot.com/2008/10/first-click-free-for-web-search.html), в которой для Google предусматривалась возможность просмотра и индексирования контента сайтов, работающих на принципе подписки, в то время как издатель при этом по-прежнему мог требовать от посетителей платы за контент. Более подробно о концепции First Click Free написано в разд. " Поставка контента и управление поисковыми пауками" главы 6.

Идентификаторы сеансов

Идентификаторы сеансов запутывают пауков поисковых движков. При каждом появлении на вашем сайте они видят другую страницу. Например, один раз они видят http: //www.yourdomain.com? SessID=2143789, а в другой раз http: //www.yourdomain.com? SessID=2145394. Даже если вашим намерением было отслеживание сеанса конкретного пользователя и вы считаете эти страницы одной и той же страницей, то поисковые движки так не считают. Подробнее об идентификаторах сеансов вы можете прочитать в главе 6.

Недостаточно " сока ссылок" для того, чтобы остаться в основных индексах

Иногда проблема не имеет ничего общего с тем, о чем мы только что говорили. Поисковые движки могут хорошо видеть страницу, но на нее попадает недостаточно " сока ссылок", чтобы она заслужила включение в основной индекс. Это случается чаще, чем принято считать, но поисковые движки и не пытаются проиндексировать все web-страницы в мире.

Например, тот контент, который Google считает имеющим низкую важность (т. е. недостаточное количество " сока ссылок" ), будет исключен из основного индекса и помещен во вспомогательный индекс Google (или вовсе не будет проиндексирован). Это происходит потому, что Google хочет выделить в Интернете наиболее важные страницы, она не хочет снижать производительность, с которой выдает результаты поиска, из-за непопулярных страниц.

Решение проблемы заключается в том, чтобы сделать страницы более важными в глазах поисковых движков. В этом случае можно добавить внутренние ссылки и провести компании по получению внешних ссылок на этот контент. Еще одна похожая ситуация – когда поисковые движки считают страницы дублированными. Лучшее решение здесь – добавить на эти страницы уникальный контент.

⇐ Предыдущая 64 65 66 67 686970 71 72 73 Следующая ⇒