Как избежать дублированного контента на вашем сайте

⇐ ПредыдущаяСтр 33 из 85Следующая ⇒

Как мы уже указывали, дублированный контент может создаваться многими способами. Внутреннее дублирование материала требует применения специфической тактики, чтобы получить наилучшие с точки зрения оптимизации результаты. Во многих случаях дублированные страницы – это такие страницы, которые не имеют ценности ни для пользователей, ни для поисковых движков. Если это именно так, попытайтесь полностью устранить эту проблему. Подправьте реализацию таким образом, чтобы на каждую страницу ссылался только один URL. Сделайте также 301-й редирект для старых URL на оставшиеся URL, чтобы помочь поисковым движкам как можно быстрее увидеть произведенные вами перемены и сохранить тот " сок ссылок", который имели удаленные страницы.

Если сделать это невозможно, то имеется еще много других вариантов (как мы покажем далее в разд. " Поставка контента и управление поисковыми пауками" ). Вот сводка указаний по самым простым решениям для самых разных сценариев:

• используйте тег canonical. Это второе решение (из самых лучших) для ликвидации дублированных страниц;

• используйте файл robots. txt для блокирования пауков поисковых движков (чтобы они не ползали по дублированным версиям страниц вашего сайта);

• используйте метатег Robots NoIndex, чтобы дать указание поисковым движкам не индексировать дублированные страницы;

• пометьте атрибутом NoFollow все ссылки на дублированные страницы, чтобы " сок ссылок" не уходил на эти страницы. Даже если вы сделаете это, то все равно рекомендуется использовать на этих страницах и NoIndex.

Иногда вы можете использовать эти инструменты и совместно друг с другом. Например, можете пометить NoFollow ссылки на страницу и поставить NoIndex для самой страницы. Это имеет смысл, поскольку вы предотвращаете попадание на эту страницу " сока" от ваших ссылок, а если кто-то другой сделает ссылку на вашу страницу с другого сайта (это вы контролировать не можете), то вы все равно будете гарантированы от того, чтобы страница не попала в индекс.

Однако если вы используете robots.txt для предотвращения просмотра страницы, то учтите, что применение NoIndex или NoFollow на самой странице смысла не имеет. Поскольку паук не может прочитать эту страницу, то он никогда не увидит тегов NoIndex или NoFollow. Помня об этих инструментах, рассмотрим некоторые специфичные ситуации дублированного контента.

• Страницы HTTPS.

Если вы используете SSL (шифрованный обмен между браузером и web-сервером, который часто применяется для электронной коммерции), то на вашем сайте есть страницы, начинающиеся с https: (вместо http: ). Проблема возникает тогда, когда ссылки на ваших страницах https: показывают на другие страницы сайта с использованием относительных, а не абсолютных ссылок (так что, например, ссылка на вашу домашнюю страницу становится https: //www.yourdomain.com вместоhttp: //www.yourdomain.com).

Если на вашем сайте имеется такая проблема, то для ее решения вы можете использовать тег canonical или 301-е редиректы. Альтернативное решение – изменить ссылки на абсолютные (http: //www.yourdomain.com/content.html вместо /content.html), что заодно несколько усложнит жизнь тем, кто ворует ваш контент.

• Системы CMS, создающие дублированный контент.

Иногда на сайте есть много версий идентичных страниц. Такое бывает из-за ограничений в некоторых системах CMS, которые адресуют один и тот же контент более чем одним указателем URL. Обычно это совершенно ненужное дублирование, которое не имеют ценности для пользователей, и самое лучшее решение – это удалить дублированные страницы и сделать 301-й редирект для удаленных страниц на оставшиеся страницы. Если не получится, попробуйте другие способы (перечисленные в начале этого раздела).

• Страницы для печати или множество вариантов сортировки.

Многие сайты предлагают страницы для печати, которые предоставляют пользователю тот же самый контент в более дружественном для принтера формате. Некоторые сайты электронной коммерции предлагают свои товары со множеством возможных сортировок (по размеру, цвету, бренду и цене). Эти страницы имеют ценность для пользователя, но не имеют ценности для поисковых движков, и поэтому будут казаться им дублированным контентом. В связи с такой ситуацией необходимо использовать один из ранее перечисленных в этом разделе вариантов.

• Дублированный контент в блогах и системах архивирования.

Блоги представляют собой интересный вариант проблемы дублированного контента. Пост в блоге может появиться на нескольких разных страницах – на начальной странице блога, на странице Permalink данного поста, на страницах архива и на страницах категорий. Каждый экземпляр поста представляет собой дубликат остальных экземпляров. И опять-таки, использовать для решения этой проблемы надо уже приведенные в этом разделе решения.

• Генерируемый пользователями дублированный контент (повторные посты и т. д.).

Многие сайты реализуют структуры для получения генерируемого пользователями контента, такие как блоги, форумы или доски объявлений. Это могут быть отличные способы разработки большого количества контента с очень низкой стоимостью. Проблема состоит в том, что пользователь может одновременно опубликовать один и тот же контент и на вашем сайте, и на нескольких других сайтах, что и приводит к появлению дублированного контента. Контролировать это сложно, но для уменьшения проблемы можно сделать две вещи:

– нужно иметь четкую политику, которая уведомляет пользователей о том, что поставляемый ими на ваш сайт контент должен быть уникальным и не может быть размещен на других сайтах. Конечно, добиться этого трудно, но это поможет понять ваши ожидания;

– реализуйте ваш форум уникальным образом, который потребует иного контента. Дополнительно к стандартным полям для ввода данных добавьте также некие уникальные поля, которые будет полезно видеть посетителям вашего сайта.

Управление контентом при помощи куки-файлов и идентификаторов сеансов

Иногда вы хотите более тщательно указать, что увидит робот поискового движка при посещении вашего сайта. Обычно представители поисковых движков называют такую практику показа разного контента пользователям и паукам клоакингом (маскировкой) и считают ее спамерской.

Однако у этой концепции есть вполне законные применения, которые не вводят в заблуждение поисковые движки и не имеют злоумышленных намерений. Этот раздел посвящен таким методам (с использованием куки-файлов и идентификаторов сеансов).

Что такое куки-файл

Куки-файл – это небольшой текстовый файл, который web-сайт может оставить на жестком диске посетителя. Такой файл помогает следить за этим человеком. Именно благодаря куки-файлам сайт Amazon.com помнит ваше имя пользователя и вам не нужно регистрироваться под вашей учетной записью в Hotmail при каждом запуске браузера. Данные в куки-файле – это обычно небольшое количество информации о том, когда вы в последний раз обращались к сайту, идентификационный номер, а также (возможно) информация о вашем посещении (рис. 6.28).

Рис. 6.28. Использование куки-файлов для хранения данных

Разработчики web-сайтов могут при помощи куки-файлов запоминать посетителей для их отслеживания или для того, чтобы показывать пользователю различную информацию (зависящую от их действий или предпочтений). Обычно они используются для запоминания имени пользователя, обслуживания корзины покупателя, а также для отслеживания ранее просмотренного контента. Например, если вы зарегистрировали учетную запись в SEOmoz, то на странице вашей учетной записи My Account получите опции по способам просмотра блога (которые будут запомнены для вашего следующего посещения).

⇐ Предыдущая 28 29 30 31 323334 35 36 37 Следующая ⇒