Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Распознавание доменов низкого качества и спамерских сайтов



Выявить сайт низкого качества можно многими способами. Поисковые движки в качестве индикаторов качества применяют широкий диапазон сигналов. Некоторые из самых очевидных сигналов – это владельцы сайтов, которые ведут активный спам поисковых движков (например, обнаружилось, что сайт активно покупает ссылки).

Однако есть и менее очевидные сигналы. Многие такие сигналы сами по себе ничего не означают и приобретают значение только в сочетании с другими сигналами. Когда на одном сайте присутствует целая комбинация таких факторов, то это увеличивает вероятность того, что данный сайт будет рассматриваться как сайт низкого качества или спамерский.

Вот длинный список, состоящий из некоторых таких сигналов.

• Короткий период регистрации (один-два года).

• Высокое процентное отношение количества рекламных блоков к контенту.

• Перенаправления JavaScript с первоначальной целевой страницы.

• Использование часто встречающихся высокоценных спамерских ключевых слов, таких как ипотека, покер, порно и т. д.

• Много ссылок на другие спамерские сайты низкого качества.

• Мало ссылок на надежные сайты высокого качества.

• Высокие частота и плотность ключевых слов.

• Минимальное количество уникального контента.

• Очень маленькое количество прямых посещений.

• Регистрация на таких людей или на такие организации, которые раньше были связаны с ненадежными сайтами.

• Редкая регистрация в таких сервисах, как Yahoo! Site Explorer, Google Webmaster Central или Bing Webmaster Tools.

• Редко имеют короткие и ценные имена доменов.

• Содержат множество нафаршированных ключевыми словами поддоменов.

• Чаще имеют длинные имена доменов.

• Чаще имеют в имени домена несколько дефисов.

• Реже имеют ссылки с надежных источников.

• Реже имеют сертификаты безопасности SSL.

• Реже появляются в таких каталогах, как DMOZ, Yahoo! Librarian’s Internet Index и тому подобных.

• Скорее всего, не имеют значительных количеств операций поиска по бренду.

• Скорее всего, не фигурируют в закладках таких служб, как My Yahoo! Delicious, Faves.com и тому подобных.

• Скорее всего, не присутствуют в таких социальных сетях, как Digg, Reddit, Yahoo! Buzz, StumbleUpon и тому подобных.

• Скорее всего, не имеют каналов на YouTube, сообществ в Facebook и ссылок с Wikipedia.

• Скорее всего, не упоминаются на основных сайтах новостей.

• Скорее всего, не зарегистрированы в Google/Yahoo! /MSN Local Services.

• Скорее всего, не указывают на сайте физического адреса и номера телефона.

• Скорее всего, их домены фигурируют в черных списках адресов электронной почты.

• Содержат большое количество фрагментов дублированного контента.

• Скорее всего, не содержат уникального контента в форматах PDF, PPT, XLS, DOC и т. д.

• Часто присутствует контент коммерческой направленности.

• Находятся на удалении многих уровней ссылок от надежных web-сайтов.

• Редко имеют страницы с политикой конфиденциальности и авторских прав.

• Редко бывают упомянуты в каталоге Better Business Bureau’s Online Directory.

• Редко содержат текстовый контент высокого уровня (который измеряется по таким показателям, как Flesch-Kincaid Reading Level).

• Редко имеют цитирование своих фрагментов текста на других web-сайтах или страницах.

• Часто встречается маскировка по пользовательскому агенту или IP-адресу.

• Редко содержат платное аналитическое программное обеспечение для отслеживания.

• Редко проводят маркетинговые компании.

• Редко имеют указывающие на них партнерские ссылочные программы.

• Реже имеют расширения. com или. org; чаще используют. info, cc, us и прочие дешевые домены верхнего уровня (которые легко получить).

• Почти никогда не имеют расширений. mil, edu или. gov.

• Редко имеют ссылки с доменов с расширениями. edu или. gov.

• Почти никогда не имеют ссылок с доменов с расширениями. mil.

• Вероятно, имеют ссылки на значительную часть тех сайтов и страниц, которые ссылаются на них.

• Совершенно маловероятно, чтобы они упоминались или имели ссылки в научноисследовательских докладах.

• Маловероятно использование дорогих web-технологий (типа Microsoft Server или таких инструментов программирования, за которые надо платить).

• Скорее всего, зарегистрированы в таких организациях, которые владеют очень большим количеством доменов.

• Выше вероятность наличия вредоносного программного обеспечения, вирусов и шпионского программного обеспечения (или автоматизированных закачек).

• Скорее всего, не указывают конфиденциальную информацию на странице Whois по своему домену.

Для некоторых других сигналов потребуется информация из инструментов web-аналитики (которую Google может получить из Google Analytics).

• Редко имеют большое количество посещений за месяц.

• Редко имеют посещения длительностью более 30 секунд.

• Почти не имеют посетителей, которые делают закладку для их домена в своем браузере.

• Маловероятно, что они купят какой-то значительный объем рекламного трафика.

• Редко имеют баннеры о закупке рекламного времени.

• Вряд ли привлекают значительный обратный трафик.

Многие из этих сигналов (вероятно, даже большинство) появляются по вполне законным причинам. Вот лишь несколько примеров.

• Не каждому сайту нужен сертификат SSL.

• Находящийся за пределами Соединенных Штатов бизнес не будет присутствовать в каталоге Better Business Bureau.

• Сайт может не иметь никакого отношения к научно-исследовательским докладам.

• Издатель может не знать об инструментах Google Webmaster Tools и Bing Webmaster Tools.

• Редко кто имеет право на домен верхнего уровня с расширением. edu, gov или. mil.

Это всего лишь несколько примеров, которые иллюстрируют то обстоятельство, что все эти сигналы следует рассматривать в соответствующем контексте. Если сайт занимается электронной коммерцией и не имеет сертификата SSL, то это становится более сильным сигналом. Если сайт утверждает, что это университет, но не имеет расширения домена. edu, то это также становится более сильным сигналом.

Многие законные сайты имеют один или несколько таких сигналов. Например, существует много хороших сайтов с расширением. info. Один, два или три сигнала обычно не становятся проблемой. Однако сайты с 10, 20 и с большим количеством сигналов вполне могут получить проблемы.

Конкуренты могут сообщить о вас

Поисковые движки в дополнение к своей борьбе со спамом позволяют пользователям посылать сообщения о спаме. Например, компания Google предоставляет для сообщения о спаме специальную форму http: //www.google.com/contact/spamreport.html. Опрос на круглом столе Search Engine Roundtable в мае 2008 г. показал, что 31 % респондентов сообщали компании Google о спамерских действиях своих конкурентов. Это означает, что сообщение от вашего конкурента – это реальный риск.

Кроме того, поисковые движки могут использовать и используют людей-рецензентов, которые делают рецензии по качеству. В 2007 г. произошла утечка конфиденциального документа компании Google под названием " Spam Recognition Guide for Raters" (который до сих пор доступен по адресуhttp: //www.searchbistro.com/spamguide.doc). Это руководство описывает некоторые критерии для распознавания спамерского поведения в отношении поисковых движков, и в частности, является ли сайт " тонким партнером".

Дублированный контент

Как мы уже писали в разд. " Проблемы систем управления контентом (CMS)” главы 6, существует много способов создания дублированного контента. В основном он появляется не из-за действий спамеров, а из-за особенностей архитектуры web-сайта. Поэтому обычной реакцией поисковых движков на дублированный контент является его отфильтровывание, но не накладывание каких-либо штрафов на издателя.

Движки отфильтровывают такой контент, потому что не хотят показывать в результатах поиска множество копий одного и того же контента, поскольку пользователям это ничего не дает. Они не наказывают издателя, потому что огромное большинство этих ситуаций возникает непреднамеренно.

Однако есть три примечательных исключения.

• Нарушения авторских прав.

Реальное нарушение авторских прав, когда издатель без разрешения демонстрирует копию контента другого издателя.

• Сайты " тонких партнеров".

При таком сценарии издатель имеет разрешение от другого издателя, но контент не уникален. Обычно это сайт с партнерской сетью, который генерирует потенциальных клиентов или продажи (в основном путем предложения партнерской программы другим издателям).

Сайт с партнерской программой генерирует некий имеющий отношение к его предложению контент и распространяет его всем своим партнерам. Затем все эти сайты публикуют у себя идентичный (или очень похожий) контент. Проблема с поисковыми движками состоит в том, что здесь нет никакого уникального контента.

Такой партнерский сайт может создать сотни и тысячи страниц для работы с терминами вертикального поиска (с минимальными изменениями контента). Классический пример: создание сотен идентичных web-страниц, отличающихся только названием города (т. е. страницы имеют такие названия, как " Phoenix Oil Changes", " Austin Oil Changes", " Orlando Oil Changes" и т. д.).

• Массовое дублирование.

Это сайты, на которых имеется очень большое количество дублированного контента (даже если на это имеется разрешение) и они не являются тонкими партнерами. Неизвестно, какова пороговая величина (и вероятно, она с течением времени меняется), но наш опыт подсказывает, что сайты с 70 и более процентами дублированных страниц, скорее всего, будут подвергнуты штрафу.

Могут существовать и другие формы спамерского дублирования контента, которые мы здесь не указали. Они будут считаться спамом в том случае, если реализованы намеренно (т. е. тонкий партнер под это определение подпадает), а контент не представляет собой никакой ценности для Интернета.


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-04-10; Просмотров: 542; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.02 с.)
Главная | Случайная страница | Обратная связь