Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Показатели внешней оптимизации Яндекса
Для поисковой системы Яндекс характерны следующие основные показатели внешней оптимизации: 1. ТИЦ – это общедоступный тематический индекс цитирования, он не оказывает прямого влияния на ранжирование и используется для определения позиций в тематической категории «Яндекс.Каталога»; применяется, когда необходима раскрутка сайта, ТИЦ показывает, какое количество ссылок, в среднем, обращается к сайту. 2. ВИЦ, или взвешенный индекс цитирования, представляет собой алгоритм для подсчета количества внешних ссылок; значение его не разглашается и используется поисковой системой как определяющее при ранжировании сайтов в поисковой системе. 3. Присутствие сайта в «Яндекс.Каталоге». 4. Общее число страниц сайта, принявших участие в индексации. 5. Частота, с которой индексируется содержимое сайта. 6. Наличие и отсутствие ссылок с сайта, присутствие сайта в поисковых фильтрах. 7. Индекс цитирования создает основу для тематического и взвешенного индекса цитирования, которые влияют на ранжирование сайта. Индекс цитирования (ИЦ) — это указатель цитирований (количества ссылок на источник) между публикациями, позволяющий узнать, какие из более поздних документов ссылаются на более ранние работы, при этом, ИЦ может рассматриваться как для отдельных статей, так и для авторов (ученных). В поисковой системе Яндекс, а также в других поисковых системах, под индексом цитирования подразумевается количество обратных ссылок, без учета ссылок со следующих ресурсов: немодерируемых каталогов, досок объявлений, сетевых конференций, страниц серверной статистики, XSS - ссылки и другие, которые могут добавляться без контроля со стороны владельца ресурса. Стоит отметить, что в каталоге «Апорт» под ИЦ понимается взвешенный индекс цитируемости. Рассчитывается этот индекс из ссылочного графа: если рассматривать ресурсы сети как вершины графа, а цитирование других ресурсов (ссылочные связи между сайтами) как связи вершин графа (ребра), тогда ссылочный граф можно представить в виде диаграммы, как показано на рисунке 4.1. На рисунке буквами А, B, …, F обозначены определенные сайты в индексе поисковой системы, стрелки изображают направление связей – односторонние либо двусторонние.
Иногда ссылочный граф сопровождается матрицей инцидентности (рис. 4.2).
ИЦ используется как один из факторов для ранжирования документов в поисковой выдаче, но не является главным. Не стоит путать обычный индекс цитирования с взвешенным и тематическим индексами цитирования. Индекс цитируемости всегда целое число и не зависит от тематик ссылающихся документов. [7]. Индекс цитируемости обычно рассматривается в качестве параметра значимости статьи, однако он не отражает структуру ссылок в каждой дисциплине (тематике), а также слабозначимые работы и труды с большой значимостью могут иметь одинаковый индекс цитируемости. Поэтому был введен взвешенный индекс цитирования, который определяется не только количеством, но и качеством ссылающихся источников. ВИЦ - фактор популярности (Popularity Factor), который для определенного сборника вычислялся по следующей формуле: , где PF(v, t) – фактор популярности ресурса v в рассматриваемый год t; P – количество ресурсов, которые ссылаются на сайт v и имеют ту же тематику; nv – количество страниц на рассматриваемом сайте v в этом году; N – общее число страниц в индексе Яндекса (при этом, n v /N – вероятность того, что пользователь читает сайт v); w(i) – частота цитируемости ресурсом i сайта v; N(i) – общее число ссылок на i-ом сайте. При этом PF(v, t) является нормализованной величиной, где сумма квадратов PF для всех ресурсов равна единице. Введение ссылочного поиска и статической ссылочной популярности помогает поисковым системам справляться с примитивным текстовым спамом, который полностью разрушает традиционные статистические алгоритмы информационного поиска, полученные в свое время для контролируемых коллекций. ВИЦ является аналогом PageRank от Google. Взвешенный индекс цитирования, как и другие ссылочные факторы ранжирования, рассчитывается из ссылочного графа. Узнать ВИЦ для своих страниц вы можете приблизительно, проверив их PageRank любым онлайн-сервисом проверки, однако, следует учесть, что в индексе Яндекса присутствуют только русскоязычные документы, а из зарубежных лишь некоторые популярные, таким образом, урезая ссылочный граф по сравнению с Google. Тематический индекс цитирования введен для отражения авторитетности сайта в своей тематике. При определении тематики сайта сначала строится описание рассматриваемого ресурса (из названия категорий сайта, заголовков, структуры URL его страниц). Далее вычисляется оценка близости между описаниями заранее подготовленных тематик (каталог) и описаниями ресурсов с выбором наиболее близких тематик для них. Тематическая близость двух документов отражает вероятность принадлежности их обоих одной и той же тематике. Этот показатель может влиять на значение передаваемого ссылкой веса. ТИЦ обладает следующими свойствами: 1. ТИЦ зависит от количества уникальных страниц на сайте и чем их больше, тем больше результирующий показатель. 2. Чем меньше исходящих ссылок на сайте-доноре, тем больше с него передается ТИЦ. 3. ТИЦ никак не зависит от перелинковки. 4. Анкоры ссылок не участвуют в определении тематической близости двух ресурсов. 5. При наличии у сайта нескольких зеркал (копий), при их склейке результирующий ТИЦ суммируется. В заключение приведем особенности наиболее популярных и обладающих наиболее развитым лингвистическим обеспечением российских и зарубежных ИПС (табл. 4.1).
«Поиск по лексемам» означает, что результат сравнения слов документов и запросов признается положительным при наличии в документе любой формы слова из запроса, что обеспечивается механизмом автоматической лемматизации. «Поиск по словоформам» означает, что результат сравнения документов и запросов признается положительным при наличии в документе словоформы, точно совпадающей со словом из запроса, что происходит при отсутствии автоматической лемматизации или обеспечивается особым механизмом учета словоформ. «Частота подокументная» означает, что в результате поиска выдается сообщение о количестве релевантных документов, т. е. документов, содержащих данное слово (словоформу) или словосочетание. «Частота пословная» означает, что в результате поиска дополнительно выдаются сведения об общем количестве словоупотреблений данной лексемы или конкретной словоформы в поисковой базе данных (индексе). |
Последнее изменение этой страницы: 2019-06-09; Просмотров: 256; Нарушение авторского права страницы