Определение намерений пользователя и выдача релевантного и свежего контента

⇐ ПредыдущаяСтр 9 из 85Следующая ⇒

Современные коммерческие поисковые движки основаны на науке информационного поиска. Эта наука существует с середины двадцатого столетия, когда системы информационного поиска работали на компьютерах в библиотеках, исследовательских центрах и правительственных лабораториях. В начале разработки поисковых систем исследователи обнаружили, что основную часть функционала поиска составляют два самых важных компонента: релевантность и важность (которым мы уже дали определения в этой же главе). Для измерения этих факторов поисковые движки выполняют анализ документов (в том числе семантический анализ концепций документа) и анализ ссылок (цитирования).

Анализ документа и семантическая связность

При анализе документа поисковый движок ищет поисковые термины в важных областях документа (заголовке страницы, метаданных, тегах заголовков и в теле текста). Он также пытается автоматически измерить качество документа (при помощи анализа документа и множества прочих факторов).

Для сегодняшних поисковых движков одного анализа документа недостаточно, поэтому они также смотрят на семантическую связность.

Семантическая связность – это слова или фразы, которые обычно ассоциируются друг с другом. Поисковые движки активно создают свои собственные словари, которые помогают им определить, как связаны определенные термины или темы. Сканируя свои огромные базы данных контента, они могут применить теорию нечетких множеств и некоторые уравнения (это описано по адресу http: //forums.searchenginewatch.com/showthread.php? threadid=48) для связывания терминов и начать понимать web-страницы более похожим на человеческий образом.

Профессиональному специалисту по оптимизации не обязательно применять инструменты измерения семантической связности для оптимизации web-сайтов, но для тех продвинутых специалистов, которые хотят использовать каждую возможность, измерения семантической связности могут помочь в следующих областях:

• измерение целевых ключевых фраз;

• измерение ключевых фраз для включения в страницу по определенной теме;

• измерение связей текста (на других сайтах с высоким рейтингом);

• поиск страниц, которые предоставляют релевантные ссылки по теме.

Несмотря на то, что источник этого материала имеет сугубо технический характер, специалисту по оптимизации нужно знать только принципы, чтобы получить эту ценную информацию. Важно помнить, что несмотря на то, что мир информационного поиска имеет сотни технических и часто трудных для понимания терминов, их можно разделить на группы, которые способен понять даже новичок в области оптимизации.

В табл. 2.1 объясняются некоторые часто встречающиеся типы информационного поиска.

Таблица 2.1. Часто встречающиеся типы поиска

Модели информационного поиска (поисковые движки) используют теорию нечетких множеств (ответвление нечеткой логики, созданной доктором Lotfi Zadeh в 1969 г.) для обнаружения семантической связности между двумя словами. Вместо использования словаря для обоснования связи двух слов, система информационного поиска может применить свои большие базы данных контента для угадывания этой связи.

Несмотря на то, что этот процесс может показаться сложным, основы его просты. Поисковые движки полагаются на машинную логику (правда/ложь, да/нет и т. д.). Машинная логика имеет некоторые преимущества перед человеческой, но она не способна мыслить подобно человеку. И те вещи, которые интуитивно понятны человеку, может быть очень сложно понять компьютеру. Например, апельсины и бананы – это фрукты, но апельсины и бананы не круглые. Для человека это интуитивно понятно.

Чтобы машина поняла эту концепцию и подобные ей, ключом может стать семантическая связность. Огромные знания человечества (содержащиеся в Интернете) могут быть занесены в индекс системы и проанализированы, чтобы искусственным образом создать те связи, которые уже создали люди. Таким образом, машина узнает, что апельсин круглый, а банан – нет (потому что она просканировала тысячи вхождений в свой индекс слов " банан" и " апельсин" и заметила, что " круглый" и " банан" вместе встречаются редко, а " апельсин" и " круглый" вместе встречаются часто).

Именно здесь вступает в игру нечеткая логика и применение теории нечетких множеств помогает компьютеру понять, как термины связаны (путем измерения того, как часто и в каком контексте они используются вместе).

На этом понятии основана родственная концепция латентного семантического анализа (latent semantic analysis, LSA). Его идея состоит в том, что, взяв огромный составной индекс из миллиардов web-страниц, поисковый движок может " выучить", какие слова связаны и какие концепции имеют отношение друг к другу.

Например, используя LSA, поисковый движок поймет, что trips (путешествия) в zoo (зоопарк) часто включают в себя viewing wildlife и animals (наблюдение за дикой природой и животными), причем это может быть частью tour (тура).

Теперь выполним поиск в Google по ~zoo ~trips (тильда – это оператор поиска, подробнее об этом далее в этой же главе). Google выводит " связанные" термины жирным шрифтом и распознает, какие термины часто встречаются совместно (вместе, на одной странице, либо в непосредственной близости) в его индексах.

Некоторые формы LSA имеют слишком высокую вычислительную стоимость. Например, в настоящее время поисковые движки недостаточно " умны" для того, чтобы " обучаться" так же, как это делают некоторые более новые обучающиеся компьютеры в Массачусетском технологическом институте. Например, они не могут узнать из своего индекса, что зебры и тигры – это полосатые животные, хотя они могут обнаружить, что " полосы" и " зебры" более семантически связаны, чем " полосы" и" утки".

Латентное семантическое индексирование (latent semantic indexing, LSI) делает еще один шаг вперед, используя семантический анализ для идентификации связанных web-страниц. Например, поисковый движок может заметить одну страницу (в которой говорится о докторах) и другую (в которой говорится о терапевтах) и на основе других общих слов, имеющихся в этих двух страницах, определить, что между этими страницами есть связь. В результате страница с упоминанием докторов может быть показана по запросу, в котором используется слово терапевт.

В такие технологии в течение многих лет вкладываются деньги. Например, в апреле 2003 г. компания Google приобрела компанию Applied Semantics (http: //www.appliedsemantics.com/), которая известна своей технологией семантической обработки текста. Эта технология теперь работает в рекламной программе AdSense компании Google и, скорее всего, применяется также и в основных алгоритмах поиска.

Все это дает нам общее понятие о том, как поисковые движки распознают связи между словами, фразами и идеями в сети Интернет. Поскольку семантическая связность играет все большую роль в алгоритмах поисковых движков, то можно ожидать и большего акцента на теме страниц, сайтов и ссылок. В будущем будет очень важно реализовать способность поисковых движков к пониманию идей и тем, а также к распознаванию контента, ссылок и страниц, которые не очень хорошо соответствуют схеме web-сайта.

Анализ ссылок

При анализе ссылок поисковый движок измеряет, кто делает ссылки на сайт (или страницу) и что там говорится об этом сайте (странице). Он также хорошо представляет, кто с кем связан партнерскими отношениями (при помощи исторических данных по ссылкам, регистрационных записей о сайтах и прочих источников), кому стоит доверять (по авторитету ссылающихся сайтов и контекстуальным данным о сайте, на котором находится страница), кто ссылается на этот сайт, что они говорят об этом сайте и т. д.

Анализ ссылок идет гораздо дальше, чем подсчет количества имеющихся на данную web-страницу (или сайт) ссылок, поскольку ссылки не одинаковы. Ссылки с высокоавторитетной страницы высокоавторитетного сайта будут значить больше, чем другие ссылки с меньшим авторитетом. Сайт или страница могут быть признаны авторитетными после комбинированного анализа шаблонов ссылок и семантического анализа.

Предположим, что вас интересуют сайты об уходе за собаками. Чтобы определить коллекцию web-страниц, которые посвящены теме ухода за собаками, поисковый движок может использовать семантический анализ. Затем поисковый движок может определить, какие из этих сайтов по уходу за собаками имеют больше всего ссылок со всего множества сайтов по уходу за собаками. Эти сайты, скорее всего, и являются наиболее авторитетными по данной теме.

Реально такой анализ несколько сложнее. Например, представьте себе, что есть пять сайтов по уходу за собаками, имеющих множество ссылок по данной теме со страниц по всему Интернету:

• сайт А имеет 213 тематических ссылок;

• сайт В имеет 192 тематические ссылки;

• сайт С имеет 203 тематические ссылки;

• сайт D имеет 113 тематических ссылок;

• сайт Е имеет 122 тематические ссылки.

Далее может оказаться так, что сайт А, сайт В, сайт D и сайт Е – все они ссылаются друг на друга, но ни один из них не ссылается на сайт С. Большинство тематических ссылок сайта С приходит с других страниц, которые тематически релевантны, но имеют мало ссылок. При таком сценарии сайт С определенно не является авторитетным, поскольку на него не ссылаются " правильные" сайты.

Эта концепция группирования сайтов по их релевантности называется " соседством ссылок" (link neighborhood). Ваши соседи говорят что-то по теме вашего сайта, а количество и качество ссылок от ваших соседей говорит о важности вашего сайта для данной темы.

Степень, в которой поисковый движок полагается на оценку " соседства ссылок", не ясна и, скорее всего, она у разных движков разная. Кроме того, ссылки с нерелевантных страниц все равно помогают рейтингу целевых страниц. Тем не менее основная идея такова: ссылка с релевантного сайта должна учитываться как более ценная, чем ссылка с нерелевантного сайта.

Еще один фактор определения ценности ссылки – это способ ее реализации и место размещения. Например, сам использованный для ссылки текст (тот реальный текст, который попадет на вашу web-страницу, когда пользователь щелкнет ссылку) также является сильным сигналом для поискового движка.

Это называется " якорным текстом” (anchor text). И если этот текст насыщен ключевыми словами (релевантными для терминов вашего поиска), то он сделает для ваших рейтингов в поисковых движках больше, чем если бы эта ссылка не была насыщена ключевыми словами. Например, якорный текст Dog Grooming Salon будет для сайта салона по уходу за собаками гораздо более ценным, чем якорный текст Click here. Однако будьте осторожны. Если у вас есть 10 000 ссылок с якорным текстом Dog Grooming Salon и очень мало других ссылок на ваш сайт, то это выглядит неестественно и может привести к проблемам с вашим рейтингом.

Семантический анализ ценности ссылки – это не только якорный текст. Например, если у вас есть якорный текст Dog Grooming Salon на той странице, которая совсем не об уходе за собаками, то ценность такой ссылки меньше, чем когда эта страница посвящена уходу за собаками. Поисковые движки смотрят и на содержимое страницы, находящееся вокруг ссылки, и на общий контекст, и на авторитет того web-сайта, который дает ссылку.

Все эти факторы являются компонентами анализа ссылок, который мы обсудим более подробно в главе 7.

⇐ Предыдущая 4 5 6 7 8910 11 12 13 Следующая ⇒