Регистрация

Эволюция алгоритмов Яндекса

0
0
6 348 0
Аудио Текст
26 октября 2010

Евгений Трофименко выступил с докладом "Эволюция алгоритмов Яндекса и методов исследований: новые возможности анализа" на Конференции «Практика поискового продвижения сайтов. Netpromoter-2010».

Евгений Трофименко выступил с докладом "Эволюция алгоритмов Яндекса и методов исследований: новые возможности анализа" на Конференции «Практика поискового продвижения сайтов. Netpromoter-2010».

Основные тезисы:

- новые данные в Яндекс.XML для удобства пользователя и исчезнувшие данные о клонах, географии сайтов, цифре релевантности;
- получение данных о контрастности слов по общему индекс; изменения в работе операторов языка запросов;
- уменьшение в разы скорости переиндексации Рунета.

Евгений Трофименко (Е.Т.): Здравствуйте, уважаемые коллеги! Меня зовут Евгений Трофименко, и я вам сейчас сделаю доклад про разные вещи, не очень объединенные одной целью. С тех пор, как я писал тезисы, многое изменилось, многое осталось недоисследованным из того, что я хотел сначала доложить, но зато появилось много нового.

Доклад будет состоять из следующих частей: сначала - про апдейтинг и про индексацию Рунета, потом про веса ссылок и найденных по ссылкам сайтов, потом - самое интересное, про переформулировки запросов и про запросы, которые отрабатывают вместо введенного пользователем.

Про апдейты я постараюсь по-быстрому рассказать, потому что уже акценты сместились. Когда-то давным-давно, примерно год назад, 28 числа, Яндекс опубликовал релиз, что мы, мол, будем исключать из поиска сайты, которые плохие для пользователя. На этом графике видно общее число документов в индексе Яндекса, каждая точка соответствует дню, и в каждой точке просуммированы ближайшие 3 месяца, по дням. Т.е. каждая точка - 4 на 9 в 9 степени в 2009 году - это число документов за 3 месяца, содержащиеся в индексе Яндекса. С тех пор это число документов неуклонно падало и в сентябре 2009 года был введен фильтр АГС, и число фильтров стало падать. Но потом это падение продолжилось, и сложилось такое впечатление, что у некоторых оптимизаторов есть метод продвижения не с помощью простановки ссылок, а с помощью снятия ссылок.

Яндекс, похоже, решил, что документов и так проиндексировано много, и уже не нужно индексировать нового, а нужно постепенно выкашивать старое.

В результате неуклонно снижается число не проиндексированных документов, и с тех пор оно снизилось раз в 5 за год фильтром АГС-17.

Осенью был введен алгоритм обучения MatrixNet - алгоритм обучения формулой. Некие изменения произошли в работе поисковых операторов; раньше оператор «МИНУС» не применялся к текстам ссылок, и можно было при помощи него удобно находить найденные по ссылке результаты, а сейчас стал применяться. Отмена не ранжирующего «И» - это тоже было очень неприятно, но нашлись замены.

Из того, что не очень на виду: примерно летом или осенью 2009 года я заметил, что количество страниц в поиске «еще с сайта» отличается от общего количества страниц сайта, т.е., если мы, например, ищем с запросом «хост», то мы видим , что в аккаунте написано маленькое число, а в общем количестве страниц написано большое число, и для каждого сайта это было по-разному, т.е. некоторые сайты имели совпадающее количество страниц в аккаунте и в общем числе, а некоторые имели меньше. Я хотел еще тогда об этом рассказать, но когда доклад планировал, обнаружил , что это отменено и перезагружено, а сейчас ситуация снова такая. Если бы я знал об этом, то, наверное, сконцентрировался бы на нем.

Еще Яндекс занимается выделением фактов - это результаты, которые взяты из переформулировок запросов. Число документов потихоньку падает и падает, и скорость переиндексации Рунета тоже падает.

С помощью операторов и дат индексации можно посмотреть, сколько документов было взято Яндексом за какой-то период, скажем, по месяцам, и уйти в глубину на год и дальше. Для точности первые 3 месяца я брал ежедневно, потом это число документов можно взвесить по дате и посчитать некоторое число, которое можно считать средней скоростью переиндексации Рунета. В районе 2009 года это было 50-60 дней, а сейчас - 150-170 дней, 3 раза больше! Грубо говоря, для всех оптимизаторов это обозначает увеличение расходов, потому что ссылка до индексации стоит очень долго. Понятно, что можно специальные ухищрения предпринимать для того, чтобы страницы индексировались со ссылками: можно сайты выбирать быстро индексирующиеся, но это дело такое, что каждый сам решает, но стало в 3 раза хуже.

Теперь про апдейты. Про них нужно рассказывать, или все и так всё знают? Итак, апдейты. Как-то утром просыпаешься, а выдача изменилась. Утром - это не в час ночи, когда обычно люди смотрят на апдейты, а в 9-8 утра. На форуме уже есть огромная тема: есть апдейт или нет его? Выкладывание новых проиндексированных страниц происходит резко в районе часа ночи, по западному и по русскому индексу отдельно, т.е. мы ищем операторами дат новые, свежие документы, и когда они появляются, мы понимаем, что произошел апдейт, и число страниц в поиске увеличилось. Это все полезно для того, чтобы контролировать индексацию страниц, и чтобы не волноваться , что изменения на сайте клиента вдруг не проиндексировались. Как правило, немножко раньше «апдейтится» несохраненная копия .

Я беру 2 новостных сайта, которые часто переиндексируются, смотрю автоматически на их страницы, на даты, которые в них опубликованы, когда сохраненная копия обновилась, и значит, что минут через 15 будет текстовый апдейт.

Пользы нормальным людям от этого никакой, но, если вы пробиваете наличие ссылок в сохраненной копии страниц, если вдруг, сохраненная копия не обновилась, то вы видите, что вас обманывают, и эти ссылки надо снимать, хотя, на самом деле, может, вас и не обманывают.

И остальные 2 варианта апдейтов: география и ссылки. Если мы смотрим, какие по ссылке результаты существуют, то мы можем найти много свежих быстророботных результатов. Быстроробот тоже индексирует тексты ссылок, и такие ссылки тоже попадают в выдачу, но нам быстророботные не нужны, мы их ждем, когда появятся свежие, найденные по ссылке результаты, проиндексированные относительно недавно. Здесь есть 2 сайта, по которым это все определяется, один сайт мой, а другой - не мой, т.е. я пишу ту дату индексации в сам текст ссылки и нахожу свой сайт по этому тексту ссылки. Когда я вижу, что дата обновилась, и найдены новые результаты по ссылке, это означает, что новые тексты ссылок попали в анкор-файл. То есть, если вы ставили ссылки, и эти ссылки индексировались, то это не значит, что у вас быстро будет эффект от этих ссылок, потому что ссылочное доходит до серпа не сразу, а через некоторое время.

Раньше, когда я начинал мониторинг, период был примерно 3 недели, т.е. раз в 3 недели анкор-файл обновлялся новыми ссылками. Сейчас, в последние несколько дней и месяц, ссылочные апдейты идут одновременно с текстовыми в районе 4-5 утра. Понятно, что до того, как ссылочный апдейт произошел, пробивать позиции для клиента не имеет смысла, потому что если апдейт произошел в 1 ночи, и вы пробили позиции, то к 9 утра они еще не поменяются. Если обновление анкор-файла не произошло, это не означает, что не пересчитывался вес ссылок. Об этом я расскажу чуть позже. Точно так же, скачком, меняется число файлов и страниц, найденных по региону с ограничением по региону. Я беру 11 регионов и смотрю, сколько страниц находится по каждому из них отдельно. Как правило, изменения без выкладывания текстового индекса всегда очень интересны. Раньше я называл это «релиз произошел», если есть изменения без выкладывания текстового индекса, но оказалось, что не обязательно изменение формулы.

Если нет апдейта, а выдача поменялась, то, может быть, это обновление формулы, а может быть, это обновление географии по сайтам. В половине случаев это было обновлением географии сайта, а из оставшейся половины мало - обновления формулы, а много – каких-нибудь других пересчетов, например, пересчета веса ссылок.

Я «мониторю» разные запросы и, в том числе, там, где много результатов найдено по ссылке — до 90% доходит. И с 4 до 5 утра относительное количество найденных результатов по ссылке тоже меняется, без ссылочных апдейтов. Я думаю, что это пересчеты либо ссылочного, либо веса.

Но пока это еще не внедрено в сервис. А значат ли эти позиции, найденные по ссылке, хоть что-нибудь? Мы сейчас переходим к более интересной теме.

Распространен такой подход: проанализируй ТОП 20, или 30, или 50, усредни все, что там найдешь: тИЦ, тексты, частоты, все, что угодно, и это среднее будет чем-то хорошим, и так же нужно сделать свой сайт, как тот, который в ТОПе. Но выдача-то большая, и анализировать ТОП выдачи - это все равно, что ощупывать слона.

Есть такая сказка, что слепцам дали ощупать слона и потом попросили описать его. Слепец, который ощупывал ногу, сказал, что слон высокий и уходит куда-то вверх, слепец, который ощупывал ухо, сказал, что слон большой шершавый, теплый и тонкий. У каждого было свое мнение, и в каждом была доля правды. Мне не нравится анализировать кусочки выдачи - результаты хуже. Я ищу маленькие выдачи, уменьшающиеся в 1000 и которые можно скачать полностью, таких я набрал достаточно много и сейчас покажу одну из них. Слово я вам не скажу - по этому слову находится около 600 результатов, а если каждый у себя в блоге напишет, то получится около 1600, а я этого просто не хочу, поэтому не говорю. По слову «ошибка в кодировке» тоже довольно много найдено результатов, т.е. кто-то спалил в каталоге, а каталог показывал в другой кодировке слово, на сайте его, конечно, не было.
На этом графике показана по горизонтали позиция выдачи, а по вертикали - единичка, если результат найден по ссылке. Чтобы в этих 1 и 0 было легко разбираться, мы усредним соседние 20 результатов и нарисуем скользящее среднее. В результате видно, что в среднем, в начале выдачи - примерно 50% найденных по ссылке результатов. Когда мы углубляемся в выдачу вниз, эти результаты вытесняются текстовыми. Текстовых становится больше, а найденных по ссылке - меньше, а в самом конце идет плотная группа результатов НПС (найден по ссылке), которые самые плохие, на графике это видно, и доля найденных по ссылке сразу же равняется 1.

Что же это за НПС, которые в конце? Если тексты ссылок известны, можно попытаться найти сайты-доноры для этого конца. Точнее, можно было бы, если они существовали, но в Яндексе они не находятся. Делаем вывод, что доноры, которые дают эти плохие ссылки, либо под АГС, либо в бане. Делаем вывод такой, что эти доноры не работают, хоть и НПС дают. Еще польза от этого: можно построить сетку для сравнения качества. Возьмем НПС, который чуть меньше урла второй группы — получим маркер для сравнения. Если НПС оказался хуже, чем этот, мы его сразу можем записать в плохие сайты. Таким образом, мы можем делать блэк-листы.

Немного перейдем к количественному определению: разбить выдачу на кусочки и смотреть по группам, в какую группу попал НПС, и смотреть количественно, что лучше, а что хуже. Дело за малым — найти эти НПС, и это уже дело отдельное. С НПС закончили, теперь переходим к переформулировкам поисковых запросов. Довольно давно они были введены для того, чтобы учитывать аббревиатуры, учитывать переходы между частями речи, транслитерацию и т. д.

Показ переколдовки — изменение переформулировки запроса – был отменен, и чуть раньше этого было произведено существенное увеличение расстояний. Сайты стали находиться по длинным запросам, когда слова из запроса были очень далеко в документе.

Метод, конечно, не раскрывается, как обычно, но с помощью добавления некоторых видов операторов и слов в XML, мне удалось получить информацию о переформулированном запросе, который вероятно отрабатывает вместо введенного. Я и занимался выкачкой всех этих данных, чтобы были, а то вдруг закроют. Там все, как и обещалось: большие части речи и новые расстояния.

Для примера: Исходный запрос «продвижение сайтов». Что получается? В словах «продвижение» и «продвигать» исходное существительное, «про движение», глагол «продвигать» и глагол «продвигаться». Новые части речи есть, большое расстояние до слова сайта, 2000 предложений, есть двоеточечные веса, которые были скрыты давным-давно. Оператор «галочка», как я понимаю, означает, что слово не обязано присутствовать, но если оно присутствует, то оно дает некий плюс в релевантности. Есть оператор — процентик, но он давно забыт, как и многие другие особенности, о которых я сейчас расскажу.

Расстояние в предложениях от -32000 до +32000 – это расстояние от группы продвижения до группы сайтов, т .е. то, что раньше стояло в пределах предложения, или что-то в этом духе.

Я, конечно, не могу доказать, что это именно тот запрос, который отрабатывает реально, но очень похоже в том числе, и потому что эти синонимы, которые показываются, реально есть в выдаче, реально подсвечиваются , по ним находятся.

Синонимы можно находить и открытыми методами, но расстояние открытыми методами очень сложно найти. Кроме того, если находить синонимы открытыми методами, то это чисто человеческое участие, потому что, скажем, «продвигать» и «продвижение» автоматам очень сложно определить , что это одно и то же.
Итак, анализ финансового состояния предприятия: расстояние +/- одно слово, т.е. считаем, что точная фраза - расстояние в 7 предложений. «Дизайны комнат» - расстояние +/- 7 предложений. «Нокиа модель» - расстояние +/- 3 слова. А вот «партия Единая Россия» - кроме этого там есть еще и сокращения «ЕР», «ЕдРо». Я очень удивился, когда это увидел. Очевидно, что такие переформулировки делают руками, иначе я не знаю, откуда такие контексты. Многие слова разбиваются на фрагменты, например «downloadmanager» кроме исходного ищется и «download manager». «Z11» и т.д. — это модель ноутбука, там много цифр и много букв: они разбиваются отдельно на «Z», «11» и «RXN», и еще - частичные слепки «Z11», «XRN». Для продвижения магазинов это будет важно.

Из слепка, если мы берем запрос с пробелом «PS 3», то слепленные оба слова тоже появляются. «Online» - и транслит, и разбиение. Вариантов много. Все веса, которые давно исчезли, там тоже есть.

Как оказалось, у Яндекса есть 3 разных коллекции, по каждой из которой есть отдельные веса. Метод состоит в добавлении разных слов и, вообще, слова в запросах пересекаются, поэтому можно найти одно и то же слово в разных запросах с разным весом.

Одно и то же слово может иметь 3 разных веса, соответствовать и русской базе, и англоязычной, если слово состоит из английских букв и цифр, и украинской базе, когда ни одного русского слова нет, но русские буквы есть. Украинских - очень мало, но это для информации.

Разные коллекции русских документов, англоязычных и украинских тоже, поэтому у слов - разные контрастности по этим базам. И очень интересно: запросов, которые я пробивал, было много, многие из этих запросов включали в себя имена, например, запрос «Иосиф Бродский» переформулируется таким образом, что там есть фрагмент поиска по ФИО. Я очень удивился, когда это увидел. Операторы fioname, fiiname, fiinoinname - что это значит? Я еще не разобрался, но я нашел их с именем и фамилией. Непонятно, то ли это оператор, то ли зона поисковая, скорее всего, зона поисковая, как title. Есть такие интересные слова, как «Иосиф fi» и «Иосиф ifi», как я понимаю это специальные термы, которые соответствуют именам, начинающихся с буквы «И».

Возьмем «Мfi». Просто возьмите Яндекс у себя откройте и наберите «Мfi». Вы найдете у себя кучу страниц с именами: Максим Мошков, Марат Гильман, Архангел Михаил и т. д., даже МГУ. И, конечно же, «М.» - и М. Гильман, конечно же, найдется, это соответствует всем именам и сокращениям на букву «М». Это все означает, что Яндекс занимается экстракцией объектов из текста.

Польза таких переформулировок полезна тем, что их можно использовать при оптимизации и в ссылках. Если у нас запрос расширен дополнительными словами, то хорошо будет туда написать переформулированных слов-синонимов. Времени на проверку всего этого не было, и я это не проверял. Проверяйте сами. Новые операторы, которые найдены, в принципе, не очень-то нужны. Поиск по именам и фамилиям просто интересен, что он есть. Знание об ограничении расстояния - это важная штука, если вы пишите для оптимизации текстов и ссылок, но открытыми способами такие знания не получить. И веса слов тоже полезны для составления ссылок.
Возможно, когда-нибудь это все будет внедрено в сервис. А вот экстракция сущности - это немножко страшновато. Я знал, что Яндекс часто проводит семинары о том, чтобы экстрагировать факты или внедрить в Яндекс.Новости - все-таки, там объемы поменьше, но большой поиск - это уже нечто огромное. А если он ваше «продвижение сайтов» тоже извлечет и все услуги перепишет, это интересно будет!

Переходим к весам слов. Понятно, что накопилось довольно много весов слов, из этой кучи можно сделать огромную базу. Очень часто эти двоеточечные веса слов люди называют «IDF», т.е. мера контрастности слова по базе документов. Классическая формула IDF - это логарифм от числа документов по коллекции, деленное на число документов, в которых нашлось это слово.

Чем реже встречается слово, тем выше его контрастность и заметность.

Те, кто занимался весами слов, может быть, составлением баз или анализом, знают, что для очень редких слов вес был очень большой и одинаковый. Вот я собрал ТОП по весам и число разных слов по своей коллекции. Мы видим, что самый большой вес - это 98, и таких слов очень много. Второй вес по величине ровно в 2 раза меньше, чем первый. Третий вес по величине в 3 раза меньше, чем первый, и т.д. Такое впечатление, что взяли и разделили первый вес на какие-то целые числа. Когда мы доходим до небольших весов, ситуация ровно такая же. Вот мы думаем, а почему у нас логарифмы такие целочисленные, это нечестно, так не бывает, и начинаем догадываться, что наверное, это всего лишь частное от числа документов в коллекции, разделенное на количество документов, содержащих слово. Т.е. первая цифра «98» - это число документов, содержащих самое редкое слово 1 раз, второй вес соответствует слову, которое есть в 2 документах и т. д.

Короче говоря, чтобы получить классическую IDF, нужно взять логарифм от этого двоеточечного веса. Т.е. двоеточечный вес - это не IDF классический. Это, конечно, не очень важно. Хочется каких-нибудь других методов поиска весов, вдруг они опять чего-нибудь отключат. На этом графике нарисовано по этой коллекции из 20000 слов по вертикальной оси - логарифм от двоеточечного веса, по горизонтальной - от числа словоформ в базе Яндекса. Не важно, откуда я это взял. Вы можете сами «попарсить» какие-нибудь случайные документы и найти хорошую коллекцию слов. Мы видим, что между этими логарифмами существует линейная зависимость, а по хорошему счету, это выглядит так: если вес маленький, это низ графика, то двоеточечный вес маленький, и это соответствует очень маленьким словам: «и», «или» встречаются в документе много раз. Поэтому, если бы этот двоеточечный вес был бы от документов, от общего числа, то на графике, в нижней части были бы отклонения и график немножко загибался бы за счет того, что частотные слова присутствуют в документе много раз. Но он чего-то не загибается, и я начинаю думать, что эта контрастность, связанная с весом, связана не с числом документов, а с числом лемм, т.е. ИЦФ, а не ICF. Понятно, что это все не известно.

И теперь последняя часть - это текстовые XML и, пока, с цифрами релевантности. Летом, при поиске текстовых XML, можно было увидеть новые цифры и теги. Во-первых, цифры релевантности - 100 миллионов умноженное на от 1 до 4, и другие факторы, например, фактор длины документа. Кроме того, в текстовом XML показывались идентификаторы регионов сайта. Я, предполагая что geo - это идентификатор географического положения сайта и идентификатор аффилиатов. Эти данные были когда-то и в обычных XML, но потом их убрали для того, наверное, чтобы создать побольше затруднений. Кроме того, есть интересные вещи - быстрые ссылки и наличие сайта в Яндекс.Каталоге - это не очень интересно, как и фактор длины документа. Но самое интересное - это HeadlineSrc — это указание того, откуда взято описание файла Headline. Там оно может брать из description, иногда берется из Dmoz.

Яндекс все-таки парсит Dmoz и знает, что там находится ваш сайт, и хотя это что-то далеко западное, вероятно, он это учитывает. Я не удивлюсь, если он еще парсит какую-нибудь Alexa.

Итак, в сумме, что я набрал оттуда, но подробно не анализировал, - это 42000 запросов, в ТОП 1000 по каждому, из них примерно половина - это коммерческие запросы из каталога SeoRate, и другая половина - это моя база из частотных запросов. В результате получилось 2,5 миллиона разных хостов. Это 2 миллиона из запросов, а 650000 доноров по ссылочным биржам, чтобы географию пропарсить и клоны. Получается так, что записей про клоны очень много: 7% хостов имеют записи про клоны. 14% хостов имеют указания на географию.

Я думаю, что geo - это какая-то ручная география, и 60% хостов имеют указания на geo. A я думаю, что это автоматическое geo. Конечно, автоматического больше, и больше половины классифицировано. Я считаю, что классификация клонов должна происходить вручную, но 7% хостов вручную - это неподъемно, что наводит на мысль об автоматическом определении, во-первых, очень много хостов с клонами, очень многие группы субдоменов на Ucoz и на доменах 3 уровней объединяются в группы, видимо, без особого отличия в сайтах.

И частенько, это уже ручная проверка, аффилированные сайты совершенно различны. Методы, с помощью которых можно удостовериться, что сайты аффилированы - это при поиске по одному запросу, когда не может показаться больше одного сайта в ТОПе. Скажем, ТОП 30.

В XML работает группировка по хосту, т.е. можно задать вопрос «host1 или host2», и если в выдаче будет один из сайтов, то значит это аффилиаты. В выдаче все гораздо хуже, потому что Яндекс борется с такими проверками и «вставляет палки в колеса».

Есть в Яндексе такое: по запросу, совпадающему с именем домена, этот домен должен быть на первых местах, поэтому можно проверять запрос: «сайт1 или сайт2», и если сайты не аффилированны, то на этих двух местах должны быть эти 2 сайта. Если же сайты аффилированы, то останется только один из них.

Цифры релевантности, которые там были. Оценки асессоров: известно, какие они бывают — от 0 до 4. Оценка 4 - это витальный результат, Оценка 0 - это совсем какая-то гадость, умноженная на 100 миллионов. Оценка 3 — это по коллекции, которую я собрал, - это всегда поиски домена .ru, т.е. домен имеет по такому запросу релевантность 300. Оценка 2 — есть по отдельным классам запросов, это тоже какая-то непонятная вещь. В основном, по всем запросам релевантность - 1 плюс-минус немножко. Но по отдельным классам запросов вся выдача состоит из двоек, и пораженных в правах, каких-то не очень релевантных документов, которые всегда находятся в конце, в районе 600-900-х мест.

Витальные результаты из этих 42000 запросов. Хоть один найденный витальный результат есть по 4500 найденных запросов, то есть до 10%, и это довольно много, и я даже не знаю, делают они это вручную или автоматически. Есть, действительно, витальные запросы по запросам «цб», «Asus», «Мozilla» и т. д. Но есть и довольно сомнительные витальники типа «горячие туры», витальный результат – «Hot.ru». Наверное, люди просто зарегистрировали фирму или написали у себя на сайте, что у нас «ООО Горячие туры».

«Лучшие интерьеры» — тоже непонятно, наверное, тоже фирма называется «Лучшие интерьеры», а почему нет? «Интерьеры магараджей» - почему там про ДНС, непонятно!

Я всегда думал, что витальники прибиваются руками, но больно их много, т.е. по 10% запросов сложно набрать - рук не хватит.

Запросы по поиску домена. Некоторым людям очень везет. Скажем «Macbook Pro», домен в зоне .pro. Повезло людям, очень хитро! По этому запросу он выводится только за счет домена. Отлично! Двойки - странные запросы, я сначала подумал, что это какие-то некоммерческие запросы, потом я подумал, что это заспамленный дублированный контент, потом я подумал, что это чисто информационные запросы. Может, действительно информационные? По таким запросам вся выдача состоит из релевантности 2, не знаю почему. И единички — это все остальное.

Вот пример первого попавшегося запроса «Мир плитки». По горизонтальной оси отмечены позиции в выдаче, а по вертикальной - цифра релевантности. Довольно быстро все падает. Но это не самый удачный график, на таком, я думаю, будет интереснее. Берем ту же самую релевантность, вычитаем из нее 1 и нарисуем в логарифмических результатах. Я понимаю, что это случайность, что это степенная зависимость, алгоритмы Матрикснета умные, они сами настраиваются, но все равно странно. Причем от этой степенной зависимости есть отклонения в ТОПе 10, он немного релевантнее, чем должен бы быть. Я попробую в будущем применить такой подход в классификации конкурентности запросов, но пока еще ничего не понятно. Можно сказать, что из этой степенной зависимости ничего не следует, просто интересно.

Документы, которые находятся в самой глубине выдачи с релевантностью меньше 1, а то и даже 0.1: здесь запросы явно такие, по которым большое дублирование контента: отзывы об отелях, аудиокниги, каталог отелей, фильмы онлайн и т.д.

Конечно, каждый из этих сайтов имеет дублированный контент, и он еще дублирован на кучу других сайтов, и почему этот понизили, а те – нет, неизвестно. Я думаю, что такое поражение в правах, как здесь, связано с дублированием или что-то в этом духе. Все! Вопросы?

Слушатель 1: Какие-то анализы проводились про размер страницы?

Е.Т.: Фактор — это просто целочисленная дробь, целое число, деленное на 255.

Слушатель 1: Я понял, а в выборке было замечено какое-то влияние именно от этого показателя?

Е.Т.: Я не исследовал, но, наверное, его нет. Я вообще не понимаю, зачем такой фактор выдавать кому-то, если релевантность хоть как-то понятна. Факторов куча, на самом деле, товарищ Людкевич вам только что рассказывал про все разнообразие: и длина документа, и число в словах — конечно, это тоже факторы. Я посмотрю, но мне очевидно, что никакого влияния там нет.

Слушатель 2: Здравствуйте! Меня интересуют те параметры, на которые можно повлиять с целью получения результата. Смысл статистики ради статистики? Из любой статистики хотелось бы сделать полезный вывод.

Е.Т.: На мой взгляд, самые полезные параметры - это переформулировки! А из какой статистики Вы хотите сделать вывод?

Слушатель 2: Вы анализировали много факторов, т.е. хотелось бы анализировать их в полезном ключе.

Е.Т.: То есть с переформулировками разобрались, теперь интересует польза от цифр, да?

Игорь Артеменко (И.А.): Следующий вопрос!

Слушатель 3: У Вас был слайд на котором показывались сайты, найденные по ссылке по определенному запросу, где было 600 результатов, и очевидно, что, чем более качественный донор, тем сайт находился выше, а Вы делали подобные сравнения на одной группе доноров, но при этом они ссылаются на совершенно разные сайты. Как эффект этих доноров зависит от того, на какой сайт они ссылаются? Может быть, пара донор—акцептор не тематическая или какая-нибудь еще?

Е.Т.: Во-первых, все результаты поиска - это чистая халява. Я сам эти сайты не ставлю и влиять на них я не могу. По нескольким похожим запросам с ошибкой кодировки было, ссылки с одних и тех же доноров были в конце, но там ограниченное количество сайтов - около 20, там особо не разбежишься в сравнении. Находились, как раз, разные сайты: донор - один, а сайты, на которые он ссылается, - разные по этому хвосту.

Слушатель 3: По-моему, в Google есть возможность искать определения? Может быть, вот эта двоечка означает близко к размеченным документам с определениями?

Е.Т.: Там дело в том, что по запросу с 2 - не просто несколько результатов с 2, там вся выдача состоит из этих двоечек — вся тысяча! Вот какая штука. Вот например «глисты» - это многозначный вопрос?

Слушатель 3: Да! То, что не инвестиционный проект, не коммерческий проект, а какие-то объяснялки!

Е.Т.: Я посмотрю переколдовку по ним.

Слушатель 4: Вы успели спарсить релеванс летом, похоже, еще Сергей Людкевич успел спарсить, судя по диалогу?

Е.Т.: Я знаю, они парсили, насколько я знаю, там больше запросов было, но зато ТОП 50, а не ТОП 1000.

Слушатель 4: А по Вашим ощущениям, кто еще успел это спарсить?

Е.Т.: Не знаю!

Слушатель 5: Я извиняюсь, возможно, я пропустил, где Вы добывали переформулировки?

Е.Т.: В XML.

Слушатель 5: Вот эта переколдовка Z11 и ZRM11 - это все одна фраза или нет? Что в анкор вставлять? Z просто, или 11?

Е.Т.: Все, что там есть.

Слушатель 5: То есть анкором будет являться «Z 11 Z» и т. д.?

Е.Т.: В каком порядке там идти, я не знаю. Слова, которые Вы здесь видите: сначала идет исходная форма, а затем одна группа и группа, разбитая на 2 фрагмента.

Слушатель 5: Это 100% замена. Это факт, что она именно так заменяет? А то мы сейчас накупим миллион ссылок и...

Е.Т.: Вы вот как делайте: берите Z11hrn и ищите в выдаче результаты, где Z11 подсвечено, и Вы их там найдете. Если Вы их там нашли, то эти слова там действительно есть.

Игорь Артеменко (И.А.): Мы благодарим Евгения!

Развернуть текстовую версию
Комментарии