Алгоритм "Палех" в Яндексе

Алгоритм
наш канал в ЯНДЕКС.ДЗЕН.

Уже несколько лет Яндекс при ранжировании сайтов использует Матрикснет - метод машинного обучения, опирающийся на большое количество факторов: текстовые, коммерческие, поведенческие и т.д. Количество факторов каждый год растет и на данный момент составляет более 1500.

В начале ноября 2016 года Яндекс представил новый поисковый алгоритм Палех, помогающий основному алгоритму Матрикснет работать с редкими низкочастотными запросами.

По статистике Яндекса около 40% из всех вводимых пользователями запросов являются низкочастотными, даже уникальными. График распределения частотностей запросов чаще всего представляют в виде птицы, где клюв олицетворяет более общие высокочастотные запросы, процент которых относительно всех запросов низок. Далее туловище представляет собой среднечастотные запросы из Клюва со словами-уточнениями, и наконец, Хвост – очень низкочастотные редкие запросы.

В связи с тем, что низкочастотных запросов очень много, то получить наиболее релевантный ответ с помощью Матрикснета становится очень сложно. Подсказок от пользователей в виде поведенческих факторов нет, т.к. запросы сами по себе могут быть уникальны, поэтому для построения наиболее отвечающей пользовательскому вопросу выдачи Яндекс решил научиться понимать смысловое соответствие между запросом и документом.

Решением поставленной задачи для Яндекса стал еще один метод машинного обучения: ИНС – искусственные нейронные сети.

Как работает новый алгоритм Палех?

Технология ИНС уже испытана в распознавании картинок или музыки. В случае поисковых систем речь пойдет о понимании смысла текстов.

Суть данного метода в том, чтобы система обучалась на положительных и отрицательных примерах поисковой системы, накопленных ранее, по наиболее популярным запросам, сопоставляла пользовательские запросы и заголовки документов и находила наиболее релевантный ответ.

Для сопоставления системой запросов и заголовков их переводят в специальное 300-мерное пространство, где каждому запросу и заголовку соответствует группа из 300 чисел. Таким образом, выделяется семантический вектор.

Когда пользователь вводит длинный запрос в поисковую строку, Палех переводит его в 300-мерное пространство на соответствующих параллелях и показывает документ, наиболее подходящий к этому запросу в построенной системе координат.

На данный момент обрабатывается не весь текст ресурса, а только заголовки, но Яндекс говорит, что в планах работа со всем текстом. Это позволит еще лучше понимать, удовлетворяет ли требованиям пользователя сайт, и формировать максимально релевантные результаты поиска.

Примеры работы алгоритма Палех

Работу нового алгоритма Яндекса Палех можно оценить только на низкочастотных запросах, так как на ВЧ запросах приоритетнее другие факторы ранжирования.

При запросе «фильм в котором человек родил и зачал себя сам» мы получим в ответ информацию о фильме «Патруль времени» 2014 года, а не сайты с ответами на вопросы на форумах.

Что делать коммерческим сайтам с Палехом?

Новый алгоритм Яндекса практически никак не влияет на ранжирование интернет-магазинов и сайтов услуг, так как Палех направлен в первую очередь на ресурсы с большим текстовым контентом. Для продвижения сайтов продажи услуг и товаров гораздо важнее цены, юзабилити, дизайн, коммерческие и поведенческие факторы.

Но следует учитывать, что новый алгоритм влияет на коммерческие контент-проекты, такие как, например, строительные порталы, где публикуется большое количество статей строительной тематики. В общем, этот алгоритм внедрен, чтобы улучшить качество поиска для низкочастотных запросов с «большим хвостом». Преимущества получают качественные информационные сайты.

Вместо заключения

Особенности нового алгоритма года Палех:

  • Большое количество вхождений слов, связанных с запросом по смыслу повышает значение нового фактора;
  • По информации Яндекса: Палех пока работает только с title страниц, а не с самим содержимым;
  • Качество алгоритма измеряется поведенческими метриками пользовательской удовлетворенности.
  • Влияние на ранжирование коммерческих сайтов в настоящее время алгоритм Палех не имеет, но это очередной повод задуматься о способах продвижения - что пора забыть времена, когда на позицию сайта можно было повлиять только ссылками или количеством ключей в тексте.

Современные реалии требуют создания удобных сайтов для людей, написание качественного контента, который будет полезен пользователям.

Рецензент статьи: Голомолзин Денис
Рецензент статьи:
Голомолзин Денис
Управляющий партнер компании "Альтера". В прошлом - оптимизатор, ведущий специалист SEO-команды, руководитель отдела продвижения, консультант-евангелист компании.

Вы дочитали статью! Отличная работа!

Рекомендуем ознакомиться со значениями терминов:

Контентная областьУниграммаМуртапузацияВизитЯндекс.ВебмастерИнтентГеонезависимый запрос (ГНЗ)Геозависимый запрос (ГЗ)Текстовые факторыСоциальные сигналыСателлитПодсветка в выдачеСпектральная примесьМатриксНет (MatrixNet)Краулер (Crawler)Видимость в ПСБаден-БаденWHOISTF-IDFSERMУТПKPICatBoostШинглЦелевой запросPopUnderNoindexСпектрПоведенческие факторыkeywords