Quality-based Ranking for Queries with Commercial Intent

Quality-based Ranking for Queries with Commercial Intent
наш канал в ЯНДЕКС.ДЗЕН.

1. ВВЕДЕНИЕ

В некоторых задачах информационного поиска единственной целью поисковой системы является лишь поиск самого релевантного документа  по заданному запросу. В случае, когда множество релевантных документов мало, это похоже лучший ответ на нужды пользователя. Однако в настоящее время есть множество групп пользовательских запросов, на которые поисковая система может дать большое кол-во высокорелевантных ответов. В отличие от поиска единственного правильного ответа, такие запросы включают множество возможных ответов, из которых можно выбирать.

В эти группы запросов, в частности, входят коммерческие запросы, когда пользователи часто хотят выбрать лучшее предложение из многих похожих друг на друга.

Коммерческие запросы формируют очень высокую конкурентную среду, в которой повышение позиции сайта в результатах поиска означает рост доходов сайта. По этой причине коммерческие сайты прилагают все усилия, чтобы занять место в топе результатов выдачи, таким образом, увеличить свою прибыль. Веб-мастера оптимизируют текстовый контент и покупают входящие ссылки, чтобы облегчить поисковой системе поиск и представление сайта пользователям в ответ на коммерческие запросы. В результате, с точки зрения текстовой релевантности и основываясь на мере качества ссылок, коммерческие сайты в топ-10 являются часто одинаково релевантными.

Кроме того, с точки зрения пользователей  (а не поисковой системы), вероятно, наибольшую релевантность получат наиболее конкурирующие сайты, поскольку инструкции по оценке направленны, прежде всего, на оценку тематической релевантности документа.

Таким образом, любое изменение в позициях сайтов в топ-10 результатов поиска не приведет к изменениям метрики качества ранжирования.  

Однако, бросая все силы на оптимизацию сайтов, многие веб-мастера забывают об улучшении сайта для пользователей[13]. Поэтому удовлетворенность пользователей для разных коммерческих сайтов может значительно отличаться. В частности, дизайн, наличие онлайн-форм обратной связи, отзывы пользователей на предлагаемую продукцию значительным образом влияют на отношение пользователей.

Данные наблюдения предполагают, что использование информации о качестве сайтов при ранжировании коммерческих запросов, при условии выдачи множества высокорелевантных ответов, может значительно улучшить ранжирование и увеличить удовлетворенность пользователей. Качество документа по коммерческому запросу, при условии, что документ тематически релевантен, называют коммерческой релевантностью.

Существуют исследования, в которых авторы предлагают подходы к оценке качества сайта и его интеграцию в алгоритм ранжирования. Например, критерии качества веб-страницы с точки зрения поведения пользователя были описаны во многих статьях [1, 2, 11]. Формальные критерии, которые описывают удобство использования, степень доверия, дизайн, и т.д., должны быть построены на основе важности определенных аспектов качества сайта для пользователей. Такие критерии могут включать длину текста, грамотность содержания, читаемость заголовка страницы, наличие карт, информацию о компании, легко запоминающиеся номера телефонов, бесплатную доставку [7].

Существуют некоторые работы, которые предлагают подходы к использованию дополнительной информации о качестве сайта при ранжировании [3]. Например, объединение оценок из нескольких источников, таких как оценки асессоров и данные о кликах [14] или текстовая релевантность и дата публикации [6].

В нашей работе мы предлагаем новый подход к качественному ранжированию, которое включает развитие новых аспектов релевантности и внедрение многих факторов, характеризующих качество веб-страницы по предложенным направлениям. На основе нескольких факторов качества мы формируем совокупный рейтинг, который назвали коммерческой релевантностью. В отличие от [14] мы экстраполируем оценку коммерческой релевантности ко всему обучающему множеству.

Для тематически релевантных результатов поиска мы определяем суммарное значение релевантности как взвешенную сумму тематического и коммерческого значений релевантности. Наш подход позволяет значительно улучшить оффлайн и онлайн метрики, по сравнению с «дефолтным» алгоритмом ранжирования.

Остальная часть этой статьи построена следующим образом: в Разделе 2 мы демонстрируем новую шкалу релевантности, которая помогает нам оценивать качество коммерческих сайтов. Раздел 3 посвящен нашему методу обучения, с учетом дополнительной метрики качества документа. В Разделе 4 мы описываем новые факторы ранжирования, которые используются для определения коммерческой релевантности. В Разделе 5 описаны новые метрики для оценки метода. И, наконец, в Разделе 6 обсуждаются наши результаты и планы на будущее.

2. ШКАЛА КОММЕРЧЕСКОЙ РЕЛЕВАНТНОСТИ

Для проведения оценки качества сайта по запросам с коммерческим интентом можно взять за основу оценки асессоров или кликовые данные [9]. Мы решили использовать оценки асессоров, так как они дают менее искаженные данные, по сравнению с кликовыми или тулбарными данными [14].

Используя кликовые или тулбарные данные, очень трудно определить, удовлетворен ли пользователь результатом поиска. Пользовательское поведение по запросам с коммерческим интентом может значительно зависеть от категории продукта, его цены, и т.д. (сравните доставку пиццы и покупку линзы цифрового фотоаппарата). С другой стороны, кликовые и тулбарные данные могут дать некоторую полезную информацию, поэтому мы сделали эти данные доступными для асессоров во время оценивания.

В случае неделимой оценки качества, разные асессоры могут обратить внимание на различные аспекты качества. Кто-то, вероятно, знает сайт и то, что ему можно доверять, несмотря на уродливый дизайн и неудобство использования. Другой асессор обратит особое внимание на присутствие отзывов пользователей и так далее. В целях лучшей формализации процесса оценки мы разделили меру качества сайта на несколько компонентов. В то же время это обеспечивает лучший охват особенностей сайта асессорами.

Основываясь на данных множества исследований [5, 11, 12], мы определили расширенный список аспектов коммерческой релевантности. Затем, для облегчения процесса оценки, мы выбрали четыре характеристики качества, которые, как нам кажется, охватывают большую часть независимой информации о качестве. Это означает, что качество сайта, определенное этими характеристиками, охватывает множество особенностей сайта. Вот перечень отобранных качественных характеристик сайта: надежность (степень доверия к сайту), удобство использования, качество дизайна и качество сервиса.

Мы разработали детальные инструкции по оценке качества сайта для асессоров. Согласно этим инструкциям, оценка состоит из двух стадий. На первой, эксперт должен определить, релевантен ли документ данному запросу. Мы используем широко распространенную шкалу определения актуальной релевантности с 5 уровнями градации, в которые входят нерелевантные, релевантные, очень релевантные, полезные и витальные оценки.

Оценка качества сайта – намного более сложный процесс, отнимающий больше времени, чем оценка тематической релевантности (и особенно анализ кликовых данных). Частично это компенсируется тем фактом, что в нашем методе оценки качество должно оцениваться только для релевантных документов.

Мы не рассматриваем документы с полезными или витальными оценками, предполагая, что они часто являются единственной целью поиска по указанному запросу. Как говорилось ранее, мы сосредотачиваемся только на запросах, которые включают выбор между одинаково подходящими результатами.

На первой стадии оценки также оценивается разнообразие продуктов и услуг, предоставляемых документом по данному коммерческому запросу. Мы различаем три степени разнообразия ассортимента: маленький, стандартный и большой. Числовая оценка разнообразия ассортимента по запросу q и документу d обозначена V (q, d).

В течение второй стадии оценки определяются надежность, удобство использования, качество дизайна и качество сервиса для всего сайта. У надежности (степени доверия) и качества сервиса имеется четыре степени по нашей шкале: спам, нормальный, хороший и отличный.

Сайт будет отмечен как «спам», если он не будет давать возможность совершить заказ или получить желаемую услугу (являться фейковым сайтом). Сайты с оценкой «нормальный» не являются плохими, но и не отличаются от тысяч подобных коммерческих сайтов. «Хорошие» сайты предоставляют пользователям стандартный набор услуг и, наконец, «отличные» сайты – это хорошо известные сайты ведущих компаний. Надежность (степень доверия) и качество сервиса к указанному сайту «s» обозначены «T(s)» и «S(s)» соответственно. Обратите внимание на то, что эти показатели не зависят от определенной пары запросов «q» и документа «d».

У характеристик удобства использования и качества дизайна есть только три степени качества: плохой, хороший и отличный. Показатель этих коммерческих аспектов релевантности обозначен «U(s)» для удобства использования и «D(s)» для качества дизайна. Величина всех вышеупомянутых показателей от 0 до 1.

Для будущего использования информации о качестве во время обучения, мы объединили оценки четырех параметров в единый показатель коммерческий релевантности. Конкретнее, мы использовали следующую формулу:

Rc (q, d, s) = V (q, d) • (2T (s) + U (s) + D (s) + 2S (s)), (1)

где Rc (q, d, s) значение коммерческой релевантности документа «d» по запросу  «q» для сайта «s».

Значимость параметров надежности  (степени доверия) и качества сервиса – вдвое больше, чем у остальных параметров. Это сделано по той причине, что на наш взгляд, эти свойства более важны с точки зрения удовлетворенности пользователей; но мы не рассматриваем этот выбор параметров как единственно возможный.

3. ОБУЧЕНИЕ С НОВЫМИ ОЦЕНКАМИ

Оценка коммерческой релевантности – очень трудная задача, поэтому в условиях ограниченного бюджета количество оценок коммерческой релевантности будет намного меньше, чем количество оценок тематической релевантности. Мы не можем отказаться от тех оценок тематической релевантности, у которых нет соответствующих значений коммерческой релевантности. Это может привести к значительному сокращению размера обучающего множества и, как следствие, к ухудшению качества формулы ранжирования.

Таким образом, прежде чем начать процесс получения информации о рейтинге, мы должны экстраполировать оценку коммерческой релевантности на все обучающее множество. Это процедура экстраполяции состоит из двух шагов. Во-первых, мы обучаем функцию ранжирования на небольшом множестве, которое содержит оценки только коммерческой релевантности. Полученная формула ранжирования дает нам оцененное значение коммерческой релевантности Rc (q, d, s), которое обозначено Rcest (q ,d, s).

После этого мы применяем формулу ранжирования из первого шага к полному обучающему множеству с оценками тематической релевантности. Это является возможным, потому что мы используем один и тот же набор факторов для обоих обучающих множеств. Так как только высоко релевантные документы получат оценку коммерческой релевантности, определение этих оценок также вычисляется только для пар «документ-запрос», обладающих наиболее релевантными оценками по шкале тематической релевантности. Другие пары «документ-запрос» из обучающего множества получат нулевой показатель коммерческий релевантности.

Обладая значениями показателей коммерческой релевантности для всех тематически релевантных результатов по запросам с коммерческим интентом в нашем обучающем множестве, мы можем вычислить показатель объединенной релевантности:

Ru(q, d, s) = Rf (q, d) + α • Rcest (q ,d, s), (2)

где Rf (q, d) тематическая релевантности, Ru (q, d, s) суммарная релевантность и «α» – это весовой коэффициент.

Используя полученный суммарный показатель релевантности, мы обучаем формулу ранжирования по всему массиву данных. Коэффициент весомости «α» определяется эмпирически таким способом, чтобы он, с одной стороны, максимально повышал вклад коммерческой релевантности, а с другой стороны, не в ущерб метрикам тематической релевантности. В итоге мы получаем формулу ранжирования, которая вычисляет суммарную релевантность, в которую, в свою очередь, включены показатели тематической и коммерческой релевантности.

4. ОСОБЕННОСТИ ИЗМЕРЕНИЯ КАЧЕСТВА САЙТА

Для лучшего расчета оценок новой релевантности, которые включают тематическую и коммерческую релевантность, мы вводим некоторые новые параметры, определенные для коммерческих сайтов. Они являются новыми в том смысле, что они почти бесполезны для определения рейтинга с точки зрения тематической релевантности, потому что оценки тематической релевантности не несут информации о коммерческом качестве. Но для приблизительного расчета новой коммерческой релевантности эти особенности очень полезны, так как они охватывают информацию о качестве веб-страницы.

Из многочисленных исследований по этой теме [3, 11, 12] мы выбрали некоторые многообещающие особенности и затем совместили их с нашими собственными разработками. В Таблице 1 приведен список некоторых особенностей качества, использованных в нашем исследовании. Обратите внимание на то, что большинство этих параметров являются доменными фичами, агрегирующими информацию из всех документов коммерческого сайта. Это подтверждается тем фактом, что, согласно Формуле 1, коммерческая релевантность зависит от качества всего сайта.

Список 1: Особенности из