Эффективность обработки длинных запросов на TREC. Короче, есть такая штука TREC - это набор данных, на которых обычно тестируются алгоритмы поиска. Использование одного и того же набора входных данных и метрик позволяет сравнивать алгоритмы между собой. Пара умных людей в 2008 году сравнила эффективность коротких запросов по полю title (название) против эффективности длинных запросов по полю description (описание) и выяснила что в первом случае результаты лучше. Надо сказать что поле описания обычно содержит гораздо больше информации чем поле с названием, но я думаю что это и так понятно.
Также эти умные люди заметили что чем больше длина запроса, тем больше позиция документа на которую кликнули пользователи (типа не на самый первый документ в поисковой выдаче, а пролистали немного и только потом нашли что-то похожее на то что искали. Это плохой показатель для поисковых систем) а также больший процент длинных запросов выдавал результаты на которые не кликали совсем.
Кто-то еще не поленился и провел исследование на тему того что если в коммерческом поиске запрос не возвращает результатов, то это негативно влияет на шанс покупки со стороны пользователя. Вот это поворот. Но может кто-то сомневался, а так есть официальное исследование на эту тему.

Категории многословных запросов.

Касается веб поиска, но думаю частично подойдет и для коммерческого.
- Вопросы. Запросы, начинающиеся со "что", "когда" и т.д.
- Вопросы с логическими операциями. Типа И. ИЛИ. Думаю что тут проблема в том что по факту это несколько запросов объединенных в один, а для ранжирования и поиска обычно используется BM25, и булевы операторы явно не обрабатываются.
- Составные, несколько запросов в одном.
- существительные без глагола.
- Глагольные предложения.

64 процента с многословных запросов были составными.

Также умные люди заметили что при устном составлении запросов используется обычно больше слов, чем при письменном. А также что когда люди печатают поисковый запрос, то используют больше существительныз, а при устном формулировании - больше глаголов.

Команда из eBay заметила что у длинных запросов небольшая повторяемость, то есть они попадают в логи запросов реже по отношению к коротким запросам, что затрудняет использовании оптимизаций с использованием статистики лога запросов.

Top-k покрытие.
30% трафика от всех запросов, которые не возвращают результата покрываются 10% от всех запросов. В то же время 90% трафика для коротких запросов генерируется 10% самых популярных запросов. Что в общем-то объясняет почему все поисковые движки оптимизируют под короткие запросы. Гораздо проще оптимизироваться под 10% запросов и получить улучшения для 90% трафика.

Также в исследовании Phan et al. [2007] показали что короткие запросы обычно относятся к более общим темам, в то время как длинные запросы обычно про более специфичные вещи.
Может, кстати, хорошие результаты для коротких запросов вызваны более общей темой в которую легче попасть? Ну по крайней мере в web. В коммерческом поиске обычно все и проще и сложнее. Либо распознали товар который был нужен, либо нет.

И напоследок Franzen and Karlgren [2000] нашли что чем длиннее поле для ввода поискового запроса, тем длиннее запрос. Такие дела.

В общем, смотря на эту статистику возникает четкое понимание почему под такие запросы никто ничего не оптимизировал. Повторяются редко, генерируют мало трафика, стоит ли вложений? Но, как уже писалось в пошлом посте, время пришло:)