Коротко напомню читателям, что же такое есть эти "рекомендации".
С появлением в интернете большого количества контента и разнообразных товаров (доступных для on-line покупок) появилась задача автоматически рекомендовать посетителям сайтов (покупателям) другие, подобранные по различным критериям, товары/услуги или контент. С примерами подобных автоматических рекомендаций мы сталкиваемся постоянно. Когда покупаем книги на Ozon.ru (в секции "Купившие этот товар также покупают"), или когда когда выбираем музыку на last.fm (под названием "радио").
Коллаборативная фильтрация
В основе автоматических рекомендаций лежат методы поиска подобия среди различных элементов (их чаще называют образцами) в коллекции (каталоге). Причем, методов поиска подобия образцов много, они специфичны для каждой предметной области и существовали еще со времен первого алгоритма сортировки. Стоит ли говорить, о том что они (методы) так же давно и успешно применялись в различных программах. Однако, впервые, применимость этих методов для поиска подобия по рейтингу на множестве образцов была озвучена Дэвидом Голдбергом в 1992 году в статье "Using collaborative filtering to weave an information
tapestry" (и с тех пор ставшая известной как "коллаборативная фильтрация").
Основной принцип поиска подобия в "коллаборативной фильтрации" прост. Рассмотрим его на примере. Допустим у нас есть 1000 образцов и 5000 пользователей. Некоторые пользователи оценили некоторые образцы, выставив им оценку (от 0 до 10). Отсутствие оценки обозначено как "-". Отобразим это в виде таблицы, где в колонках представлены образцы, а в строках пользователи и выставленные ими оценки:
Пользователь/образец | Продукт:творог | Фильм:"Аватар" | ... | Продукт:Молоко |
---------------------|----------------|----------------|-----|----------------|
Василий | - | 8 | | 5 |
Петр | 10 | 3 | | 2 |
Степан | 5 | 10 | | 10 |
................... | .............. | .............. | ... | .............. |
кот Мурзик | 5 | - | | 10 |
В примере: пользователь Василий - не очень любит молочные продукты и никогда не ел творог, но любит фантастику, поэтому он поставил оценки творогу/фильму/молоку соответственно -/8/5; пользователь Петр - очень любит творог, но не переносит лактозу, кроме того, он аналитически подходит ко всему и увидел в фильме "Аватар" бесконечное количество несуразиц, поэтому он поставил оценки творогу/фильму/молоку соответственно 10/3/2; пользователь Степан - нейтрально относится к творогу, очень любит спец.эффекты в фильмах и жить не может без молока, поэтому он поставил оценки творогу/фильму/молоку соответственно 5/10/10; кот Мурзик индифферентен к фильмам и к большинству человеческих благ (в том числе on-line шоппинг), но очень любит молоко, а творог для плотоядного саблезубого хищника как нечто среднее (из разряда съесть можно), поэтому он поставил оценки творогу/фильму/молоку соответственно 5/-/10.
Порекомендуем коту Мурзику образцы которые он еще не оценивал (и которые могут его заинтересовать), методом коллаборативной фильтрации... Для этого, первым шагом, найдем пользователя выставившего похожие оценки для образцов. Таковым оказался Степан. Далее смотрим, каким еще образцам Степан дал высокую оценку и "порекомендуем" их коту Мурзику. Таковым оказался фильм "Аватар". Причем, метод поиска "подобия" может быть разным и учитывать выставленные оценки можно вычисляя коэффициент подобия Пирсона (например).
Эти и другие недостатки "коллаборативной фильтрации" я описывал ранее в статье о системе персональных рекомендаций Оракул. Однако, это не означает, что данный подход является "ущербным" и не может работать при однородных множествах, определенных допущениях и прочих оговорках. Кстати, об этом Голдберг и упоминает в своей статье. Только количество этих оговорок и допущений настолько велико, что не встречается в реальной жизни (только в "лабораторных" условиях и математических моделях).
Однородные множества
Конечно, можно собрать в одно множество только фильмы или только молочные товары, или прочее. Это повысит эффективность "рекомендаций". Кроме того, множество образцов не сравнимо мало с множеством пользователей. Последних может быть миллионы (в сравнении с тысячами образцов). И если образцы можно сгруппировать в сравнительно "однородные" множества (фильмы к фильмам а книги к книгам), то пользователей группировать по общим оценкам - это безумие. Каждый человек индивидуален! Каждый желает индивидуального подхода.
Как оценить пользователя и сравнить его с другими "похожими". Эта задача пересекается с психологией и множеством других "пограничных" наук. Я предлагал оценивать персональные особенности пользователей по их типам характеров (К. Леонгард – демонстративный, педантичный,
застревающий, возбудимый). Эта классификация наиболее коррелирует с предпочтениями человека. Можно оценивать человека и по его 7-ми радикалам (В. Пономаренко - истероидный, эпилептоидный, паранойяльный, эмотивный, шизоидный, гипертимный, тревожный). Так или иначе, каждый человек индивидуален. Даже в группе "друзей", каждый человек индивидуален и в одной группе не будет четко выраженных демонстративных типов характеров или эпилептоидов. Однако, группа "друзей" сокращает множество пользователей с миллионов до сотен и так же может повысить эффективность рекомендаций от "коллаборативной фильтрации". Это ограничение существенно повысит скорость расчета коэффициентов подобия (не требуется уже искать подобных пользователей среди миллионов, а следует искать среди сотен "друзей"), но всё еще сохранит все недостатки "не персонального" подхода. Т.е. коту Мирзику так и будут рекомендовать фильм "Аватар", потому что его человек Степан у него в друзьях (хозяин он кота).
Социальные рекомендации
Это новая струя? Хороший вопрос. Учитывая тенденцию развития социальных сетей и всевозрастающий спрос на "социальную дистрибуцию" контента, складывается ложное представление о том, что порекомендовав своим друзьям образец (отметив его как "Like" в Facebook или отправив ссылку на e-mail) подобные "рекомендации" в корне отличаются от "исчерпавшей свой потенциал" коллаборативной фильтрации. Если не учитывать персональность каждого пользователя, подобные рекомендации ни чем не лучше подобия на однородном множестве.
Забытое ли это "старое"? Однозначно! Так же как и является изобретением колеса. Я порекомендовал своему другу посмотреть фильм "Аватар" (или пить молоко с мёдом на ночь). И это уже не просто "рекомендация", а "социальная рекомендация". Ведь это мой друг.
Профанация ли это? Не хочу обижать самолюбие людей принимающих решения, но это аналогично всей предыдущей им "навешанной на уши лапше".
Продолжение следует ...
Комментариев нет:
Отправить комментарий