После Лая и Роббинса исследователи последние десятилетия искали алгоритмы, которые могли бы гарантировать минимальное количество сожалений. Из всех обнаруженных самый популярный получил название алгоритма верхнего доверительного предела.
Иллюстрированные статистические показания часто включают в себя так называемые планки погрешностей, которые идут вверх и вниз от любой точки графика, указывая на погрешность измерений; планки погрешностей показывают диапазон вероятных значений, которых измеряемая величина может достигать. Этот диапазон также известен как доверительный интервал, и чем больше информации мы соберем о чем-либо, тем сильнее будет сокращаться доверительный интервал, отражая все более точную оценку. (Например, игровой автомат, выдавший выигрыш один раз из двух, будет иметь более широкий доверительный интервал, хотя и такую же ожидаемую выгоду, как и тот, который выдал выигрыш 5 раз из 10.) Согласно алгоритму верхнего доверительного предела, в задаче с многоруким бандитом достаточно выбрать тот автомат, у которого верхняя точка доверительного интервала будет самой высокой.
Как и индекс Гиттинса, алгоритм верхнего доверительного предела определяет единое число для каждого рычага многорукого бандита. И это число устанавливается равным наибольшему значению, которого автомат мог бы объективно достичь, основываясь на доступной нам до сих пор информации. Таким образом, алгоритм верхнего доверительного предела не учитывает, какой из автоматов был доселе лучшим; вместо этого он выбирает автомат, который объективно мог бы стать лучшим в будущем. Если вы, к примеру, никогда не были в некоем ресторане, он может оказаться гораздо лучше всех тех, что вы знаете. И даже если вы бывали в нем раз-другой и пробовали пару предлагаемых в нем блюд, вы все равно не будете достаточно информированы, чтобы исключить вероятность того, что он может оказаться лучше вашего любимого местечка. Так же, как и индекс Гиттинса, верхний доверительный предел всегда больше ожидаемой выгоды, но становится меньше и меньше по мере того, как мы накапливаем опыт работы с выбранным объектом. (Ресторан, получивший одну-единственную посредственную оценку, по-прежнему сохраняет потенциал превосходства, в отличие от ресторана, получившего сотни таких оценок.) Рекомендации, которые дает алгоритм верхнего доверительного предела, будут такими же, как и у индекса Гиттинса, но их значительно легче выработать, и они не требуют предположения о геометрическом дисконтировании.
Алгоритмы верхнего доверительного предела претворяют в жизнь принцип, прозванный оптимизмом перед лицом неопределенности. Оптимизм, как выясняется, может быть совершенно рациональным. Сфокусировавшись на том лучшем, что может дать объект, принимая во внимание доказательства, полученные к данному моменту, эти алгоритмы увеличивают возможности, о которых мы знали меньше всего. Как следствие, они действительно вносят долю исследования в процесс принятия решений, заставляя с энтузиазмом хвататься за новые возможности, потому что одна из них может оказаться выдающейся. Этот же принцип, к примеру, использовал Лесли Келблинг из Массачусетского технологического института в создании «оптимистичных роботов», которые исследуют пространство вокруг себя, повышая ценность неизведанных территорий. И это, разумеется, имеет значение для жизни человека.
Успех алгоритмов верхнего доверительного предела формально оправдывает пользу сомнений. Следуя этим алгоритмам, вы должны с восторгом знакомиться с новыми людьми и пробовать что-то новое, предполагая о них лучшее за неимением доказательств обратного. В конечном итоге оптимизм – лучшее лекарство от сожалений.
В 2007 году руководитель производственного направления компании Google Дэн Сирокер взял отпуск, чтобы присоединиться к президентской кампании тогдашнего сенатора Барака Обамы в Чикаго. Возглавив команду «Новых медиааналитиков», Сирокер использовал одну из интернет-практик Google для поддержки так называемой кнопки пожертвований кампании. Результат оказался ошеломляющим: $57 млн дополнительных пожертвований стали прямым итогом его работы.
Что именно он сделал с этой кнопкой?
Он провел сплит-тестирование.
Сплит-тестирование (или А/В-тестирование) работает следующим образом: компания разрабатывает несколько версий определенной интернет-странички. Для этого используются, например, различные цвета или изображения, разные заголовки для новостных статей или по-разному располагают элементы на экране. Затем входящие пользователи случайным образом направляются на эти страницы (как правило, в равных количествах). Один пользователь может увидеть красную кнопку, в то время как другой видит синюю; один видит «Передать в дар», а другой – «Пожертвовать». Затем соответствующие количественные показатели – например, число кликов или средняя выручка от каждого посетителя – отслеживаются. Если по истечении определенного периода времени отмечаются статистически значимые результаты, то «победившая» версия, как правило, становится окончательной – или контрольной для следующего цикла экспериментов.
Читать дальше
Конец ознакомительного отрывка
Купить книгу