С этим дисконтированием мы не раз сталкивались в жизни. В конце концов, если вы приезжаете в город на 10 дней, вы будете принимать решение о выборе ресторана, держа в уме именно этот временной промежуток; но если вы живете здесь постоянно, то это теряет смысл. Вместо этого вы можете представить себе ценность выгод, уменьшающихся в будущем: вас больше заботит, что съесть на ужин сегодня, а не что будет на ужин завтра, а завтрашний ужин – больше, чем тот, что состоится через год, особенно в зависимости от лично вашей «дисконтной функции». Гиттинс в свою очередь предположил, что ценность, приписываемая выгодам, уменьшается в геометрической прогрессии: каждый ваш визит в ресторан ст о ит некой относительной доли вашего предыдущего визита. Если, к примеру, вы допускаете, что ваш шанс в любой день быть сбитым автобусом равен 1 %, то вам нужно оценить ваш завтрашний ужин на 99 % от ценности сегодняшнего, потому что есть вероятность его не съесть.
В работе над этим предположением о дисконтировании в геометрической прогрессии Гиттинс изучал стратегию, которая, как он думал, «была бы по меньшей мере хорошим приближением»: думать о каждой «руке» многорукого бандита по отдельности и попытаться вычислить ее самостоятельную ценность. Объяснял он это на весьма забавном примере – на взятках.
В популярной телеигре «Сделка?!» участник выбирает один из 26 портфелей, в которых находятся призы от одного цента до миллиона долларов. По ходу игры таинственный персонаж по имени Банкир периодически звонит и предлагает участнику различные суммы, чтобы тот не открывал выбранный портфель. Задача участника – решить, какую названную Банкиром сумму предпочесть неизвестному призу в чемодане.
Гиттинс (пусть и за много лет до выхода в эфир первого выпуска игры) понял, что проблема многорукого бандита ничем не отличается. О каждом игровом автомате мы знаем крайне мало, а то и вовсе ничего, но есть некая гарантированная сумма выигрыша, которая, если нам предложат ее взамен игры на автомате, заставит нас больше никогда не дергать этот рычаг. Эта цифра, которую Гиттинс назвал «динамический индекс распределения» и которую весь мир знает сегодня как индекс Гиттинса,предлагает очевидную стратегию поведения в казино: всегда играйте на автомате с наивысшим индексом [6].
По факту стратегия индексирования оказалась удачной. Она полностью решает проблему многорукого бандита с геометрически дисконтированными выигрышами. Напряженные взаимоотношения между исследованием и эксплуатацией превращаются в более простую задачу по максимизации единственной величины, которая составляет долю и того и другого. Гиттинс скромно оценивает свои достижения: «Это, конечно, не великая теорема Ферма, – говорит он со смешком, – но это теорема, позволяющая решить ряд вопросов дилеммы "исследование/эксплуатация"».
Расчет индекса Гиттинса для конкретного агрегата, учитывая показатели его работы и нашу ставку дисконтирования, используется и сегодня. Но как только индекс Гиттинса для определенного набора предпосылок становится известен, он может в дальнейшем использоваться для решения всех задач такого плана. Примечательно, что количество рычагов не имеет значения, поскольку индекс для каждого рассчитывается отдельно.
В таблице ниже приведены значения индекса Гиттинса для девяти успехов и неудач с тем расчетом, что выигрыш в следующей игре будет стоить 90 % от выигрыша нынешнего. Эти значения могут использоваться для решения задач многорукого бандита в повседневных делах. Например, руководствуясь данными предположениями, вы должны выбрать тот игровой автомат, у которого результат прошлых игр 1: 1 (и ожидаемая ценность 50 %), а не тот, у которого результат 9: 6 (и ожидаемая ценность 60 %). Сравнение соответствующих значений в таблице показывает, что у менее известного автомата индекс 0,6346, а у другого индекс всего 0,6300. Проблема решена: испытай удачу в этот раз и исследуй.
Глядя на таблицу значений индекса Гиттинса, можно отметить несколько интересных моментов. Во-первых, наглядно показано, как работает принцип «оставайся победителем»: в любой строке слева направо значение индекса возрастает. То есть если вы выбрали автомат, дернули за рычаг и получили выигрыш, то (согласно таблице) имеет смысл снова дергать именно его. Во-вторых, можно увидеть, в каких случаях принцип «проиграл – переключись» может вас подвести. Девять выигрышей подряд и следующий за ними проигрыш дадут индекс 0,8695, который выше других значений в таблице, и, таким образом, вам нужно оставаться у этого автомата по меньшей мере еще на одну игру.
Читать дальше
Конец ознакомительного отрывка
Купить книгу