Однако того же нельзя сказать об игроках. Одним из лучших игроков в нарды в мире сейчас является компьютерная программа. В начале 1990-х годов Джеральд Тезауро, программист из компании IBM, начал разрабатывать новый вид искусственного интеллекта (ИИ). В то время большинство программ ИИ основывались на примитивных вычислительных возможностях микросхем. Этот подход был использован в Deep Blue , мощном суперкомпьютере IBM, сумевшем в 1997 году побить шахматного гроссмейстера Гарри Каспарова. Deep Blue мог анализировать более двухсот миллионов возможных шахматных ходов в секунду и, таким образом, имел возможность постоянно выбирать оптимальную шахматную стратегию. (Мозг Каспарова, напротив, мог просчитывать лишь около пяти ходов в секунду.) Но вся эта стратегическая огневая мощь требовала большого количества энергии: во время шахматного матча Deep Blue был пожароопасен и требовал специального охлаждающего оборудования, чтобы не загореться. Между тем Каспаров даже практически не вспотел. Дело в том, что человеческий мозг — прекрасный образец производительности: даже когда он погружен в глубочайшие раздумья, кора головного мозга потребляет меньше энергии, чем электрическая лампочка.
В то время как массовая пресса превозносила потрясающее достижение Deep Blue — машина переиграла самого великого шахматиста в мире, — Тезауро был озадачен ограниченностью ее возможностей. Машина, способная думать в миллионы раз быстрее, чем ее человеческий противник, с трудом выиграла матч. Тезауро понял, что проблемой всех стандартных программ ИИ, даже таких блестящих, как у компьютера Deep Blue , является негибкость. Большая часть интеллекта Deep Blue была заимствована у других шахматных гроссмейстеров, чья мудрость была оцифрована и заложена в его программу. (Программисты из IBM также изучили предыдущие шахматные матчи Каспарова и настроили программу на использование его повторяющихся стратегических ошибок.) Но сама машина не могла учиться. Вместо этого она принимала решения, предсказывая вероятные последствия нескольких миллионов различных шахматных ходов. Ход с максимальной предсказанной «ценностью» был тем, который компьютер в результате и совершал. Для Deep Blue игра в шахматы была просто бесконечной серией математических задач.
Конечно, такой вид искусственного интеллекта не является точной моделью человеческого сознания. Каспаров смог соревноваться на том же уровне, что и Deep Blue , хотя его мозг обладал гораздо меньшей вычислительной мощностью. Удивительная догадка Тезауро состояла в том, что нейроны Каспарова были так эффективны потому, что они сами себя натренировали. Их усовершенствовал многолетний опыт выявления едва различимых пространственных шаблонов на шахматной доске. В отличие от Deep Blue, анализировавшего каждый возможный ход, Каспаров мог сразу взвесить возможные стратегические варианты и сосредоточить свои умственные силы на оценке только самых перспективных из них.
Тезауро решил создать программу ИИ, которая бы действовала как Гарри Каспаров. Для своей модели он выбрал нарды (backgammon) и назвал программу TD-Gammon. (TD, temporal difference , означает «временное различие»). Deep Blue был изначально запрограммирован на игру в шахматы, а программа Тезауро начинала с чистого листа. Сначала ее ходы были совершенно случайными. Она проигрывала каждый матч и делала глупые ошибки. Но компьютер недолго оставался новичком — TD-Gammon был запрограммирован так, чтобы учиться на собственном опыте. Днем и ночью он играл в нарды сам с собой, терпеливо выясняя, какие ходы наиболее эффективны. После сотен тысяч партий TD-Gammon мог выиграть у лучших человеческих игроков в мире.
Как машина превратилась в эксперта? Хотя математические подробности программы Тезауро утомительно сложны, базовый подход крайне прост [13] Модель TD-leammg (temporal difference learning — обучение временным различиям), использованная Тезауро, основывалась на новаторской работе специалистов в области теории вычислительных машин Рича Саттона и Эндрю Барто. В начале 1980-х годов, будучи аспирантами в Университете Массачусетса в городе Амхерст, Саттон и Барто попытались создать модель искусственного интеллекта, способную обучаться простым правилам и поступкам и применять их для достижения цели. Это была смелая идея, научные наставники пытались отговорить их от бесплодных попыток, но молодые ученые были упрямы. «Это всегда было недостижимой целью в информатике, — говорит Саттон. — Марвин Мински написал диссертацию об обучении с подкреплением и практически сдался. Он пришел к выводу, что это невозможно, и покинул эту область. К счастью для нас, он был не прав. Мы знали, что даже простейшие животные способны к самообучению (никто не учит птицу, как ей искать червяков), мы просто не знали, как они это делают».
. TD-Gammon порождал набор предсказаний о том, как будет развиваться игра в нарды. В отличие от Deep Blue , это компьютерная программа не исследовала каждое возможное перемещение. Вместо этого она действовала как Гарри Каспаров и порождала предсказания, основываясь на своем прошлом опыте. Программное обеспечение сравнивало эти предсказания с реальным ходом игры. Выявленные несоответствия становились материалом для обучения, и программа стремилась постоянно сокращать «ложный сигнал». В результате точность предсказаний постоянно росла, и, следовательно, стратегические решения программы становились все более эффективными и разумными.
Читать дальше