Болельщики были шокированы и смущены. Ли Седол побледнел, извинился и покинул помещение на целых пятнадцать минут. Англоязычные комментаторы хранили молчание, пока один из них не сказал, изрядно преуменьшив факты: «Ход по-настоящему удивительный».
Вначале Фан Ху, смотревший игру вместе с колумнистом журнала Wired Кейдом Метцем, был озадачен не менее остальных. «Это нечеловеческий ход, — сказал он Метцу. — Никогда не видел, чтобы человек так ходил». Как позднее отмечал Метц [377], два с половиной тысячелетия накопленных знаний об игре в го и их осмысления не смогли подготовить человечество к ходу номер 37 во второй партии турнира. Никого из людей, кроме Ху. После проигрыша AlphaGo прошлой осенью Ху провел много часов, помогая команде DeepMind из Google «тренировать» программное обеспечение к матчу с Седолом, и этот опыт помог ему понять, как тот самый ход увязал между собой черные камешки в нижней части доски и стратегию, которую реализовывала AlphaGo. «Очаровательно», — сказал он, а потом все повторял и повторял это словечко. Это была не просто tesuji — умная игра, сбивающая противника с толку. Это была работа, блистательная как в эстетическом, так и в стратегическом смысле — может быть, даже достойная называться myoshu . Седол продолжил демонстрировать почти безупречное го, но этого было недостаточно, чтобы противостоять мощной креативности программы DeepMind, которую та демонстрировала даже после хода номер 37. К концу дня стало ясно, что AlphaGo не просто выиграла вторую партию — в процессе она еще и выказала истинно человеческие качества: импровизацию, креативность и даже своего рода изящество. Так мы узнали, что у машины имеется душа.
* * *
Через несколько недель после завершения «Решающей игры между людьми и машинами» Демис Хассабис, один из исследователей искусственного интеллекта, создававших DeepMind, выступил в MIT. Темой его доклада стал прошедший турнир и история разработки AlphaGo его командой. На мероприятии, посвященном DeepMind и проводившемся в одном из крупнейших лекционных залов университета, яблоку было негде упасть: студенты только что не лезли на стену, чтобы послушать, как Хассабис рассказывает о подходе к машинному обучению, с помощью которого его команде удалось опровергнуть мнение экспертов, утверждавших, что компьютеру понадобится десяток лет, дабы победить такого виртуоза, как Седол.
Ключ состоял в хитроумной комбинации глубинного обучения — своего рода распознавания паттернов, сходного с тем, как человеческий мозг (или Google) умеет распознавать кошку или пожарную машину, увидев множество соответствующих изображений, — и «научения» статистическим образом предугадывать вероятное развитие событий или, в случае го, вероятный ход действий человека-игрока в конкретной ситуации на основании анализа всех игр, сыгранных в прошлом. Это помогло создать рудиментарную модель игрока го, который угадывал ходы, исходя из паттернов, наблюдавшихся во время изученных партий прошлого. Потом к этому добавилось своего рода обучение закреплением, которое позволяет компьютеру пробовать разные новые вещи. Как человеческий мозг учится, получая вознаграждение в виде дофамина, когда добивается успеха, а дофамин закрепляет нейронный путь к отметке «правильно», обучение закреплением позволяет компьютеру пробовать разные вещи, вознаграждая за успешные эксперименты и тем самым закрепляя стратегии, которые привели к успеху. AlphaGo начала с базовой версии самой себя, создавая затем слегка различающиеся версии, по миллиону раз пробуя многообразные стратегии, вознаграждая те, что привели к победе, и становясь все сильнее и сильнее в процессе игры против улучшенных версий. Позднее, играя с человеком-экспертом, машина делала сильнее и себя, и своего противника-человека, неустанно продолжая обучаться.
В своем выступлении Хассабис раскрывал один прорывной шаг за другим — некоторые из них ученые, собравшиеся в зале, ранее сочли бы нереальными. Возбуждение аудитории можно было намазывать на хлеб. Также Хассабис продемонстрировал фотографии и видеозаписи оставшейся части партии между AlphaGo и Ли Седолом. Как оказалось, ход номер 37 был не последним драматическим моментом турнира. После второй партии Седол усвоил полученный урок и разработал стратегию, основанную на известных недостатках алгоритма поискового дерева Монте-Карло. Седол открыл третью партию, применив «ко-борьбу», когда одна сторона забирает камешек своего противника, вынуждая последнего сделать ответный ход («ко-угрозу») или утратить инициативу. Подобное агрессивное начало со стороны игрока уровня Седола разбило бы надежды большинства противников. А вот AlphaGo без видимых усилий отражала каждую блестящую атаку. Наш комментатор задался вопросом, не являются ли они свидетелями «третьей революции» в стратегии игры в го.
Читать дальше
Конец ознакомительного отрывка
Купить книгу