Д. Х.: Скоро выходит новая, улучшенная версия программы AlphaZero. Действительно, можно сказать, что мы разработали универсальное решение для игр типа шахмат, го, сеги и т. п. И пора делать следующий шаг. Сейчас мы работаем над стратегической игрой для ПК StarCraft со сложным игровым пространством. Там нет статичного набора фигур, как в шахматах, потому что игроки строят свои юниты. Кроме того, присутствует скрытая информация, так называемый «туман войны». Игрок не видит фрагментов экрана, пока не исследует эту область.
Работа над играми – это тренировка. Игры не являются конечной целью; мы хотим построить общие алгоритмы, которые можно будет применять к реальным задачам.
М. Ф.: До сих пор вы в основном сочетали глубокое обучение и обучение с подкреплением. Это правда, что вы считаете обучение с подкреплением способом достижения сильного ИИ?
Д. Х.: Да, это так. Это очень мощный метод, но его нужно объединять с другими. Обучение с подкреплением известно давно, но применялось оно только для решения модельных задач из-за трудностей масштабирования. Во время работы в Atari мы добавили к нему глубокое обучение, которое отвечало за обработку экрана и моделирование среды игры, и подошли к решению более крупных задач в программе AlphaGo и системе DQN. Все эти вещи лет десять назад считались невозможными.
Мы одна из немногих компаний, которые относятся к обучению с подкреплением серьезно, потому что основываемся на представлении о нем в нейробиологии. Речь идет о так называемом обучении на основе временных разностей, или TD-обучении (temporal difference learning). Оно реализуется благодаря системе выработки дофамина. Синтезирующие дофамин нейроны в случае ошибок снижают уровень его выработки, что заставляет в будущем избегать подобных ситуаций, то есть учиться на ошибках. В ответ же на положительные стимулы выработка дофамина увеличивается. Это принцип работы мозга – единственного известного нам примера интеллекта. Возможно, существуют и другие пути, но с точки зрения биологии кажется, что достаточно научиться масштабировать обучение с подкреплением.
М. Ф.: Но ведь когда ребенок учится говорить или познает мир, ни о каком обучении с подкреплением речи не идет. Это обучение без учителя – наблюдение или случайные взаимодействия с окружающей средой.
Д. Х.: Ребенок учится множеством способов: обучение с учителем реализуется при помощи родителей, учителей или сверстников, а экспериментируя с окружающим миром, дети учатся без учителя. Когда ребенок получает похвалу, это уже обучение с подкреплением. Мы работаем над всеми тремя вариантами. Обучение без учителя чрезвычайно важно. Вопрос в том, существует ли внутренняя, эволюционно заложенная мотивация, которая в конечном итоге обеспечивает вознаграждение при обучении без учителя? Есть доказательства того, что сам процесс получения информации воспринимается мозгом как вознаграждение. Имеет место также поиск новизны. Новые впечатления приводят к выработке дофамина.
М. Ф.: Я почувствовал, как глубоко вы интересуетесь нейробиологией и computer science. Сказывается ли это на подходах, которые используются в DeepMind?
Д. Х.: Да, я получил образование в обеих областях. В компании DeepMind больший упор делается на машинное обучение. При этом самая большая группа, возглавляемая профессором Принстонского университета Мэттом Ботвинником, состоит из нейробиологов.
Проблема в том, что нейробиология – обширная область, и если специалист по машинному обучению обратится к ней по какому-либо вопросу, он просто запутается в огромном массиве информации. Многие говорят, что исследования ИИ базируются на нейробиологии, но не могут объяснить, как это происходит. Существуют две крайности. В проекте Blue Brain делаются попытки смоделировать мозг на уровне коры…
М. Ф.: Это проект, который возглавляет Генри Маркрам?
Д. Х.: Да. Там пытаются реконструировать колонки кортекса. Это может быть интересно с точки зрения нейробиологии, но, на мой взгляд, это не самый эффективный путь к созданию ИИ. Все происходит на слишком низком уровне. Мы же в DeepMind пытаемся понять мозг на уровне систем и алгоритмов, которые он реализует, и возможностей, функций и представлений, которые он использует. Нас не интересует точное устройство человеческого мозга. Нет никакой причины создавать компьютерную модель, точно копирующую, например, образование новых нейронов гиппокампа. Но очень интересно, каким способом реализуются функции, за которые он отвечает: эпизодическая память и ориентация в пространстве.
Читать дальше
Конец ознакомительного отрывка
Купить книгу