В 1986 г. мы описали это в статье для журнала Nature . Тема сильно заинтересовала одного из рецензентов. Как психолог, он понимал, что алгоритм, обучающий представлению о вещах, станет огромным прорывом. Так что мой вклад заключается не в открытии алгоритма обратного распространения, а в том, что я смог показать, как этот метод может применяться для обучения распределенным представлениям. Именно это оказалось интересно психологам и, в конечном итоге, людям, которые занимались вопросами ИИ.
В начале 1990-х Иошуа Бенджио перенес этот метод на более быстрые компьютеры. Он применил нейронную сеть к естественному языку. Сеть брала из текста несколько слов в качестве контекста и могла предсказать следующее слово. Ян Лекун, который в это время занимался компьютерным зрением, показал, что метод обратного распространения хорошо обучает фильтры обработки визуального входа. Это не стало особым открытием, так как примерно такие же вещи делает человеческий мозг. А вот то, что метод обратного распространения позволил машине уловить значения слов и синтаксис, стало большим прорывом.
М. Ф.: Правильно ли я понимаю, что в то время работа с нейронными сетями еще не была основным направлением в исследованиях ИИ?
Дж. Х.: До некоторой степени да, но тут нужно отдельно рассматривать ИИ и машинное обучение, с одной стороны, и психологию – с другой. В 1986 г., когда метод обратного распространения стал популярным, им заинтересовались психологи. Это был устойчивый интерес, хотя алгоритм не копировал происходящие в мозге процессы. А в конце 1980-х гг. Ян Лекун получил впечатляющие результаты по распознаванию рукописных цифр. Метод обратного распространения хорошо себя показал и в других областях, таких как контроль мошенничества с кредитными картами. Но ожидания тех, кто считал, что теперь нам будут доступны настоящие чудеса, не оправдались.
В начале 1990-х гг. оказалось, что на небольших наборах данных лучше себя показывают другие методы машинного обучения. Например, метод опорных векторов с меньшими усилиями распознавал рукописные цифры. И интерес к обратному распространению затух.
Идея метода обратного распространения состояла в обучении множества слоев, но обучить удалось только не очень глубокие сети. С точки зрения специалистов по статистике и ИИ мы были мечтателями, которые надеялись получить информацию обо всех весах только по входным и выходным данным. На тот момент нам не хватало знаний, чтобы заставить все это работать.
До 2012 г. большинство специалистов по компьютерному зрению считали все это сумасбродством, хотя системы Яна Лекуна иногда работали лучше, чем их собственные. Ян написал статью, но ее не приняли, так как считалось, что этот способ не даст результатов. Даже в мире науки альтернативные подходы отвергаются.
Но внезапно крупный конкурс выиграли двое моих учеников. Они применили комбинацию методов, разработанных в лаборатории Лекуна, и наших собственных техник и получили в два раза меньше ошибок, чем лучшие системы компьютерного зрения.
М. Ф.: Речь идет о проекте ImageNet?
Дж. Х.: Да. Там случилось то, что периодически происходит в науке. Метод, который привыкли считать полной бессмыслицей, превзошел метод, в который все верили. За следующие два года все переключились на сверточные нейронные сети. Сейчас никто даже не думает о классификации объектов без использования нейронной сети.
М. Ф.: То есть в 2012 г. наступил переломный момент в отношении глубокого обучения?
Дж. Х.: Это был переломный момент для компьютерного зрения. В сфере распознавания речи он случился раньше. В 2009 г. два аспиранта из Торонто показали, что глубокое обучение позволяет улучшить распознавание речи. Они стали стажерами в IBM и Microsoft, а другой мой студент принес эту систему в Google.
М. Ф.: Если почитать современную прессу, создается впечатление, что нейронные сети и глубокое обучение – это эквивалент ИИ.
Дж. Х.: Долгое время ИИ считался системой, запрограммированной на определенные правила обработки символьных строк. В этом заключался интеллект. Оставалось уточнить, как выглядят эти правила и строки. Затем появились нейронные сети. Это была попытка смоделировать разум по образцу человеческого мозга.
Обратите внимание, что ИИ в том виде, как его изначально понимали, не имел отношения к обучению. В 1970-х гг. упор делался на определение правил и выбор символических выражений. Считалось, что рано думать об обучении. Тех же, кто занимался нейронными сетями, интересовали вопросы обучения, восприятия и управления движением. Они считали, что с точки зрения эволюции способность рассуждать логически появляется на поздних стадиях развития.
Читать дальше
Конец ознакомительного отрывка
Купить книгу