Предобучение даёт нейронной сети какие-то знания о языке и мире, но языковая модель сама по себе не может при этом решать никаких прикладных задач. Про задачи и конкретные предметные области эта сеть ничего не знает. Это сеть-школьник, сеть-бакалавр!
Так что потом идёт fine-tune, прикладная подстройка:берётся эта безумно дорогая предобученная языковая модель и очень быстро и дёшево на небольшом прикладном материале (скажем, несколько книг) доучивается решать одну или даже десять разных прикладных задач в какой-то узкой предметной области. Например, можно быстро доучить такую языковую модель сдавать экзамен MIT по курсу машинного обучения с результатами лучше, чем у студентов 80 80 https://arxiv.org/abs/2107.01238
.
Это оказывается экономически эффективно: дорогое и долгое предобучение делается один раз, результат запоминается. Потом подстройка делается легко и быстро каждый раз. За пару последних лет такой подход предобучения+настройки стал мейнстримом в AI 81 81 Pretrain then Finetune: A New Paradigm for NLP – https://www.mihaileric.com/posts/nlp-trends-acl-2019/
. И чем больше и лучше предобученная языковая модель, тем дешевле и быстрее для неё делать подстройку для какого-то класса задач. Большие деньги на предобучение языковой модели нужно затратить один раз, а на прикладную подстройку много денег не нужно, так что это можно делать много раз для самых разных предметных областей 82 82 https://arxiv.org/abs/2005.14165
.
Более того, качественное предобучение часто оказывается достаточным, и подстройки не требуется вообще! Новая парадигма машинного интеллекта связана не с «предобучи, потом подстрой», а с «предобучи, получи приглашение/prompt, предскажи» 83 83 https://arxiv.org/abs/2107.13586
(prompt engineering, иногда называют это Software 3.0).
Знаний у предобученного человека уже вполне достаточно, чтобы предсказать хоть что-то и без подстройки под предметную область, если он сможет какие-то части ситуации воспринять как приглашение к рассуждениям. Но нужно уметь выхватывать из жизни правильные «приглашения», этому тоже нужно учиться. В том числе нужно учиться, конечно, и давать правильные «приглашения» другим людям, чтобы получить от них ответы.
Этот способ взаимодействия с миром очень похож на происходящее в детской песенке:
– Далеко, далеко На лугу пасутся ко…
– Кони?
– Нет, не кони!
– Далеко, далеко На лугу пасутся ко…
– Козы?
– Нет, не козы!
– Далеко, далеко На лугу пасутся ко…
– А, коровы!
– Правильно, коровы! Пейте, дети, молоко – Будете здоровы!
Обратите внимание, что для правильного ответа нужно уже много чего знать. Идея предобучения в том, чтобы (в отличие от детской песенки, где требуется просто заранее знать возможные ответы) иметь компактное описание самых разных ситуаций, чтобы делать приемлемые предсказания ответов даже в отсутствие знаний о конкретных предметах какой-то предметной области. Рассуждения делаются с абстрактными описаниями, которые оказываются приложимы к самым разным конкретным предметам – и это срабатывает! Умный человек оказывается не столько много знающим, сколько знающим что-то универсальное, а потом умеющим это универсальное знание применять в самых разных ситуациях.
В детском саде, школе и бакалавриате занимаются предобучением нейронной сети мозга человека, хотя для этого и используют другие методы, нежели при предобучении компьютерных нейронных сетей. Это предобучение формирует у студентов самые общие фундаментальные знания о мире и не предполагает какой-то специализации и профессиональных умений для каких-то отдельных задач. Нет, «общий интеллект», умение учиться, какой-то кругозор – и всё. Для большинства задач, которые нужно решать в рабочих проектах, нужно будет доучиваться специально: заканчивать магистратуру (а если даже речь идёт не о высшем образовании, то всё равно придётся пройти курсы специализации в колледже).
Свой язык и даже один-два иностранных языка ко времени прохождения бакалавриата все уже знают, текстов самых разных прочли много, так что именно языковой модели учить не нужно, но вот надёжной и компактной модели мира и себя, паттернов эффективного мышления у большинства людей на входе детского сада, школы, бакалавриата нет – вот им и учат, предобучают «мокрую нейросетку» студентов, много-много лет.
Читать дальше