Другими словами, временной промежуток, в течение которого вы можете загрузить цели в искусственный интеллект, может оказаться чересчур коротким – между моментом, когда он слишком глуп, чтобы понять вас, и моментом, когда он уже стал слишком умен, чтобы позволить вам это сделать. Причина, по которой загрузка целей может оказаться сложнее для машин, чем для людей, состоит в том, что их разум может развиваться намного быстрее: если ребенок много лет пребывает в том прекрасном возрасте, когда его разум сопоставим с разумом родителя, то для искусственного интеллекта этот возраст может закончиться через несколько дней, а то и часов, как это было с Прометеем.
Для загрузки целей в машину некоторые ученые предлагают другой подход, который обозначают модным словечком коррегируемость (corrigibility) . В его основе лежит надежда на то, что примитивному искусственному интеллекту можно задать любую систему целей, потому что вы все равно его время от времени выключаете, а выключив, можете скорректировать и систему целей. Если это окажется возможным, тогда можно спокойно позволить своему искусственному интеллекту становиться сверхразумным, периодически выключая его и меняя ему систему целей, потом проверяя ее и, если результат окажется неудачным, выключая снова, чтобы проделывать новые манипуляции с целями {92} 92 В подходе обратного обучения с подкреплением ключевая идея состоит в том, что искусственный интеллект стремится к максимальному удовлетворению не своих целей, а целей его владельца-человека. Поэтому он должен проявлять осторожность в тех случаях, когда непонятно, чего в точности хочет владелец, и надо поначалу с этим разобраться. Тогда проблемы с выключением не возникает: оно указывает на возникшее непонимание истинных намерений владельца.
.
Но даже если вы сможете создать такой искусственный интеллект, который поймет и примет ваши цели, проблема соответствия его целей и ваших все еще останется нерешенной: что, если цели вашего искусственного интеллекта будут изменяться с его развитием? Чем вы сможете гарантировать, что он будет сохранять приоритет ваших целей в ходе рекурсивного самосовершенствования? Давайте исследуем один любопытной аргумент, показывающий, что автоматическое сохранение целей гарантировано, и затем посмотрим, найдем ли мы в нем слабые места.
Хотя мы не можем в точности предсказать, что произойдет после интеллектуального взрыва, – именно поэтому Вернор Виндж назвал это сингулярностью, – физик и исследователь искусственного интеллекта Стив Омохундро в бурно обсуждавшемся эссе 2008 года утверждал, что мы, тем не менее, можем предсказать некоторые аспекты поведения сверхразума, которые практически не зависят от его окончательных целей {93} 93 См. статью Стива Омохундро: http://tinyurl.com/omohundro2008
. Это утверждение было подхвачено и дальше развито в книге Ника Бострёма Superintelligence . Основная идея состоит в том, что, каковы бы ни были конечные цели, сопутствующие им вспомогательные цели будут предсказуемыми. Ранее в этой главе мы видели, как цель воспроизведения привела к появлению вспомогательной цели утоления голода. Это означает, что если бы пришелец наблюдал за развитием бактерии на Земле миллиард лет назад, он не смог бы предвидеть, какие цели будут у людей, но мог бы с точностью предсказать, что одной из наших целей будет потребление питательных веществ. Заглядывая вперед, каких вспомогательных целей нам стоит ожидать от сверхразумного искусственного интеллекта?
Я смотрю на это так: для увеличения шансов достичь своих конечных целей, какими бы они ни были, искусственный интеллект должен преследовать вспомогательные цели, представленные на рис. 7.2. Для достижения своих конечных целей он должен стараться не только улучшить свои возможности, но и убедиться, что он сохранит эти цели даже после того, как достигнет более высокой степени развития. Это звучит довольно правдоподобно: в конце концов, согласились бы вы имплантировать себе в мозг бустер, увеличивающий IQ, если бы знали, что он заставит вас желать смерти любимых? Аргумент, что любой быстро развивающийся искусственный интеллект сохранит свои конечные цели, лег краеугольным камнем в представление о дружелюбии, пропагандируемое Элиезером Юдковски с коллегами: оно говорит нам, что если мы сумеем добиться от самосовершенствующегося искусственного интеллекта дружелюбия через понимание и принятие наших целей, тогда мы в порядке – тем самым будет гарантировано, что он навсегда останется дружелюбным.
Читать дальше
Конец ознакомительного отрывка
Купить книгу