Первой из движущих сил, породившей огромный интерес и создавшей высочайшую активность в области искусственного интеллекта, является колоссальный объем данных, доступных в современном мире. Специалисты называют разные цифры, но все они сходятся на том, что объем данных, генерируемых человечеством, удваивается каждые два года. Это означает, например, что в 2022 году будет создано (или скопировано) 88 зетабайт (то есть 88 трлн гигабайт) данных. Для нашей темы это исключительно важно, потому что большая часть технологий искусственного интеллекта подпитывается массовыми данными – без них искусственный интеллект был бы бесполезен, как электростанция без топлива.
Чтобы обучить систему искусственного интеллекта (например, нейронную сеть) с той или иной степенью точности, требуются миллионы примеров, и чем сложнее модель, тем больше примеров необходимо. Вот почему крупные интернет-компании и социальные сети, такие как Google и Facebook, настолько активны в сфере искусственного интеллекта – именно у них в первую очередь достаточно данных для такой работы. Поиски, выполняемые с помощью Google, создают около 3,5 млрд запросов в день, а публикации в «Фейсбуке» ежедневно обновляют 421 млрд статусов, загружают 350 млн фотографий и генерируют почти 6 трлн «лайков» – так вот и возникает топливо для этих систем. Один только Facebook формирует около 4 млн гигабайт данных каждые 24 часа.
Этот огромный объем данных используется искусственным интеллектом для создания тех или иных «ценностей» – в самом широком понимании. Воспользуемся снова простым примером, который я использовал в предыдущей главе: когда систему DNN обучают распознавать изображения собак. Чтобы научить систему, вам понадобится множество изображений собак, помеченных для системы как «собака», и такое же множество других изображений, где собаки отсутствуют и которые, соответственно, помечены как «собак нет». Только после того, как система научится распознавать собак с использованием исходного набора данных и пройдет этап предварительной проверки, на котором алгоритм дополнительно настраивается с использованием обучающих данных, разбитых на подмножества, систему можно (и нужно) протестировать на «чистом», то есть немаркированном наборе изображений.
Не существует строгих указаний относительно того, сколько именно данных необходимо для подобного тестирования, но, как правило, потребность в обучающих данных составляет около 30 % от общего массива.
Огромные объемы данных, которые мы постоянно создаем, используются в компьютерном мире каждую минуту и большей частью без нашего ведома, но с нашего согласия (как правило, невольного или неявного). Взять, к примеру, ваши поиски в Google. Когда вы вводите поисковый запрос, вы периодически пишете слова неправильно, или с ошибками, или не вполне стандартным (например, просторечным) образом. В ответ на это Google обычно предлагает вам результаты, основанные на правильном, или более распространенном, или более литературном написании этого слова. Скажем, если я пишу «Эндрю Дерджесс» (англ. Andrew Durgess), Гугл показывает мне результаты для Эндрю Берджесса (англ. Andrew Burgess), хотя я могу заставить его выполнить поиск именно для написанного мной варианта. Это означает, что Google постоянно собирает данные о версиях слов с ошибками и, что еще важнее, о том, какие предлагаемые системой исправления являются приемлемыми для пользователя, а какие – нет. Все эти данные затем используются для настройки проверки орфографии с помощью искусственного интеллекта. Но если, как в моем примере, существует реальный человек по имени Эндрю Дерджесс, который завтра внезапно станет знаменитым, то множество людей бросятся искать информацию о нем, и Google быстро отменит исправление «Эндрю Берджесс», поскольку все меньше и меньше людей принимают его и вместо этого выберут поиск: «Эндрю Дерджесс, точно как написано».
Экспоненциальный рост объема данных происходит сейчас не только в социальных сетях и поисковых системах. Все больше и больше нашей коммерческой деятельности осуществляется в интернете или обрабатывается с помощью корпоративных систем, что создает огромный поток информации. Так, в секторе розничной торговли для создания новых данных нам совершенно необязательно совершать покупки именно онлайн. Даже когда наша покупка регистрируется в обычном магазине (причем здесь нет даже необходимости фиксировать наше имя), розничные компании смогут использовать эти данные для прогнозирования тенденций спроса и выбора товаров, что уже помогает им оптимизировать цепочку поставок. А когда эти покупки удается связать с отдельным клиентом (например, с помощью карты постоянного покупателя или учетной записи в интернете), данные становятся гораздо информативнее и, следовательно, намного ценнее. Теперь фирма может предсказывать, какие еще товары или услуги вы также можете купить на ее торговых площадках, и будет активно их вам предлагать. Если вы совершаете покупки в интернете, то записываются не только данные о самих покупках: каждая посещенная вами страница, время, которое вы проводите на них, просмотренные вами продукты – все это отслеживается, увеличивая объем и ценность данных, «скармливаемых» искусственному интеллекту.
Читать дальше