SIGGRAPH – самый крупный и престижный конгресс в области теории и практики цифровой графики. Его посещают исследователи, разработчики игр, журналисты, предприниматели и другие профессионалы, интересующиеся этой темой. Словом, это самое подходящее место для того, чтобы компания Microsoft могла представить здесь то, что сайт Creators Project назвал «самовзломом, который может изменить буквально все» [84] “KinectFusion: The Self-hack that Could Change Everything”, The Creators Project, 18 августа 2011 г., http://thecreatorsproject.vice.com/blog/kinectfusion-the-selfhack-that-could-change-everything (по состоянию на 26 июня 2013 г.).
. [85] В данном контексте под словом «взлом» ( hack ) понимаются попытки проникновения внутрь какого-либо элемента программного обеспечения, чтобы использовать его для решения непредусмотренных задач. «Самовзлом» ( self-hack ) – это такая же попытка, предпринятая по заказу компании-производителя для обнаружения уязвимостей в системе безопасности.
Речь идет о Kinect Fusion , проекте, в котором Kinect использовался для решения проблемы SLAM .
В видеофильме, показанном на SIGGRAPH-2011 , демонстратор поднимал Kinect и водил им вдоль стен типичного кабинета – со стульями, растением в горшке, настольным компьютером и монитором. [86] Sarah Kessler, “KinectFusion HQ – Microsoft Research”, http://research.microsoft.com/apps/video/dl.aspx?id=152815 (по состоянию на 26 июня 2013 г.).
В ходе этого процесса видео разделялось на несколько экранов, на которых было показано все, что способен почувствовать Kinect . Сразу же становится ясно, что если Kinect и не полностью решает проблему SLAM для комнаты, то достаточно близок к этому. В режиме реального времени Kinect создает трехмерную карту комнаты и всех объектов в ней, включая сотрудников. Он распознает слово DELL , выдавленное в пластике на задней панели компьютерного монитора, хотя эти буквы не раскрашены и имеют глубину всего 1 мм. Устройство знает, где именно в комнате оно находится, и даже способно рассчитать, как будут отскакивать виртуальные шарики для пинг-понга, если их бросить в комнату сверху. В статье технологического блога Engadget , написанной после проведения SIGGRAPH , говорилось: « Kinect сделал трехмерное восприятие достоянием мейнстрима и более того: из обычного потребительского продукта сотворили нечто такое, от чего просто крышу срывает». [87] “Microsoft’sKinectFusionResearch Project offers Real-time 3D Reconstruction, Wild at Possibilities”, Engadget, 9 августа 2011 г., http://www.engadget.com/2011/08/09/microsofts-kinectfusion-research-project-offers-real-time-3d-re/ (по состоянию на 26 июня 2013 г.).
В июне 2011 года, незадолго до SIGGRAPH, Microsoft выпустила комплект разработки программного обеспечения для Kinect , дав разработчикам все необходимое, чтобы они могли писать программы под PC , с помощью которых можно было бы управлять устройством. После конференции возник огромный интерес к использованию Kinect для целей SLAM . Многие команды, занимавшиеся робототехникой и исследованиями искусственного интеллекта, загрузили себе SDK и принялись за работу.
Менее чем через год команда ирландских и американских исследователей во главе с нашим коллегой Джоном Леонардом из лаборатории компьютерных наук и искусственного интеллекта МТИ анонсировала Kintinuous – «пространственно расширенную» версию Kinect . С помощью Kintinuous пользователи могли использовать Kinect для маппинга крупных объектов, например домов и даже улиц и площадей (которые команда сканировала, высовывая Kinect из открытого окна машины во время ночных поездок по городу). В конце статьи, описывающей их работу, создатели Kintinuous обещали: «В будущем мы расширим систему, чтобы она могла в полной мере осуществлять SLAM -подход». [88] Thomas Whelan et al., “Kintinuous: Spatially Extended KinectFusion”, n. d., http://dspace.mit.edu/bitstream/handle/1721.1/71756/mIT-cSAIl-Tr-2012–020.pdf?sequence=1.
Мы думаем, что нам не придется долго ждать очередного известия об успехе от этой группы. В руках способных инженеров экспоненциальная сила закона Мура со временем позволяет решать самые сложные проблемы.
Некоторые из технологий, которых мы касались в предыдущей главе, используют недорогие и мощные цифровые сенсоры. Так, у робота Baxter есть несколько цифровых камер и датчиков силы и положения. Совсем недавно все эти устройства были чудовищно дорогими, неуклюжими и неточными. Беспилотный автомобиль Google тоже использует несколько сенсорных технологий, однако самый важный из его «глаз» – устройство под названием LIDAR (от слов light («свет») и radar ), размещенное на крыше машины. Этот прибор, разработанный компанией Velodyne , содержит 64 отдельных лазерных луча и такое же количество детекторов, заключенных в корпус, совершающий 10 оборотов в секунду. Устройство ежесекундно генерирует около 1,3 миллиона единиц данных, а бортовые компьютеры превращают их в трехмерную картинку в режиме реального времени, покрывающую до 100 метров во всех направлениях. Ранние коммерческие системы LIDAR , появившиеся на рынке около 2000 года, стоили до 35 миллионов долларов, однако в середине 2013 года появилось устройство Velodyne для беспилотной автомобильной навигации стоимостью около 80 000 долларов, и ожидается, что цена будет снижаться и дальше. Дэвид Холл, основатель и исполнительный директор компании, полагает, что массовое производство позволит цене продукта «сократиться до цены видеокамеры – то есть нескольких сотен долларов». [89] Brett Solomon, “Velodyne cCreating Sensors for China Autonomous Vehicle Market”, Technology Tell, 5 июля 2013 г., http://www.technologytell.com/in-car-tech/4283/velodyne-creating-sensors-for-china-autonomous-vehicle-market/.
Читать дальше