— Ну, окончательного распада на такие платформы, конечно, не будет никогда. Другое дело, что вода, как бы и где бы она ни текла, в конце концов всегда сливается в одну лунку. Просто если пользователь устроен так, а не иначе, то и интерфейс будет выстроен под его потребности. Если весь мир выстроился в социальную сеть, если пользователям удобно, чтобы все друзья были в одном месте, — значит это естественный процесс, так растут социальные сети. Так же и с нашими «Островами»: информация в сети срастается с действиями — это явление природы, человечество так меняется, ничего не поделаешь. И значит, действия будут происходить вокруг того места, где люди привыкли получать информацию. В России это место называется «Яндекс».
— Как в сравнении с вашей стратегией выглядит стратегия Google и других поисковиков? Вы движетесь в сторону обострения конкуренции или в сторону специализации, когда каждый пойдет своим путем и не будет мешать другому?
— В поиске мы с ними, конечно, продолжим конкурировать, и это хорошо для всех: и для нас, и для них, и для пользователей. Наличие альтернативы всегда лучше, чем один Большой Брат. И, кстати, когда мы идем в Турцию, мы видим свою миссию еще и в этом. Европа, например, тоже пока не привыкла к выбору. Полмира таких. Мы считаем, что нести людям выбор — это правильно.
— Но похоже, что со временем поиск вообще перестанет быть главным продуктом «Яндекса». Siemens, к примеру, начинала с производства телефонов, а потом телефоны стали составлять ничтожно малую долю ее доходов. На прошлогоднем чемпионате мира по программированию в Санкт-Петербурге вы с большим воодушевлением рассказывали про индустрию обработки данных. Можно о ней подробнее? Это похоже на начало какой-то глобальной истории.
— Так оно и есть. Для меня сейчас это крайне важная тема, я занимаюсь ею очень внимательно. Понимаете, в истории человечества интернет стал первой средой, где появился огромный массив информации. Разве что в финансах еще было сопоставимое количество данных, но именно интернет научился очень активно с ними работать. Сначала это были просто потоки данных, потом оказалось, что это огромный ресурс. В том числе и для машинного обучения, которое сегодня переживает второе рождение. Вообще тема машинного обучения в науке существует уже лет тридцать, но, едва зародившись, она вскоре достигла своего локального оптимума и немного заглохла, не найдя действительно серьезного экономического применения. Перевод, распознавание — все это требует огромных массивов данных, система обучается на собственном информационном потоке, а раньше таких потоков не было. Теперь же, с их появлением, машинное обучение резко рвануло вперед. Сначала проснулся перевод. «Яндекс» переводит уже с 36 языков, и делает это вполне прилично. Это, конечно, не литературный перевод, но и не та смешная белиберда, которая была еще совсем недавно.
— А как вообще работает «Яндекс. Перевод»?
— Раньше машинный перевод строился на модели «смысл-текст»: возьмем любой язык, переведем его слова в универсальный над-язык смыслов, а потом переведем эти смыслы в слова другого языка — и получим переведенный текст. Такая модель доминировала в 70–80-е годы и автоматизировалась в 90-е. Все переводы 90-х годов построены на этой идеологии. В 2000-х появился поиск, и стало понятно: чтобы перевести текст, вообще не обязательно понимать смысл. Человечество столько всего уже напереводило, что вероятность найти в сети два аналогичных текста на разных языках достаточно велика. Как определить, что это одинаковые тексты? Очень просто. В них много одинаковых слов. Если в документе из 1000 слов 800 представляют собой словарные пары, то, скорее всего, это перевод с одного языка на другой. И дальше уже можно разбивать тексты на абзацы, на предложения и как-то с этим работать. То есть машина переводит не словами, а готовыми кусками, машина на это способна. На самом деле если подумать, то такой метод перевода даже больше соответствует тому, как человек в реальной жизни учится языку в детстве. Ведь мы едва ли рассуждаем в терминах «смысл-текст», когда нам говорят, например: «Возьми грушу». Но перевод — это всего лишь один пример прорыва машинного обучения на больших объемах данных.
— Хотелось бы еще…
— Другой пример, когда машина способна действовать лучше человека, — это распознавание письменного текста. Есть такая российская международная компания ParaScript, она, в частности, занимается распознаванием рукописного текса. Ее софт присутствует сегодня почти в любом приборе, которым мы пользуемся. Лет десять назад ParaScript получила задачку распознавать текст на конвертах для американской почты. У почты США тогда были гектары сортировочных бараков, где сидели тетеньки, читали конверты и раскладывали их по адресам. Ребята из ParaScript пришли и сказали: давайте мы вам это безобразие ликвидируем — 10 процентов экономии нам. И с 2002 по 2007 год они оптимизировали американскую почту, получали огромные деньги. Потом, правда, деньги им платить почти перестали, так как нечего стало экономить. Машина стала распознавать рукописный текст лучше, чем человек. Сейчас это направление шагнуло еще дальше. Появились технологии распознавания музыки, голоса, предметов на экране камеры. Машина уже способна отличить, например, котенка от шарика. А это уже шаг в сторону роботов-навигаторов, благодаря которым машины даже без водителя будут понимать, куда ехать.
Читать дальше
Конец ознакомительного отрывка
Купить книгу