Little John was looking for his toy box. Finally, he found it. The box was in the pen. John was very happy.
Камнем преткновения, конечно, было слово pen. Все «переводчики» наивно перевели, что коробка Джона нашлась в «ручке». В данном случае «pen» уместнее переводить как сарай (или - раз уж Джон был маленьким - возможно, это детский манеж), но, чтобы выбрать верное значение из словаря, машина должна иметь представление о контексте. И о том, чем сарай отличается от ручки, а ручка - от коробки. Другими словами, для качественного перевода компьютер должен быть оснащен не только лингвистической информацией о языках, с которыми он работает, но и колоссальным массивом данных, не имеющих никакого отношения к лингвистике.
Несмотря на резко урезанное финансирование, работы над системами машинного перевода не сошли на нет, хотя романтики, конечно, поубавилось. Стало понятно, что алгеброй поверить гармонию удается далеко не всегда. А пионеры МП всерьез рассчитывали загнать всю необходимую для перевода информацию в прокрустово ложе математической модели - исторически теория МП выросла из криптографии, так что лингвисты подключились к разработкам позже математиков (и, надо сказать, порой доводили их до белого каления).
За последние сорок лет в теории и практике МП произошли значительные изменения. Во-первых, на смену системам типа direct пришли системы типа transfer. Если первые переводили в лоб (и качество получалось во многих случаях соответствующее), то вторые действуют хитрее. Они сначала воссоздают нужную структуру предложения для языка, на который осуществляется перевод, и только после этого начинают собственно переводить. Сейчас в моду вошли системы типа interlingua, когда для «переноса» используется промежуточное звено - то есть при переводе, допустим, с английского на французский сначала осуществляется перевод на внутренний язык (К) и только потом - перевод уже на французский. Изменение это не качественное, а структурное. Такой подход повышает вероятность возникновения ошибок в не самой безошибочной технологии (по сути, система делает два перевода там, где мог быть один). Однако создавать системы interlingua гораздо проще - достаточно единожды разработать универсальный внутренний язык, а потом просто-напросто описывать правила перевода для языковых пар (английский - универсальный, французский - универсальный и т. д.). Непосредственные языковые пары (английский - французский) нам уже не нужны, так что благодаря interlingua мы имеем абсолютно всеядный переводной движок, к которому нужно лишь подключать разработанные модули.
Впрочем, в моду interlingua вошли пока только в лабораториях. Ни одной коммерческой системы, построенной по этому принципу, до сих пор нет.
Развитие шло и в другом направлении. От систем перевода «по правилам» начали переходить к статистическим моделям, потом - к самообучающимся система перевода, которые «тренируются» на внушительных корпусах параллельных текстов. Сейчас идут эксперименты с системами перевода, чьи лингвистические способности усилены базой знаний об окружающем мире.
Во многих случаях разные подходы комбинируются друг с другом, но путь от исследовательских разработок до коммерческих продуктов довольно долог. В настоящее время существует только один коммерческий пакет, «натасканный» на параллельных текстах, - машинный переводчик от небольшой компании Language Weaver. Google, победивший в августе на конкурсе НИСТ (см. табл. 3 и 4), тоже разрабатывает переводчик, который обучается на огромной библиотеке параллельных текстов, однако это внутренний проект, и когда он будет доведен до коммерческого уровня - неизвестно. Любопытен, кстати, выбор языков для конкурса. В 1950-х гг., в разгар холодной войны, в моде был русский язык, сейчас конкурсантам предлагаются задания на арабском и китайском. Language Weaver, к слову, также первым делом представила систему перевода с арабского на английский, но у нее свой интерес: государственные структуры во всех странах являются очень выгодным заказчиком, и разработчики систем машинного перевода, естественно, пытаются угадать их предпочтения.
Но сказать, что все эти новшества радикально решили проблему непонимания контекста, было бы преувеличением. В общем случае качество перевода и по сей день остается неудовлетворительным. Получить представление о содержании текста на иностранном языке с помощью машинного перевода вполне можно, но гарантий, что содержание это передано верно - никаких. Все современные системы требуют доработки либо исходного текста перед переводом (для уменьшения словаря, искоренения возможных двусмысленностей и предельного упрощения синтаксических конструкций), либо уже сделанного перевода до читаемого уровня. Кстати, переводчикам, которые этим занимаются, не позавидуешь - порой очень нелегко понять, что имелось в виду в оригинале, тогда как ошибки, которые делают при переводе люди, все же более предсказуемы. В защиту машин можно сказать, что, ошибаясь, они ошибаются одинаково и, найдя ошибку один раз, нетрудно проследить в тексте следующие ее вхождения.
Читать дальше