Этот метод – статистический машинный перевод – стал возможен только в конце 1980-х. До тех пор компьютерам просто не хватало мощности для работы с огромными объемами данных, необходимыми для построения работающих моделей языка. Если для программы Джорджтаунского университета и IBM использование словаря в 250 слов было амбициозной задачей, корпус, который Google использует в качестве модели английского языка, состоит более чем из 95 миллиардов английских предложений. Учитывая объем данных, необходимых для эффективного использования этого метода, преимущество в их создании получили поисковые системы. Сам процесс индексирования сети предоставляет прекрасную возможность расширения языковых моделей. Однако даже такая система, как Google-переводчик, часто оказывается в рамках необходимости искать заслуживающие доверия параллельные корпусы текстов, а также фразы, переведенные на один или несколько языков.
Найти параллельный корпус совсем непросто, поскольку выполненный профессионалами высококлассный перевод (традиционно) стоит немалых денег. А работоспособность подобных систем обеспечивается их громадными размерами. Составленный Консорциумом лингвистических данных параллельный корпус для перевода между английским и китайским языками включает 200 миллионов слов, что много больше, чем в каждом из этих языков, однако для эффективной работы слова должны быть употреблены в самых разных контекстах. Многие тексты, которые мы могли бы использовать, как, например, переводы романов Стивена Кинга на десятки иностранных языков, остаются для нас недоступны из-за авторских прав. В поисках высококачественных переводных текстов в свободном доступе программисты часто используют правительственные документы: официальные резолюции ООН, переведенные на шесть рабочих языков организации; заседания Европейского парламента, в которых используются документы, переведенные на 23 официальных языка; постановления Канадского правительства, публикующиеся как на английском, так и на французском.
Поскольку процесс статистического машинного перевода – это, по сути, выбор наиболее вероятного перевода из набора примеров, использование таких источников приводит к возникновению забавных побочных эффектов: в машинном переводе мы все немного смахиваем на европейских парламентариев. Действительно, такие системы, как правило, куда лучше справляются с переводом официальных документов, чем с переложением полных сленга и жаргонных словечек мгновенных сообщений.
Так почему же американские и европейские репортеры и «факт-чекеры» не прочли с помощью машинного перевода материал Qilu Evening News, чтобы получить более полное представление о профессионально-техническом училище Ланьсян? Вероятно, отчасти в силу привычки. Долгие годы системы машинного перевода выдавали неудобоваримые, малоосмысленные результаты, и у журналистов развилось стойкое предубеждение против их использования. Однако за последние пять лет качество машинного перевода между китайским и английским резко возросло. Программисты оценивают качество машинного перевода, сравнивая его с работой профессиональных переводчиков. Такое сравнение легло в основу системы оценки качества машинного перевода – Bilingual Evaluation Understudy или BLEU, которая анализирует машинный перевод, подсчитывая количество тех же слов, расставленных в том же порядке, что и в работе профессионального переводчика. Когда специалисты Google решают, что оценка BLEU для новой пары языков (английский/китайский, например) достаточно высока, компания включает пару в набор инструментов Google, доступных бесплатно на translate.google.com. За шесть лет, с 2006 по 2011 год, этот порог преодолели 60 языковых пар.
Машинный перевод материала Qilu Evening News может произвести на журналистов неоднозначное впечатление. Я перевел эту статью с помощью сервиса Google [189]и получил, в частности, следующий результат:
«Школы Директор Бюро Г-н Чжоу не встретиться с нашим корреспондентом. Он только сказал, по телефону:… “Эти отчеты нонсенс измышления. Несколько дней назад, говорящих на китайском языке позвонила женщина под предлогом задавать вопросы о студенческих регистрации она не выявила себя. Мы учим в основном технического обслуживания автотранспорта, ремонт, и некоторые из этих студентов в конечном итоге присоединились к военным, чтобы сохранить ремонт транспортных средств. Он также сказал, что есть украинский профессорско-преподавательского здесь. Это нелепо. Наша школа не имеет зарубежных преподавателей. Мы не лицензированы на привлечение иностранной учит. Кроме того, мы не снижаться, чтобы ответить на вопрос о том, было украинского учителя здесь – она просто никогда не просил”».
Читать дальше
Конец ознакомительного отрывка
Купить книгу