Быстрый заказ

Подходы к оценке качества систем машинного перевода

Большой Строченовский переулок 115054 Россия, Москва +7 (495) 668-13-78

Сегодня мы вплотную подошли к повседневному использованию машинного перевода. Логично, что после автоматизации самого перевода следующим этапом стала оценка качества конечного продукта. На сегодня существует множество вариантов оценки переводов. Часть работы выполняется человеком, часть – автоматическими алгоритмами. У каждого подхода есть свои сильные и слабые стороны. Давайте рассмотрим те, которые использовала наша команда в своих последних исследованиях.

Лингвистическое качество

Наиболее классический метод, используемый для оценки переводов. Самой известной формулой качества является LISA QA. Языковые ошибки распределяются по степени тяжести в зависимости от типа: грамматика, лексика, пунктуация, ошибки в цифрах и др.

Главной проблемой такой оценки становится гораздо большее количество ошибок в машинном переводе по сравнению с «человеческим», и сопоставление становится похожим на выбор лучшего из худшего. Также зачастую упускается тот факт, что машинный перевод в подавляющем большинстве случаев впоследствии отправляется на редактуру, и то, что выглядит грубой ошибкой, на поверку исправляется за считанные секунды.

Дистанция редактирования

Удивительно, но сами лингвисты не пришли к единому пониманию этого подхода. В то время как одни подразумевают под дистанцией объём исправленного текста, другие имеют в виду время, потраченное редактором на доведение текста до приемлемого уровня качества. Наша команда под дистанцией понимает второе, а именно – сколько времени потратил исполнитель к тому моменту, когда его работа была признана приемлемой отделом контроля качества.

Теоретически, измеряемая во времени дистанция способна указать на наиболее оптимальную систему машинного перевода. Однако дьявол в деталях. Здесь нужно чётко представлять себе, для каких целей выбирается движок. Предполагается ли продавать «голый» текст - при этом выбирается машинный перевод как продукт, или же рассматривается система для последующего постредактирования – при этом отношение к машинному переводу должно быть как к инструменту для достижения более экономичной и быстрой работы. Если машинный перевод – продукт, тогда нужно проводить оценку по объёму исправленного текста или классической системе лингвистических ошибок. Если же машинный перевод – инструмент, тогда важно, насколько он может повысить эффективность производства, и в качестве главного критерия оценки стоит рассматривать именно время, потраченное на постредактирование.

Также в издержках – определённой степени субъективность, выражаемая в различных сильных и слабых сторонах у разных лингвистов. Для одного слабое место – терминология, и он тратит много времени на поиск корректных терминов. Другой же будет медленнее работать, будучи вынужденным исправлять грамматику.

Прогнозируемая дистанция редактирования

Очевидно, замеры фактической дистанции – дело затратное и финансово, и по времени. Поэтому в какой-то момент нашей команде пришла в голову идея заменить реальную постредактуру оценкой планируемого времени на постредактирование. Так мы сформировали три типа ошибок, основываясь не на лингвистическом качестве, а на том, как быстро можно исправить ту или иную ошибку.

Подходы к оценке качества систем машинного перевода

Коэффициенты ошибок были приняты, исходя из логики: если на исправление условной запятой нужно несколько секунд, то на исправление грамматической ошибки потребуется в разы больше времени. А на исправление нередактируемых фрагментов – ещё больше.

Несмотря на то, что идея достаточно проста, человеческий фактор оказывается главным источником неточности при оценке. Так, мы заметили, что, несмотря на изменившиеся вводные для проверяющих, они продолжают подсознательно оценивать переводы с точки зрения лингвистики. Мы пришли к этому выводу, потому что во всех рассматриваемых батчах по этому методу оценки коррелировали с результатами проверок по критериям лингвистического качества, а не с фактической дистанцией редактирования.

Процент схожести

Также достаточно распространённый метод, заключающийся в сравнении «голого» перевода с отредактированным текстом. Несмотря на то, что на первый взгляд идея выглядит привлекательной – ведь чем меньше правок, тем лучше исходный текст – такой подход мало чем помогает в действительности. В первую очередь, алгоритмы оценки схожести зачастую работают грубо. Например, при замене прописной буквы на строчную они могут засчитать исправление за целое слово. Вторая причина невысокой показательности метода – использование редакторами фильтров в CAT-программах. Например, в тексте дюжину раз встречается некий термин, который редактор заменяет на другой автозаменой. Действительная работа занимает секунды, но объём исправленного текста оказывается внушительным.

Автоматические метрики качества

Сейчас у всех на слуху BLEU, hLepor, COMET и CHRF+. Стало банально модным использование этих алгоритмов для оценки качества. И у них действительно много преимуществ: на оценку требуется мало времени, стоимость оценки близится к нулю, можно оперативно сравнивать десятки разных вариантов перевода. Однако беспорядочное использование метрик ведёт к неверным выводам из результатов сравнения. Так, все метрики оценивают, насколько один текст похож на другой. То есть, если дать им проверить два человеческих перевода, не похожих в формулировках на референсный корпус, оценки могут оказаться ниже, чем результаты для машинного перевода, похожего использованными словами на референс. Отсюда проистекает множество осложнений и ложных выводов в исследованиях коллег. Идеальным вариантом использования метрик оказывается измерение прироста качества нового варианта модели по отношению к старому. Сравнение же многих систем машинного перевода с человеческим переводом может привести к тому, что лучшие результаты покажет та система, с помощью которой сам человек-переводчик выполнял свой перевод, принятый теперь за референс (не новость, что многие переводчики без разрешения используют публично доступные движки в своих «человеческих» переводах).

Также безусловным минусом оказывается необходимость самого наличия референсного перевода для проведения сравнения.

Вывод

Автоматическое выполнение рутинных задач – неизбежное будущее человечества. И корректная работа автоматических метрик – лишь вопрос времени. Однако сегодня не стоит полагаться исключительно на их оценку. Подходы, применяемые человеком, и личная оценка качества ещё как минимум несколько лет будут залогом корректной оценки стараний систем машинного перевода. Главное, подходить ко всему с умом.

Руководитель отдела исследований и разработки, Гилин Михаил.

У вас остались вопросы?
Оставьте заявку на консультацию и мы ответим на ваши вопросы
Даю согласие на обработку моих персональных данных в соответствии с политикой конфиденциальности компании.
Спасибо!
Ваша заявка принята!
Мы с вами свяжемся в ближайшее рабочее время
Ошибка
При отправке вашего сообщения произошла ошибка. Попробуйте позднее
Быстрый заказ
Даю согласие на обработку моих персональных данных в соответствии с политикой конфиденциальности компании.