Быстрый заказ

Подходы к оценке качества машинных переводов

Большой Строченовский переулок 115054 Россия, Москва +7 (495) 668-13-78

Машинный перевод сейчас используется почти повсеместно. В связи с этим возникает вопрос об оценке качества получаемого продукта. Частично это делается с помощью автоматизированных алгоритмов, а частично — людьми традиционным способом. Здесь мы представим подходы, которые мы используем в настоящее время.

Качество языка

Это традиционный подход к оценке переводов. Наиболее известным инструментом в этом отношении является LISA QA, где ошибки классифицируются по серьезности и типу. 

Основная проблема с такой оценкой заключается в том, что она приводит к обнаружению гораздо большего количества ошибок в машинных переводах, чем в человеческих.

Изменить расстояние

Расстояние редактирования интерпретируется и используется иначе, чем исходная область. Некоторые видят в этом объем текста, который необходимо исправить; другие видят в этом количество времени, которое нужно потратить, чтобы довести текст до требуемого уровня качества. Мы придерживаемся второго подхода.

Теоретически сравнение расстояний редактирования поможет определить лучший машинный перевод. Важно иметь четкое представление о причине выбора конкретной программы машинного перевода, будь то предоставить пригодный для использования неотредактированный текст или перевод, который затем будет отредактирован. В первом случае ключевым является объем текста для редактирования (т. е. количество и серьезность ошибок), при условии, что перевод будет оцениваться в соответствии с традиционным подходом. В другом случае машинный перевод следует рассматривать как инструмент, и главный вопрос будет заключаться в том, насколько он повышает эффективность процесса, т. е. сколько времени необходимо затратить на редактирование.

В любом случае человеческая оценка склонна к субъективизму. У лингвистов есть свои сильные и слабые стороны. С одной стороны, терминология может быть слабым местом, и много времени будет потрачено на поиск правильного термина. Другому потребовалось бы больше времени на грамматику и беглость.

Оценка расстояния редактирования

Расстояния редактирования можно точно рассчитать только ниже по течению, а это дорого и требует много времени. Поэтому мы решили оценить количество времени, затрачиваемое на редактирование текста, а не фактически вычислять его. С этой целью мы определили три типа ошибок в зависимости от того, сколько времени потребуется на их исправление.

Тип

Описание

серьезность

Короткая ошибка

Незначительные ошибки, на исправление которых требуется несколько секунд, например, цифры, орфография, грамматика, стиль и т. д.

1

Средняя ошибка

Крупные ошибки, на исправление которых требуется более десяти секунд, например, сложные грамматические конструкции, терминология, непротиворечивость и т. д.

3

Длинная ошибка

Серьезные ошибки, требующие значительного времени для исправления или переписывания сегмента, например, искажение первоначального значения, неясность, недостаточный или избыточный перевод, серьезные грамматические ошибки, неверная терминология и т. д.

6

Коэффициенты применяются к ошибкам по следующей логике: время на исправление запятой считается меньшим, чем время на исправление грамматической ошибки и тем более неотредактированного фрагмента. Человеческие ошибки являются основным источником неточностей в процессе оценки.

Мы обнаружили, что, несмотря на изменение критериев, используемых редакторами, они продолжали оценивать переводы на основе лингвистических критериев. Фактически, во всех проанализированных партиях баллы коррелируют с результатами оценки с точки зрения лингвистического качества, а не фактического расстояния редактирования. 

Процент сходства

Другой широко используемый метод заключается в сравнении неотредактированного перевода с отредактированной версией. Хотя на первый взгляд эта идея может показаться привлекательной, поскольку чем меньше исправлений, тем лучше исходный перевод, на практике мы обнаружили, что такой подход неэффективен. Алгоритмы для оценки уровней сходства часто довольно неточны. Например, они часто рассматривают замену заглавной буквы на строчную как эквивалент замены всего слова. Также редакторы часто используют параметры фильтра в CAT-инструментах. Например, в тексте может быть десяток примеров термина, но редактор меняет его с помощью функции поиска и замены. Это занимает всего несколько секунд, но объем редактируемого текста может быть значительным.

Инструменты автоматизированной оценки качества

Сейчас много говорят о BLEU, hLlepor, COMET, CHRF+. Действительно, эти алгоритмы не отражают качество вывода машинного перевода. Они позволяют пользователям очень быстро сравнивать десятки альтернативных платформ машинного перевода, но ни в коем случае не являются инструментами для обеспечения качества перевода. Кроме того, результаты сравнений легко могут быть неверно истолкованы. Большинство автоматических алгоритмов оценки выражают сходство образца вывода с эталонным текстом, как правило, человеческим переводом. Это означает, что если одному и тому же инструменту предоставлены два разных человеческих перевода одного и того же текста, в которых не используются фразы, содержащиеся в справочном корпусе, эти переводы могут быть оценены совершенно по-разному, возможно, хуже, чем образец вывода машинного перевода.

Это изначально привело нас к ложным выводам. Лучший способ использовать такие инструменты — измерить увеличение количества баллов, сравнив производительность урезанного двигателя с выходом старого. Сравнение множества различных систем машинного перевода может привести к выводу, что наилучшие результаты дает та система, которая использовалась для эталонного перевода.

Другим явным недостатком является необходимость иметь эталонный перевод для проведения сравнения.

Вывод

Автоматизация становится неизбежной в нашем общем будущем. Возможно, это только вопрос времени, когда у нас появятся надежные автоматизированные инструменты оценки. Однако полностью полагаться на них пока рано. Использование инструментов, управляемых людьми, и оценка специалистами-людьми останутся стандартными методами оценки качества машинных переводов в течение следующих нескольких лет, при этом ключевым моментом будет разумный и критический подход ко всему процессу.

Михаил Гилин

Специалист по внедрению и интеграции новых сервисов в рабочий процесс компании ТрансЛинк. Автор экспертных статей для сайтов и платформ переводческой индустрии. Спикер ГАЛА, ТАУС, СКР, МТС, ТПД.

Snimok_ekrana_2022-08-01_v_12.06.32.png

 

У вас остались вопросы?
Оставьте заявку на консультацию и мы ответим на ваши вопросы
Даю согласие на обработку моих персональных данных в соответствии с политикой конфиденциальности компании.
Спасибо!
Ваша заявка принята!
Мы с вами свяжемся в ближайшее рабочее время
Ошибка
При отправке вашего сообщения произошла ошибка. Попробуйте позднее
Быстрый заказ
Даю согласие на обработку моих персональных данных в соответствии с политикой конфиденциальности компании.