Быстрый заказ

Аналитические и синтетические языки. Машинный перевод между ними

Большой Строченовский переулок 115054 Россия, Москва +7 (495) 668-13-78
  1. 1.     Введение. Типы языков. Различие между ними
  2. 2.     Критерии выбора языков для исследования. Методика анализа
  3. 3.     Исследование. Сравнительная таблица
  4. 4.     Выводы
  5. 5.     Заключение

 

 

Введение. Типы языков. Различия между ними

В языках мира существуют две основных группы способов выражения грамматических значений – синтетические и аналитические.

Аналитические языки — те, в которых грамматические отношения имеют тенденцию к передаче в основном через синтаксис, то есть через отдельные служебные слова (предлоги, модальные глаголы и т. п.) через фиксированный порядок слов, контекст и/или интонационные вариации, а не через словоизменение с помощью зависимых морфем (окончаний, суффиксов, приставок и т. д.).

В синтетических языках грамматические значения выражаются в пределах самого слова (аффиксация, внутренняя флексия, ударение, супплетивизм), то есть формами самих слов.

Помимо двух основных типов существуют два экстремальных подтипа – полисинтетические и изолирующие.

Полисинтетические языки — те, в которых все члены предложения (полная инкорпорация) или некоторые компоненты словосочетания (частичная инкорпорация) соединяются в единое целое без формальных показателей у каждого из них. Другими словами, целое предложение может оказываться внутри одного массивного слова, несущего как основную информацию, так и дополнительные оттенки эмоциональные и смысловые.

Изолирующие языки́ (иначе аморфные, односложные, корневые) — языки с низким соотношением морфем к слову. Слова в максимально изолирующем языке будут состоять только из одной морфемы — корня, не образуя ни составных слов, ни сочетаний с суффиксами, префиксами и т. д.

Классический пример синтетического и аналитического строя:

В английском языке, считающемся аналитическим, фраза I love you может быть правильно воспринята только при такой последовательности слов. При изменении последовательности страдает смысл и, зачастую, грамматика. Так, нельзя сказать Love you I или I you love.

В то же время в русском языке, считающемся синтетическим, фраза «Я тебя люблю» может достаточно легко трансформироваться в «Тебя люблю я», «Тебя я люблю» и так далее. Это происходит за счёт того, что грамматические конструкции находятся внутри самих слов, что позволяет легко идентифицировать их значение вне зависимости от положения в предложении.

Другой характерный пример различия этих языков – однословное предложение «Смеркалось». В то время, как в русском языке смысл передан одним словом, которое указывает одновременно и на действие, и на время, не требуя при этом подлежащего, в английском языке аналог будет растянут на длинное предложение: It was getting dark.

В большинстве языков есть и аналитические, и синтетические средства выражения грамматических значений, однако их удельный вес бывает разным. В зависимости от того, какие способы преобладают, различают языки аналитического и синтетического строя. К синтетическим языкам принадлежат все славянские языки (кроме болгарского), санскрит, древнегреческий, латынь, немецкий, якутский, суахили и др. Важно отметить, что чистых аналитических или синтетических не существует, есть примеры (окончания числовых?). Так. В аналитическом английском число в существительных отображается с помощью окончания s.

К языкам аналитического типа относятся все романские языки, английский, болгарский, новоперсидский, датский и др.

Языки, в которых почти отсутствуют возможности синтетического выражения грамматических значений (китайский, вьетнамский и др.), называют изолирующими (ранее их называли аморфными), как бы лишенными формы.

Есть языки, в которых слово оформляется большим количеством разных служебных морфем, оно превращается по смыслу в слово-предложение, но при этом остается оформленным как слово. Такое устройство «слова-предложения» называют инкорпорацией, а соответствующие языки – инкопрорирующими или полисинтетическими (индейские языки, чукотский, корякский и др).

 

Критерии выбора языков для исследования. Методика анализа

В качестве материала для исследования была взято руководство пользователя iPhone для программного обеспечения iOS-8 на исследуемых языках. Выбор был продиктован тем, что данная тематика представляет наименьшие трудности для алгоритмов NMT, предложения в таких материалах, как инструкции, наиболее просты грамматически и не отличаются сложной лексикой. Объём текста для каждой языковой пары оказался около 40 страниц.

Перед исследованием не ставился вопрос о том, как быстро можно постредактировать переводы внутри и между типами языков. Главный вопрос – насколько изначально читаемым и схожим будет материал на выходе.

В качестве системы МТ был выбран один из основных российских разработчиков МТ, среди движков которого оказалось подавляющее большинство необходимых для исследования языковых пар. Таким образом, несмотря на неизбежные отличия в качестве корпусов, сводилась к нулю вероятность различия результатов в силу разных алгоритмов разных систем МТ.

Для анализа было решено выбрать несколько языков: по два каждого типа. Основными критериями выбора стали: отсутствие близких связей между выбранными языками, их популярность и возможность выполнения нейромашинного перевода для всех выбранных языков на единой платформе во избежание влияния алгоритмов разных систем МТ на конечный результат перевода.

В качестве синтетических языков были взяты:

  1. Русский
  2. Турецкий

 

В качестве аналитических выбраны:

  1. Английский
  2. Китайский (считается изолирующим, что по сути значит ещё меньшее количество синтетических конструкций)

Выбор был продиктован следующим соображениями:

Русский язык – представитель славянских языков и наиболее используемый из них в международной практике и, следовательно, в переводческой отрасли.

Турецкий язык – наиболее популярный язык тюркской группы.

Английский язык – самый используемый в мире язык, представитель германской ветви индоевропейских языков.

Китайский – язык с наибольшим числом носителей в мире из сино-тибетской семьи, являющийся изолирующим по грамматическому строю.

Выбор языков был также обусловлен количеством носителей, принадлежностью к разным языковым семьям, разным группам с точки зрения типологической классификации и влиянием в экономическом плане.

В качестве методики выбрана схема оценки переводов общей тематики с и на языки внутри своей группы, а также перевод с и на языки противоположной группы.

Под коэффициентом качества понимается отношение количества ошибок выше средней степени тяжести к количеству слов в переводе. Так, учитывались только средние и тяжёлые ошибки (явные лексические ошибки, пропуски, искажение смысла, грамматика), поскольку они в конечном счёте больше всего влияют на восприятие перевода (как и на время постредактирования). В практическом смысле коэффициенты способны показать, какие пары больше подходят для их использования без редактирования, а какие – меньше или не подходят совсем.

Формула для подсчёта коэффициента качества:

Q = (Em*1 + Eh*2)/Nw*100

Q – коэффициент качества

Em – количество ошибок средней тяжести

Eh – количество тяжёлых ошибок

Nw – количество слов в переведённом тексте

 

Для наглядности приведём примеры ошибок, считающихся в рамках нашего исследования лёгкими, средними и тяжёлыми.

  1. Лёгкие ошибки

490

For information about changing sound and vibration settings, see Sounds and silence on page 36.

Дополнительные сведения об изменении параметров звука и вибрации см. В разделе звуки и тишина на стр. 36.

В сегменте 490 капитализация затронула не то слово, которое следовало. Здесь потребуется лёгкая корректура, однако на понимание текста в общем она практически не влияет.

5387

When the corresponding circles appear on the screen, swipe or drag in the direction required by the gesture.

Когда на экране появятся соответствующие круги, проведите пальцем или перетащите их в направлении, требуемом жестом.


В сегменте 5387 ошибка исключительно стилистическая и, опять же, не создающая сколь бы то ни было больших препятствий пониманию содержания.

5884

Данный телефон прошел проверку и некоторые используемые в нем беспроводные технологии классифицированы для использования со слуховыми аппаратами.

This phone has been tested and some of the wireless technologies used in it are classified for use with hearing AIDS.

В сегменте 5884 в конце предложения словосочетание выбрано правильно, но некорректная капитализация добавляет неожиданные смыслы.

  1. Ошибки средней тяжести

689

Если имеется ненастроенная базовая станция AirPort, которая включена и находится в диапазоне действия сети, можно использовать iPhone для ее настраивания.

If you have an unbuilt AirPort base station that is enabled and within network range, you can use your iPhone to configure it.

Здесь мы видим некорректное использование лексики. В данном случае корректный перевод – unconfigured. В то время как смысл может быть правильно понят, ошибка однозначно препятствует быстрому пониманию текста.

430

Locking iPhone puts the display to sleep, saves the battery, and prevents anything from happening if you touch the screen.

Блокировка iPhone переводит дисплей в спящий режим, экономит заряд батареи и предотвращает все, что происходит, если вы касаетесь экрана.

Искажение смысла. В русской версии эта фраза переведена как prevents everything that is happening.

1563

Erase iPhone: Protect your privacy by erasing all the information and media on your iPhone and restoring it to its original factory settings.

Стирание iPhone: защитите свою частную жизнь, удалив всю информацию и носители на вашем iPhone и восстановив его первоначальные заводские настройки.

Лексическая ошибка. В русской версии перевод ближе к delete iPhone, чем к очистке данных.

  1. Грубые ошибки

622

If you have an unconfigured AirPort base station turned on and within range, you can use iPhone to set it up.

Если у вас есть неконфигурированная базовая станция аэропорта, включенная и находящаяся в пределах досягаемости, вы можете использовать iPhone для ее настройки.

Смысл полностью ускользает. Название AirPort переведено как аэропорт (воздушный хаб).

5747

If the interior temperature of iPhone exceeds normal operating temperatures (for example, in a hot car or in direct sunlight for extended periods of time), you may experience the following as it attempts to regulate its temperature:

Если внутренняя температура iPhone превышает нормальные рабочие температуры (например, в жарком автомобиле или под прямыми солнечными лучами в течение длительного периода времени), вы можете испытать следующее, когда он пытается регулировать свою температуру:

Искажение смысла. В русской версии перевод больше схож с you may get a following experience.

5804

To help Apple improve products and services, iPhone sends diagnostic and usage data.

Чтобы помочь компании Apple улучшить продукцию и услуги, iPhone отправляет данные о диагностике.

Пропуск текста and usage data.

 

Исследование. Сравнительная таблица

Язык исходника

Язык перевода

Коэффициент качества

Русский

Турецкий

10,88

Турецкий

Русский

7,74

Русский

Английский

0,41

Английский

Русский

1,3

Русский

Китайский

Не NMT

Китайский

Русский

0,99

Английский

Турецкий

11,25

Турецкий

Английский

2,45

Английский

Китайский

2,31

Китайский

Английский

0,11

Турецкий

Китайский

Не NMT

Китайский

Турецкий

Не NMT

 

Качество текста перевода настолько лучше, насколько ближе к нулю показатель качества.

Исходя из результатов, какой-либо корреляции выявлено не было.

Результаты намного больше демонстрируют качество подготовки корпуса для движков, нежели различия между качественностью переводов между различными языковыми группами. Так, в то время как направления с турецким языком показали худшие результаты из всего тестирования, неожиданно высокое качество показала пара китайский-английский. Наиболее вероятная причина – использованный для исследования текст мог оказаться полностью или частично частью корпуса при тренировке движка МТ разработчиком.

Тем не менее, результаты исследования дают понимание, какие пары разработчика могут в дальнейшем быть использованы для перевода схожих текстов. Для этого в формулу качества мы добавили учёт лёгких ошибок:

Q = (Em*1 + Eh*2 + Ee*0,5)/Nw*100

Ee – количество лёгких ошибок

Таблица результатов в таком случае выглядит следующим образом:

Язык исходника

Язык перевода

Коэффициент качества

Русский

Турецкий

12,65

Турецкий

Русский

12,69

Русский

Английский

0,57

Английский

Русский

1,36

Русский

Китайский

Не NMT

Китайский

Русский

1,62

Английский

Турецкий

13,03

Турецкий

Английский

4,17

Английский

Китайский

3,12

Китайский

Английский

0,12

Турецкий

Китайский

Не NMT

Китайский

Турецкий

Не NMT

 

Естественно, результаты не могут считаться однозначно объективными. Так, на них безусловно влияет качество корпусов в каждом отдельно взятом движке, субъективность оценки лингвистами и особенности подготовки. В дальнейшем мы будем продолжать исследование в этой области и сможем поделиться ими на следующих лингвистических мероприятиях.

У вас остались вопросы?
Оставьте заявку на консультацию и мы ответим на ваши вопросы
Даю согласие на обработку моих персональных данных в соответствии с политикой конфиденциальности компании.
Спасибо!
Ваша заявка принята!
Мы с вами свяжемся в ближайшее рабочее время
Ошибка
При отправке вашего сообщения произошла ошибка. Попробуйте позднее
Быстрый заказ
Даю согласие на обработку моих персональных данных в соответствии с политикой конфиденциальности компании.