Аналитические и синтетические языки. Машинный перевод между ними
- 1. Введение. Типы языков. Различие между ними
- 2. Критерии выбора языков для исследования. Методика анализа
- 3. Исследование. Сравнительная таблица
- 4. Выводы
- 5. Заключение
Введение. Типы языков. Различия между ними
В языках мира существуют две основных группы способов выражения грамматических значений – синтетические и аналитические.
Аналитические языки — те, в которых грамматические отношения имеют тенденцию к передаче в основном через синтаксис, то есть через отдельные служебные слова (предлоги, модальные глаголы и т. п.) через фиксированный порядок слов, контекст и/или интонационные вариации, а не через словоизменение с помощью зависимых морфем (окончаний, суффиксов, приставок и т. д.).
В синтетических языках грамматические значения выражаются в пределах самого слова (аффиксация, внутренняя флексия, ударение, супплетивизм), то есть формами самих слов.
Помимо двух основных типов существуют два экстремальных подтипа – полисинтетические и изолирующие.
Полисинтетические языки — те, в которых все члены предложения (полная инкорпорация) или некоторые компоненты словосочетания (частичная инкорпорация) соединяются в единое целое без формальных показателей у каждого из них. Другими словами, целое предложение может оказываться внутри одного массивного слова, несущего как основную информацию, так и дополнительные оттенки эмоциональные и смысловые.
Изолирующие языки́ (иначе аморфные, односложные, корневые) — языки с низким соотношением морфем к слову. Слова в максимально изолирующем языке будут состоять только из одной морфемы — корня, не образуя ни составных слов, ни сочетаний с суффиксами, префиксами и т. д.
Классический пример синтетического и аналитического строя:
В английском языке, считающемся аналитическим, фраза I love you может быть правильно воспринята только при такой последовательности слов. При изменении последовательности страдает смысл и, зачастую, грамматика. Так, нельзя сказать Love you I или I you love.
В то же время в русском языке, считающемся синтетическим, фраза «Я тебя люблю» может достаточно легко трансформироваться в «Тебя люблю я», «Тебя я люблю» и так далее. Это происходит за счёт того, что грамматические конструкции находятся внутри самих слов, что позволяет легко идентифицировать их значение вне зависимости от положения в предложении.
Другой характерный пример различия этих языков – однословное предложение «Смеркалось». В то время, как в русском языке смысл передан одним словом, которое указывает одновременно и на действие, и на время, не требуя при этом подлежащего, в английском языке аналог будет растянут на длинное предложение: It was getting dark.
В большинстве языков есть и аналитические, и синтетические средства выражения грамматических значений, однако их удельный вес бывает разным. В зависимости от того, какие способы преобладают, различают языки аналитического и синтетического строя. К синтетическим языкам принадлежат все славянские языки (кроме болгарского), санскрит, древнегреческий, латынь, немецкий, якутский, суахили и др. Важно отметить, что чистых аналитических или синтетических не существует, есть примеры (окончания числовых?). Так. В аналитическом английском число в существительных отображается с помощью окончания s.
К языкам аналитического типа относятся все романские языки, английский, болгарский, новоперсидский, датский и др.
Языки, в которых почти отсутствуют возможности синтетического выражения грамматических значений (китайский, вьетнамский и др.), называют изолирующими (ранее их называли аморфными), как бы лишенными формы.
Есть языки, в которых слово оформляется большим количеством разных служебных морфем, оно превращается по смыслу в слово-предложение, но при этом остается оформленным как слово. Такое устройство «слова-предложения» называют инкорпорацией, а соответствующие языки – инкопрорирующими или полисинтетическими (индейские языки, чукотский, корякский и др).
Критерии выбора языков для исследования. Методика анализа
В качестве материала для исследования была взято руководство пользователя iPhone для программного обеспечения iOS-8 на исследуемых языках. Выбор был продиктован тем, что данная тематика представляет наименьшие трудности для алгоритмов NMT, предложения в таких материалах, как инструкции, наиболее просты грамматически и не отличаются сложной лексикой. Объём текста для каждой языковой пары оказался около 40 страниц.
Перед исследованием не ставился вопрос о том, как быстро можно постредактировать переводы внутри и между типами языков. Главный вопрос – насколько изначально читаемым и схожим будет материал на выходе.
В качестве системы МТ был выбран один из основных российских разработчиков МТ, среди движков которого оказалось подавляющее большинство необходимых для исследования языковых пар. Таким образом, несмотря на неизбежные отличия в качестве корпусов, сводилась к нулю вероятность различия результатов в силу разных алгоритмов разных систем МТ.
Для анализа было решено выбрать несколько языков: по два каждого типа. Основными критериями выбора стали: отсутствие близких связей между выбранными языками, их популярность и возможность выполнения нейромашинного перевода для всех выбранных языков на единой платформе во избежание влияния алгоритмов разных систем МТ на конечный результат перевода.
В качестве синтетических языков были взяты:
- Русский
- Турецкий
В качестве аналитических выбраны:
- Английский
- Китайский (считается изолирующим, что по сути значит ещё меньшее количество синтетических конструкций)
Выбор был продиктован следующим соображениями:
Русский язык – представитель славянских языков и наиболее используемый из них в международной практике и, следовательно, в переводческой отрасли.
Турецкий язык – наиболее популярный язык тюркской группы.
Английский язык – самый используемый в мире язык, представитель германской ветви индоевропейских языков.
Китайский – язык с наибольшим числом носителей в мире из сино-тибетской семьи, являющийся изолирующим по грамматическому строю.
Выбор языков был также обусловлен количеством носителей, принадлежностью к разным языковым семьям, разным группам с точки зрения типологической классификации и влиянием в экономическом плане.
В качестве методики выбрана схема оценки переводов общей тематики с и на языки внутри своей группы, а также перевод с и на языки противоположной группы.
Под коэффициентом качества понимается отношение количества ошибок выше средней степени тяжести к количеству слов в переводе. Так, учитывались только средние и тяжёлые ошибки (явные лексические ошибки, пропуски, искажение смысла, грамматика), поскольку они в конечном счёте больше всего влияют на восприятие перевода (как и на время постредактирования). В практическом смысле коэффициенты способны показать, какие пары больше подходят для их использования без редактирования, а какие – меньше или не подходят совсем.
Формула для подсчёта коэффициента качества:
Q = (Em*1 + Eh*2)/Nw*100
Q – коэффициент качества
Em – количество ошибок средней тяжести
Eh – количество тяжёлых ошибок
Nw – количество слов в переведённом тексте
Для наглядности приведём примеры ошибок, считающихся в рамках нашего исследования лёгкими, средними и тяжёлыми.
- Лёгкие ошибки
490 |
For information about changing sound and vibration settings, see Sounds and silence on page 36. |
Дополнительные сведения об изменении параметров звука и вибрации см. В разделе звуки и тишина на стр. 36. |
В сегменте 490 капитализация затронула не то слово, которое следовало. Здесь потребуется лёгкая корректура, однако на понимание текста в общем она практически не влияет.
5387 |
When the corresponding circles appear on the screen, swipe or drag in the direction required by the gesture. |
Когда на экране появятся соответствующие круги, проведите пальцем или перетащите их в направлении, требуемом жестом. |
В сегменте 5387 ошибка исключительно стилистическая и, опять же, не создающая сколь бы то ни было больших препятствий пониманию содержания.
5884 |
Данный телефон прошел проверку и некоторые используемые в нем беспроводные технологии классифицированы для использования со слуховыми аппаратами. |
This phone has been tested and some of the wireless technologies used in it are classified for use with hearing AIDS. |
В сегменте 5884 в конце предложения словосочетание выбрано правильно, но некорректная капитализация добавляет неожиданные смыслы.
- Ошибки средней тяжести
689 |
Если имеется ненастроенная базовая станция AirPort, которая включена и находится в диапазоне действия сети, можно использовать iPhone для ее настраивания. |
If you have an unbuilt AirPort base station that is enabled and within network range, you can use your iPhone to configure it. |
Здесь мы видим некорректное использование лексики. В данном случае корректный перевод – unconfigured. В то время как смысл может быть правильно понят, ошибка однозначно препятствует быстрому пониманию текста.
430 |
Locking iPhone puts the display to sleep, saves the battery, and prevents anything from happening if you touch the screen. |
Блокировка iPhone переводит дисплей в спящий режим, экономит заряд батареи и предотвращает все, что происходит, если вы касаетесь экрана. |
Искажение смысла. В русской версии эта фраза переведена как prevents everything that is happening.
1563 |
Erase iPhone: Protect your privacy by erasing all the information and media on your iPhone and restoring it to its original factory settings. |
Стирание iPhone: защитите свою частную жизнь, удалив всю информацию и носители на вашем iPhone и восстановив его первоначальные заводские настройки. |
Лексическая ошибка. В русской версии перевод ближе к delete iPhone, чем к очистке данных.
- Грубые ошибки
622 |
If you have an unconfigured AirPort base station turned on and within range, you can use iPhone to set it up. |
Если у вас есть неконфигурированная базовая станция аэропорта, включенная и находящаяся в пределах досягаемости, вы можете использовать iPhone для ее настройки. |
Смысл полностью ускользает. Название AirPort переведено как аэропорт (воздушный хаб).
5747 |
If the interior temperature of iPhone exceeds normal operating temperatures (for example, in a hot car or in direct sunlight for extended periods of time), you may experience the following as it attempts to regulate its temperature: |
Если внутренняя температура iPhone превышает нормальные рабочие температуры (например, в жарком автомобиле или под прямыми солнечными лучами в течение длительного периода времени), вы можете испытать следующее, когда он пытается регулировать свою температуру: |
Искажение смысла. В русской версии перевод больше схож с you may get a following experience.
5804 |
To help Apple improve products and services, iPhone sends diagnostic and usage data. |
Чтобы помочь компании Apple улучшить продукцию и услуги, iPhone отправляет данные о диагностике. |
Пропуск текста and usage data.
Исследование. Сравнительная таблица
Язык исходника |
Язык перевода |
Коэффициент качества |
Русский |
Турецкий |
10,88 |
Турецкий |
Русский |
7,74 |
Русский |
Английский |
0,41 |
Английский |
Русский |
1,3 |
Русский |
Китайский |
Не NMT |
Китайский |
Русский |
0,99 |
Английский |
Турецкий |
11,25 |
Турецкий |
Английский |
2,45 |
Английский |
Китайский |
2,31 |
Китайский |
Английский |
0,11 |
Турецкий |
Китайский |
Не NMT |
Китайский |
Турецкий |
Не NMT |
Качество текста перевода настолько лучше, насколько ближе к нулю показатель качества.
Исходя из результатов, какой-либо корреляции выявлено не было.
Результаты намного больше демонстрируют качество подготовки корпуса для движков, нежели различия между качественностью переводов между различными языковыми группами. Так, в то время как направления с турецким языком показали худшие результаты из всего тестирования, неожиданно высокое качество показала пара китайский-английский. Наиболее вероятная причина – использованный для исследования текст мог оказаться полностью или частично частью корпуса при тренировке движка МТ разработчиком.
Тем не менее, результаты исследования дают понимание, какие пары разработчика могут в дальнейшем быть использованы для перевода схожих текстов. Для этого в формулу качества мы добавили учёт лёгких ошибок:
Q = (Em*1 + Eh*2 + Ee*0,5)/Nw*100
Ee – количество лёгких ошибок
Таблица результатов в таком случае выглядит следующим образом:
Язык исходника |
Язык перевода |
Коэффициент качества |
Русский |
Турецкий |
12,65 |
Турецкий |
Русский |
12,69 |
Русский |
Английский |
0,57 |
Английский |
Русский |
1,36 |
Русский |
Китайский |
Не NMT |
Китайский |
Русский |
1,62 |
Английский |
Турецкий |
13,03 |
Турецкий |
Английский |
4,17 |
Английский |
Китайский |
3,12 |
Китайский |
Английский |
0,12 |
Турецкий |
Китайский |
Не NMT |
Китайский |
Турецкий |
Не NMT |
Естественно, результаты не могут считаться однозначно объективными. Так, на них безусловно влияет качество корпусов в каждом отдельно взятом движке, субъективность оценки лингвистами и особенности подготовки. В дальнейшем мы будем продолжать исследование в этой области и сможем поделиться ими на следующих лингвистических мероприятиях.