Рубрики Блоги

В Facebook разработали новый метод машинного перевода

Опубликовал
Кирилл Иртлач

Для машинного перевода обычно требуется достаточно объемный т.н. «параллельный корпус» — сборник текстов на языке-источнике и целевом языке. Вместе с тем, в случае редких языков текстовых фрагментов для обучения систем машинного перевода не всегда хватает. Разработчики Facebook решили задействовать подход «обучение без учителя», чтобы решить данную проблему.

Как объясняют исследователи, их система использует векторные представления каждого слова. Все слова языка можно представить в виде вектора в многомерном пространстве и таким образом подробно изучить их семантику: к примеру, слово «кот» в таком пространстве будет ближе к слову «животное» и слову «кошечка», чем к слову «ракета» или «молекула». Этот подход работает для любого языка и, имея векторное представление слов языка-источника и целевого языка, можно совместить два пространства: координаты одинаковых слов (к примеру, «кошка», «cat» и «gatto») в них будут совпадать. Система, таким образом, может выучить целый словарь-переводчик, не имея для обучения пар слов на двух языках.

Для перевода целых текстов, однако, такой подход работает плохо: в первую очередь из-за того, что грамматические параметры могут не учитываться. Исследователи решили и эту проблему, обучив нейросеть правильным языковым моделям: рассматривая примеры на языке, система учится наиболее грамматически корректным языковым формам и сочетаниям. В результате, зная перевод отдельных слов и правильную структуру предложений на исходном и целевом языках, система машинного перевода способна выдавать корректный перевод. На третьем шаге система улучшает полученный перевод, сравнивая его с грамматически правильными формами сочетаний.

Онлайн-курс "Нотації BPMN" від Laba.
Опануйте мову BPMN для візуалізації бізнес-процесів, щоб впорядкувати хаос у них.Після курсу ви точно знатимете, що саме обрати для розв’язання завдань вашого бізнесу.
Дізнатись більше

Полученный алгоритм проверили на парах перевода с французского и немецкого на английский и оценили ее эффективность с помощью алгоритма оценки машинного перевода BLEU (bilingual evaluation understudy). Обычно коэффициент BLEU — число от 0 до 1, но в своей работе исследователи оценивали качество по шкале от 0 до 100: им удалось добиться повышения качества перевода на 10 баллов по сравнению с методиками, разработанными ранее.

Впрочем, разработчики уточняют, что их систему еще надо улучшать. Препринт статьи выложен на arXiv, коротко о работе сообщается на сайте компании.

Источник: N+1

Disqus Comments Loading...