Блоги Блоги 04.09.2018 в 13:00 comment

В Facebook разработали новый метод машинного перевода

author avatar
https://secure.gravatar.com/avatar/341ba260d57a6855744e3c0760decc30?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://secure.gravatar.com/avatar/341ba260d57a6855744e3c0760decc30?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.svg

Для машинного перевода обычно требуется достаточно объемный т.н. «параллельный корпус» — сборник текстов на языке-источнике и целевом языке. Вместе с тем, в случае редких языков текстовых фрагментов для обучения систем машинного перевода не всегда хватает. Разработчики Facebook решили задействовать подход «обучение без учителя», чтобы решить данную проблему.

Как объясняют исследователи, их система использует векторные представления каждого слова. Все слова языка можно представить в виде вектора в многомерном пространстве и таким образом подробно изучить их семантику: к примеру, слово «кот» в таком пространстве будет ближе к слову «животное» и слову «кошечка», чем к слову «ракета» или «молекула». Этот подход работает для любого языка и, имея векторное представление слов языка-источника и целевого языка, можно совместить два пространства: координаты одинаковых слов (к примеру, «кошка», «cat» и «gatto») в них будут совпадать. Система, таким образом, может выучить целый словарь-переводчик, не имея для обучения пар слов на двух языках.

Two-dimensional word embeddings in two languages (left) can be aligned via a simple rotation (right). After the rotation, word translation is performed via nearest neighbor search.

Для перевода целых текстов, однако, такой подход работает плохо: в первую очередь из-за того, что грамматические параметры могут не учитываться. Исследователи решили и эту проблему, обучив нейросеть правильным языковым моделям: рассматривая примеры на языке, система учится наиболее грамматически корректным языковым формам и сочетаниям. В результате, зная перевод отдельных слов и правильную структуру предложений на исходном и целевом языках, система машинного перевода способна выдавать корректный перевод. На третьем шаге система улучшает полученный перевод, сравнивая его с грамматически правильными формами сочетаний.

Полученный алгоритм проверили на парах перевода с французского и немецкого на английский и оценили ее эффективность с помощью алгоритма оценки машинного перевода BLEU (bilingual evaluation understudy). Обычно коэффициент BLEU — число от 0 до 1, но в своей работе исследователи оценивали качество по шкале от 0 до 100: им удалось добиться повышения качества перевода на 10 баллов по сравнению с методиками, разработанными ранее.

https://code.fb.com/wp-content/uploads/2018/08/germanB.png

Впрочем, разработчики уточняют, что их систему еще надо улучшать. Препринт статьи выложен на arXiv, коротко о работе сообщается на сайте компании.

Онлайн-курс "Computer Vision" від robot_dreams.
Застосовуйте Machine Learning / Deep Learning та вчіть нейронні мережі розпізнавати об’єкти на відео. Отримайте необхідні компетенції Computer Vision Engineer.
Дізнатись більше про курс

Источник: N+1


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: