Создан новый русско-татарский переводчик на основе нейросетей

Проект Tatsoft разработан сотрудниками Института прикладной семиотики Академии наук Республики Татарстан при участии ассистента Лаборатории машинного обучения и представления данных Университета Иннополис Альбины Хусаиновой. Для тренировки нейросети разработчики собрали миллион пар предложений.

Создан новый русско-татарский переводчик на основе нейросетей

Архитектура переводчика основана на нейросетевых технологиях. Альбина Хусаинова и сотрудник Академии наук Татарстана Айдар Хусаинов испытывали и комбинировали разные модели машинного перевода, исследуя применимость научных трендов в этой области. Студенты бакалавриата ИТ-вуза участвовали в начальных экспериментах на небольшой выборке данных. На финальном этапе, когда нейросеть обучилась на данных — переводах книг, билингвальных новостях и переведенных профессиональными переводчиками текстах, — разработчики провели нагрузочное тестирование, чтобы сервис выдерживал большой трафик пользователей.

Всего работа над переводчиком велась 5 лет: с 2014 года в Институте прикладной семиотики собирались и оцифровывались данные, изучались модели автоматизированного перевода для оптимальной работы, в начале 2018 года появилась первая версия сервиса. В 2019 году к работе присоединились представители российского ИТ-вуза.

Ранее, по словам Альбины Хусаиновой, качественно переводить не отдельные слова, а тексты с татарского на русский язык и наоборот мог только сервис «Яндекс.Переводчик». Сейчас, по результатам проверки качества перевода по метрике BLEU (Bilingual Evaluation Understudy Score), Tatsoft справляется лучше аналогов.

Tatsoft.jpg

Официальная презентация переводчика прошла 25 октября. Tatsoft переводит как с русского на татарский язык, так и наоборот. Пользователи могут запустить синтезированное озвучивание текста и оценить полученный перевод. В ближайшее время планируется выпустить мобильное приложение, а также увеличить количество тренировочных пар предложений до 15 миллионов.

Ассистент Лаборатории машинного обучения и представления данных Университета Иннополис Альбина Хусаинова: «Я занимаюсь проблемами малоресурсного машинного перевода и поэтому, конечно, этот проект меня очень заинтересовал. Я подключилась к работе на той стадии, когда данные для тренировки модели уже были собраны. Это первый разработанный в Татарстане и доступный для широкой публики высококачественный машинный переводчик для татарского языка. Я сама им активно пользуюсь. Часто выдает очень хорошие результаты (я сама бы так не смогла), но иногда, конечно, бывают проблемы. Они, как правило, возникают, когда в тренировочных данных не было похожих предложений. Вообще индустриальные системы тренируют модели перевода на десятках миллионов пар предложений, в нашем же случае пока что удалось собрать только один миллион. Поэтому, чтобы улучшить качество перевода, нужно прежде всего работать над сбором данных. Я очень надеюсь, что у Института прикладной семиотики получится это сделать. Мне бы хотелось помочь сделать его еще лучше, но для этого прежде всего необходимы новые данные. Сейчас работаем над идеей использовать данные других тюркских языков, чтобы улучшить качество перевода».

В центре внимания

Блог на habrahabr

20 Ноября 2019
Выпускница Университета Иннополис об учёбе в Гренобльском университете, ИИ, английском у французов и сыре с клопами

Алиса Газизуллина, победительница хакатона Лаборатории Касперского Secur’IT Cup 2018, закончила программу бака...

10 Июня 2019
Серия лекций по робототехнике профессора Грегора Шёнера, директора Института нейроинформатики (INI) Бохум, Германия

Открытые лекции спикера пройдут в рамках Международной объединённой летней школы «Роботы: сознание, очувствление...

6 Марта 2019
[recovery mode] Опрос: Облачные технологии в ГИС и сервисах на основе геоданных

Время прохождения: 7—10 минут Google Форма с опросом Читать дальше →...

20 Февраля 2019
Университет Иннополис проведёт первую в России международную проектную школу по автономным транспортным средствам

Мероприятие рассчитано на бакалавров, магистров, аспирантов и молодых исследователей. Авторы лучших заявок пол...

Новости по теме

Популярные новости

Сайт находится в технической разработке