Logo Море(!) аналитической информации!
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Mozilla развивает собственную систему машинного перевода

Компания Mozilla в рамках проекта Bergamot приступила к созданию системы машинного перевода, работающей на стороне браузера. Проект позволит интегрировать в Firefox самодостаточный движок перевода страниц, не обращающийся к внешним облачным сервисам и обрабатывающий данные исключительно на системе пользователя. Главной целью разработки является обеспечение конфиденциальности и защита данных пользователя от возможных утечек при переводе содержимого открываемых в браузере страниц.

Разработка Bergamot ведётся в берлинском офисе Mozilla при участии исследователей из нескольких университетов Великобритании, Эстонии и Чехии. Разработку финансирует Евросоюз в рамках гранта, полученного по программе Horizon 2020. Размер гранта составляет три миллиона евро. Проект рассчитан на три года. В Mozilla открыта вакансия специалиста по системам машинного обучения для участия в разработке движка для перевода с одного языка на другой.

Из смежных разработок, имеющих отношение к проекту Bergamot, упомянуты:

  • Развиваемый в Эдинбургском университете фреймворк машинного перевода Marian, построенный на базе рекуррентной нейронной сети. Фреймворк написан на языке C++, может задействовать GPU для ускорения обучения и перевода, и поставляется под лицензией MIT.
  • Созданный в Пражском университете инструментарий Neural Monkey для обработки информации на естественном языке с использованием методов последовательного машинного обучения. Проект применяет фреймворк TensorFlow и может использоваться для быстрого создания прототипов систем машинного перевода и классификации информации на естественном языке. Код доступен под лицензией BSD.
  • Подготовленный в Шеффилдском университете проект QuEst++, применяемый для оценки и прогнозирования качества систем машинного перевода.
  • Развиваемые в Mozilla синтезатор речи (TTS) и движок распознавания речи (Deep Speech)
  • Финансируемый Евросоюзом проект ParaCrawl, накапливающий базу синхронных переводов различных фраз на разных языках, которую можно использовать для тренировки систем машинного обучения. Основой проекта является бот bitextor, который индексирует многоязычные web-сайты и автоматически находит одинаковые тексты, представленные на нескольких языках. База примеров параллельных переводов формируется для 24 языков, в том числе для русского (БД для русского языка занимает 637MB в сжатом виде и включает более 12 млн примеров перевода).

Разработка Bergamot началась в январе этого года, но наработки проекта пока недоступны для публичного тестирования. Тем не менее, несколько дней назад разработчики опубликовали видео с демонстрацией начального прототипа.


Напомним, что в Firefox уже имеется встроенный механизм для перевода страниц, но он завязан на использовании внешних облачных сервисов (поддерживаются Google, Yandex и Bing) и не активирован по умолчанию (для включения в about:config следует изменить настройки "browser.translation"). Механизм перевода в том числе поддерживает автоматическое определение языка при открытии страницы на неизвестном языке и выводит специальный индикатор с предложением осуществить перевод страницы. Развиваемый в рамках проекта Bergamot прототип системы перевода использует этот же интерфейс для взаимодействия с пользователем, но вместо обращения к внешним сервисам запускается встроенный обработчик.

OpenNET

Бесплатный конструктор сайтов и Landing Page

Хостинг с DDoS защитой от 2.5$ + Бесплатный SSL и Домен

SSD VPS в Нидерландах под различные задачи от 2.6$

VPS в России, Европе и США

Бесплатная поддержка и администрирование

Оплата российскими и международными картами

Новости мира IT:

Архив новостей

IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Информация для рекламодателей PR-акции, размещение рекламы — adv@citforum.ru Пресс-релизы — pr@citforum.ru
Обратная связь
Информация для авторов
Rambler's Top100 TopList This Web server launched on February 24, 1997
Copyright © 1997-2000 CIT, © 2001-2019 CIT Forum
Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...