Поддержите рост и цифровую трансформацию своего бизнеса в условиях вспышки с помощью Программы поддержки малого и среднего бизнеса против COVID-19. Получите пакет купонов на 300 долларов США для всех новых клиентов малого и среднего бизнеса или купон на 500 долларов США для платных клиентов.

Командой платформы перевода DAMO Academy.

Нынешняя пандемия представляет серьезную угрозу жизни и здоровью людей во всем мире. Всемирная организация здравоохранения призвала международное сообщество рассматривать вирус COVID-19 как врага общества номер один, поэтому борьба с эпидемией является приоритетом для всех. Во всем мире проводятся новые исследования самого вируса и возможных методов лечения, а также большой прогресс в разработке новой вакцины. По состоянию на 4 февраля на английском языке было опубликовано не менее 77 научных статей, связанных с COVID-19. Чтобы преодолеть языковые барьеры и скоординировать последние исследования вируса между Китаем и миром, команда переводчиков Alibaba DAMO Academy запустила Платформу профессионального перевода для COVID-19. Эта платформа предоставляет бесплатные услуги по переводу профессиональных документов в области медицины с китайского на английский и с английского на китайский, чтобы помочь медицинским работникам по всему миру объединиться и бороться с вирусом.

Система профессионального медицинского перевода DAMO

Движок, лежащий в основе этой платформы перевода, использует итеративную оптимизацию, основанную на ведущей в отрасли модели двунаправленного китайско-английского перевода. Для этого мы использовали передовую технологию автоматической корпусной фильтрации для сбора большого количества высококачественных данных в области медицины и усовершенствовали параметры модели, включив некоторые данные из общей области. Это позволяет новому механизму перевода хорошо адаптироваться к медицинским задачам, сохраняя при этом хорошую производительность перевода в других областях. Кроме того, мы использовали новейшую технологию вмешательства, разработанную Академией DAMO, чтобы интегрировать новейшие термины двуязычной базы знаний, связанные с эпидемией. Это гарантирует точный перевод медицинских терминов. При переводе общедоступного тестового набора, взятого из области медицины, общая производительность перевода нового механизма перевода была оценена как улучшение на 7% по сравнению с исходной моделью перевода.

Основные алгоритмы машинного перевода

В настоящее время Alibaba Translate использует модель перевода, основанную на глубоких нейронных сетях. Мы используем структуру модели перевода seq-to-seq, рассматриваем отдельные строки в качестве входных данных и используем подслова в качестве минимальной единицы перевода для создания переводов по предложениям. Мы применяем современную сетевую архитектуру Deep Transformer и используем глубокую нейронную сеть и технологию внутреннего внимания для улучшения наших возможностей моделирования. Это, а также высокопараллельная конструкция сетевой структуры значительно ускоряет скорость сходимости модели при обучении. Во-вторых, за счет полного использования лингвистических знаний и включения большего количества априорных лингвистических знаний мы улучшили качество системы перевода. Интегрируя синтаксис, части речи, аффиксы и другую информацию в модель перевода, выходной перевод лучше следует грамматическим правилам и лексическим нормам.

Двуязычная технология оценки корпусов

Автоматически оценивая качество собранного двуязычного корпуса, мы можем отфильтровать высококачественные данные предметной области из большого объема зашумленных данных, чтобы лучше адаптировать модель к конкретной предметной области. На следующем рисунке показана общая архитектура модели.

В правой части рисунка показана основная часть модели. Это предварительно обученная двуязычная экспертная модель, очень похожая на модель Transformer NMT. Однако, поскольку мы не выполняем задачи генерации, мы изменили цель на модель двунаправленного трансформатора. Эта модель может эффективно извлекать особенности двунаправленного языка исходного текста и перевода. Затем, после этого этапа процесса обучения, создается мощная двуязычная языковая модель.

В левой части рисунка показана модель оценки качества, основанная на Bi-LSTM, которая объединяет функции, полученные из двуязычной экспертной модели, и некоторые функции сопоставления распределения слов. Эти функции могут эффективно прогнозировать качество корпуса.

Технология вмешательства машинного перевода

Наша запатентованная технология нейросетевого вмешательства эффективно использует внешние априорные знания, чтобы сделать переводы более профессиональными и быстро исправить ошибки перевода. Он может быстро исправить ошибки онлайн и удовлетворить индивидуальные потребности в переводе. В рамках этого мы внедрили интерактивный модуль интервенционного перевода, который может беспрепятственно интерпретировать как целое предложение, так и его фрагменты. Эта технология широко используется в электронной коммерции, голосовых и коммуникационных сценариях перевода. В медицинских сценариях Alibaba Translate может естественным образом интегрировать современные двуязычные базы знаний в области медицины с помощью этой технологии, чтобы обеспечить точность медицинской терминологии. Соответствующая технология терминологии также позволяет пользователям настраивать термины.

Профессиональный эпидемический словарь

В медицинских текстах используется большое количество специализированной терминологии, что может затруднить чтение медицинских текстов на иностранном языке исследователями и клиницистами. Кроме того, поскольку медицина включает в себя широкий спектр профессиональных областей и множество субдисциплин, даже врачи, которые могут уверенно использовать английский язык в своих областях, могут быть не в состоянии читать контент на английском языке, относящийся к другим отделам, областям или дисциплинам. Чтобы решить эту проблему, эта платформа общественного благосостояния собрала более 500 000 словарей медицинской терминологии, которые охватывают несколько областей, включая клиническую помощь, биологию и фармацевтику. Он также записывает новые термины и переводы, связанные с текущей эпидемией, в режиме реального времени, чтобы облегчить поиск терминологии пользователями. В то же время пользователи могут добавлять новые переводы терминов и делиться последними эпидемическими терминами с другими в режиме реального времени.

Обмен профессиональной литературой, связанной с эпидемиями

С момента вспышки COVID-19 передовые исследователи и клиницисты уделяли пристальное внимание прогрессу исследований самого вируса, эпидемической ситуации, а также мерам профилактики и контроля, проводимым в их странах и за рубежом. В настоящее время платформа общественного благосостояния включает контент из авторитетных журналов, таких как New England Journal of Medicine, Lancet, Nature, Science, а также Journal of Medical Virology и Journal of Clinical Medicine. . Этот контент включает около 20 статей из эпидемиологии, вирусологии, клинической медицины и других областей. Как оригинальные документы на английском языке, так и переводы на китайский язык предоставляются бесплатно. Пользователи могут читать и загружать статьи, что позволяет им быстро и удобно быть в курсе последних мировых исследований. В то же время платформа позволяет пользователям самостоятельно загружать документы и автоматически генерировать переводы. Он также предоставляет механизм обмена документами, облегчающий пользователям сбор и поиск соответствующих материалов.

Оптимизация функций

Поскольку большинство документов передаются и распространяются в формате PDF, Alibaba Translate оптимизирован для перевода документов в формате PDF. Конкретные оптимизации включают следующее.

  1. Синтаксический анализ текста PDF: этот процесс обычно использует оптическое распознавание символов (OCR) или непосредственно анализирует документы PDF. Изучив сравнение различных подходов, Alibaba Translate обнаружила, что преобразование PDF-документов в файлы Microsoft Word .docx облегчает компоновку и восстановление переведенных документов. Поэтому файлы PDF преобразуются в файлы docx, которые затем анализируются для перевода документов.
  2. Сохранение макета: макет исходного PDF-документа должен быть сохранен в переводе, чтобы исходный файл и переведенный файл можно было просматривать и сравнивать друг с другом. Это улучшает опыт чтения. При извлечении текстового содержимого файла docx Alibaba Translate сохраняет расположение текста и другую подобную информацию. Затем, после завершения перевода, платформа создает переведенные файлы, применяя сохраненную информацию, чтобы они имели тот же макет, что и исходные файлы.
  3. Предварительный просмотр в Интернете и на мобильных устройствах. Используя Alibaba Cloud Intelligent Media Management (IMM) для обеспечения функции предварительного просмотра документов, мы также оптимизировали процесс просмотра документов.

Вы можете перейти непосредственно на платформу профессиональных переводов для полевого портала COVID-19 по этой ссылке: https://medtrans.damo.alibaba.com/medtrans.htm

Продолжая вести войну против всемирной вспышки, Alibaba Cloud сыграет свою роль и сделает все возможное, чтобы помочь другим в их битвах с коронавирусом. Узнайте, как мы можем обеспечить непрерывность вашего бизнеса, на странице https://www.alibabacloud.com/campaign/fight-coronavirus-covid-19.

Оригинальный источник: