Компания Meta* представила мультимодальную модель искусственного интеллекта, которая умеет распознавать речь и переводить ее почти на 100 языков.
Кроме этого нейросеть SeamlessM4T умеет создавать из текста речь на 35 языках. А также распознавать, когда человек переходит с одного языка на другой или использует в речи сразу несколько.
SeamlessM4T опирается на результаты большого количества языковых проектов, обеспечивая многоязычный и мультимодальный перевод на основе единой модели, построенной на широком спектре устных источников и показывает невероятные результаты. Нейросеть поддерживает:
На данный момент момент SeamlessM4T доступна исследователям и разработчикам под соответствующей лицензией. Увидеть работу нейросети можно здесь.
Также компания опубликовала метаданные SeamlessAlign, крупнейшего открытого набора данных для мультимодального перевода, включающего 270 000 часов согласования речи и текста.
Подробнее – в блоге Meta AI.
*Компания Meta признана экстремистской организацией и запрещена на территории РФ
Источник: searchengines.guru