Авто озвучка текста яндекс
«Было приятно, когда наш синтез речи приняли за диктора»: как работает автоперевод и озвучка видео в «Яндекс.Браузере» Статьи редакции
Глава браузера Роман Иванов о том, как нейросети переводят устную речь, почему с их помощью нельзя посмотреть Netflix и уничтожит ли новый сервис языковой барьер в интернете.
В сентябре 2021 года «Яндекс» добавил в свой браузер перевод англоязычных видео из YouTube, Vimeo, TikTok, Twitter и «ВКонтакте». Пользователю нужно нажать на кнопку в плеере и подождать несколько минут: система приглушит оригинальную озвучку и поверх неё наложит устный перевод на русском.
При запуске в компании заявили, что одна из их главных задач — «полностью стереть языковые границы в интернете». Глава «Яндекс.Браузера» Роман Иванов рассказал:
Как и когда у вашей команды появилась идея запустить перевод видео в браузере?
У нас в компании выстроена такая система планирования: раз в полгода мы собираемся, придумываем, что бы хотелось сделать. Придумывать можно либо основываясь на улучшении чего-то уже существующего, либо пытаясь найти что-то новое и необычное.
Мы искали новые идеи в сентябре 2020 года, когда переводить и озвучивать видео в интернете предложил Андрей Законов, на тот момент он отвечал за продуктовое развитие голосового помощника «Алиса».
«Алиса» умеет распознавать речь через нейросети, генерировать и синтезировать ответ. Законов взял эти элементы, как кубики, и сложил из них новую фигуру. Он пришёл с этим ко мне, руководителю браузера, а также к руководителю сервисов, связанных с машинным обучением и распознаванием речи.
Как долго шла разработка, с какими трудностями за это время вы столкнулись? Когда создали первые прототипы?
Мы начали разработку в ноябре 2020 года, за четыре месяца собрали первый прототип. Первая версия для команды появилась в марте, а уже в июле мы публично анонсировали разработку. Сделали это потому, что начали проводить A/B-тестирование функции: проверяли, не сломали ли мы что-то в браузере, не сделали ли хуже.
Была контрольная группа, которая пользовалась обычной версией браузера, и экспериментальная, где был подключён перевод видео.
Если бы мы начали тестировать разработку без объявления, первый же журналист, случайно наткнувшись на эту функцию, всё равно раскрыл бы наши планы. Поэтому сделали анонс до полноценного запуска, хотя обычно предпочитаем так не делать: вдруг изменятся приоритеты или что-то не получится.
С какими-то огромными трудностями при разработке мы не сталкивались, но задача стояла сложная: перевод видео мы собирали из разных технологий и старались оптимизировать эту функцию так, чтобы у нас хватило на неё мощностей.
Для работы над проектом мы собрали команду из нескольких отделов: одни ребята занимались распознаванием речи, другие переводами, а третьи — интерфейсами в браузере.
Есть ли сейчас на рынке аналоги вашей системы, насколько сильна конкуренция? Если да, чем ваш сервис выделяется на их фоне?
Мне неизвестны конкуренты, которые делают то же самое, что и мы, то есть закадровый перевод любого видео в интернете с английского на русский в браузере, а не озвучку субтитров или какие-то подобные схемы. Знаю, что у Google уже два года есть наушники Pixel Buds, которые умеют переводить речь вокруг человека с десятка языков с какой-то задержкой.
Эта функция работает только если у тебя есть смартфон Pixel и ты живёшь в США или ещё паре стран, в России это не работает. К тому же, Pixel Buds занимаются переводом окружающих звуков, а не работают с видео в браузере.
У сервиса есть какие-то региональные ограничения? В каких странах вообще работает перевод видео, можно ли приехать в США и продолжить пользоваться этой функцией браузера?
Сейчас главное ограничение — наличие перевода только с английского на русский. Мы работаем над другими языками, но сервис пока полезен только для русскоязычных, такое ограничение по целевой аудитории. Работу в других странах мы не блокируем.
Наша основная аудитория — русскоязычные пользователи в России и других странах, планов захватывать «Яндекс.Браузером» США у нас пока нет.
В идеале нужно поддерживать все языковые пары, но дорабатывать ASR, то есть функцию распознавания речи, а потом ещё синтезировать речь под каждый язык — это отдельная работа, которую ещё надо проделать.
Как часто пользователи используют автоперевод? Какая часть из них использует его регулярно, а не только запускает попробовать на один раз, у вас есть такие данные?
В первую неделю после запуска у нас было в среднем по три просмотра видео с переводом на пользователя. По нашим данным, больше трети из тех, кто включают перевод, досматривают видео с ним до конца.
За два месяца с момента запуска сервис перевёл 4 млн уникальных видео, им воспользовались 3,5 млн пользователей. Всего просмотров у переведённых роликов набралось 11 млн, то есть некоторые ролики смотрел более, чем один пользователь.
А где чаще всего используют ваш сервис, на каких площадках?
Пользователи чаще всего используют функцию перевода для видео с YouTube. На втором месте по популярности сервис «Яндекс.Видео», где собраны ролики с разных площадок. Из интересного — на пятом месте по популярности TikTok.
Последнее, что я сам смотрел с переводом на YouTube — обзор какого-то американского блогера на наушники, которыми я пользуюсь.
Расскажите, как устроен сервис перевода видео в браузере, какие технологии в нём применяются? Давайте разберём алгоритм поэтапно.
В целом алгоритм выглядит так:
Пользователь нажимает на кнопку перевода видео, после чего браузер распознаёт аудиодорожку или видео целиком.
У наших нейросетей нет каких-то определённых названий, мы используем классы технологий ASR и TTS, то есть распознавание и синтез речи, которые известны под общим названием Yandex SpeechKit. Важная роль в переводе видео также отведена биометрии — она определяет, на какой голос больше похож голос говорящего: мужской или женский.
Подчеркну, что технологии, которые лежат «под капотом» перевода видео, существуют много лет, но, например, ещё три года назад мы бы не смогли запустить эту функцию. За последние года технологии сделали гигантский прыжок вперёд, например, в «Яндекс.Переводчике» мы перешли от статистических моделей к нейросетевым. Пользователи этого не замечают, потому что перевод улучшается постепенно.
Нам очень польстило, когда мы опубликовали прототип и некоторые видео с нашим переводом, а люди в интернете написали: «Яндекс нас обманывает, очевидно, что это не синтез речи, просто диктору дали зачитать, зачем они нас обманывают, это вскроется».
Определяет ли алгоритм формат контента, который переводит, и учитывает ли контекст? Может ли он понять, что пользователь смотрит стендап, отрывок фильма, запись игрового стрима?
Сейчас мы не учитываем контекст для перевода видео, но хотим работать в этом направлении, это полезно. Например, браузер мы пару лет назад научили определять разные части веб-страницы, заголовки, навигационные элементы и текст. Их переводят разные нейросети. Так, например, в меню навигации back означат действие «назад», а не слово «спина», система это учитывает.
В переводе видео учёта контекста пока нет, но он может заметно улучшить качество перевода. Одной из частых ошибок сейчас является слово «you»: вне контекста нейросеть может перевести его как «ты», даже если на записи человек обращается к большой аудитории.
Мы запрограммировали систему так, чтобы она всегда переводила «you» как «вы», но теперь, когда на видео неформальный диалог двух друзей, и они неожиданно начинают «выкать» друг другу — это может выглядеть странновато.
Какие форматы видео сервису переводить проще, а какие сложнее? Кто занимает лидирующие позиции в этих рейтингах?
Когда мы делали эту функцию, мы поняли, что она хорошо работает на обучающих видео и лекциях. В таких записях никто друг друга не перебивает и речь остаётся размеренной.
Легче всего переводить лекции без обилия терминологии: иногда она пересекается с распространёнными словами в специальном значении.
Сложнее всего переводить стримы по играм, из-за большого количества побочных звуков и возгласов. Люди на таких записях также часто обрывают фразы и не договаривают предложения.
Какой тип контента нельзя перевести с помощью «Яндекс.Браузера»? Например, мы знаем, что сейчас с переводом нельзя смотреть сериалы на Netflix, почему так происходит?
Есть два типа контента, которые браузер не может перевести: один из-за неподдерживаемых мелких видеохостингов, а другой — из-за технических и лицензионных ограничений.
В первом случае сложность заключается в том, что под каждый хостинг нужно адаптировать систему отдельно: понимать, где на странице находится видео, на каком языке оно, как уменьшить громкость аудио, чтобы наложить перевод поверх. Мы начали с крупных видеохостингов и постепенно расширяем список.
Во втором — есть принципиальные технические ограничения: например, контент, который защищён DRM. Сериалы с Netflix можно воспроизвести только на конечном устройстве, то есть такой контент зашифрован и расшифровывается только на устройстве пользователя. Мы не можем брать аудиодорожку отдельно от видео и отправлять её себе на сервер.
Поэтому сделать перевод видео с Netflix или любого другого лицензированного контента под DRM теоретически можно, если полностью все перенести процессы распознавания речи, перевода и озвучки на компьютер пользователя.
Впрочем, вы вряд ли получите большое удовольствие от просмотра блокбастера с переводом от нейросети — качеству сервиса ещё есть, куда расти. Но может быть, через несколько лет он будет переводить так, что актёры дубляжа, как минимум, не самых дорогих блокбастеров, останутся без работы.
А что насчёт авторских прав, не нарушает ли перевод лицензированного контента закон?
Перевод видео — эту функция в браузере пользователя, которую он самостоятельно запускает на любых выбранных им видео, и результаты работы этой функции используются пользователем в своих личных некоммерческих целях.
Что будет, если пользователи попробуют перевести с помощью браузера запрещённый в РФ контент или фильм, и выложат результат в интернет? Планируете ли вы это как-то блокировать?
Как я уже упомянул, пользователь самостоятельно управляет функцией перевода и запускает ее на тех видео, на которых считает нужным — мы лишь предоставляем для этого техническое средство. Если пользователь нарушит условия использования сервиса — это его персональная ответственность. Никакой цензуры вводить не планируется.
Например, если пользователь переведёт книгу с русского на английский и тем самым нарушит авторские права владельца исходного произведения, это будет его личная ответственность, а не онлайн-переводчика, которым он воспользовался. Перевод видео работает по аналогичной схеме.
Можете объяснить, как в «Яндекс.Браузере» работает перевод сленга и мата? Что для вас важнее: сохранить исходное слово или передать смысл, когда специфичное ругательство заменяешь цензурным аналогом?
Мы переводим и сленг, и мат, но настроены на смысл, а не на точный перевод. В будущем мы можем сделать режим наподобие семейного, чтобы ограничить просмотр видео с нецензурным переводом для желающих.
И говорит Браузер человеческим голосом
Яндекс.Браузер научился озвучивать тексты. В роли диктора выступает Алиса — она зачитывает вслух то, что написано на веб-страницах.
Озвучивание пригодится в разных ситуациях. Например, можно слушать статью о путешествиях и рассматривать в соседних вкладках карты и фотографии. Можно заниматься домашними делами, пока Алиса читает свежий материал из любимого интернет-издания. А можно использовать Браузер в качестве аудиогида в музее: у вас перед глазами — картина, а в наушниках — её описание из «Википедии».
Алиса умеет озвучивать страницы целиком или их фрагменты. Озвучивание целиком работает на страницах, для которых доступен режим чтения. В этом режиме Браузер убирает со страницы всё лишнее: баннеры, элементы навигации и так далее. Остаётся только текст — его и читает Алиса. Озвучивание фрагмента работает на любой странице: достаточно выделить нужную часть текста.
Как озвучить текст
Озвучивание есть в Яндекс.Браузере для Windows и для Android. Если Алиса может прочитать страницу целиком, вы увидите на экране кнопку с наушниками. На компьютере она отображается в адресной строке, а на смартфоне — поверх веб-страницы.
Чтобы сделать паузу, в мобильном Браузере ещё раз нажмите на ту же кнопку, а в десктопном — воспользуйтесь пультом на боковой панели. На компьютерах озвучивание также можно включить голосом. Просто скажите: «Слушай, Алиса, прочитай эту страницу».
Чтобы Алиса зачитала не весь текст, а его часть, выделите нужный фрагмент на странице и выберите пункт «Озвучить» или «Алиса, прочитай» в контекстном меню.
За озвучивание текста отвечает разработанная в Яндексе технология синтеза речи. Синтетический голос отличается от живого, но мы проделали большую работу, чтобы Алиса звучала как можно естественнее: правильно ставила ударения в словах, выдерживала интонации, делала паузы в нужных местах. Технология постоянно совершенствуется, поэтому со временем Алиса читает всё лучше и лучше.
Если вы пользуетесь функцией озвучивания, расскажите о своих впечатлениях. Мы читаем все отзывы и по возможности стараемся учесть пожелания.
«Яндекс» научил «Алису» озвучивать книги
Как рассказали редакции «Хабра» в пресс-центре «Яндекса», голосовой помощник «Алиса» теперь умеет озвучивать книги. Эта опция доступна в приложении «Яндекса» через «Читалку». Чтобы воспользоваться функцией, необходимо сказать «Алиса, открой Читалку», выбрать произведение и нажать на значок наушников.
На выбор пользователю предлагаю два варианта голоса — женский и мужской. Как указал «Яндекс», за озвучивание отвечает технология синтеза речи. Также «Алису» обучали читать на записях с озвучкой от профессиональных дикторов. Благодаря этому голосовой помощник научился правильно расставлять ударение, выдерживать паузы, выбирать интонацию и в целом звучать более естественно.
«Алиса» может подхватывать текст на том месте, где остановился читатель. Благодаря этому пользователь может переключать режимы в зависимости от ситуации, чтобы не отрываться от книги. Также «Яндекс» предлагает использовать помощника для чтения произведений на ночь детям, подбирая подходящую скорость и вариант озвучки.
«Яндекс» выпустил «Читалку» в июле этого года. Эта функция стала дополнением к мобильному приложению компании, позволяющим читать книги не выходя из него. В библиотеке «Яндекса» содержится около 500 произведений, включая классическую и научно-популярную литературу. Кроме того, пользователь может загружать в личную библиотеку сторонние книги.
Лучшие синтезаторы речи для озвучки текста 2022
Необходимо синтезировать женский или мужской голос на основе написанных данных? Вы можете воспользоваться специальными инструментами для преобразования текста в речь. Развитие искусственного интеллекта позволило добиться более естественного звучания, которые во многих случаях почти неотличимо от реальных людей.
Приложения содержат опции для превращения текстовых документов и веб-страницы в аудио, озвучки видео, прослушивания книги, обучения новому языку. Также они чрезвычайно полезны для людей с ограниченными возможностями. В этой статье мы собрали лучшие синтезаторы речи в 2022 году.
Платформа: Веб
Лучший сервис для преобразования текста в аудиофайлы на русском языке. 2уха позволит загрузить документ размером до 100 КБ или ввести сведения в специальное поле. Вы сможете точно настроить параметры озвучки, а затем прослушать медиа онлайн или загрузить его на ПК.
Балаболка
Платформа: Windows
Софт для чтения контента вслух, который подключается к речевым синтезаторам, установленным на компьютере. Вы сможете воспроизводить запись, ставить ее на паузу и останавливать. В Балаболка можно загрузить мультимедиа с жесткого диска или вставить скопированные сведения. Сохранить итог можно во всех популярных форматах.
Синтезатор речи Google
Платформа: Android
Мобильный озвучиватель для Андроид, который содержит расширенные функции преобразования текста. Синтезатор речи Google интегрируется с другими сервисами Гугл, позволяет управлять телефоном и читает вслух электронные книги.
Говорилка
Платформа: Windows
Бесплатный генератор для озвучки текста на русском языке. В Говорилка можно записывать данные в аудиофайл, открывать большие документы, произносить материал из буфера обмена и субтитры из запущенного софта. Также вы сможете загружать дополнительные движки и голоса.
ApiHost
Платформа: Веб
Многофункциональный онлайн-сервис для озвучки данных. На сайте вы сможете не только озвучить содержимое поля, но и выбрать диктора, высоту и тон, скорость, длину пауз. ApiHost работает со множеством языков, от английского до японского. Также на сайте есть несколько движков, содержащие разные настройки выводимого аудио.
Texttospeech
Платформа: Веб
Портал для синтезирования речи из текстовых данных. С помощью Texttospeech можно выбрать русскоязычного и англоязычного робота, настроить высоту и темп голоса, выбрать формат и сохранить синтезированную запись на ПК.
TexttoSpeechRobot
Платформа: Веб
Платформа для формирования MP3-файла и прослушивания вставленного текста или загруженного документа. TexttoSpeechRobot предлагает различные голоса, позволяет настроить скорость произношения и установить эмоции.
VoxWorker
Платформа: Веб
Онлайн-сервис, озвучивающий английские и русские тексты. На платформе VoxWorker можно выбрать одного из пяти дикторов, а также установить темп и высоту тона. Помимо этого вы сможете добавить паузы, загрузить результат на ПК или зарегистрироваться на платформе и сохранить итог на сервер.
Ivona
Платформа: Веб
Инструмент для синтеза речи, который можно использовать онлайн или подключить к программе TextAloud 4. Ivona предоставляет различные голоса и позволяет прослушать аудиоконтент в браузере. При использовании веб-ресурса вы не сможете скачать медиафайл на ПК.
Acapela
Платформа: Веб
Удобное решение для TTS. В Acapela можно ввести текстовые данные, сгенерировать сообщение для аэропорта или создать прогноз погоды. Вы можете прослушать демо аудио в браузере, а затем принять решение о покупке компьютерного продукта.
Microsoft Azure
Платформа: Веб
Облачный сервис, который позволяет сгенерировать реалистичную речь и внедрить ее в приложение или на веб-страницу. Microsoft Azure предлагает расширенные средства управления звуком: скорость, высота, произношение и паузы. Звукозапись можно воспроизвести в браузере.
Yandex SpeechKit
Платформа: Веб
Решение на основе ИИ для внедрения голосовых помощников на сайты или в ПО. Также Yandex SpeechKit предлагает веб-платформу с демоголосами. Вы сможете синтезировать аудио, установить скорость и настроение материала.
VoiceMaker
Платформа: Веб
Портал для преобразования текстовых сведений и генерации речи. В VoiceMaker можно отрегулировать длительность пауз, установить скорость, высоту тона, громкость и скорректировать параметры экспорта аудиофайла.
Озвучка текста Яндекс Алисой
Платформа: Веб, Android
Для озвучки содержания веб-страниц или PDF-файлов можно воспользоваться голосовым помощником Яндекс.Алиса. Вы сможете выделить отрывок в Яндекс.Браузере и использовать специальную опцию для генерации слов. Также озвучка текста Яндекс Алисой возможна для медиафайлов с диска.
Voice Aloud Reader
Платформа: Android, iOS
Приложение, которое читает вслух веб-страницы, новостные статьи, длинные электронные письма, медиа TXT, PDF, DOC, DOCX, RTF, документы OpenOffice, книги и многое другое. Voice Aloud Reader работает на смартфонах, но вы также можете установить ПО на компьютеры с помощью APK.
Voicebot
Платформа: Windows
Бот для выполнения голосовых команд и управления службами ПК. Voicebot предназначен для геймеров, которые хотят создать макросы, сложные сценарии и синхронизировать игровые профили между компьютерами.
OddCast
Платформа: Веб
Платформа для озвучивания текста, введенного в соответствующее поле. OddCast предоставляет различные пресеты на разных языках. Вы сможете настраивать высоту тона, добавить эхо, шепот и реверберацию.
Rapidtables
Платформа: Веб
Портал для озвучивания материала и документов с ПК. В Rapidtables вы сможете прослушивать аудиоданные в браузере и вводить неограниченное количество знаков. Однако ресурс не позволяет загрузить результат на компьютер.
NaturalReaders
Платформа: Веб, Windows, MacOS
Гибкое программное обеспечение и веб-платформа для генерации речи. В NaturalReaders вы можете выделить любой фрагмент на странице и нажать горячую клавишу. Затем программа прочитает материал вслух. Платная версия также позволяет создавать и сохранять звуковой файл.
UNITOOLS
Платформа: Веб
Онлайн-платформа, позволяющая озвучить текст голосом. На UNITOOLS представлено более 500 предустановок от различных разработчиков. При работе с текстом вы сможете озвучивать диалоги разными голосами, создавая аудиокниги. Дикторы на сайте делятся на две категории: обычные и премиум с соответствующей стоимостью в 1 и 4 рубля за 1000 знаков.
Как отредактировать аудиодорожку
Синтезированную аудиозапись можно улучшить в специальном программном обеспечение. С помощью редактора АудиоМАСТЕР вы сможете удалить лишние фрагменты и паузы, отрегулировать громкость трека, склеить и смешать материал с музыкой, изменить тембр и тон, применить эффекты и многое другое.
Возможности приложения включают в себя:
Программу можно скачать ниже и установить на Windows 10, 8, 7. АудиоМАСТЕР отличается простым интерфейсом и подходит начинающим пользователям. Скачайте ПО бесплатно прямо сейчас!
Заключение
При поиске лучшего программного обеспечения для перевода текста в речь вы должны подумать о том, что вам нужно:
Озвучка текстов через Yandex SpeechKit API
Задача
Нашему клиенту, популярному блоггеру Мили Котляровой, необходимо было озвучивать определённые фрагменты текстов. Перед нами стояла задача разработать максимально простой сервис: чтобы можно было вставить текст, нажать кнопку и получить mp3-файл с озвученным текстом.
Выбор технологии и её особенности
Мы решили генерировать озвучивание с помощью технологии Yandex SpeechKit. Она позволяет распознать или озвучить любой текст, на её основе работает голосовой помощник Яндекса «Алиса». Решение от Яндекса наиболее естественно ставит ударения и использует интонации, так как их нейросеть обучена на множестве примеров из реальной жизни.
Однако у Yandex SpeechKit есть ограничение на длину текста для озвучивания за один раз — 5000 символов. Если длина текста больше, то необходимо разбивать текст на части и делать несколько запросов. Наш клиент не хотел думать об этих ограничениях, озвучивая тексты любой длины.
Мы создали предельно простой сервис, который обходит эти ограничения и выглядит даже слишком минималистично — кроме текстового поля и кнопки «Генерация» на экране ничего нет.
Как работает сервис
Алгоритм работы следующий:
Если некоторые ударения были проставлены неправильно, а интонации не слишком естественны — это исправимо. Изменения можно внести расставив специальные символы в нужных местах текста. Например, для передачи слов-омографов следует использовать «+» перед ударной гласной: «з+амок» или «зам+ок». Для паузы между словами используется «-».
Для демонстрации примера работы мы с помощью сервиса озвучили его же алгоритм работы. Интонации и ударения не корректировались.
Озвучка текста на сайте
Интеграция с API от Яндекса не ограничивается только вышеприведённым сценарием. SpeechKit также удобно использовать для автоматического озвучивания новых или уже имеющихся материалов на сайте. Синтезатор голоса может зачитывать записи в блоге или новостные заметки, при этом аудиокаст будет прикрепляться к посту автоматически, без дополнительных усилий со стороны редактора.
Такая функциональность пользуется популярностью у пользователей из-за повышенного удобства потребления:
Внедрение начитки на практике
Издательство «Комитет» ещё в 2019 году внедрило автоматическое озвучивание текстов на сайтах своих проектов. Над заголовком материала расположена кнопка «Слушать», которая запускает аудиоверсию статьи.