Инструменты для работы с голосом¶
Если заголовок выглядит как ссылка, значит, по данной системе в вики существует отдельная статья.
Синтез голоса из текста (TTS)¶
У TTS-систем отсутствует возможность тренировки своих голосов, однако, вы можете сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже).
С поддержкой русского языка¶
-
Оффлайн-проект синтеза голоса от русскоязычной команды Silero.
Так же доступен через официальный Telegram бот, но с лимитами.
-
TeraTTS
Ещё один Open Source проект TTS от русскоязычных разработчиков.
Можно поставить локально, либо использовать официальный бот в телеграме или huggingface.
-
PiperTTS
Локальный TTS, оптимизированный для Raspberry Pi 4.
-
Локальный TTS, позволяющий клонировать голос на основании 6-секундной записи.
-
Бесплатная, не требующая СМС и регистраций онлайн-система синтеза голоса от Microsoft.
Предоставляется в виде python-пакета и доступна в виде CLI.
Для прочих языков¶
-
VITS-Umamusume-voice-synthesize
Оффлайн-система с поддержкой английского, китайского и японского языков.
-
Хобби-проект какого-то китайца по TTS для японского языка.
Преобразование голоса (STS)¶
Нейрокаверы¶
Оба проекта RVC и SVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна.
Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.
Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью.
Кроме того, оба проекта включают в себя инструменты для преобразования голоса в реальном времени.
-
Более новая оффлайн-система для преобразования голоса. Доступно огромное количество готовых моделей.
-
Старая оффлайн-система для преобразования голоса.
Отличается сильным акцентом и более длительным временем обучения. Количество готовых моделей для неё на порядки ниже, чем для RVC.
Вместо данной системы советую использовать RVC.
Изменение голоса в реальном времени¶
-
w-okada/voice-changer
Локальная система для изменения голоса в реальном времени.
[Github] | [Гайд] | [Другой гайд] | [FAQ]
-
MetaVoice
Проприетарный проект для изменения голоса в реальном времени.
Распознавание речи (STT)¶
-
Whisper
Консольная тулза от OpenAI, работает полностью в оффлайне. Поддерживает множество языков, включая русский. Официально доступна в виде CLI.
Так же существует неофициальный быстрый скомпилированный для винды вариант.
-
SileroSTT
Система распознавания голоса от русскоязычной команды Silero. Своего UI нет.
Опубликованы все веса за исключением русскоязычных - распознавание российской речи доступно только в онлайн-сервисах.
-
Tinkoff VoiceKit
Платное распознавание речи от Tinkoff.
-
Yandex SpeechKit
Платное распознавание речи от Yandex.
-
SaluteSpeech (Sber)
Распознавание речи от Сбера, есть бесплатный тариф с лимитами.
Разделение вокала и инстументалки¶
-
Ultimate Vocal Remover GUI
Оффлайн-система для извлечения вокала и музыки из аудиофайлов.
Поддерживает множество различных архитектур нейросетей для данной задачи и позволяет скачивать новые модели через сам интерфейс.
-
vocalremover.org
Бесплатная онлайн-система для разделения трека на вокал и инструменталку.
TTS -> STS конвееры¶
-
daswer123/silero-rvc-tts-ru-gui
Комбинация технологии silero-tts и rvc для создания любого голоса для tts.
-
daswer123/RVC-telegram-bot
Проект многофункционального телеграм-бота, комбинирующего в себе возможности TTS, STS, разделения трека на составляющие через Demucs и прочее.
Возможность автоматически создавать AI каверы, достаточно отправить песню или сылку на ютуб.
Проприетарные системы¶
-
Chirp
AI генератор композиций прямо из текста. На бесплатном тарифе есть лимиты.
-
HeyGen
Онлайн-сервис, позволяющий переводить видео на разные языки с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то.
На бесплатном тарифе есть лимиты.
-
Elevenlabs
Онлайн-сервис синтеза и преобразования голоса.
Доступна только по оплате картой. Жители этой страны без зарубежной карты в пролёте.
Утилиты¶
-
ffmpeg
Набор консольных утилит для манипуляций с media-контентом.
-
Audacity
Бесплатный кроссплатформенный UI для работы с аудио-файлами.
-
vocaroo
Загрузить аудиофайл, чтобы поделиться в треде.