Инструменты для работы с голосом¶

Если заголовок выглядит как ссылка, значит, по данной системе в вики существует отдельная статья.

Синтез голоса из текста (TTS)¶

У TTS-систем отсутствует возможность тренировки своих голосов, однако, вы можете сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже).

С поддержкой русского языка¶

SileroTTS

Оффлайн-проект синтеза голоса от русскоязычной команды Silero.

Так же доступен через официальный Telegram бот, но с лимитами.

[Открыть сайт] | [Github] | [Бот в телеге]
TeraTTS

Ещё один Open Source проект TTS от русскоязычных разработчиков.

Можно поставить локально, либо использовать официальный бот в телеграме или huggingface.

[Github] | [Huggingface] | [Бот в телеге]
PiperTTS

Локальный TTS, оптимизированный для Raspberry Pi 4.

[Github]
XTTS

Локальный TTS, позволяющий клонировать голос на основании 6-секундной записи.

[Github] | [Доп. инфа на huggingface]
EdgeTTS

Бесплатная, не требующая СМС и регистраций онлайн-система синтеза голоса от Microsoft.

Предоставляется в виде python-пакета и доступна в виде CLI.

[Python-пакет]

Для прочих языков¶

VITS-Umamusume-voice-synthesize

Оффлайн-система с поддержкой английского, китайского и японского языков.
MoeGoe и MoeTTS

Хобби-проект какого-то китайца по TTS для японского языка.

Преобразование голоса (STS)¶

Нейрокаверы¶

Оба проекта RVC и SVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна.

Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.

Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью.

Кроме того, оба проекта включают в себя инструменты для преобразования голоса в реальном времени.

RVC

Более новая оффлайн-система для преобразования голоса. Доступно огромное количество готовых моделей.
SVC

Старая оффлайн-система для преобразования голоса.

Отличается сильным акцентом и более длительным временем обучения. Количество готовых моделей для неё на порядки ниже, чем для RVC.

Вместо данной системы советую использовать RVC.

Изменение голоса в реальном времени¶

w-okada/voice-changer

Локальная система для изменения голоса в реальном времени.

[Github] | [Гайд] | [Другой гайд] | [FAQ]
MetaVoice

Проприетарный проект для изменения голоса в реальном времени.

[Открыть сайт]

Распознавание речи (STT)¶

Whisper

Консольная тулза от OpenAI, работает полностью в оффлайне. Поддерживает множество языков, включая русский. Официально доступна в виде CLI.

Так же существует неофициальный быстрый скомпилированный для винды вариант.

[Github]
SileroSTT

Система распознавания голоса от русскоязычной команды Silero. Своего UI нет.

Опубликованы все веса за исключением русскоязычных - распознавание российской речи доступно только в онлайн-сервисах.

[Распознать онлайн] | [Бот в телеге]
[Локальный запуск]
Tinkoff VoiceKit

Платное распознавание речи от Tinkoff.

[Открыть сайт] | [Тарифы]
Yandex SpeechKit

Платное распознавание речи от Yandex.

[Открыть сайт]
SaluteSpeech (Sber)

Распознавание речи от Сбера, есть бесплатный тариф с лимитами.

[Открыть сайт] | [Тарифы]

Разделение вокала и инстументалки¶

Ultimate Vocal Remover GUI

Оффлайн-система для извлечения вокала и музыки из аудиофайлов.

Поддерживает множество различных архитектур нейросетей для данной задачи и позволяет скачивать новые модели через сам интерфейс.

[Github] | [Релизы] | [Гайд]
vocalremover.org

Бесплатная онлайн-система для разделения трека на вокал и инструменталку.

[Открыть сайт]

TTS -> STS конвееры¶

daswer123/silero-rvc-tts-ru-gui

Комбинация технологии silero-tts и rvc для создания любого голоса для tts.

[Github]
daswer123/RVC-telegram-bot

Проект многофункционального телеграм-бота, комбинирующего в себе возможности TTS, STS, разделения трека на составляющие через Demucs и прочее.

Возможность автоматически создавать AI каверы, достаточно отправить песню или сылку на ютуб.

[Github] | [Бот в Telegram]

Проприетарные системы¶

Chirp

AI генератор композиций прямо из текста. На бесплатном тарифе есть лимиты.

Где доступна генерация:
[Сайт] | [Discord]
HeyGen

Онлайн-сервис, позволяющий переводить видео на разные языки с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то.

На бесплатном тарифе есть лимиты.

[Открыть сайт]
Elevenlabs

Онлайн-сервис синтеза и преобразования голоса.

Доступна только по оплате картой. Жители этой страны без зарубежной карты в пролёте.

[Открыть сайт] [Старый гайд]

Утилиты¶

ffmpeg

Набор консольных утилит для манипуляций с media-контентом.

[Страница загрузки]
Audacity

Бесплатный кроссплатформенный UI для работы с аудио-файлами.

[Страница загрузки]
vocaroo

Загрузить аудиофайл, чтобы поделиться в треде.

[Открыть сайт]