Перейти к содержанию

Инструменты для работы с голосом

Если заголовок выглядит как ссылка, значит, по данной системе в вики существует отдельная статья.

Синтез голоса из текста (TTS)

У TTS-систем отсутствует возможность тренировки своих голосов, однако, вы можете сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже).

С поддержкой русского языка

  • SileroTTS


    Оффлайн-проект синтеза голоса от русскоязычной команды Silero.

    Так же доступен через официальный Telegram бот, но с лимитами.

    [Открыть сайт] | [Github] | [Бот в телеге]

  • TeraTTS


    Ещё один Open Source проект TTS от русскоязычных разработчиков.

    Можно поставить локально, либо использовать официальный бот в телеграме или huggingface.

    [Github] | [Huggingface] | [Бот в телеге]

  • PiperTTS


    Локальный TTS, оптимизированный для Raspberry Pi 4.

    [Github]

  • XTTS


    Локальный TTS, позволяющий клонировать голос на основании 6-секундной записи.

    [Github] | [Доп. инфа на huggingface]

  • EdgeTTS


    Бесплатная, не требующая СМС и регистраций онлайн-система синтеза голоса от Microsoft.

    Предоставляется в виде python-пакета и доступна в виде CLI.

    [Python-пакет]

Для прочих языков

  • VITS-Umamusume-voice-synthesize


    Оффлайн-система с поддержкой английского, китайского и японского языков.

  • MoeGoe и MoeTTS


    Хобби-проект какого-то китайца по TTS для японского языка.

Преобразование голоса (STS)

Нейрокаверы

Оба проекта RVC и SVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна.

Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.

Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью.

Кроме того, оба проекта включают в себя инструменты для преобразования голоса в реальном времени.

  • RVC


    Более новая оффлайн-система для преобразования голоса. Доступно огромное количество готовых моделей.

  • SVC


    Старая оффлайн-система для преобразования голоса.

    Отличается сильным акцентом и более длительным временем обучения. Количество готовых моделей для неё на порядки ниже, чем для RVC.

    Вместо данной системы советую использовать RVC.

Изменение голоса в реальном времени

Распознавание речи (STT)

Разделение вокала и инстументалки

  • Ultimate Vocal Remover GUI


    Оффлайн-система для извлечения вокала и музыки из аудиофайлов.

    Поддерживает множество различных архитектур нейросетей для данной задачи и позволяет скачивать новые модели через сам интерфейс.

    [Github] | [Релизы] | [Гайд]

  • vocalremover.org


    Бесплатная онлайн-система для разделения трека на вокал и инструменталку.

    [Открыть сайт]

TTS -> STS конвееры

  • daswer123/silero-rvc-tts-ru-gui


    Комбинация технологии silero-tts и rvc для создания любого голоса для tts.

    [Github]

  • daswer123/RVC-telegram-bot


    Проект многофункционального телеграм-бота, комбинирующего в себе возможности TTS, STS, разделения трека на составляющие через Demucs и прочее.

    Возможность автоматически создавать AI каверы, достаточно отправить песню или сылку на ютуб.

    [Github] | [Бот в Telegram]

Проприетарные системы

  • Chirp


    AI генератор композиций прямо из текста. На бесплатном тарифе есть лимиты.

    Где доступна генерация:
    [Сайт] | [Discord]

  • HeyGen


    Онлайн-сервис, позволяющий переводить видео на разные языки с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то.

    На бесплатном тарифе есть лимиты.

    [Открыть сайт]

  • Elevenlabs


    Онлайн-сервис синтеза и преобразования голоса.

    Доступна только по оплате картой. Жители этой страны без зарубежной карты в пролёте.

    [Открыть сайт] [Старый гайд]

Утилиты

Дополнительные ссылки