YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

XTTSv2 Banana finetune - Russian informal speech

Разговорный файнтюн XTTSv2 для русского языка. Основан на 9 минутах голосовых сообщениях с матом от 5 разных девушек.

Видео сравнение с оригиналом: https://www.youtube.com/watch?v=hPS7dtJn00s

Особенности

  • добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой.
  • лучше справляется с ударениями в словах (мат, разговорная лексика).
  • только для русского языка. В английском на коротких фразах типа Yes./No./Well. появились звуковые галлюцинации, на длинных почти не заметно. На русском все ок.
  • основан на женских голосах, поэтому все мужские голоса будут слегка феминными.
  • весит 5 GB, но VRAM занимает ровно столько же, сколько и оригинал (2.6 GB).
  • обучение на 9 минутах голосовых сообщений заняло 70 минут и 10 эпох на 3060 12 GB, дальше была только потеря качества (loss). Чем больше датасет, тем больше требуется VRAM и времени.
  • для дальнейшего улучшения качества ударений требуется еще больший датасет с проблемными словами и ручная проверка распознанного Виспером текста.

Использование

  • у вас должен быть установлен Couqi TTS либо xtts_api_server
  • скачать все файлы сохраняя структуру папок (/model_banana/v2.0.2/...)
  • для xtts_api_server: в папке на одну выше, чем /model_banana запустить cmd: python -m xtts_api_server -d=cuda -mf model_banana
  • Инструкция как дообучить xtts для своего голоса: https://docs.coqui.ai/en/latest/models/xtts.html#training (нужно 16-20 GB VRAM, но shared vram тоже подойдет, просто будет чуть медленнее)

Мой русский неформальный голосовой помощник: https://github.com/Mozer/talk-llama-fast

ТГ: https://t.me/tensorbanana

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.