Adia_TTS Wolof

ADIA_TTS : Modèle de synthèse vocale en Wolof

Table des matières

Introduction
Caractéristiques techniques
Installation
Utilisation
Configuration avancée
Exemples
Limitations connues
Références
Licence

Introduction

ADIA_TTS est un modèle de synthèse vocale (Text-to-Speech) open source en wolof, développé par CONCREE. Basé sur le modèle parler-tts-mini-multilingual-v1.1, il représente une avancée significative dans la synthèse vocale pour la langue wolof.

Points clés

Entraîné sur 40 heures de données vocales en wolof
Affiné pendant 100 epochs (~168 heures d'entraînement)
Qualité vocale naturelle et fluide
Voix unique avec contrôle des caractéristiques vocales via description

Caractéristiques techniques

Spécifications du modèle

Architecture : parler-tts-mini-multilingual-v1.1
Taille du modèle : 1.88 GB
Format du modèle : PyTorch
Fréquence d'échantillonnage : 24kHz
Encodage audio : 16-bit PCM

Performance

Temps moyen d'inférence : secondes/phrase (CPU), 20 secondes/phrase (GPU)
Consommation mémoire : 3.9 GB (RAM minimale recommandée)
Support CUDA : Oui, compatible avec CUDA T4, A100 et version supérieur

Installation

Prérequis

Python 3.8 ou supérieur PyTorch 2.0 ou supérieur CUDA (obligatoire, pour accélération GPU)

pip install git+https://github.com/huggingface/parler-tts.git

Utilisation

Exemple de base

import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

# Chargement du modèle
model = ParlerTTSForConditionalGeneration.from_pretrained("CONCREE/Adia_TTS").to(device)
tokenizer = AutoTokenizer.from_pretrained("CONCREE/Adia_TTS")

# Texte en wolof à synthétiser
text = "Entreprenariat ci Senegal dafa am solo lool ci yokkuteg koom-koom, di gëna yokk liggéey ak indi gis-gis yu bees ci dëkk bi."

# Description du style vocal
description = "A clear and educational voice, with a flow adapted to learning"

# Génération
input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_ids = tokenizer(text, return_tensors="pt").input_ids.to(device)

audio = model.generate(
    input_ids=input_ids,
    prompt_input_ids=prompt_ids,
)

# Sauvegarde
sf.write("output.wav", audio.cpu().numpy().squeeze(), model.config.sampling_rate)

Configuration avancée

Paramètres de génération

generation_config = {
    "temperature": 0.8,           # Contrôle la variabilité de la sortie
    "max_new_tokens": 1000,       # Longueur maximale de la séquence générée
    "do_sample": True,            # Active l'échantillonnage aléatoire
    "top_k": 50,                  # Limite le nombre de tokens considérés
    "repetition_penalty": 1.2,    # Pénalise la répétition de tokens
}

audio = model.generate(
    input_ids=input_ids,
    prompt_input_ids=prompt_ids,
    **generation_config
)

Styles vocaux

Exemples de descriptions pour différents styles :

Voix naturelle

description = "A warm and natural voice, with a conversational flow"

Voix professionnelle

description = "A professional, clear and composed voice, perfect for formal presentations"

Voix pour l'éducation

description = "A clear and educational voice, with a flow adapted to learning"

Limitations connues

Performance réduite sur les phrases très longues (>200 caractères )
Gestion limitée des nombres et des dates
Variations possibles dans la qualité selon l'accent régional
Temps de chargement initial du modèle relativement long

Références

@misc{CONCREE-2024-Adia_TTS,
  author = {CONCREE},
  title = {Adia_TTS},
  year = {2025},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{https://huggingface.co/CONCREE/Adia_TTS}}
}

@misc{lyth2024natural,
  title={Natural language guidance of high-fidelity text-to-speech with synthetic annotations},
  author={Dan Lyth and Simon King},
  year={2024},
  eprint={2402.01912},
  archivePrefix={arXiv},
  primaryClass={cs.SD}
}

Licence

Ce projet est sous licence Apache 2.0. Voir le fichier LICENSE pour plus de détails.

Conditions d'utilisation

Usage commercial autorisé
Modification autorisée
Distribution autorisée
Obligation de mention de licence
Pas de garantie fournie

Contact

Pour toute question ou support :

Email : [email protected]

CONCREE
/

Adia_TTS