Nuestro dataset: la base de todo
En VoicePowered hemos creado desde cero el dataset más completo de voz en español. Incluye diversidad de acentos, entonaciones y registros, grabados con estándares profesionales y metadatos precisos para garantizar un entrenamiento robusto.
Cumplimiento normativo
Nuestro dataset cumple con el **AI Act de la Unión Europea**, específicamente el **Artículo 10 (Gobernanza de datos)** y el **Artículo 13 (Transparencia)**, asegurando que los datos son de calidad, relevantes, éticos y auditables.
Qué hace especial nuestro dataset
Cobertura dialectal
Incluimos español peninsular y latinoamericano para un modelo inclusivo.
Alta fidelidad
Grabaciones limpias y normalizadas a 24kHz.
Expresión natural
Capturamos emoción, pausas y prosodia auténtica.
Consentimiento claro
Todos los hablantes firmaron autorización de uso.
Gobernanza de datos
Metadatos, curación y control de calidad documentados.
Optimizado para TTS
Dataset balanceado para mejorar naturalidad y consistencia.
Nuestro código abierto
Aunque nuestro dataset es privado, creemos en construir en público. Por eso hemos liberado **VibeVoice-finetuning**, nuestro pipeline de entrenamiento con LoRA, pérdidas duales y control de difusión. Este código es el mismo que usamos internamente para entrenar nuestros modelos.
Explora el repositorio y crea tus propias voces
El repositorio **VibeVoice-finetuning** es más que un simple código: es una receta completa para que cualquiera pueda entrenar, ajustar y experimentar con modelos de voz en español usando la misma tecnología que empleamos en producción. Es nuestra forma de abrir la caja negra del TTS y ponerla al alcance de todos.
1# Clona el repositorio
2git clone https://github.com/voicepowered-ai/VibeVoice-finetuning
3cd VibeVoice-finetuning
4
5# Instala dependencias
6pip install -e .
7pip install transformers==4.51.3 # versión recomendada
8
9# Ajusta hiperparámetros y lanza entrenamiento
10python -m src.finetune_vibevoice_lora --help
- Ajustar el modelo **VibeVoice** (1.5B o 7B) con tus propios datos o datasets públicos.
- Personalizar voces: entrena timbres específicos, controla entonación y prosodia.
- Experimentar con pérdidas duales (Cross-Entropy + MSE en latentes acústicos) y ver su efecto en la calidad del audio.
- Reproducir nuestro pipeline de investigación para mejorar o iterar sobre él.
Lo que ofrecemos como software libre es un **pipeline completo de entrenamiento y fine-tuning LoRA**: scripts de preparación de datos, collators inteligentes, configuración de entrenamiento con Hugging Face, y soporte para `wandb` para monitorizar resultados. Todo lo necesario para pasar de dataset a modelo funcional, sin tener que reinventar la rueda.
Beneficio para la comunidad
- ✔️ Transparencia: mostramos cómo entrenamos nuestros modelos.
- ✔️ Reproducibilidad: cualquiera puede replicar o adaptar el pipeline.
- ✔️ Innovación: fomenta investigación y nuevas aplicaciones en español.
- ✔️ Preparación para la API: cuando la abramos, sabrás exactamente qué esperar de nuestros modelos.