Voice Powered AI — Crea podcasts, clona voces y apps de voz

Nuestro dataset: la base de todo

En VoicePowered hemos creado desde cero el dataset más completo de voz en español. Incluye diversidad de acentos, entonaciones y registros, grabados con estándares profesionales y metadatos precisos para garantizar un entrenamiento robusto.

Cumplimiento normativo

Nuestro dataset cumple con el **AI Act de la Unión Europea**, específicamente el **Artículo 10 (Gobernanza de datos)** y el **Artículo 13 (Transparencia)**, asegurando que los datos son de calidad, relevantes, éticos y auditables.

✅ Cumplimos con la normativa europea de IA para datos de entrenamiento de alta calidad.

Qué hace especial nuestro dataset

Cobertura dialectal

Incluimos español peninsular y latinoamericano para un modelo inclusivo.

Alta fidelidad

Grabaciones limpias y normalizadas a 24kHz.

Expresión natural

Capturamos emoción, pausas y prosodia auténtica.

Consentimiento claro

Todos los hablantes firmaron autorización de uso.

Gobernanza de datos

Metadatos, curación y control de calidad documentados.

Optimizado para TTS

Dataset balanceado para mejorar naturalidad y consistencia.

Nuestro código abierto

Aunque nuestro dataset es privado, creemos en construir en público. Por eso hemos liberado **VibeVoice-finetuning**, nuestro pipeline de entrenamiento con LoRA, pérdidas duales y control de difusión. Este código es el mismo que usamos internamente para entrenar nuestros modelos.

Explora el repositorio y crea tus propias voces

El repositorio **VibeVoice-finetuning** es más que un simple código: es una receta completa para que cualquiera pueda entrenar, ajustar y experimentar con modelos de voz en español usando la misma tecnología que empleamos en producción. Es nuestra forma de abrir la caja negra del TTS y ponerla al alcance de todos.

VibeVoice-finetuning.sh

1# Clona el repositorio
2git clone https://github.com/voicepowered-ai/VibeVoice-finetuning
3cd VibeVoice-finetuning
4
5# Instala dependencias
6pip install -e .
7pip install transformers==4.51.3  # versión recomendada
8
9# Ajusta hiperparámetros y lanza entrenamiento
10python -m src.finetune_vibevoice_lora --help

Ajustar el modelo **VibeVoice** (1.5B o 7B) con tus propios datos o datasets públicos.
Personalizar voces: entrena timbres específicos, controla entonación y prosodia.
Experimentar con pérdidas duales (Cross-Entropy + MSE en latentes acústicos) y ver su efecto en la calidad del audio.
Reproducir nuestro pipeline de investigación para mejorar o iterar sobre él.

Lo que ofrecemos como software libre es un **pipeline completo de entrenamiento y fine-tuning LoRA**: scripts de preparación de datos, collators inteligentes, configuración de entrenamiento con Hugging Face, y soporte para `wandb` para monitorizar resultados. Todo lo necesario para pasar de dataset a modelo funcional, sin tener que reinventar la rueda.

Ver VibeVoice-finetuning en GitHub

Beneficio para la comunidad

✔️ Transparencia: mostramos cómo entrenamos nuestros modelos.
✔️ Reproducibilidad: cualquiera puede replicar o adaptar el pipeline.
✔️ Innovación: fomenta investigación y nuevas aplicaciones en español.
✔️ Preparación para la API: cuando la abramos, sabrás exactamente qué esperar de nuestros modelos.