Guía definitiva de prompts para ElevenLabs: Domina la voz, emoción y pausas

Descubre cómo optimizar tus prompts en ElevenLabs para obtener resultados profesionales. Aprende a usar etiquetas de audio v3 para ajustar emociones y efectos de sonido, corregir pronunciaciones y controlar pausas con etiquetas break, guiones y puntos. Incluye plantillas listas para copiar y pegar para YouTube, personajes y publicidad, adaptadas para un rendimiento impecable similar al estándar de alta calidad del IBEX 35 en producción de audio.

"¿Por qué el mismo guion suena tan distinto si lo genero hoy en comparación con ayer?"

Es algo que a todos nos ha pasado alguna vez al usar ElevenLabs.
En realidad, el 80 % de esa diferencia se debe a cómo escribes tu "prompt" (el texto de entrada).

Hola, aquí Sonetho

Para nosotros, un 'prompt' no tiene mayor misterio; es simplemente el texto que introduces para convertirlo en voz.
Sin embargo, la clave reside en que este texto no es solo un conjunto de palabras.

 

La misma frase, como "Esto es realmente increíble",
si la escribes tal cual, sonará plana.
Pero si le añades una etiqueta de emoción, sonará como si alguien estuviera genuinamente sorprendido.
Un simple número, un punto o un guion pueden cambiar el resultado por completo.

 

Tras casi tres años afinando ElevenLabs a diario,
hoy vamos a profundizar en cómo escribir prompts efectivos.
Desde las etiquetas de audio de la v3, correcciones de pronunciación y pausas, hasta plantillas prácticas que puedes copiar y pegar. ¡Quédate hasta el final!

 


📌 Antes de empezar: Los prompts funcionan diferente según el 'modelo'

Antes de entrar en materia, un apunte importante.
Las 'etiquetas de audio' que veremos a continuación —como [excited] o [laughs]solo funcionan en el modelo Eleven Multilingual v3.

 

¿Qué ocurre si insertas estas etiquetas en la v2 (Multilingual v2)?
El modelo no las interpreta como una "actuación", sino que las trata como texto corriente (se leerán literalmente o serán ignoradas). 😅
(Puedes escuchar nuestra comparativa de 9 pistas entre v2 y v3 en Eleven v3 vs. v2: Comparativa).

 

Resumen rápido:
Si quieres usar etiquetas de emoción o efectos: usa v3.
Si necesitas consistencia de voz en contenidos largos: usa v2 (evitando así las variaciones tonales entre párrafos de la v3).
Para correcciones de pronunciación y pausas (guiones): funcionan en ambos.

Si quieres explorar más a fondo las fortalezas y debilidades de cada modelo, te recomendamos leer nuestra guía de consejos de usuario para v2 vs. v3.

 


🎭 1. Guía completa de etiquetas de audio de la v3 (Emociones y efectos)

Las etiquetas de audio son comandos en inglés dentro de corchetes [ ] que le indican a la IA "cómo debe hablar".
Aunque oficialmente se indica que la etiqueta influye en la entrega del texto posterior,
por experiencia, si la colocas al inicio de la frase, marca el tono general; si la pones en medio, suele disparar el efecto (como una risa o un suspiro) en ese preciso instante.

 

Recuerda estos dos puntos clave:

  • Escribe las etiquetas en inglés. (Es mucho más efectivo [whispers] que [susurro]).

  • Las etiquetas no se escuchan como una voz leyendo el comando. Son directrices de actuación; la IA no dirá la palabra "whispers".
    (Esto es exclusivo del modelo v3).

 

① Etiquetas de tono emocional (funcionan mejor al inicio)

Etiqueta

Efecto

Uso ideal

[excited]

Entusiasta / Emocionado

Anuncios, lanzamientos

[sad]

Triste / Melancólico

Narrativa, historias personales

[angry]

Enojado / Agitado

Doblaje, escenas dramáticas

[whispers]

Susurrante

Secretos, ASMR, tensión

[sarcastic]

Sarcástico / Irónico

Contenido humorístico

[curious]

Curioso / Inquisitivo

Narración, preguntas

[nervous]

Nervioso / Tembloroso

Situaciones de suspense

[calm]

Calmado / Estable

Meditación, guías

 

Ejemplo de entrada (v3):

[excited] ¡Amigos, por fin ha llegado el nuevo producto!
[whispers] En realidad, hemos preparado un descuento especial solo por hoy.

👉 La primera frase es enérgica, y la segunda baja el tono de voz para susurrar. Esa capacidad de modificar la actuación dentro de un mismo guion es la magia de la v3.

 

② Etiquetas de sonidos (no verbales)

Estas no cambian el "tono", sino que producen un sonido real.
Generan risas, suspiros o aclaraciones de voz al momento.

Etiqueta

Sonido producido

Ubicación ideal

[laughs]

Risa

Medio o final de frase

[chuckles]

Risita ligera

Medio o final de frase

[sighs]

Suspiro

Inicio o medio de frase

[gasps]

Inhalación de sorpresa

Inicio de frase

[clears throat]

Aclararse la garganta

Inicio de frase

[exhales]

Exhalar aire

Medio o final de frase

 

Ejemplo de entrada (v3):

Ah, se me olvidó otra vez. [sighs] Tendré que empezar de cero.
Así que, lo que hice ayer fue… [laughs] cometí un error imperdonable.

 

📌 Consejo del editor: Menos es más ⚡
Puedes combinar etiquetas, pero si añades demasiadas en una sola frase, el tono puede volverse inestable (velocidad irregular, ruido) o ser ignorado. Nuestra regla de oro es una etiqueta por frase; úsalas solo donde sean esenciales. La naturalidad está en la sutileza.

 


🔤 2. Corrección de pronunciación: Cuando los nombres o números fallan

Por muy bueno que sea tu prompt, si la IA lee mal un nombre propio o un tecnicismo, la magia desaparece. 😭
Los problemas de pronunciación son un terreno distinto al de las emociones.

 

Hay tres formas principales de solucionarlo:

① Escribir fonéticamente (la solución rápida)

Simplemente escribe la palabra tal y como suena.

  • ChatGPTChat-G-P-T

  • APIA-P-I

  • 2026dos mil veintiséis (si el modelo se confunde con la cifra)

Es la opción más veloz para guiones de una sola vez.

 

② Separar con guiones

Cuando dos sílabas se unen de forma extraña, insertar un guion ayuda a que la IA las separe claramente.

In-mediatamente / Chat-GPT / A-P-I

El guion ayuda a separar sonidos y crear micro-pausas. Veremos esto más adelante.

 

③ Diccionario de pronunciación (imprescindible para el largo plazo)

Si usas siempre los mismos términos técnicos, registrar cada vez la fonética es agotador. Utiliza el 'Diccionario de pronunciación'; así, aunque escribas el texto original, la IA lo leerá correctamente de forma automática.

 

🚨 Error común (¡ahorra créditos!)
En el campo Alias del diccionario, puedes usar la grafía que mejor suene. Si quieres que algo en inglés se lea correctamente, a menudo es mejor escribir la fonética en inglés o separarla por letras. ✅ Ejemplo: ITSUB → Eat Sub (o It Sub).

※ Nota: No incluyas guiones en el Alias del diccionario. Solo la palabra escrita con espacios. El guion (-) es una herramienta para el texto principal, no para el diccionario.

Puedes ver cómo configurar el diccionario paso a paso en nuestra Guía completa de corrección de pronunciación.

 

Nota: La v3 maneja mejor los números y símbolos (ej: "$22" → "veintidós dólares") que la v2. Sin embargo, tiene tendencia a variar entre acentos estadounidenses y británicos si aparecen palabras en inglés. Si necesitas consistencia, usa el diccionario para fijar la pronunciación.

 


⏸️ 3. Control de pausas: La magia de los signos de puntuación

La herramienta más potente de un prompt suele ser la puntuación. La IA la utiliza para decidir dónde hacer pausas, cuánto duran y cómo terminar una entonación.

 

① Entender la duración de cada signo

Signo

Efecto

Duración de pausa

Coma ,

Pausa breve, continúa

Corta

Punto .

Final, tono descendente

Media

Salto de línea (Enter)

Párrafo, resetea respiración

Larga

Interrogación ?

Sube el tono al final

Media

Exclamación !

Añade énfasis

Media

Puntos suspensivos …

Duda, suspense

Larga (suave)

Guion -

Corte instantáneo

Muy corta

 

② El guion (-): La técnica secreta

Cuando una coma es demasiado larga pero necesitas un respiro, el guion es tu mejor aliado.

  • Separar sonidos: Veint-i-uno (evita que suene como una palabra rara).

  • Micro-respiración: Bueno, entonces- ayuda a dar naturalidad.

  • Tensión: Eso es-justo- para crear suspense.

En nuestra guía de consejos profundizamos en por qué "un guion en vez de una coma" es un truco fundamental.

 

📌 Para usuarios de v3: El salto de línea es un arma de doble filo
La v3 tiende a recalibrar la voz en cada salto de línea. Si buscas consistencia en un texto largo, mantén el párrafo unido. Si, por el contrario, quieres cambiar drásticamente el ambiente en cada escena, utiliza los saltos de línea a tu favor.

 

③ Pausas precisas: Dependen del modelo ⚡

Situación

Cómo insertar pausa

Nota

Modelo v3

[pause] · [short pause] · [long pause]

Exclusivo de v3

v2 · Turbo · Flash

<break time="1.5s" />

No funciona en v3

Editor Studio

Botón 'Insertar pausa' → Configurar tiempo

Más sencillo y preciso

 

🚨 Error frecuente: Insertar <break> en v3
La v3 no es compatible con la etiqueta SSML <break>; si la escribes, será ignorada. Usa [pause] o signos de puntuación como (…) o (—). Por el contrario, la v2 no entiende [pause]. ¡Verifica siempre tu modelo!

Nota: En el Editor Studio, no necesitas escribir etiquetas; el botón de "Insertar pausa" hace el trabajo por ti.

 


📋 4. Plantillas de prompts prácticas (copia y pega)

Las etiquetas en corchetes son para v3; los signos de puntuación y guiones funcionan en ambos.

 

① Narración de YouTube

[curious] ¿Alguna vez te has preguntado esto?
El contenido que verás hoy es-muy sencillo, pero garantizado.
[excited] ¡Vamos a empezar!

Punto clave: [curious] para enganchar, [excited] para subir energía. El guion marca una pausa natural.

 

② Diálogo de personaje

[whispers] No se lo digas a nadie…
[nervous] La verdad es que yo estaba allí.
[sighs] Supongo que ya no sirve de nada arrepentirse.

Punto clave: Frases cortas + etiquetas de emoción son el terreno de la v3.

 

③ Publicidad (15 seg)

[excited] ¡Solo por hoy! Aprovecha esta oferta.
Pensarlo-es solo retrasar tu éxito.
[calm] Toma hoy la decisión más inteligente.

Punto clave: Ajuste de tensión con el tono final calmado.

 

④ Guía pausada

Hola, bienvenido.
A continuación, te guiaremos paso a paso en la instalación.
Primero, mantén presionado el botón de encendido durante tres segundos.

Punto clave: Sin etiquetas, solo puntuación precisa. Ideal para v2 por su estabilidad.

 

✅ Checklist de prompts:

  • ¿Vas a usar etiquetas? Verifica que el modelo sea v3.

  • ¿Etiquetas en inglés y una por frase?

  • ¿Has usado guiones para las palabras difíciles?

  • ¿Contenido largo con cambios de tono inesperados? Prueba reducir saltos de línea o cambiar a v2.

 


❓ FAQ — Preguntas frecuentes

 

P. ¿Por qué lee "[excited]" como la palabra "excited" en lugar de cambiar el tono?
Estás usando el modelo v2. Cambia a v3 y volverá a funcionar como comando de actuación.

 

P. ¿Puedo usar etiquetas en español como [triste]?
Aunque a veces funcionan, la v3 está optimizada para comandos en inglés. Recomendamos [sad], [laughs], etc., para mayor estabilidad.

 

P. ¿Cómo evito que la voz cambie de tono en textos largos?
La v3 recalibra al hacer saltos de línea. Reduce los saltos de línea o usa la v2 si buscas una voz monótona y consistente.

 


🎁 Conclusión

  • Etiquetas ([excited], [laughs]): exclusivas de v3, en inglés, una por frase.

  • Pronunciación: escribe como suena → guiones → diccionario.

  • Pausas: usa [pause] en v3 o el botón del Editor.

 

ElevenLabs es cuestión de "cómo lo entrenas". Con estas plantillas, convertirás un texto plano en una actuación profesional. ¡Guárdalas y empieza a crear!

 

Nos vemos en el próximo consejo.
¡Un saludo de Sonetho! ⚡