"Perché lo stesso script suona diverso se lo genero oggi rispetto a ieri?"
È un dubbio che prima o poi assale chiunque usi ElevenLabs.
In realtà, l'80% della differenza dipende da come hai scritto il tuo 'prompt' (l'input di testo).
Ciao, qui Sonetho ⚡
Per noi, il 'prompt' non è nulla di complicato: è semplicemente il testo che inserisci per trasformarlo in voce.
Tuttavia, il segreto è capire che questo testo non è un semplice "ammasso di parole".
Anche una frase semplice come "È davvero incredibile",
se inserita nuda e cruda, verrà letta in modo piatto.
Ma se aggiungi un tag emozionale, la voce inizierà a recitare con stupore autentico.
Un numero, un punto fermo o un trattino possono cambiare radicalmente il risultato.
Dopo aver testato ElevenLabs ogni giorno per quasi tre anni,
oggi vogliamo sviscerare a fondo 'come scrivere il prompt perfetto'.
Dai tag audio v3, alle correzioni di pronuncia, alle pause, fino ai template pronti all'uso: continua a leggere!
📌 Premessa: il comportamento del prompt dipende dal 'modello'
Prima di iniziare, chiariamo un punto fondamentale.
I 'tag audio' di cui parleremo tra poco — ovvero comandi tra parentesi quadre come [excited] o [laughs] — funzionano solo con il modello Eleven Multilingual v3.
Cosa succede se inserisci questi tag nel modello precedente (Multilingual v2)?
Il modello non li interpreterà come "recitazione", ma li tratterà come testo comune (verranno letti letteralmente o ignorati). 😅
(Se vuoi sentire la differenza, abbiamo messo a confronto v2 e v3 con 9 tracce diverse nel nostro confronto tra modelli v3 e v2.)
Riassunto in breve
• Vuoi tag emozionali ed effetti sonori? → Usa v3
• Contenuti lunghi e massima stabilità vocale? → Usa v2 (evitando così le variazioni di tono tra paragrafi tipiche di v3)
• Correzioni di pronuncia e pause (trattini)? → Funzionano in entrambi
Per approfondire i punti di forza di ogni modello, ti consigliamo di dare un'occhiata alla nostra guida sui trucchi degli utenti esperti tra v2 e v3.
🎭 1. Guida completa ai tag audio v3 (emozioni ed effetti)
I tag audio sono comandi che racchiudono le istruzioni di recitazione tra parentesi quadre [ ].
Ufficialmente, il tag influenza il "delivery" (la resa) del testo successivo.
In pratica: se inserisci il tag all'inizio della frase, darà il tono a tutto il periodo; se lo inserisci al centro, attiverà un effetto sonoro (come una risata o un sospiro).
(Non è una regola ferrea, ma funziona quasi sempre bene.)
Ricorda due punti cruciali:
I tag vanno scritti in inglese. (Invece di [sussurro], usa [whispers]: è molto più efficace.)
I tag non vengono letti vocalmente. Sono istruzioni di recitazione, l'AI non dirà mai ad alta voce "uìsperz".
(Questo vale solo per v3.)
① Tag di tono emozionale (funzionano meglio se posti all'inizio)
Tag | Effetto | Quando usarlo |
|---|---|---|
[excited] | Entusiasta / Felice | Annunci, promozioni, novità |
[sad] | Triste / Malinconico | Narrazioni drammatiche, storie toccanti |
[angry] | Arrabbiato / Irritato | Dialoghi di personaggi, scene intense |
[whispers] | Sussurrato | Segreti, ASMR, suspense |
[sarcastic] | Sarcastico / Ironico | Contenuti umoristici, battute pungenti |
[curious] | Incuriosito | Domande retoriche, narrazione intrigante |
[nervous] | Nervoso / Tremante | Situazioni di tensione |
[calm] | Calmo / Rilassato | Meditazione, guide passo-passo |
Esempio di input (v3):
[excited] Ragazzi, finalmente è uscito il nuovo prodotto!
[whispers] Ma vi dirò di più: solo per oggi c'è uno sconto speciale.
👉 La prima frase ha un tono vivace, la seconda abbassa immediatamente il volume sussurrando.
È questa la vera magia di v3: cambiare registro espressivo nello stesso script.
② Tag di effetti (non verbali) (si inseriscono al centro della frase)
Questi non cambiano il "tono", producono un suono reale.
Risate, sospiri, colpi di tosse: suoni che non sono parole, ma rendono il tutto naturale.
Tag | Suono prodotto | Posizione consigliata |
|---|---|---|
[laughs] | Risata | Centro o fine frase |
[chuckles] | Risatina leggera | Centro o fine frase |
[sighs] | Sospiro | Inizio o centro |
[gasps] | Gasp / Stupore | Inizio frase |
[clears throat] | Colpo di tosse | Inizio frase |
[exhales] | Espirazione | Centro o fine frase |
Esempio di input (v3):
Oh, mi sono dimenticato di nuovo. [sighs] Tocca ricominciare tutto.
Comunque, stavo dicendo… [laughs] ho fatto un errore assurdo!
📌 Consiglio della redazione: meno è meglio ⚡
Puoi combinare i tag, ma non esagerare.
Se ne metti troppi in una sola frase, il tono diventa instabile o l'AI ignora il comando.
La nostra regola d'oro è: 1 tag per frase. Meno ne usi, più il risultato sarà naturale.
🔤 2. Correzione della pronuncia: quando nomi, termini inglesi o numeri falliscono
Anche col prompt migliore, se l'AI legge "Fiat" come "Fai-at", il lavoro è vano. 😭
I problemi di pronuncia appartengono a una categoria diversa rispetto al tono, quindi si risolvono diversamente.
Esistono tre metodi principali.
① Scrittura fonetica (semplice e veloce)
Basta scrivere la parola come si pronuncia nel prompt.
ChatGPT → Ciad-gi-pi-tì
API → A-PI-AI
2026 → duemilaventisei (se i numeri vengono letti in modo strano)
Ideale per script che usi una sola volta.
② Separazione con il trattino
Se due parole si fondono in modo errato (es. 'trentasette' lette come una parola sola), inserire un trattino aiuta l'AI a separare i suoni in modo netto.
trenta-sette / Ciad-gi-pi-tì / A-PI-AI
Il trattino serve sia per dividere la pronuncia che per creare una brevissima pausa.
③ Dizionario di pronuncia (essenziale per uso ricorrente)
Se un termine tecnico o un nome ricorre spesso, non puoi riscriverlo ogni volta.
Aggiungilo al 'Dizionario di Pronuncia (Pronunciation Dictionary)': una volta registrato, ElevenLabs lo leggerà correttamente ogni volta che incontrerà quel testo originale.
🚨 Errore comune (attenzione ai crediti!)
Nel campo Alias del dizionario, puoi inserire la grafia fonetica. Se vuoi che la parola in inglese sia pronunciata correttamente, spesso è meglio scrivere il termine fonetico in italiano o in una grafia inglese chiara. ✅ ES: Pronunciation: SevenLabs -> Alias: ElevenLabs.
※ Ricorda: Nel campo Alias del dizionario non si usano i trattini. Usa solo le parole separate da uno spazio (es. Eat Sub).
I trattini (-) vanno usati solo nel testo principale dello script.
Come creare un dizionario? Abbiamo preparato una guida sulla correzione di pronuncia con screenshot e passaggi rapidi in 1 minuto.
Nota: v3 gestisce i pattern numerici e simboli (es. "$22" -> "ventidue dollari") molto meglio della v2. Tuttavia, può a volte alternare l'accento inglese tra americano e britannico; se la coerenza è fondamentale, il dizionario è la tua ancora di salvezza.
⏸️ 3. Pause e controllo del respiro: la magia della punteggiatura
La punteggiatura è lo strumento più potente che hai nel tuo prompt.
L'AI decide dove fermarsi e quanto attendere proprio in base ai simboli che inserisci.
① Sensibilità alle pause basata sui segni
Segno | Effetto | Lunghezza pausa |
|---|---|---|
Virgola , | Pausa breve | Breve |
Punto . | Fine frase | Media |
A capo (Invio) | Nuovo paragrafo | Lunga |
Punto interrogativo ? | Tono ascendente | Media |
Punto esclamativo ! | Enfasi | Media |
Puntini di sospensione … | Esitazione / Evocativo | Lunga (fluida) |
Trattino - | Interruzione minima | Molto breve |
② Il trattino (-) — Il nostro trucco preferito
Quando una virgola è troppo lunga ma non vuoi che le parole si fondano insieme, usa il trattino.
Separazione pronuncia: trenta-sette → evita che diventi "trentasette" tutto attaccato.
Micro-respiro: Allora, quindi- crea un momento di riflessione.
Suspense: È proprio-quello-che... crea ritmo.
Troverai più dettagli su questo nella nostra guida sui consigli degli esperti.
📌 Per gli utenti v3: Attenzione ai paragrafi
v3 ha la particolarità di ricalibrare leggermente la voce ad ogni cambio di paragrafo.
Se vuoi massima coerenza in un testo lungo, evita troppi a capo.
Se invece vuoi cambiare atmosfera tra una scena e l'altra, usa gli a capo strategicamente.
③ Pause precise — cambiano radicalmente per modello ⚡
Situazione | Come inserire la pausa | Note |
|---|---|---|
Modello v3 | [pause] · [short pause] · [long pause] | Solo v3 |
v2 · Turbo · Flash | <break time="1.5s" /> | Non funziona su v3 |
Studio (Editor web) | Clicca sul tasto 'Inserisci pausa' | Più comodo, non serve scrivere |
🚨 Errore comune: inserire il tag <break> in uno script v3
v3 non supporta il tag SSML break e lo ignorerà. Usa [pause] o i puntini di sospensione. Ricorda: controlla sempre il modello che stai usando!
Se usi Studio (Editor web), non serve scrivere nulla: usa il tasto dedicato per le pause, è il metodo più preciso.
※ Non esagerare con le pause, altrimenti l'audio risulterà innaturale.
📋 4. Template di prompt pronti all'uso (copia e incolla)
I tag in parentesi sono per v3; i trattini e la punteggiatura funzionano ovunque.
① Narrazione YouTube
[curious] Ragazzi, sapevate di questo trucco?
Quello che sto per mostrarvi è semplice-ma incredibilmente efficace.
[excited] Allora, iniziamo subito!
Obiettivo: Curiosità all'inizio, energia subito dopo. Il trattino crea una pausa strategica. ▶ Modello: v3
② Dialogo personaggio (Recitazione)
[whispers] Non devi dirlo a nessuno…
[nervous] A dire il vero, io ero lì quella sera.
[sighs] Immagino che pentirsi ormai non serva a nulla.
Obiettivo: Frasi brevi e forte carico emotivo. Perfetto per audiolibri o doppiaggio. ▶ Modello: v3
③ Pubblicità prodotto (15 secondi)
[excited] Solo per oggi! Solo per questo prezzo.
Ogni minuto di attesa-è un'occasione persa.
[calm] Fai la scelta più intelligente oggi stesso.
Obiettivo: Energia -> Copy -> Chiusura rassicurante. ▶ Modello: v3
④ Guida passo-passo
Buongiorno, caro cliente.
Ti guiderò, passo dopo passo, nell'installazione.
Per prima cosa, tieni premuto il tasto di accensione, per tre secondi.
Obiettivo: Chiarezza senza tag, solo virgole per un ritmo cadenzato. ▶ Modello: v2
✅ Checklist per il prompt perfetto
Vuoi tag emozionali? → Il modello impostato è v3?
Hai usato i tag in inglese? → 1 tag per frase?
Nomi complessi o numeri? → Usata scrittura fonetica o trattini?
Nomi ricorrenti? → Registrati nel dizionario di pronuncia?
Testo lungo e instabile? → Provato a ridurre gli a capo o passato a v2?
Hai ascoltato l'anteprima? (Non limitarti a leggere!)
❓ FAQ — Domande frequenti
Q. Ho inserito [excited] ma l'AI lo legge come "eccitato". Perché?
Probabilmente stai usando v2. Il modello v2 non riconosce i tag in parentesi come comandi. Passa a v3 e riprova.
Q. Posso scrivere [sussurro] in italiano?
La stabilità è inferiore. I modelli v3 sono addestrati principalmente su tag in inglese ([whispers], [laughs]), quindi ti consigliamo caldamente di usare quelli.
Q. Ho un testo lungo e la voce cambia tono ogni paragrafo.
v3 è sensibile ai cambi di paragrafo. Prova a unire le frasi o, se cerchi massima stabilità, usa il modello v2.
🎁 In conclusione
ElevenLabs è una questione di 'allenamento'.
Con lo stesso testo, puoi ottenere una lettura monotona o una performance da vero doppiatore professionale, tutto dipende da come scrivi il prompt.
Prova a copiare uno dei template qui sopra nel tuo editor ElevenLabs: vedrai la differenza in meno di un minuto.
Salva questa pagina nei preferiti e usala come riferimento per i tuoi prossimi contenuti.
Alla prossima guida, con altri segreti da Sonetho ⚡