"Carico una foto, scrivo due righe di copione e... quella persona parla davvero?"
Fino a oggi ElevenLabs era l'azienda delle "voci".
Stavolta però ha iniziato a creare anche i "volti".
Parliamo di Avatars: scrivi il copione e ottieni in un colpo solo un video di una persona AI che parla.
Ciao, qui è Sonetho. ⚡
Sono quasi 3 anni che usiamo ElevenLabs ogni giorno,
e oggi vi portiamo una novità fresca fresca, annunciata ufficialmente a metà giugno 2026: Avatars.
Riassunto in una riga.
Adesso anche dentro ElevenLabs puoi creare da zero un "video di una persona che parla".
Carichi una foto per generare un personaggio AI, scrivi il copione, scegli una voce e
→ quel personaggio parla con i movimenti delle labbra perfettamente sincronizzati.
Se hai presente servizi come HeyGen e Synthesia (piattaforme di avatar AI parlanti), l'idea è quella.
In quel territorio è entrato ElevenLabs, il numero uno indiscusso quando si parla di voce.
Oggi scopriamo che cos'è, come si usa e in cosa si distingue dai servizi che già conosci, spiegato dall'inizio alla fine per chi parte da zero.
👉 Inizia con gli Avatar di ElevenLabs →
🤔 Perché un'azienda di voci si mette a fare "volti"?
Partiamo dai termini, spiegati in modo semplice.
💡 Glossario lampo
Avatars = il "tuo personaggio AI" creato da una foto o da una descrizione testuale. Una volta creato, lo riutilizzi in tanti video.
Talking-head = il classico video del "volto che parla" guardando in camera, tipico di YouTube e degli spot pubblicitari.
Lip-sync = la tecnologia che sincronizza in modo naturale il movimento delle labbra con la voce.
ElevenCreative = lo spazio di ElevenLabs dedicato alla creazione di contenuti. È nel suo menu "Image & Video (immagini e video)" che è arrivato questo nuovo Avatar.
L'arma vera di ElevenLabs, comunque la si guardi, è la "voce".
Nel TTS (la tecnologia che trasforma il testo in voce umana) e nella clonazione vocale è ai vertici mondiali.
Chi crea video, però, si scontrava con questo fastidio.
generavi la voce su ElevenLabs,
poi ricaricavi quel file audio su un altro servizio (HeyGen e simili),
e lì sincronizzavi il movimento delle labbra... questo passaggio di file (l'handoff) da una parte all'altra era una scocciatura.
Avatars risolve questo passaggio tutto in un unico posto.
Voce, volto e sincronizzazione delle labbra → tutto dentro ElevenLabs, in una volta sola.
Non è che un'azienda di voci si sia messa a fare volti: l'idea è collegare senza interruzioni il percorso "dalla voce al video".
⚙️ Come funziona: il passaggio di "esportare l'audio" è sparito del tutto
C'è una frase chiave in questo annuncio degli Avatar.
Ed è proprio questa: "il Text to Speech è integrato direttamente nella prompt island (la schermata del prompt)".
Suona complicato, ma il senso è semplice.
💡 In parole povere
nello stesso punto in cui scrivi il copione (prompt island = il pannello dove digiti i comandi) c'è anche la funzione che crea la voce.
Così la voce (audio) e il video con le labbra sincronizzate (lip-sync) vengono generati "insieme, in un colpo solo".
Non c'è più alcun bisogno di esportare l'audio a parte (export) e spostarlo altrove.
E c'è di più.
Il fatto che ElevenLabs possieda direttamente la "parte che crea la voce" gioca a suo favore.
Dato che la tecnologia che genera la voce (voice model) e quella che sincronizza le labbra (lip-sync model) girano insieme sotto lo stesso tetto,
l'annuncio ufficiale spiega che la sincronizzazione (il tempismo tra labbra e suono) risulta più precisa rispetto al portare l'audio dall'esterno per sincronizzarlo.
In pratica si riduce quel piccolo disallineamento in cui le labbra dicono "ciao" ma il suono arriva un attimo dopo.
📌 Nota della redazione: il modello di lip-sync lo scegli "tu" ⚡
ElevenLabs ha raccolto in un unico posto diverse ottime tecnologie di lip-sync
e, nella schermata di generazione, ti permette di scegliere direttamente il modello che preferisci (con un valore di default già pronto).
Il punto chiave è che ogni modello ha qualità, risoluzione massima e "crediti al secondo" diversi. Trovi tutto nella tabella reale qui sotto.
🎬 Guida pratica: dalla foto al video parlante, passo dopo passo
Il flusso d'uso reale è più semplice di quanto sembri.
Ecco il riepilogo basato sulla guida ufficiale.
Passo 1: crea l'avatar (il tuo personaggio AI)
Nel menu Image & Video di ElevenCreative, premi "New (crea nuovo)" nell'area Avatar.
Poi crei il personaggio in uno dei due modi.
Caricando foto: se carichi da 3 a 5 foto della stessa persona da angolazioni diverse, il risultato è più stabile.
(Con una sola foto il risultato può essere altalenante.)Descrivendolo a parole: puoi crearlo anche senza foto, con un prompt testuale che descrive "una persona così".
Tra l'altro, oltre alle persone puoi creare come avatar anche personaggi e animali. (Va bene anche se non è umano.)
Passo 2: dai un nome e imposta la voce di base
Assegni un nome all'avatar e, se serve, imposti una voce di default, poi confermi il personaggio con "Create Avatar".
A ogni avatar viene associata in anticipo una voce di base, ma puoi cambiarla quando vuoi.
Passo 3: crea il video parlante
Selezioni l'avatar creato e premi "Create Lip Sync (crea il lip-sync)".
Poi ① scegli lo stile → ② scegli la voce (una voce della libreria o una voce che hai clonato) → ③ inserisci il copione → ④ premi "Generate speech" per generare l'audio e ascoltarne l'anteprima.
Passo 4: genera
Se vuoi, aggiungi un piccolo prompt visivo per dare l'atmosfera al video, poi premi "Generate" e il gioco è fatto.
Il video con le labbra sincronizzate viene completato insieme alla voce.
💡 Controlla i crediti prima di premere
I video con avatar seguono la struttura di crediti già esistente di "Image & Video".
Il costo varia in base a modello di lip-sync scelto, risoluzione di output e durata del video.
Per fortuna i crediti stimati compaiono sullo schermo prima di premere il pulsante di generazione. Guarda e poi premi!
(Le risoluzioni supportate sono 480p, 720p e 1080p, ma secondo alcuni parametri è "la durata del video" a incidere sui crediti più della risoluzione o del formato.)
Per questo abbiamo riportato fedelmente i crediti al secondo per ciascun modello di lip-sync, presi dalla schermata reale di selezione modello di giugno 2026. (Più basso è il numero, più è economico.)
Modello di lip-sync | Crediti al secondo | Caratteristiche (descrizione ufficiale) |
|---|---|---|
Veed Lipsync | 41 | Lip-sync video veloce ed economico |
Sync Lipsync 2 Pro | 661 | Qualità da studio per contenuti reali, animati e AI |
Creatify Aurora | 848 | Qualità top a partire da immagine, lip-sync guidato |
Sync 3 | 1,053 | Intelligenza visiva, qualità professionale |
HeyGen Avatar 4 (novità) | 1,212 | Movimento espressivo, fino a 1080p |
Veed Fabric | 1,212 | Realistico con qualsiasi immagine, fino a 720p |
OmniHuman 1.5 | 1,267 | Lip-sync realistico, supporta volti non umani |
⚠️ La trappola del "al secondo": il costo cresce con la durata
Essendo crediti al secondo, più il video è lungo, più il costo sale in fretta.
Esempio) con Sync 3 (1,053/sec) un video di 30 secondi → circa 31.600 crediti. Un minuto sono circa 63.000 crediti.
Sul piano Creator (circa 120.000 crediti al mese) parliamo di 3-4 video da 30 secondi. Onestamente, non è proprio abbondante.
In compenso un modello economico come Veed Lipsync (41/sec) costa circa 1.230 crediti per 30 secondi: con gli stessi crediti ne tiri fuori decine di volte di più.
È un compromesso tra qualità e costo.A questo si aggiunge che i crediti per generare l'avatar (l'immagine) sono a parte. I crediti al secondo qui sopra riguardano solo la parte del "video parlante (lip-sync)".
※ I crediti al secondo sono valori reali rilevati dalla schermata di selezione modello di giugno 2026. Le politiche su modelli e prezzi cambiano spesso, quindi controlla sempre i crediti stimati nella schermata appena prima di generare.
👉 Prova a creare il tuo avatar →
🪪 Crealo una volta e usalo per sempre: identità persistente e varianti di "stile"
Il vero punto di forza degli avatar è il "riutilizzo".
Un avatar creato una volta possiede un'"identità persistente (persistent identity)".
In parole semplici, quel personaggio che hai creato puoi farlo comparire in tanti video sempre con lo stesso volto.
Niente più incidenti in cui il viso cambia leggermente da un video all'altro.
A questo si aggiunge la funzione "Styles (stili)".
Mantenendo invariata l'identità di base della stessa persona, puoi creare varianti che cambiano questi elementi.
Angolazione della camera (frontale / di profilo, ecc.)
Abbigliamento (formale / casual, ecc.)
Sfondo e illuminazione
Per esempio, crei un unico "presentatore del nostro brand" e poi
generi una versione in giacca e cravatta su sfondo ufficio, una versione casual all'aperto e una in primo piano, tutte con la stessa persona.
Questo avatar e i suoi stili restano sempre disponibili a prescindere dal numero di generazioni e si riutilizzano in più progetti.
📌 Perché è importante ⚡
Che sia un canale YouTube o uno spot, è quando "lo stesso volto" appare con costanza che lo spettatore ricorda il brand.
Se giri ogni volta da capo o usi ogni volta un personaggio AI diverso, la coerenza crolla.
Gli avatar ti danno un protagonista da "creare una volta e usare a vita".
🔁 "Produzione in serie" con Flows: sforna spot UGC tutti insieme
Da qui in poi è un po' più avanzato, ma per marketer e creator di UGC è una manna.
💡 Solo due termini
Flows = una funzione di automazione che concatena le operazioni una dietro l'altra, come un nastro trasportatore automatico.
Spot UGC = pubblicità in stile "recensione, come se l'avesse girata l'utente". È il formato che oggi funziona meglio su Instagram, TikTok e i video brevi.
Stavolta a Flows è stato aggiunto un nuovo "nodo Avatar (blocco avatar)".
Inserendolo, puoi collegare la generazione di video con avatar a una pipeline automatica.
Riportando fedelmente il flusso d'esempio ufficiale, ecco com'è.
① inserisci un brief di prodotto (una breve descrizione del prodotto)
② l'AI genera il copione
③ viene generata la voce fuori campo (la narrazione audio)
④ viene generato il video in cui l'avatar recita quel copione
E tutto questo lo esegui in blocco (batch) per prodotto, per lingua e per hook.
Qui per "hook" si intende la frase d'apertura che cattura i primi 3 secondi del video.
Per esempio, cambiando solo l'hook in 5 varianti ("Se non lo sai, ci perdi", "Guarda solo 3 secondi" e simili) puoi sfornare in un colpo solo 5 varianti dello spot.
È perfetto per il lavoro di provare più versioni per capire "quale apertura funziona meglio", come si fa con gli spot su Reels e video brevi.
Perché non c'è bisogno di girare di nuovo ogni volta.
⚖️ In cosa si differenzia da HeyGen e Synthesia? (confronto onesto)
"Ho già HeyGen e Synthesia, perché dovrei usare ElevenLabs?"
Domanda legittima. Andiamo dritti al punto. (I prezzi si basano su fonti ufficiali e di confronto e possono variare in base a promozioni e ciclo di fatturazione.)
Servizio | Punti di forza / modello di pagamento | Quando conviene |
|---|---|---|
Avatar di ElevenLabs | La voce è il mestiere di casa → voce e volto in un unico posto. Basato su crediti | Quando la qualità della voce viene prima di tutto, e per voci multilingua |
Synthesia | Tariffazione al "minuto", quindi è facile fare i conti col budget. Buoni giudizi sul realismo degli avatar | Formazione aziendale e video interni |
HeyGen | Basato su crediti. Forte nella traduzione multilingua di video già esistenti | Marketing e traduzione di contenuti per l'estero |
Riassumendo in una riga la differenza chiave.
ElevenLabs è "integrazione voice-first".
Un'azienda la cui voce è già ai vertici mondiali ci ha attaccato il volto (lip-sync), permettendo di sfornare tutto in un'unica schermata, in un colpo solo.
Non devi spostare l'audio da una parte all'altra e la sincronizzazione voce-labbra è più precisa: questi sono i suoi punti di forza.
Diamo giusto un'idea dei prezzi. (Dati di giugno 2026.)
HeyGen: a crediti. Per la funzione avatar di punta (Avatar IV), circa $1 al minuto (piano Creator).
Synthesia: abbonamento al minuto. Convertito su base annuale, circa $1.8~2.1 al minuto.
Avatar di ElevenLabs: a seconda del modello di lip-sync scelto, va da circa $0.45 al minuto (economico) a $13.8 (premium), con un'ampia forbice (vedi la tabella dei crediti al secondo qui sopra).
💰 Allora alla fine cosa costa meno? Nella Parte 2 abbiamo fatto i conti fino in fondo
Onestamente, se produci molto e in alta qualità una piattaforma dedicata (HeyGen, Synthesia) può costare meno al minuto,
mentre se lavori ogni tanto, in piccole quantità e con un workflow integrato ElevenLabs conviene.
Abbiamo calcolato fino all'ultimo il punto di pareggio, che dipende da "quanti minuti produci al mese", con una tabella dei costi reali al minuto.
→ [Sfida costi avatar] Abbonamento diretto vs ElevenLabs: scopri chi costa davvero meno →
🚨 In tutta onestà, ci sono cose ancora poco chiare
La durata massima del video generabile in una sola volta per ciascun modello e i crediti per la generazione dell'avatar (immagine) in sé variano da modello a modello e da impostazione a impostazione, quindi non sono pubblicati in modo netto.
(Anche la risoluzione massima cambia da modello a modello. Come nella tabella sopra, ci sono modelli che arrivano a 720p e altri fino a 1080p.)
In compenso il costo esatto viene mostrato come crediti stimati nella schermata appena prima di generare, quindi basta guardarlo e premere.
Inoltre, al momento del lancio non è prevista una API (integrazione esterna), che arriverà più avanti.
🙋 Quindi, a chi conviene?
A nostro avviso, è particolarmente potente per queste persone.
Creator di Reels e video brevi: gestisci il canale con un "attore AI" coerente, senza l'imbarazzo di esporre il tuo volto.
Marketer di spot UGC e performance: produci varianti pubblicitarie in serie cambiando solo l'hook, con test A/B facili.
Creator di contenuti formativi e didattici: realizzi serie di lezioni con lo "stesso docente", espandendole per materia e per lingua.
Gestori di brand e social: sforni contenuti social con costanza, senza dover girare ogni volta.
Chi ha bisogno di video esplicativi multilingua: produci video localizzati combinandoli con le voci multilingua di ElevenLabs.
Al contrario, per chi vuole tirar fuori video in modo completamente gratuito, c'è ancora qualcosa di amaro.
Gli avatar (la generazione video) si possono usare solo nei piani a pagamento (con il piano gratuito non si possono generare video).
Per fortuna, al momento è disponibile in tutti i piani a pagamento di ElevenCreative.
❓ Domande frequenti
D. Basta una sola foto per creare subito un avatar?
Tecnicamente sì, puoi crearlo anche con una sola foto, e puoi pure crearlo senza foto descrivendolo a parole (con un prompt testuale).
La guida ufficiale, però, consiglia da 3 a 5 foto della stessa persona da angolazioni diverse.
Con una sola foto il volto potrebbe non essere coerente da un video all'altro. Se vuoi un risultato stabile, carica più foto.
D. Posso creare video con avatar parlanti anche con il piano gratuito?
No. La generazione video degli avatar è possibile solo con i piani a pagamento (con il piano gratuito la generazione video è limitata).
Però si può usare in tutti i piani a pagamento di ElevenCreative e il costo viene scalato dai crediti "Image & Video" già esistenti.
Varia in base a modello, risoluzione e durata del video scelti, e dato che i crediti stimati compaiono in anticipo nella schermata prima di generare, puoi decidere guardandoli.
D. C'è un motivo per usare gli avatar di ElevenLabs al posto di HeyGen o Synthesia?
La differenza più grande è la "voce".
ElevenLabs nasce nel TTS e nella clonazione vocale, quindi è forte sulla qualità della voce e sulle voci multilingua.
Aggiungendoci il volto (lip-sync), il punto di forza chiave è creare il video in un unico posto e in un colpo solo, senza spostare l'audio su un altro servizio.
Se la qualità della voce viene prima di tutto o se crei spesso video multilingua, è una scelta allettante.
(Al contrario, se per te conta gestire il budget al minuto va bene Synthesia, e se il tuo scopo principale è tradurre in più lingue video già esistenti anche HeyGen è una buona scelta.)
D. Posso usare sempre la stessa persona, così il volto non cambia da un video all'altro?
Sì, è proprio il cuore degli avatar.
Un avatar creato una volta mantiene un'identità persistente, quindi a prescindere dal numero di generazioni compare nei vari video con lo stesso volto.
Con la funzione "Styles (stili)" puoi creare anche varianti che cambiano solo angolazione, abbigliamento e sfondo: l'identità resta, ma le messe in scena possono variare.
🎁 Per concludere
Ricapitoliamo solo i punti chiave di oggi.
Avatars = una novità in cui un personaggio AI creato da foto o testo diventa un video che recita il copione con le labbra sincronizzate.
Voce e sincronizzazione delle labbra in un'unica schermata, in un colpo solo → niente fatica di spostare l'audio, sincronizzazione più precisa.
L'avatar creato una volta si riutilizza all'infinito, con Styles per varianti di angolazione, abbigliamento e sfondo.
Con il nodo Avatar di Flows produci in serie spot UGC e video brevi per hook e per lingua.
Alcuni dati come prezzo, durata e modello a selezione automatica non sono pubblici → controlla i crediti mostrati prima di generare.
Il "numero uno della voce" ora ha in mano anche il "volto".
Si è aperta l'era in cui dalla voce al video tutto scorre in un unico flusso.
Se hai un piano a pagamento, oggi stesso carica qualche foto
e crea il tuo attore AI personale.
Vedere una riga di copione trasformarsi in un "video parlante" è qualcosa che, una volta provato, percepisci in appena un minuto!
👉 Inizia con gli Avatar di ElevenLabs →
Ci ritroviamo nel prossimo articolo con altri consigli utili.
Qui era Sonetho. ⚡