ElevenLabs Music v2: Multi-Genre AI Audio Generation

Luca Reverberi

May 28, 2026

ElevenLabs Music v2 Multi-Genre AI Audio Generation for Italian SMEs — SHM Studio Milan Analysis

Cosa è cambiato con ElevenLabs Music v2
L'architettura della coerenza multi-genere
Immediate impact for creative agencies and SMEs
Tre scenari d'uso concreti per le PMI italiane
The competitive landscape: where does Music v2 position itself?
What press releases don't say
Cosa fare ora: tre priorità operative
Outlook: Where AI audio generation is heading in 2027

ElevenLabs has released Music v2, un modello aggiornato di generazione musicale basato su intelligenza artificiale. La novità principale è la capacità di gestire transizioni fluide tra generi molto distanti — opera, heavy metal, rap — all’interno di un singolo brano. Inoltre, il modello introduce una funzione di inpainting audio: è possibile rigenerare sezioni specifiche di un brano senza alterare le parti già approvate.

Pertanto, per agenzie creative e PMI che producono contenuti video, podcast o campagne digitali, questo aggiornamento riduce sensibilmente i tempi di post-produzione musicale. In particolare, l’inpainting elimina la necessità di ripartire da zero ogni volta che una singola sezione non soddisfa le aspettative del cliente. Di conseguenza, il flusso di lavoro diventa più iterativo e controllabile.

We of SHM Studio monitoriamo con attenzione l’evoluzione degli strumenti AI applicati alla produzione di contenuti. Infatti, l’integrazione di soluzioni come ElevenLabs Music v2 nei processi di digital marketing può generare vantaggi competitivi concreti per le PMI italiane. In sintesi, si tratta di un aggiornamento rilevante, non di un semplice incremento di versione.

Cosa è cambiato con ElevenLabs Music v2

May 28, 2026, ElevenLabs announced the release of Music v2, the second generation of your AI-based music synthesis model. According to The Decoder, il modello è in grado di gestire transizioni tra generi musicalmente distanti — opera, heavy metal, rap — mantenendo la coerenza armonica e strutturale del brano.

Inoltre, Music v2 introduce una funzionalità di inpainting audio. This mechanism allows you to select a specific section of a generated track and regenerate it in isolation. The remaining parts remain intact. Therefore, the revision process becomes surgical, not destructive.

In precedenza, qualsiasi modifica a una sezione insoddisfacente richiedeva la rigenerazione dell’intero brano. Di conseguenza, il controllo creativo era limitato e i tempi si allungavano. Music v2 risolve questo collo di bottiglia in modo diretto.

L’architettura della coerenza multi-genere

La sfida tecnica centrale di Music v2 non è la generazione di singoli generi. Infatti, modelli precedenti — inclusa la prima versione di ElevenLabs Music — erano già in grado di produrre brani stilisticamente coerenti all’interno di un genere definito. Il salto qualitativo riguarda le Gender transitions.

Mantenere la coerenza musicale durante un passaggio da opera a metal implica gestire simultaneamente variabili di timbro, tempo, armonia e struttura ritmica. Tuttavia, ElevenLabs afferma che Music v2 riesce a navigare queste transizioni senza perdere il filo narrativo del brano. Si tratta di un risultato non banale dal punto di vista dell’architettura del modello.

Similarly, the inpainting function requires the model to understand the surrounding musical context before regenerating the selected section. In this sense, the model operates with a form of musical context awareness which brings it closer to the behavior of a human editor.

Immediate impact for creative agencies and SMEs

Per le agenzie che producono contenuti video, spot pubblicitari o materiali per campagne digitali, la musica originale rappresenta spesso un costo fisso rilevante. In particolare, l’acquisizione di licenze per brani commerciali o il ricorso a compositori professionisti incide sui budget di produzione, soprattutto per le PMI.

Quindi, strumenti come ElevenLabs Music v2 aprono uno scenario operativo diverso. Un’agenzia può generare musica originale su misura per ogni formato — reel, pre-roll, podcast, presentazione istituzionale — senza costi di licenza ricorrenti. Inoltre, l’inpainting consente di adattare rapidamente lo stesso brano a varianti creative differenti.

We of SHM Studio lavoriamo quotidianamente con PMI italiane che gestiscono campagne su più canali. Pertanto, la riduzione del tempo di produzione audio ha un impatto diretto sulla velocità di go-to-market. Un’agenzia che integra Music v2 nel proprio flusso di lavoro può consegnare varianti audio in ore, non in giorni.

Per approfondire come l’AI si integra nei processi di produzione di contenuti, è utile consultare le nostre pagine dedicate ai AI services and to the SEO copywriting.

Tre scenari d’uso concreti per le PMI italiane

First of all, it's worth identifying the contexts in which Music v2 yields the greatest operational return. Below are three representative scenarios for the Italian B2B and retail market.

Social video campaign Generating original music for reels and short videos eliminates the risk of copyright claims on platforms like Instagram and YouTube. Furthermore, multi-genre consistency allows for differentiating musical style for different audience segments without resorting to separate tracks.
Podcast and branded audio content: le PMI che producono podcast istituzionali o interviste di settore possono generare jingle e stacchi musicali personalizzati. In particolare, l’inpainting consente di aggiornare singole sezioni quando il brand evolve, senza rifare l’intera identità sonora.
Presentations and event materials: le agenzie che curano eventi B2B o fiere di settore possono produrre colonne sonore su misura per ogni momento della giornata — apertura, networking, chiusura — con un unico strumento e tempi ridotti.

Questi scenari si collegano direttamente alle attività di digital marketing and all LinkedIn campaign che gestiamo per i nostri clienti. Dunque, l’audio diventa un elemento della strategia di contenuto, non un accessorio.

The competitive landscape: where does Music v2 position itself?

ElevenLabs non è l’unico player in questo spazio. Tuttavia, la combinazione di transizioni multi-genere e inpainting la distingue dai concorrenti più diretti. Strumenti come Suno e Udio offrono generazione musicale testuale, ma con minore controllo sulla revisione puntuale delle sezioni.

According to the analysis of Gartner, la generative AI applicata ai media creativi è in una fase di rapida maturazione. Di conseguenza, la distanza tra i modelli leader e quelli secondari tende ad ampliarsi velocemente. Chi adotta oggi gli strumenti più avanzati costruisce un vantaggio operativo difficile da colmare in seguito.

Altresì, vale la pena considerare che ElevenLabs ha già una posizione consolidata nel mercato della sintesi vocale AI. Quindi, l’espansione verso la musica segue una logica di piattaforma: un unico fornitore per voce, effetti sonori e musica originale. Per le agenzie, questo riduce la complessità dell’ecosistema di strumenti.

For those who manage Google Ads campaigns con componenti video, l’integrazione di audio originale di qualità può migliorare le metriche di engagement degli annunci. Inoltre, per le attività di SEO Link to YouTube, original music removes restrictions on monetization and distribution.

What press releases don't say

È opportuno mantenere una lettura critica. ElevenLabs afferma che le transizioni multi-genere avvengono senza perdere coerenza musicale. Tuttavia, la qualità percepita di queste transizioni dipende dal contesto d’uso e dalle aspettative del pubblico finale.

Per contenuti destinati a piattaforme social o a video istituzionali, il livello di qualità di Music v2 è probabilmente sufficiente. Al contrario, per produzioni che richiedono un’identità sonora distintiva e raffinata — spot televisivi, colonne sonore per film aziendali di alto profilo — il giudizio richiede test diretti.

Inoltre, la funzione di inpainting, per quanto promettente, introduce una nuova curva di apprendimento. Il controllo granulare di un brano AI richiede competenze musicali di base per essere sfruttato efficacemente. Nonostante ciò, per un team creativo con anche solo una conoscenza elementare di struttura musicale, il vantaggio operativo è netto.

Per chi desidera esplorare l’integrazione di questi strumenti in una strategia di contenuto strutturata, il nostro team è disponibile tramite la Contact Us. Infine, per restare aggiornati sugli sviluppi AI più rilevanti per le PMI italiane, il SHM Studio Blog publish regular analyses on these topics.

Cosa fare ora: tre priorità operative

Per le PMI e le agenzie che vogliono valutare Music v2 in modo strutturato, suggeriamo tre priorità immediate.

Map existing audio touchpoints: Identify all content formats that currently use purchased or licensed music. This census defines the scope of immediate application of the tool.
Start a pilot on a specific format. scegliere un formato a basso rischio — ad esempio i reel social — e testare Music v2 su un ciclo di produzione completo. Quindi, misurare il tempo risparmiato e la qualità percepita dal cliente.
Integrare l’audio nella strategia di contenuto: treat original music not as a decorative element but as a variable of brand identity. In particular, evaluate the consistency between musical style and brand positioning.

To further explore how to structure a content strategy that includes audio, video, and text coherently, our pages on web services and on digital marketing offrono un punto di partenza utile. Inoltre, per le PMI che vogliono capire come l’AI si inserisce in un piano editoriale, la sezione AI services Describe the adoption paths we follow with our clients.

Outlook: Where AI audio generation is heading in 2027

Music v2 è un segnale di direzione, non un punto di arrivo. Secondo McKinsey, la generative AI applicata ai media creativi ha un potenziale di automazione significativo nei processi di produzione di contenuti. Di conseguenza, nei prossimi 18-24 mesi è ragionevole attendersi modelli ancora più controllabili e integrabili nelle pipeline di produzione agenziale.

In particolare, la convergenza tra sintesi vocale, generazione musicale e produzione video AI suggerisce che entro il 2027-2028 sarà possibile produrre contenuti audiovisivi completi — voce, musica, immagini — con un unico flusso di lavoro AI-assisted. Per le PMI italiane, questo scenario ridefinisce il rapporto tra budget di produzione e qualità del contenuto finale.

Pertanto, adottare oggi una familiarità operativa con strumenti come ElevenLabs Music v2 non è solo una scelta tattica. È un investimento nella capacità di competere in un ecosistema di contenuti che si sta ridisegnando rapidamente. Chi aspetta che il mercato si stabilizzi rischia di partire già in ritardo.

News Categories

Discover other articles that explore similar topics in depth, selected to give you a more complete and stimulating view. Each piece of content is carefully chosen to enrich your experience.