Interaction Models: la nuova AI di Mira Murati

Luca Reverberi

12 Maggio 2026

Interaction models AI multimodale real-time di Thinking Machines: implicazioni per le PMI italiane secondo SHM Studio

Il problema che Thinking Machines vuole risolvere
Cosa sono gli interaction models: architettura e funzionamento
Chi è Mira Murati e perché il mercato la segue
Impatto immediato per le PMI italiane: cosa cambia davvero
Il cantiere ancora aperto: limiti e incognite
Cosa fare ora: orientarsi senza rincorrere
Prospettive: dove porta questa traiettoria

Thinking Machines, la società fondata dall’ex CTO di OpenAI Mira Murati, ha annunciato lo sviluppo degli interaction models. Si tratta di un nuovo paradigma di intelligenza artificiale. Questi modelli percepiscono audio, video e testo in modo continuo e simultaneo. Pertanto, superano il limite dei modelli attuali, che attendono passivamente l’input dell’utente.

Invece di operare su un singolo thread sequenziale, gli interaction models elaborano la realtà in tempo reale. Inoltre, sono progettati per rispondere e agire mentre l’interazione è ancora in corso. Questo li avvicina al modo in cui gli esseri umani collaborano naturalmente tra loro. Di conseguenza, il confine tra interfaccia e interlocutore tende a sfumarsi in modo significativo.

Per le PMI italiane, questa evoluzione non è un dettaglio tecnico marginale. Al contrario, rappresenta un cambiamento strutturale nel modo in cui l’AI potrà essere integrata nei processi aziendali. Noi di SHM Studio monitoriamo questi sviluppi per tradurli in strategie operative concrete. In particolare, le implicazioni riguardano i servizi di intelligenza artificiale applicata, il customer service e la gestione dei contenuti digitali. Infine, vale la pena comprendere fin d’ora come posizionarsi rispetto a questa tecnologia emergente.

Il problema che Thinking Machines vuole risolvere

I modelli di intelligenza artificiale oggi disponibili operano secondo una logica sequenziale. L’utente scrive o parla. Il modello attende. Poi elabora e risponde. Questo schema, per quanto funzionale, introduce una discontinuità profonda rispetto alla comunicazione umana naturale.

Thinking Machines descrive questa limitazione con chiarezza: «Today’s models experience reality in a single thread». In altre parole, il modello non percepisce nulla finché l’input non è completato. Non vede l’esitazione dell’utente. Non coglie il tono della voce. Non interpreta il contesto visivo.

Pertanto, l’annuncio degli interaction models nasce da un’ambizione precisa. L’obiettivo è colmare questo divario tra intelligenza artificiale e collaborazione umana autentica. Come riportato da The Verge, Thinking Machines punta a modelli che «pensano, rispondono e agiscono in tempo reale».

Cosa sono gli interaction models: architettura e funzionamento

Gli interaction models di Thinking Machines sono progettati per elaborare simultaneamente tre canali di input: audio, video e testo. Inoltre, lo fanno in modo continuo, senza attendere la conclusione dell’interazione da parte dell’utente.

Questo approccio multimodale real-time rappresenta un salto architetturale rispetto ai large language model tradizionali. Infatti, i modelli attuali — anche i più avanzati — trattano ogni turno conversazionale come un evento discreto. Al contrario, un interaction model mantiene una percezione attiva e persistente del contesto.

In termini pratici, significa che il sistema può accorgersi se l’utente sta esitando prima di completare una frase. Può interpretare un’espressione facciale durante una videochiamata. Può adattare la risposta in base al tono emotivo rilevato in tempo reale. Dunque, si tratta di un modello che non reagisce soltanto, ma partecipa.

Per approfondire il tema dell’AI multimodale e le sue basi tecniche, il MIT Technology Review offre analisi puntuali sull’evoluzione di questi sistemi.

Chi è Mira Murati e perché il mercato la segue

Mira Murati ha ricoperto il ruolo di CTO di OpenAI fino al 2024. In quella posizione, ha supervisionato lo sviluppo di GPT-4 e di ChatGPT. La sua uscita da OpenAI ha generato ampia attenzione nel settore.

La fondazione di Thinking Machines ha confermato che Murati intende costruire qualcosa di strutturalmente diverso. Non un’alternativa a ChatGPT. Piuttosto, un nuovo paradigma di interazione uomo-macchina. Pertanto, il mercato segue con interesse ogni annuncio della società.

Analogamente a quanto accaduto con altre startup fondate da ex dirigenti di grandi laboratori AI, Thinking Machines beneficia di credibilità tecnica immediata. Tuttavia, la distanza tra un annuncio e un prodotto commercialmente maturo rimane significativa. Questo vale in modo particolare per tecnologie così ambiziose.

Secondo le analisi di Gartner, le tecnologie AI multimodali si trovano in una fase di rapida maturazione. Di conseguenza, i tempi di adozione aziendale si stanno accorciando rispetto ai cicli precedenti.

Impatto immediato per le PMI italiane: cosa cambia davvero

Per una PMI italiana, la domanda concreta è: questo sviluppo cambia qualcosa oggi? La risposta è articolata.

Nel breve termine, gli interaction models non sono ancora disponibili come prodotto commerciale. Thinking Machines ha annunciato la direzione, non il lancio. Tuttavia, l’impatto indiretto è già misurabile. Infatti, annunci di questo tipo accelerano l’evoluzione dell’intero ecosistema AI, incluse le piattaforme già in uso.

In particolare, le aziende che operano in ambiti ad alta intensità relazionale — customer service, vendita consultiva, formazione interna — dovrebbero monitorare questa traiettoria. Inoltre, chi sta valutando investimenti in soluzioni AI per il proprio business deve tenere conto di questo cambio di paradigma nella pianificazione.

Noi di SHM Studio lavoriamo quotidianamente con PMI che si interrogano su come integrare l’intelligenza artificiale nei propri flussi operativi. Quindi, comprendere dove si sta muovendo la frontiera tecnologica è parte integrante del nostro approccio consulenziale.

Il cantiere ancora aperto: limiti e incognite

È necessario mantenere una prospettiva realistica. Gli interaction models presentano sfide tecniche non banali. Elaborare simultaneamente audio, video e testo in tempo reale richiede potenza computazionale considerevole. Inoltre, la latenza deve essere sufficientemente bassa da rendere l’interazione fluida.

Oltre a questo, emergono questioni legate alla privacy. Un sistema che percepisce continuamente il contesto visivo e sonoro dell’utente solleva interrogativi normativi rilevanti. In Europa, il quadro del GDPR e dell’AI Act impone vincoli precisi. Pertanto, l’adozione enterprise di queste tecnologie dovrà necessariamente confrontarsi con il perimetro regolatorio.

Infine, resta aperta la questione dell’interfaccia. Come si progetta un’esperienza utente per un sistema che non aspetta? Come si gestisce l’interruzione o la correzione in tempo reale? Questi sono problemi di design dell’interazione ancora largamente irrisolti. Per chi si occupa di progettazione web e interfacce digitali, si tratta di un terreno di riflessione già attuale.

Cosa fare ora: orientarsi senza rincorrere

Di fronte a un annuncio tecnologico di questa portata, la risposta più efficace non è l’attesa passiva né l’adozione immediata acritica. Al contrario, è utile strutturare una postura strategica consapevole.

Prima di tutto, è opportuno mappare i processi aziendali in cui l’interazione in tempo reale potrebbe generare valore. Ad esempio, sessioni di supporto tecnico, onboarding clienti, formazione del personale. In seguito, è possibile valutare quali strumenti già disponibili si avvicinano a questo paradigma e sperimentarli in contesti controllati.

Per le PMI che vogliono strutturare una strategia digitale coerente, i servizi di digital marketing e di SEO rimangono pilastri fondamentali. Tuttavia, l’AI entra sempre più trasversalmente in questi ambiti. Pertanto, ignorarla significa rinunciare a un vantaggio competitivo crescente.

Chi gestisce campagne su canali professionali come LinkedIn può già oggi sfruttare l’AI per ottimizzare targeting e messaggi. I nostri servizi di campagne LinkedIn e di Google Ads integrano già logiche di ottimizzazione automatizzata. Allo stesso modo, il copywriting SEO beneficia di strumenti AI per la ricerca semantica e la strutturazione dei contenuti.

Prospettive: dove porta questa traiettoria

Nel biennio 2027-2028, è ragionevole attendersi che i modelli multimodali real-time diventino una componente standard delle piattaforme AI enterprise. Thinking Machines non sarà l’unico attore in questo spazio. Infatti, OpenAI, Google DeepMind e Anthropic stanno tutti lavorando su capacità multimodali avanzate.

Secondo le proiezioni di McKinsey, l’adozione dell’AI generativa nelle aziende è destinata ad accelerare significativamente nei prossimi due anni. Di conseguenza, le PMI che iniziano oggi a costruire competenze interne e processi AI-ready si troveranno in una posizione di vantaggio strutturale.

Per questo motivo, SHM Studio accompagna le aziende clienti non solo nella gestione delle attività digitali correnti, ma anche nella comprensione delle trasformazioni in atto. Chi volesse approfondire questi temi può visitare il nostro blog o contattarci direttamente per una consulenza.

In sintesi, gli interaction models di Thinking Machines rappresentano un segnale chiaro sulla direzione dell’AI. Non è ancora il momento dell’adozione operativa. È però il momento giusto per capire, pianificare e posizionarsi.