roadmap – AuraVoice

Il progetto AuraVoice nasce per creare un punto d’incontro tra digitale e fisico, attraverso un totem che proietta avatar olografici interattivi.

Gli avatar sfruttano tecnologie d’avanguardia come Computer Vision e AI Generativa per adattarsi all’utente rilevato e modulare il dialogo in modo dinamico e appropriato.

L’obiettivo principale del progetto è garantire un’interazione fluida e significativa, andando oltre la semplice visualizzazione di contenuti e offrendo un’esperienza immersiva, personalizzata e utile per l’Utente.

Dietro le quinte del Totem
Dietro un’interazione che appare naturale e immediata c’è un processo tecnologico complesso e strutturato, frutto di ricerche estensive che hanno portato all’utilizzo di alcune delle architetture più performanti in circolazione.

L’esperienza parte dal momento in cui una persona si avvicina al totem: la videocamera sfrutta una rete neurale in grado di fare person detection per attivare l’avatar olografico. Da quel momento inizia una vera e propria conversazione.

La videocamera, i microfoni e gli altoparlanti del totem lavorano in armonia per gestire la conversazione: l’utente parla, un modello di speech to text trascrive l’audio, l’intelligenza artificiale interpreta la richiesta e genera una risposta coerente, che viene trasformata in voce da un modello text to speech e restituita dall’avatar in tempo reale, per un’esperienza naturale. Il video lavora insieme all’audio: l’avatar non solo “parla”, ma lo fa con movimenti labiali e presenza visiva che aumentano la sensazione di naturalezza.

Le tecnologie di Computer Vision permettono di adattare l’esperienza al tipo di persona davanti al totem, mentre l’AI Generativa assicura che le risposte siano dinamiche e pertinenti, grazie alla base di conoscenza utilizzata per addestrarla.

La privacy è un punto cardine dell’esperienza: I modelli di computer vision adottati funzionano ed elaborano le immagini esclusivamente in locale e solo per il tempo necessario

La roadmap di progetto
Scelta dell’hardware: Il primo passo è stato scegliere le componenti hardware migliori per fornire all’avatar occhi, bocca e orecchie performanti. Sono stati acquistati microfoni, altoparlanti e videocamera di qualità, oltre che pannelli LED rotanti per proiettare l’avatar olografico in tre dimensioni.

Software e modelli: Sono stati scelti i software e i modelli più adatti e performanti per la gestione dei flussi audio e video, il riconoscimento vocale e l’elaborazione delle immagini in tempo reale.

Costruzione della pipeline conversazionale: Gli elementi raccolti in precedenza sono serviti per la definizione della pipeline conversazionale più adatta e versatile possibile, in grado di gestire la più vasta gamma possibile di Use Case garantendo un’interazione fluida e coerente.

Integrazione con l’avatar: La pipeline conversazionale è stata poi collegata allo sviluppo visivo dell’avatar, realizzato in Unreal Engine, per collegare voce e video.

Raccolta e preparazione dei contenuti: Per ciascun caso d’uso vengono raccolti materiali specifici: questionari, manuali, guide e documentazione tecnica. Questi documenti sono stati rielaborati per diventare basi di conoscenza efficaci che alimentano l’intelligenza artificiale, così che l’avatar possa rispondere con competenza e linguaggio adeguato al contesto. Inoltre, si è anche definito il tipo di User Experience ideale per ciascuno dei due use case.

Test e validazione: Infine, ogni componente descritto in precedenza è stato validato con test estensivi, per misurare efficacia, qualità percepita e stabilità del sistema.