Apple Foundation Models 2: il nuovo modello on-device capisce voce, testo e immagini

Apple ha presentato una seconda versione dei suoi Apple Foundation Models, stavolta multimodale: il modello è in grado di comprendere il parlato, leggere testo e interpretare immagini, tutto sull'hardware dell'utente senza passare dal cloud.

Un secondo modello, stavolta sensoriale

Durante il keynote del WWDC 2026, Apple ha annunciato una seconda generazione dei propri Apple Foundation Models (AFM). Come riporta CNBC, il nuovo modello non si limita all'elaborazione testuale: è progettato per comprendere il parlato, elaborare testo scritto e interpretare immagini in modo combinato. Si tratta di un passo verso un'AI genuinamente multimodale che gira interamente sul dispositivo dell'utente.

Differenza rispetto ad AFM Cloud Pro

Il nuovo AFM 2 on-device si distingue dall'AFM Cloud Pro — il modello annunciato in parallelo che gira su GPU Nvidia nel cloud Google e si confronta in qualità con Gemini Frontier. AFM 2 è pensato per le elaborazioni locali, quelle dove la latenza e la privacy dell'utente hanno la precedenza sulla potenza computazionale. La separazione tra un tier locale e uno cloud rispecchia l'architettura ibrida che Apple sta costruendo per Apple Intelligence.

Implicazioni per gli sviluppatori

La multimodalità di AFM 2 apre nuove possibilità per le API pubbliche destinate agli sviluppatori terzi, già annunciate al WWDC. Un modello on-device capace di ragionare su voce, testo e immagini contemporaneamente abbassa la dipendenza dal cloud per categorie di app che finora richiedevano un back-end esterno per qualsiasi analisi visiva o vocale. Quante di queste capacità saranno effettivamente esposte nelle API pubbliche è ancora da chiarire nelle sessioni tecniche della settimana.

← Torna alla home