Spiegazione dei Foundation Model di terza generazione di Apple

Durante il keynote del WWDC26, Apple ha annunciato la sua terza generazione di Apple Foundation Models (AFM), comprendente cinque modelli, alcuni dei quali locali, altri basati su cloud e uno dei quali risiede nei server di Google in esecuzione su chip Nvidia. Ecco una ripartizione di come funzionerà.

Un po’ di background

Quando Apple annunciò per la prima volta i suoi modelli base nel 2024, la gamma includeva un modello linguistico su dispositivo con circa 3 miliardi di parametri e “un modello linguistico più ampio basato su server disponibile con Private Cloud Compute e in esecuzione sui server di silicio Apple”, come ha affermato l’azienda. mettilo al momento.

Il Private Cloud Compute era un ambizioso impresa, poiché mirava a fornire funzionalità di intelligenza artificiale basate su cloud preservando le stesse garanzie di privacy che gli utenti si aspettano dall’elaborazione sul dispositivo.

Per questo motivo era fondamentale mantenere tutto in-house. Il Private Cloud Compute veniva eseguito nei data center Apple, su server alimentati dal silicio Apple. Anche così, le sue garanzie sulla privacy potrebbero essere verificate in modo indipendente da ricercatori di sicurezza di terze parti.

Tuttavia, mentre Apple faticava a far decollare le sue aspirazioni sull’intelligenza artificiale, la società ha collaborato con Google per utilizzare Gemini come spina dorsale dei suoi nuovi sforzi sull’intelligenza artificiale, i cui risultati sono stati annunciati all’inizio di questa settimana durante il keynote della WWDC26.

I nuovi modelli di fondazione di Apple

La terza generazione di AFM comprende cinque modelli: AFM3 Core E Codice AFM 3 Avanzatoquali sono i modelli sul dispositivo e AFM Nuvola, ADM 3 Cloud (Immagine)E AFM3 Nuvola Proche sono basati su server. La D in ADM 3 Cloud (Image) sta per diffusione, una tecnologia di cui abbiamo parlato in passato qui.

Ad eccezione di AFM 3 Cloud Pro, tutti gli altri modelli sono stati realizzati per funzionare su dispositivi Apple in silicio. AFM 3 Cloud Pro, nel frattempo, funziona su GPU NVIDIA ospitate su Google Cloud.

Ciò è stato reso possibile dopo Apple esteso la sua architettura Private Cloud Compute su un’infrastruttura di terze parti per la prima volta, “mantenendo le potenti protezioni di sicurezza e privacy di Apple”, secondo l’azienda.

Per quanto riguarda i modelli stessi, ecco una ripartizione di ciascuno, come spiegato da Apple:

AFM 3 Core, la prossima generazione del nostro modello ad alta densità da 3 miliardi di parametri che offre un miglioramento della qualità.

AFM 3 Core Advanced, il nostro modello on-device più potente. È nativamente multimodale e consente funzionalità utili come voci espressive e dettatura ad alta precisione. Basato sulla ricerca all’avanguardia di Apple, questo modello da 20 miliardi di parametri utilizza un’architettura sparsa, attivando solo da 1 a 4 miliardi di parametri alla volta a seconda della richiesta. AFM 3 Core Advanced è sbloccato e ottimizzato per i nostri sistemi in silicio Apple più potenti.

AFM 3 Cloud, il nostro cavallo di battaglia lato server, ottimizzato per velocità, efficienza e prestazioni.

ADM 3 Cloud (Image), per la generazione e la modifica delle immagini, che sblocca strumenti avanzati di fotoritocco, il nuovissimo Image Playground e altro ancora.

AFM 3 Cloud Pro, il nostro modello basato su server più potente, che alimenta i nostri casi d’uso più impegnativi, come l’uso di strumenti agenti e il ragionamento complesso.

I punti salienti qui sono AFM 3 Core Advanced e AFM 3 Cloud Pro.

A partire da AFM 3 Core Advanced, racchiude 20 miliardi di parametri in un modello su dispositivo, il che non è un’impresa da poco. La maggior parte dei modelli su dispositivo rivolti al grande pubblico tendono a rimanere entro miliardi di parametri a una cifra.

Per far funzionare bene AFM 3 Core Advanced, Apple ha utilizzato un’architettura sparsa che attiva fino a 4 miliardi di parametri alla volta, a seconda della richiesta, piuttosto che un’architettura densa che avrebbe bisogno di mantenere attivi tutti i 20 miliardi di parametri per ogni richiesta.

Sebbene concettualmente simile all’approccio Mixture of Experts, questa attivazione selettiva si basa su una tecnica inventata da Apple e dettagliata nell’interessante studio Potatura seguendo le istruzioni per modelli linguistici di grandi dimensioni rilasciato un anno fa.

Per quanto riguarda AFM 3 Cloud Pro, questo è quello che funziona su un’infrastruttura esterna. Puoi leggere alcuni dettagli tecnici di questa espansione in Questo articolo pubblicato sul blog sulla sicurezza di Apple all’inizio di questa settimana, ma ecco la parte più importante:

Su queste basi, Apple e Google hanno collaborato per creare capacità che vanno ben oltre la tradizionale implementazione del computing riservato:

Non ci affidiamo esclusivamente alle tecnologie informatiche riservate per mitigare gli attacchi che sfruttano l’accesso privilegiato all’esterno di una VM riservata, compresi gli attacchi side-channel. Consideriamo ogni componente, dal firmware agli stack del sistema operativo host e guest fino al codice dell’applicazione, come parte della nostra base informatica affidabile, soggetta alle nostre garanzie verificabili di trasparenza e di accesso senza privilegi.

Per mitigare il rischio di attacchi alla catena di fornitura, manteniamo un registro di sola aggiunta crittograficamente verificabile di tutto l’hardware Google Cloud che fa parte del parco PCC. Per i componenti che potrebbero essere utilizzati in modo improprio per estrarre i dati dell’utente in caso di compromissione, la nostra attestazione del software è radicata in almeno due radici di fiducia separate da fornitori indipendenti.

Anche quando utilizzato con l’elaborazione riservata, riteniamo che lo stack di inferenza debba essere progettato rispettando la privacy e la sicurezza fin dall’inizio. PCC su Google Cloud sfrutta molti degli stessi modelli di sicurezza architetturali di PCC su silicio Apple per implementare queste protezioni a più livelli: l’analisi iniziale dei dati di rete per ogni richiesta avviene in un processo dedicato all’interno del proprio spazio dei nomi, il software di inferenza condiviso viene riciclato con un breve periodo di vita e le chiavi attestate sono conservate in una VM riservata separata e dedicata, isolata da input esterni.

Nel suo blog sulla ricerca sull’apprendimento automatico, Apple dice che tutti e cinque i modelli “condividevano una base iniziale comune prima di specializzarsi per le rispettive architetture e casi d’uso, aggiungendo funzionalità multimodali come audio, comprensione delle immagini, ragionamento a lungo contesto e generazione visiva di alta qualità”.

L’azienda aggiunge che, per addestrare questi modelli, ha utilizzato “una miscela di dati che include informazioni disponibili al pubblico, dati concessi in licenza o acquistati da terze parti, dati open source, dati ottenuti attraverso studi dedicati e dati sintetici”. Apple sottolinea inoltre che il processo di formazione non includeva dati o interazioni degli utenti e che gli editori web possono rinunciare alla formazione sul modello di base.

I risultati

Apple afferma di aver condotto approfondite valutazioni umane dei suoi modelli di base di terza generazione, con revisori interni che valutano le risposte in categorie come il rispetto delle istruzioni, la veridicità, la presentazione e la comprensione delle immagini.

I modelli sono stati valutati rispetto ai loro predecessori (ove applicabile) e puoi vedere alcuni dei risultati di seguito:

Frazione delle risposte preferite nelle valutazioni umane affiancate delle capacità generali del testo, confrontando AFM 3 Core e AFM 3 Cloud con la nostra precedente generazione di modelli. I risultati vengono presentati in quattro gruppi locali distinti per dimostrare prestazioni coerenti tra le varianti internazionali. “Inglese” rappresenta il nostro set di valutazione inglese globale, mentre “PFIGSCJK”, “DNNSTV” e “AFIHHMPRTU” rappresentano le restanti impostazioni locali globali supportate.

Frazione delle risposte preferite nelle valutazioni umane affiancate delle capacità di comprensione delle immagini in inglese. I risultati confrontano AFM 3 Core e AFM 3 Cloud con i loro predecessori del 2025.

Frazione delle risposte preferite nelle valutazioni umane affiancate per attività di dettatura. I risultati confrontano AFM 3 Core Advanced con il sistema di dettatura di produzione esistente di Apple attraverso sette dimensioni di qualità. AFM 3 Core Advanced dimostra un tasso di vincita positivo nella qualità complessiva, con la preferenza che si estende in modo coerente a tutte le singole dimensioni di formattazione e comprensione.

Per un approfondimento ancora più approfondito sugli Apple Foundation Models di terza generazione, segui questo collegamento.