Anthropic afferma che il suo ultimo modello è “a livello di mito”, ma con rigorose garanzie

Già ad aprile, Anthropic ha presentato al mondo il suo modello “Mythos”.. Mythos Preview, secondo quanto riferito, è tale un modello potente in grado di individuare difetti di sicurezza in tutti i tipi di software. Nelle mani sbagliate, i malintenzionati potrebbero abusare del modello per individuare vulnerabilità nei programmi, nei servizi e nei siti su cui la maggior parte di noi fa affidamento per la vita digitale moderna. In effetti, Mythos potrebbe aprire la più grande opportunità di hacking della storia. Che discorso.

Pertanto, Anthropic ha tirato il freno a Mythos. Pur sostenendo che prima o poi avrebbe rilasciato il modello al pubblico, prima era necessario farlo provalo con un pool limitato di tester affidabiliin quello che chiama “Progetto Glasswing”. Per cominciare, ciò significava aprire il modello agli Stati Uniti e ad altri governi. Sebbene Mythos non sia ancora disponibile per persone come te o me, Anthropic È rilasciando un nuovo modello che promette molte delle funzionalità di Mythos, senza i rischi associati alla sicurezza informatica.

Cosa sono Fable 5 e Mythos 5 di Anthropic?

Martedì Anthropic ha annunciato il suo ultimo modello, Claude Favola 5che chiama un “modello di classe Mythos” che è “sicuro per l’uso generale”. L’azienda afferma che Fable 5 è presumibilmente migliore e più capace di qualsiasi altro modello pubblico. Anthropic afferma che Fable 5 ottiene punteggi in cima alla maggior parte dei benchmark, tra cui ingegneria del software, lavoro di conoscenza, compiti di visione e ricerca. L’azienda arriva al punto di dire “più lungo e complesso è il compito, maggiore è il vantaggio di Fable 5 rispetto agli altri nostri modelli”. C’è anche Mythos 5, che sembra essere Fable 5 senza alcune limitazioni, ma non è disponibile al grande pubblico.

Secondo il benchmarking di Anthropic, Fable 5 e Mythos 5 superano Mythos Preview, Opus 4.8, GPT-5.5 di OpenAI e Gemini 3.1 Pro di Google, nelle seguenti categorie: codifica ad agenti, lavoro di conoscenza, ragionamento spaziale, uso di strumenti, legale, ragionamento multidisciplinare (senza strumenti), biologia, sicurezza informatica e salute. Mythos Preview ottiene una vittoria nell’uso del computer e nel ragionamento multidisciplinare (con strumenti), ma è una piazza pulita su tutti gli altri modelli.

Grafico delle prestazioni di Fable 5 rispetto ad altri modelli

Credito: antropico

Anthropic afferma che Fable 5 è stato in grado di completare un progetto di codifica che avrebbe richiesto a un team più di due mesi per essere completato in un solo giorno. Può ricostruire il codice sorgente di un’app Web solo da screenshot. Può battere Pokémon Rosso Fuoco con una “imbracatura minima, di sola visione”, mentre altri modelli di Claude faticavano a giocare. Era in grado di giocare Uccidi la Guglia e ha raggiunto l’atto finale tre volte più spesso di Opus 4.8 Mythos 5 si basa sulle sue capacità di ricerca, con statistiche migliorate nella progettazione dei farmaci, nonché nuove ipotesi riguardanti questioni di biologia molecolare e la capacità di produrre nuove ricerche nel campo della genomica.

In che modo Anthropic mantiene al sicuro Fable 5?

Questa è la grande domanda: se Fable 5 è di classe Mythos, come puoi garantire che sia sicuro da rilasciare al grande pubblico? Un malintenzionato non potrebbe sfruttare le capacità di Fable 5 e costringerlo a scoprire e rivelare le vulnerabilità della sicurezza?

Anthropic dice di averlo capito. Sebbene Fable 5 possa essere al livello di Mythos in molti modi, la società afferma che i test del Project Glasswing hanno prodotto un modello con le adeguate garanzie per un rilascio pubblico. Fable 5 cerca “classificatori” o argomenti altamente sensibili, a cui sa che non dovrebbe rispondere. Ciò significa che quando Fable 5 riceve una richiesta che ritiene abbia a che fare con la sicurezza informatica, la biologia, la chimica o la distillazione, non risponde alla domanda stessa. Invece, passa la query a Opus 4.8, il modello “più capace” di Anthropic. Il modello dovrebbe essere comunque abbastanza potente da fornire risposte precise, ma non in grado di fornire agli utenti malintenzionati gli strumenti necessari per sfruttare gli altri.

Cosa ne pensi finora?

Anthropic afferma che i suoi nuovi guardrail sono cauti e conservatori e potrebbero essere eccessivi. Le richieste benigne potrebbero far scattare accidentalmente gli allarmi di sicurezza di Fable 5, ma presumibilmente ciò accade circa il 5% delle volte. Pertanto, Anthropic afferma che Fable 5 è in grado di gestire le richieste da solo circa il 95% delle volte. Inoltre, la società ha scoperto che dopo un programma di bug bounty, nessun hacker white hat sarebbe riuscito a trovare un jailbreak universale (o un exploit per aggirare i protocolli di sicurezza) dopo 1.000 ore di test. Mentre un’organizzazione ha fatto progressi nella ricerca di un jailbreak, Anthropic afferma di essere sicura che i suoi protocolli rendano poco pratico per gli hacker scoprire i jailbreak prima che lo faccia l’azienda.

Perché abbandonare le richieste di biologia e chimica? Anthropic afferma che Mythos è anche troppo bravo a sostenere la ricerca e lo sviluppo della terapia genica, il che può essere un vantaggio per gli scienziati, ma un grave rischio nelle mani sbagliate. Inoltre, Anthropic sa che ci sono attori là fuori che cercano di “distillare” le capacità dei modelli di Claude per addestrare i propri modelli a fare quello che vogliono. Pertanto, qualsiasi di queste richieste viene avviata su un modello con prestazioni inferiori.

Anthropic sta inoltre modificando la sua politica di conservazione dei dati per Fable 5 e Mythos 5. Con questi modelli, l’azienda conserverà i tuoi dati per 30 giorni, non per la formazione, ma per proteggerti da futuri attacchi informatici e jailbreak. Fable 5 e Mythos 5 hanno entrambi lo stesso prezzo: 10 dollari per milione di token di input e 50 dollari per milione di token di output, che secondo Anthropic è meno della metà del prezzo di Mythos Preview.

Source link