Gli agenti IA stanno diventando sempre più sofisticati. Si stanno evolvendo dal rispondere alle domande all’esecuzione autonoma di compiti complessi in più fasi.
Ma prima che ci si possa fidare di questi agenti per prenotare viaggi o condurre analisi finanziarie per conto degli utenti, i fornitori di modelli e le startup che costruiscono tali agenti vogliono assicurarsi che funzionino in modo affidabile in una vasta gamma di scenari.
I laboratori di intelligenza artificiale utilizzano spesso benchmark per mostrare l’abilità del loro modello, ma un punteggio elevato, anche su un benchmark orientato agli agenti, in realtà non dimostra che un’intelligenza artificiale possa svolgere correttamente vari compiti complessi nel mondo reale.
Patrono AIuna startup fondata nel 2023 dagli ex ricercatori di Meta AI Anand Kannappan e Rebecca Qian, sta aiutando i modellisti e le aziende a mettere a punto modelli per fare proprio questo costruendo ambienti digitali simulati in cui valutare le prestazioni degli agenti.
La startup con sede a San Francisco deve risolvere un problema importante. Praticamente ogni laboratorio di intelligenza artificiale di frontiera e molte startup emergenti sono ora clienti, secondo Glenn Solomon, amministratore delegato di Notable Capital, che descrive la domanda per gli ambienti simulati dell’azienda come quasi insaziabile.
Le entrate di Patronus sono cresciute di 15 volte nell’ultimo anno, alimentando un notevole interesse da parte degli investitori. Giovedì, la società ha annunciato un round di serie B da 50 milioni di dollari guidato da Greenfield Partners, con la partecipazione di Notable Capital, Lightspeed, Datadog e Samsung. Il round porta il finanziamento totale della società a 70 milioni di dollari.
Patronus utilizza quelli che chiama “modelli del mondo digitale” per creare repliche di siti Web e sistemi interni. In questi ambienti, gli agenti vengono sottoposti a stress test dopo l’addestramento utilizzando l’apprendimento per rinforzo, che premia iterativamente il completamento con successo delle attività e penalizza gli errori.
I laboratori di intelligenza artificiale riconoscono un grande valore in queste simulazioni digitali perché offrono agli agenti la possibilità di provare scenari diversi, a volte imprevedibili. L’azienda confronta il suo approccio con il modo in cui Waymo ha addestrato le auto autonome costruendo prima mondi sintetici per testare i veicoli contro rischi rari, come condizioni meteorologiche avverse o un bambino che corre dietro a una palla.
La differenza con gli agenti IA è che tendono a prendere scorciatoie, il che significa che non riescono a completare correttamente l’attività. “Patronus è davvero bravo a individuare gli hack e ad assicurarsi che i modelli siano responsabili”, ha detto Solomon.
Patronus sta attualmente fornendo i suoi mondi digitali simulati per l’ingegneria del software e la finanza, ma questo è solo l’inizio, secondo Kannappan.
“Oggi siamo molto concentrati sui problemi verificabili, quindi sui problemi che è possibile controllare e verificare immediatamente, ma ci sono moltissime altre aree che sono molto non verificabili o molto difficili da verificare”, ha affermato.
Solo perché questi processi sono verificabili non significa che siano semplici. “Vogliamo essere in grado di creare effettivamente l’ambiente in cui è possibile utilizzare un agente che può funzionare per 10 ore, 10 giorni o 10 settimane”, ha affermato Kannappan.
Per quanto riguarda i rivali, Patronus ritiene che stia competendo principalmente contro i team interni che i laboratori di intelligenza artificiale hanno già creato per valutare il comportamento degli agenti. Mentre aziende di dati umani come Mercor e Surge aiutano i creatori di modelli con l’apprendimento per rinforzo, Patronus opera in modo diverso valutando come si comportano gli agenti senza alcun coinvolgimento umano.
Quando acquisti tramite i link presenti nei nostri articoli, potremmo guadagnare una piccola commissione. Ciò non pregiudica la nostra indipendenza editoriale.