La raccolta dei dati sull’addestramento dei robot è un lavoro sporco e poco affascinante. Alcuni laboratori di intelligenza artificiale stanno già pagando XDOF per farlo

Due settimane fa, OpenAI disse rilancerebbe il programma di robotica che aveva chiuso nel 2021 – l’ultimo segnale che i più grandi laboratori di intelligenza artificiale stanno correndo per insegnare alle macchine a funzionare nel mondo fisico. Ma costruire robot capaci richiede qualcosa che il settore dell’intelligenza artificiale non ha ancora, ovvero i dati di addestramento che corrispondano a quelli utilizzati per i modelli linguistici.

Questo divario sta creando un nuovo tipo di business delle infrastrutture. A differenza degli LLM che sono stati addestrati su un vasto mare di testo disponibile al pubblico, i robot hanno bisogno di dati che catturino l’interazione fisica e quel tipo di dati esiste a malapena. I video e i filmati di YouTube catturati dai lavoratori dei concerti sono a bassa fedeltà e difficili da conciliare con il mondo fisico.

XDOF (pronunciato “ecks-doff”), emergendo oggi dallo stealth, scommette che il prossimo grande collo di bottiglia nell’intelligenza artificiale non saranno i modelli o i chip, ma il ciclo di feedback dei dati necessario per insegnare ai robot come interagire con il mondo fisico.

La startup mira a costruire pipeline di dati, strumenti di raccolta e sistemi di annotazione che i laboratori di frontiera e le aziende di robotica non possono facilmente costruire da sole – e per farlo ha raccolto 70 milioni di dollari da Thrive Capital, Spark Capital, a16z, Lux e WndrCo. Il co-fondatore e CEO Philippe Wu afferma che XDOF, che conta circa 60 dipendenti, sta già lavorando con 20 clienti tra cui diversi laboratori di intelligenza artificiale di frontiera, ma non può nominarli.

“Tutti i migliori laboratori stanno cercando di dedicarsi alla robotica”, ha detto Wu. “Abbiamo già visto alcuni degli svantaggi derivanti dal rimanere un po’ indietro nella corsa al modello linguistico… non vorrai trovarti in questo tipo di situazione in cui persegui questa tecnologia troppo tardi, e tutti sono su questa barca in cui l’intelligenza artificiale fisica è la prossima frontiera.”

Wu stesso si è imbattuto in questo problema quando era studente di dottorato alla UC Berkeley. Il suo obiettivo era consentire ai robot di apprendere competenze da set di dati su larga scala. C’era solo un problema.

“Non avevamo dati su larga scala con cui lavorare”, ha detto a TechCrunch. “C’era questo problema dell’uovo e della gallina: dovevamo prima raccogliere effettivamente i dati prima ancora di poterci chiedere come addestrare un modello di base per la robotica”.

Wu e il suo futuro co-fondatore e CTO di XDOF, Fred Shentu, hanno lavorato a un progetto chiamato GELLO, un sistema di teleoperazione a basso costo che consente a un operatore umano di controllare un braccio robotico per generare dati di addestramento. “Ha finito per diventare un articolo molto influente nel campo della robotica, perché molte persone avevano esigenze e colli di bottiglia simili, e molti hanno iniziato a sfruttare questo tipo di dispositivo per la raccolta dei dati”, ha detto Wu.

Cogliendo l’opportunità, Wu, Shentu e il terzo cofondatore e direttore operativo Nemo Jin hanno lanciato XDOF nell’ottobre 2024 per fornire un ecosistema di dati per le aziende che perseguono modelli di robotica. Consapevole che la sola fornitura dei dati può essere un’attività senza uscita, l’azienda si concentra anche sulla pulizia, sugli strumenti e sull’annotazione dei dati, creando un ciclo di feedback auto-rinforzante per gli addestratori di robot.

Come punto di partenza, l’azienda sta collaborando con il laboratorio di ricerca sull’intelligenza artificiale dell’UC Berkeley per rilasciare quella che ritiene sia la più grande raccolta di dati di alta qualità sull’addestramento dei robot mai raccolta, denominata ABC. Comprende 130.000 traiettorie di dati di manipolazione dei robot, 300 ore di simulazione e 100 ore di valutazioni. Questo tipo di dati pre-formazione su larga scala non è mai stato disponibile prima per il mondo accademico.

“Abbiamo visto nel linguaggio, nella generazione di immagini e in altri campi, che quando modelli e dati vengono rilasciati, la comunità ottiene risultati che non ci si aspetterebbe necessariamente”, ha detto a TechCrunch David McAllister, uno studente di dottorato di Berkeley che ha contribuito a organizzare il rilascio.

Il team ha già utilizzato i dati per addestrare i robot su compiti di riferimento come piegare magliette e appiattire scatole o caricare gli AirPod nelle loro custodie.

Gradi di libertà illimitati

L’azienda prevede di lavorare su tre livelli di una piramide di dati. Il livello più prezioso sono i dati di teleoperazione raccolti sul robot effettivamente utilizzato; poi arrivano i robot teleoperati che raccolgono dati più generali, come con GELLO; e infine i dati “egocentrici” raccolti dagli esseri umani che svolgono attività quotidiane, per i quali XDOF prevede di costruire i propri sensori indossabili.

“La scelta della fotocamera influenzerà la qualità dei tuoi dati, il che influenzerà il modo in cui funziona l’algoritmo di tracciamento delle mani”, ha affermato Wu. “Se non progetti bene l’hardware fin dall’inizio, i dati che raccogli potrebbero presentare problemi molto specifici che non avevi previsto.”

L’azienda prevede di assumere e addestrare eserciti di teleoperatori ed egocentrici operatori di dati in tutto il mondo: un modello ad alta intensità di manodopera che solleva una domanda ovvia: perché i principali laboratori non svolgono autonomamente questo lavoro di produzione di dati?

“Abbiamo bisogno di un magazzino di centinaia di migliaia di metri quadrati con centinaia di robot”, ha detto Wu. “È necessario mantenere questi robot, calibrare i loro parametri fisici e formare adeguatamente gli operatori”.

È una struttura che richiede concentrazione, capitale e scala operativa che la maggior parte dei laboratori di intelligenza artificiale preferirebbe esternalizzare, che è proprio il mercato su cui XDOF sta scommettendo.

Il nome XDOF è un gioco di parole con il termine robotico “gradi di libertà”, che descrive il numero di movimenti indipendenti che un robot può eseguire. Il tuo braccio, dalla spalla al polso, ha sette gradi di libertà. L’ultimo robot della società di robotica umanoide Figure.AI ne ha 30. La X nel nome dell’azienda cattura la sua ambizione: “Gradi di libertà arbitrari, gradi di libertà illimitati”, afferma Wu.

Quando acquisti tramite i link presenti nei nostri articoli, potremmo guadagnare una piccola commissione. Ciò non pregiudica la nostra indipendenza editoriale.

Source link