Gli esperti del MIT sviluppano PIGINet per aiutare i robot domestici a dimezzare i tempi di pianificazione
CasaCasa > Notizia > Gli esperti del MIT sviluppano PIGINet per aiutare i robot domestici a dimezzare i tempi di pianificazione

Gli esperti del MIT sviluppano PIGINet per aiutare i robot domestici a dimezzare i tempi di pianificazione

May 28, 2023

Il tuo nuovissimo robot domestico ti viene consegnato a casa e gli chiedi di prepararti una tazza di caffè. Sebbene conosca alcune abilità di base acquisite in precedenza nelle cucine simulate, ci sono troppe azioni che potrebbe intraprendere: aprire il rubinetto, tirare lo sciacquone, svuotare il contenitore della farina e così via. Ma c'è un piccolo numero di azioni che potrebbero essere utili. Come fa il robot a capire quali passi sono sensati in una nuova situazione? Potrebbe utilizzare PIGINet, un nuovo sistema che mira a migliorare in modo efficiente le capacità di risoluzione dei problemi dei robot domestici. I ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT stanno utilizzando l’apprendimento automatico per ridurre il tipico processo iterativo di pianificazione delle attività che considera tutte le azioni possibili. PIGINet elimina i piani di attività che non possono soddisfare requisiti esenti da collisioni e riduce i tempi di pianificazione del 50-80% se addestrato solo su 300-500 problemi. In genere, i robot tentano vari piani di attività e perfezionano iterativamente le loro mosse finché non trovano una soluzione fattibile, che può essere inefficiente e dispendiosa in termini di tempo, soprattutto quando sono presenti ostacoli mobili e articolati. Magari dopo aver cucinato, ad esempio, vuoi mettere tutte le salse nella credenza. Questo problema potrebbe richiedere da due a otto passaggi a seconda di come appare il mondo in quel momento. Il robot deve aprire più ante dell'armadio o all'interno dell'armadio sono presenti ostacoli che devono essere spostati per fare spazio? Non vuoi che il tuo robot sia fastidiosamente lento, e sarebbe peggio se bruciasse la cena mentre sta pensando. Di solito si pensa che i robot domestici seguano ricette predefinite per eseguire compiti, il che non è sempre adatto ad ambienti diversi o mutevoli. . Quindi, come fa PIGINet a evitare queste regole predefinite? PIGINet è una rete neurale che raccoglie "piani, immagini, obiettivi e fatti iniziali", quindi prevede la probabilità che un piano di attività possa essere perfezionato per trovare piani di movimento fattibili. In termini semplici, utilizza un codificatore a trasformatore, un modello versatile e all'avanguardia progettato per operare su sequenze di dati. La sequenza di input, in questo caso, è costituita da informazioni su quale piano di attività sta considerando, immagini dell'ambiente e codifiche simboliche dello stato iniziale e dell'obiettivo desiderato. Il codificatore combina i piani delle attività, l'immagine e il testo per generare una previsione relativa alla fattibilità del piano delle attività selezionato. Mantenendo gli oggetti in cucina, il team ha creato centinaia di ambienti simulati, ciascuno con layout diversi e compiti specifici che richiedono la riorganizzazione degli oggetti tra banconi, frigoriferi, armadietti, lavelli e pentole. Misurando il tempo impiegato per risolvere i problemi, hanno confrontato PIGINet con gli approcci precedenti. Un piano di attività corretto può includere aprire la porta sinistra del frigorifero, rimuovere il coperchio della pentola, spostare il cavolo dalla pentola al frigorifero, spostare una patata nel frigorifero, prendere la bottiglia dal lavandino, mettere la bottiglia nel lavandino, raccogliere la pomodoro, o posizionando il pomodoro. PIGINet ha ridotto significativamente i tempi di pianificazione dell'80% in scenari più semplici e del 20-50% in scenari più complessi che hanno sequenze di pianificazione più lunghe e meno dati di addestramento. "Sistemi come PIGINet, che utilizzano la potenza dei metodi basati sui dati per gestire casi familiari in modo efficiente , ma possono ancora ricorrere a metodi di pianificazione basati su “principi primi” per verificare suggerimenti basati sull’apprendimento e risolvere nuovi problemi, offrire il meglio di entrambi i mondi, fornendo soluzioni generali affidabili ed efficienti a un’ampia varietà di problemi”, afferma il MIT Leslie Pack Kaelbling, professoressa e ricercatrice principale del CSAIL. L'uso di incorporamenti multimodali nella sequenza di input da parte di PIGINet ha consentito una migliore rappresentazione e comprensione delle relazioni geometriche complesse. L'utilizzo dei dati immagine ha aiutato il modello a comprendere le disposizioni spaziali e le configurazioni degli oggetti senza conoscere le mesh 3D dell'oggetto per un controllo preciso delle collisioni, consentendo un rapido processo decisionale in diversi ambienti. Una delle maggiori sfide affrontate durante lo sviluppo di PIGINet è stata la scarsità di dati di formazione validi, poiché tutti i piani fattibili e irrealizzabili devono essere generati dai pianificatori tradizionali, il che è innanzitutto lento. Tuttavia, utilizzando modelli di linguaggio visivo pre-addestrati e trucchi di aumento dei dati, il team è stato in grado di affrontare questa sfida, mostrando un'impressionante riduzione dei tempi di pianificazione non solo sui problemi con gli oggetti visti, ma anche una generalizzazione zero-shot su oggetti mai visti prima. è diverso, i robot dovrebbero essere risolutori di problemi adattabili invece che semplici seguaci di ricette. La nostra idea chiave è quella di lasciare che un pianificatore di attività generico generi piani di attività candidati e utilizzi un modello di deep learning per selezionare quelli promettenti. Il risultato è un robot domestico più efficiente, adattabile e pratico, in grado di navigare agilmente anche in ambienti complessi e dinamici. Inoltre, le applicazioni pratiche di PIGINet non si limitano alle famiglie”, afferma Zhutian Yang, dottorando del MIT CSAIL e autore principale del lavoro. “Il nostro obiettivo futuro è perfezionare ulteriormente PIGINet per suggerire piani di attività alternativi dopo aver identificato azioni non fattibili, il che accelererà ulteriormente la generazione di piani di attività fattibili senza la necessità di grandi set di dati per addestrare da zero un pianificatore generico. Crediamo che questo potrebbe rivoluzionare il modo in cui i robot vengono addestrati durante lo sviluppo e poi applicati nelle case di tutti”. "Questo documento affronta la sfida fondamentale nell'implementazione di un robot generico: come imparare dall'esperienza passata per accelerare il processo decisionale in ambienti non strutturati pieni di un gran numero di ostacoli articolati e mobili", afferma Beomjoon Kim PhD '20 , professore assistente presso la Graduate School of AI presso il Korea Advanced Institute of Science and Technology (KAIST). “Il collo di bottiglia principale in tali problemi è come determinare un piano di attività di alto livello in modo tale che esista un piano di movimento di basso livello che realizzi il piano di alto livello. In genere, è necessario oscillare tra il movimento e la pianificazione delle attività, il che causa una significativa inefficienza computazionale. Il lavoro di Zhutian affronta questo problema utilizzando l'apprendimento per eliminare piani di attività irrealizzabili ed è un passo in una direzione promettente. "Yang ha scritto l'articolo con il ricercatore NVIDIA Caelan Garrett SB '15, MEng '15, PhD '21; Tomás Lozano-Pérez e Leslie Kaelbling, professori del Dipartimento di Ingegneria Elettrica e Informatica del MIT e membri CSAIL; e direttore senior della ricerca sulla robotica presso NVIDIA e il professor Dieter Fox dell'Università di Washington. Il team è stato supportato da AI Singapore e sovvenzioni dalla National Science Foundation, dall’Air Force Office of Scientific Research e dall’Esercito Research Office. Questo progetto è stato parzialmente condotto mentre Yang era stagista presso NVIDIA Research. La loro ricerca sarà presentata a luglio alla conferenza Robotics: Science and Systems.