當(dāng)前,全球范圍內(nèi)前沿技術(shù)與顛覆性技術(shù)正以前所未有的速度實(shí)現(xiàn)突破,新一輪科技革命和產(chǎn)業(yè)變革正在加速推進(jìn),科學(xué)技術(shù)對(duì)社會(huì)經(jīng)濟(jì)發(fā)展的影響變得更為直接、迅速且廣泛。機(jī)器人正處于一個(gè)重要的轉(zhuǎn)折點(diǎn)上,人工智能、大數(shù)據(jù)、新材料、新型傳感、生物仿生等多種技術(shù)迅速崛起,并與機(jī)器人加速融合,推動(dòng)機(jī)器人向更智能、更高效、更靈活和更安全的方向發(fā)展,不斷拓寬機(jī)器人技術(shù)和應(yīng)用的邊界。
相關(guān)技術(shù)的飛速發(fā)展,使得對(duì)機(jī)器人未來(lái)發(fā)展的預(yù)測(cè)已經(jīng)難以用傳統(tǒng)的線性方式加以推斷。在此背景下,2024年美國(guó)《機(jī)器人路線圖》放棄制定此前一貫的5年、10年和15年的愿景與目標(biāo),不再以明確的時(shí)間框架推動(dòng)技術(shù)的發(fā)展,轉(zhuǎn)而更側(cè)重于表達(dá)趨勢(shì)和方向,共提出物理具身、操作、感知、控制、規(guī)劃、邊緣AI、機(jī)器學(xué)習(xí)和與人交互八個(gè)研究方向,以保持可持續(xù)發(fā)展和確保美國(guó)成為機(jī)器人技術(shù)的領(lǐng)導(dǎo)者之一。以下是對(duì)這八個(gè)研究方向的簡(jiǎn)要概述。
物理具身
物理具身指的是智能不能僅以抽象算法的形式存在,而需要一個(gè)物理身體與世界互動(dòng),機(jī)器人系統(tǒng)是具身智能的體現(xiàn)。
軟體機(jī)器人技術(shù)
軟體機(jī)器人技術(shù)運(yùn)用軟材料和結(jié)構(gòu)設(shè)計(jì)、制造和控制機(jī)器人系統(tǒng),并借助形態(tài)計(jì)算簡(jiǎn)化與外界的交互。為模擬生物的多功能性,需在材料、制造、建模和控制上不斷創(chuàng)新。借助生成設(shè)計(jì)和多材料增材制造等前沿設(shè)計(jì)與制造方法,軟體機(jī)器人技術(shù)或?qū)⒊缴飭l(fā),實(shí)現(xiàn)新的物理能力。數(shù)字化生產(chǎn)和即時(shí)制造為個(gè)性化機(jī)器人設(shè)計(jì)帶來(lái)新機(jī)遇,實(shí)現(xiàn)軟性與剛性組件的無(wú)縫過(guò)渡。
作動(dòng)與動(dòng)力
創(chuàng)建高力量、長(zhǎng)壽命、低成本的機(jī)器人作動(dòng)與動(dòng)力系統(tǒng)仍具挑戰(zhàn)。動(dòng)物的肌肉和新陳代謝被視為黃金標(biāo)準(zhǔn),工程系統(tǒng)尚未企及。電磁作動(dòng)器適用于剛性機(jī)器人但功率重量比待提升。液壓系統(tǒng)功率高但不適于移動(dòng)機(jī)器人。氣動(dòng)作動(dòng)器適用于軟體機(jī)器人但控制難。智能材料如電活性聚合物、HASEL作動(dòng)器,有優(yōu)勢(shì)但力量小,并需專(zhuān)用電源。作動(dòng)技術(shù)和電源存儲(chǔ)/傳輸系統(tǒng)的新突破將幫助機(jī)器人實(shí)現(xiàn)長(zhǎng)期移動(dòng)性、安全性和強(qiáng)度。
感知
對(duì)于軟體機(jī)器人,感知能力尤為關(guān)鍵。生物體擁有密集的感知系統(tǒng),同時(shí)監(jiān)測(cè)外界與自身。應(yīng)推動(dòng)柔性及軟性傳感器與軟體機(jī)器人的融合,集成多類(lèi)型傳感器信息,并有效利用這些信息,以建模并控制軟體機(jī)器人執(zhí)行精細(xì)操作、狹窄空間移動(dòng)及安全人機(jī)交互等復(fù)雜任務(wù)。
操作
目前,機(jī)器人操作器面臨著成本高、通用性不足的雙重挑戰(zhàn)。為克服這些不足,可以開(kāi)展以下研究活動(dòng)。
發(fā)展先進(jìn)的抓握機(jī)制:利用仿生學(xué)和軟體機(jī)器人的概念來(lái)設(shè)計(jì)多功能抓握機(jī)構(gòu);探索柔韌性和適應(yīng)性突出的新材料;開(kāi)發(fā)功能性的非傳統(tǒng)抓握器設(shè)計(jì)。
加強(qiáng)先進(jìn)的觸覺(jué)感知:開(kāi)發(fā)密集、耐磨的觸覺(jué)傳感器,并能完全覆蓋操作器;創(chuàng)建復(fù)雜的算法,將密集的感知信號(hào)解釋為可操作的運(yùn)動(dòng)策略。
基于學(xué)習(xí)的控制策略:通過(guò)應(yīng)用機(jī)器學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù),使機(jī)器人能夠適應(yīng)性地控制操作任務(wù),并通過(guò)反復(fù)試驗(yàn)學(xué)習(xí)新技能,并將學(xué)到的技能轉(zhuǎn)移到不同的機(jī)器人平臺(tái)上,以增強(qiáng)機(jī)器人系統(tǒng)的通用性和效率。
人機(jī)協(xié)作領(lǐng)域:提高協(xié)作式機(jī)器人系統(tǒng)與人在共享工作空間中的安全性,包括發(fā)展自然語(yǔ)言處理和手勢(shì)識(shí)別技術(shù),以能確保無(wú)縫互動(dòng)和協(xié)作的安全機(jī)制。
復(fù)雜環(huán)境中的靈巧操縱:增強(qiáng)機(jī)器人系統(tǒng)在動(dòng)態(tài)雜亂環(huán)境下的操縱能力,包括開(kāi)發(fā)用于路徑規(guī)劃和避障的先進(jìn)算法,以及探索多模態(tài)感知技術(shù)的集成。
規(guī)劃和控制的基本算法:穩(wěn)固發(fā)展基本算法,以改善機(jī)器人在日常任務(wù)中的穩(wěn)健性、效率和易用性,為新的操作器和傳感器設(shè)計(jì)提供更強(qiáng)有力的支持,使學(xué)習(xí)大模型能夠自我探索。
自主機(jī)器人操作:整合用于對(duì)象識(shí)別和場(chǎng)景理解的復(fù)雜感知系統(tǒng);開(kāi)發(fā)能夠?qū)崿F(xiàn)自主決策和任務(wù)規(guī)劃的算法,并打造動(dòng)態(tài)抓握和操作策略。
感知
感知是連接機(jī)器人與物理世界的關(guān)鍵方式,可以開(kāi)展以下研究活動(dòng)。
復(fù)雜的高維推斷:高維推斷在計(jì)算機(jī)視覺(jué)中是關(guān)鍵,尤其是在預(yù)測(cè)抓取對(duì)象等任務(wù)上。這些任務(wù)要求的方法和架構(gòu)與識(shí)別或檢測(cè)任務(wù)不同。隨著AI和大型語(yǔ)言模型(LLMs)的發(fā)展,系統(tǒng)往往變得像“黑盒子”,缺乏透明度。這不僅影響了機(jī)器人的問(wèn)責(zé)性,也影響了人們對(duì)機(jī)器人的信任。
網(wǎng)絡(luò)安全和計(jì)算機(jī)視覺(jué):確保網(wǎng)絡(luò)安全與計(jì)算機(jī)視覺(jué)系統(tǒng)設(shè)計(jì)緊密融合至關(guān)重要,以避免錯(cuò)誤預(yù)測(cè)和推論。采用對(duì)抗性訓(xùn)練和輸入驗(yàn)證等方法可有效降低安全風(fēng)險(xiǎn)。
主動(dòng)感知:目前系統(tǒng)主要被動(dòng)處理數(shù)據(jù),未能充分利用主動(dòng)感知和捕獲冗余信息的能力。開(kāi)發(fā)能夠主動(dòng)探索環(huán)境的系統(tǒng),將顯著提升其性能。
開(kāi)放世界的表現(xiàn):計(jì)算機(jī)視覺(jué)系統(tǒng)往往基于封閉世界假設(shè),僅從有限數(shù)據(jù)學(xué)習(xí)。然而,機(jī)器人需適應(yīng)未知刺激和新任務(wù)變化,實(shí)現(xiàn)在開(kāi)放世界中泛化的能力。
與系統(tǒng)集成:視覺(jué)系統(tǒng)需與其他系統(tǒng)集成,提供自我性能評(píng)估,包括驗(yàn)證視覺(jué)組件或基于視覺(jué)系統(tǒng)的方法,并確保輸出與可靠性和不確定性相關(guān)的信息。
系統(tǒng)結(jié)構(gòu):通過(guò)圖像任務(wù)進(jìn)行端到端強(qiáng)化學(xué)習(xí),但不利于相似任務(wù)或環(huán)境的遷移。傳統(tǒng)方法分別訓(xùn)練視覺(jué)與動(dòng)作模塊,但現(xiàn)代視覺(jué)模塊在動(dòng)作或規(guī)劃上的適應(yīng)性受限于可靠性問(wèn)題。
控制
安全控制:在高度非線性的機(jī)器人系統(tǒng)、高維系統(tǒng)、多機(jī)器人系統(tǒng)和人機(jī)協(xié)同系統(tǒng)中,設(shè)計(jì)安全控制器面臨挑戰(zhàn),需對(duì)數(shù)據(jù)驅(qū)動(dòng)型控制器的安全性進(jìn)行認(rèn)證,解決實(shí)時(shí)性能問(wèn)題,嵌入式控制器或邊緣計(jì)算單元上有效運(yùn)行。
生物啟發(fā)控制:研究新生物機(jī)制以設(shè)計(jì)控制器,構(gòu)建和利用大規(guī)模數(shù)據(jù)集嚴(yán)格設(shè)計(jì)控制器,并考慮機(jī)器人的傳感器、作動(dòng)器和通信系統(tǒng)的限制。
控制高維度和不連續(xù)系統(tǒng):機(jī)器人與人類(lèi)和現(xiàn)實(shí)環(huán)境的交互會(huì)導(dǎo)致系統(tǒng)狀態(tài)的突變,設(shè)計(jì)協(xié)調(diào)機(jī)器人關(guān)節(jié)執(zhí)行任務(wù)的控制器極具挑戰(zhàn),需開(kāi)發(fā)混合系統(tǒng)控制器,確保機(jī)器人能成功應(yīng)用于現(xiàn)實(shí)世界。
機(jī)器人機(jī)構(gòu)、控制和學(xué)習(xí)的共同發(fā)展:未來(lái)機(jī)器人需在材料、設(shè)計(jì)、控制、學(xué)習(xí)、感知和測(cè)試等方面實(shí)現(xiàn)協(xié)同,優(yōu)化整體性能以適應(yīng)現(xiàn)實(shí)任務(wù)。控制系統(tǒng)是連接設(shè)計(jì)與學(xué)習(xí)的關(guān)鍵,需進(jìn)行基礎(chǔ)研究來(lái)認(rèn)證機(jī)器人性能,以支持機(jī)構(gòu)-控制-學(xué)習(xí)的整合設(shè)計(jì)。
規(guī)劃
隨著機(jī)器人繼續(xù)走出實(shí)驗(yàn)室,進(jìn)入現(xiàn)實(shí)世界,它們將繼續(xù)需要規(guī)劃和控制算法,更好地處理它們將遇到的非結(jié)構(gòu)化、不可預(yù)測(cè)和更復(fù)雜的情況。
不確定性下的規(guī)劃
規(guī)劃方法必須適應(yīng)真實(shí)世界的不確定性,優(yōu)先考慮概率方法和那些不依賴(lài)于對(duì)世界的準(zhǔn)確高保真模型;在危險(xiǎn)環(huán)境中,評(píng)估潛在錯(cuò)誤的嚴(yán)重性和對(duì)機(jī)器人操作可行性的影響,以避免完全故障;傳統(tǒng)離線規(guī)劃和實(shí)時(shí)執(zhí)行模型在動(dòng)態(tài)環(huán)境中效果不佳,而在線規(guī)劃可能因短視錯(cuò)過(guò)更優(yōu)解,實(shí)現(xiàn)方法間的平衡是當(dāng)前的重要挑戰(zhàn)。
與人類(lèi)互動(dòng)中的安全性
隨著機(jī)器人進(jìn)入人類(lèi)空間,需平衡效率與安全,提高透明度和可解釋性;研究人機(jī)共同規(guī)劃,探討任務(wù)分配和避免物理干擾;混合自治允許在故障時(shí)移交控制權(quán)給人類(lèi);大語(yǔ)言模型將促進(jìn)機(jī)器人與人類(lèi)的對(duì)話。
操作和全身規(guī)劃
深入研究操作規(guī)劃和全身規(guī)劃,將兩者結(jié)合會(huì)增加問(wèn)題復(fù)雜性,需開(kāi)發(fā)新技術(shù)和算法,并與GPU等硬件集成。
邊緣AI
能源效率和自主性:探索諸如模型量化、修剪和壓縮等技術(shù),降低AI算法的計(jì)算復(fù)雜性;發(fā)展能源感知硬件設(shè)計(jì),包括低功耗處理器、能源高效傳感器和功率管理技術(shù),延長(zhǎng)機(jī)器人系統(tǒng)的運(yùn)行自主性。
實(shí)時(shí)處理和減少延遲:重點(diǎn)優(yōu)化AI算法,在邊緣設(shè)備上以低延遲執(zhí)行,利用諸如模型并行性、流水線和硬件加速等技術(shù);邊緣計(jì)算架構(gòu)必須設(shè)計(jì)成最小化處理延遲,通過(guò)將AI推理與數(shù)據(jù)采集和執(zhí)行同步。
硬件-軟件協(xié)同設(shè)計(jì):探索協(xié)同設(shè)計(jì)方法,將硬件架構(gòu)定制為機(jī)器人應(yīng)用中使用的AI算法的特定計(jì)算要求,包括開(kāi)發(fā)專(zhuān)門(mén)用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)推理、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)處理和傳感器數(shù)據(jù)融合等任務(wù)的加速器,集成高效的軟件框架,實(shí)現(xiàn)無(wú)縫部署和管理。
穩(wěn)健的感知和態(tài)勢(shì)感知:提高AI算法的魯棒性以實(shí)現(xiàn)傳感器融合、SLAM、目標(biāo)檢測(cè)和跟蹤、語(yǔ)義分割和場(chǎng)景理解,并處理光照條件的變化、遮擋、雜亂環(huán)境和傳感器噪聲等挑戰(zhàn)性場(chǎng)景,增強(qiáng)機(jī)器人系統(tǒng)的態(tài)勢(shì)感知。
適應(yīng)性和持續(xù)學(xué)習(xí):探索持續(xù)學(xué)習(xí)技術(shù),機(jī)器人可以逐步獲得新技能,調(diào)整其行為以適應(yīng)不斷變化的任務(wù)和環(huán)境,并通過(guò)經(jīng)驗(yàn)不斷改善性能,包括在線強(qiáng)化學(xué)習(xí)、元學(xué)習(xí)、遷移學(xué)習(xí)和知識(shí)蒸餾方法。
隱私保護(hù)和安全性:重點(diǎn)開(kāi)發(fā)強(qiáng)大的加密、認(rèn)證和訪問(wèn)控制機(jī)制,以維護(hù)數(shù)據(jù)的完整性和隱私;探索安全多方計(jì)算、聯(lián)邦學(xué)習(xí)和差分隱私等技術(shù),以實(shí)現(xiàn)協(xié)作AI而不損害安全性。
邊緣-云協(xié)作和資源管理:探索動(dòng)態(tài)工作負(fù)載分配、數(shù)據(jù)卸載和邊緣-云同步等技術(shù),以平衡資源利用率,同時(shí)最小化延遲、帶寬和能源消耗,包括分散式編排算法、邊緣緩存策略和適應(yīng)性通信協(xié)議的開(kāi)發(fā)。
互操作性和標(biāo)準(zhǔn)化:開(kāi)發(fā)用于在邊緣設(shè)備和機(jī)器人之間交換數(shù)據(jù)、命令和服務(wù)的開(kāi)放標(biāo)準(zhǔn)、通信協(xié)議和軟件接口;簡(jiǎn)化即插即用的互操作性、可互操作的軟件框架以及促進(jìn)機(jī)器人系統(tǒng)中可重用性、可擴(kuò)展性和靈活性的模塊化架構(gòu)。
機(jī)器學(xué)習(xí)
深度學(xué)習(xí)極大推動(dòng)了機(jī)器視覺(jué)和機(jī)器人控制。基礎(chǔ)模型使機(jī)器人能對(duì)話、實(shí)現(xiàn)語(yǔ)言訓(xùn)練,并與視覺(jué)演示相結(jié)合,推進(jìn)了從演示中學(xué)習(xí)的機(jī)器人(LfD)。然而,大型多模態(tài)模型雖有價(jià)值,但缺乏可解釋性可能導(dǎo)致系統(tǒng)不受信任?山忉孉I和可解釋性的研究正在填補(bǔ)這一差距。此外,完全自主系統(tǒng)的性能超過(guò)其他部件之和,學(xué)習(xí)組件需根據(jù)其對(duì)整體性能的影響評(píng)估,而評(píng)估過(guò)程耗時(shí)費(fèi)力。為構(gòu)建和評(píng)估完整的自主系統(tǒng),需要改進(jìn)評(píng)估方法,包括主動(dòng)測(cè)試、利用歷史數(shù)據(jù)的評(píng)估方法,以及適用于復(fù)雜環(huán)境的可擴(kuò)展技術(shù)。
與人交互
協(xié)作機(jī)器人(物理人機(jī)交互)
協(xié)作機(jī)器人能與人安全直接地進(jìn)行交互,以提高任務(wù)的速度、準(zhǔn)確性、力量或規(guī)模,協(xié)作機(jī)器人需要更安全、靈活、緊湊且易于使用。
安全:在保證完成任務(wù)的同時(shí),設(shè)計(jì)低慣性質(zhì)量、柔順表面的機(jī)器人以防止對(duì)人造成傷害。材料上,研究新材料,包括漸變剛度的作動(dòng)器和表面,輕量級(jí)可部署和形狀可控的結(jié)構(gòu),以及將作動(dòng)器與結(jié)構(gòu)集成在一起的智能材料;軟件上,強(qiáng)化安全評(píng)級(jí)和人體檢測(cè),提高自主機(jī)器人可解釋性。
靈活性:通過(guò)演示學(xué)習(xí)或模仿學(xué)習(xí),借助少量數(shù)據(jù),機(jī)器人能夠執(zhí)行自主任務(wù),也是實(shí)現(xiàn)協(xié)作的有效方法;強(qiáng)化學(xué)習(xí)可以調(diào)整以符合用戶(hù)偏好,也有助于創(chuàng)建以人為本的協(xié)作系統(tǒng);在交互背景下,構(gòu)建用戶(hù)模型,涵蓋感知、行動(dòng)、目標(biāo)和偏好,適用于多用戶(hù)與機(jī)器人協(xié)同,也可在特定交互中實(shí)現(xiàn)高度個(gè)性化。
緊湊性:發(fā)展新的智能材料和作動(dòng)器,實(shí)現(xiàn)在人類(lèi)工作空間內(nèi)占用最小體積的機(jī)器人;探索利用機(jī)械相互作用來(lái)改變其姿勢(shì)或形狀的新設(shè)計(jì)。
易用性:探索人機(jī)互助的交互模式,確保機(jī)器人以“零學(xué)習(xí)曲線”相似的無(wú)縫方式傳達(dá)其能力和限制;進(jìn)一步發(fā)展可解釋性;深入研究協(xié)作機(jī)器人在家庭移動(dòng)操作、人類(lèi)護(hù)理及動(dòng)態(tài)任務(wù)如協(xié)作工具處理、物體共同操縱等領(lǐng)域的應(yīng)用。
社交陪伴機(jī)器人(社交人機(jī)交互)
陪伴機(jī)器人在人類(lèi)生活各領(lǐng)域潛力巨大,包括老年人護(hù)理、兒童發(fā)展、教育、治療和心理健康支持。盡管自然語(yǔ)言處理提升了機(jī)器人的交流能力,但穩(wěn)健和易用的對(duì)話系統(tǒng)尚未普及,特別是對(duì)于具有口音、語(yǔ)音不連貫的用戶(hù)。機(jī)器人需發(fā)展多模式通信能力,包括頭部、身體姿勢(shì)、面部表情、手勢(shì)等非語(yǔ)言信號(hào);機(jī)器人需要感知和理解用戶(hù)狀態(tài)、行為和意圖,基礎(chǔ)模型雖有望推動(dòng)這一能力,但訓(xùn)練數(shù)據(jù)可能不足且存在偏見(jiàn),影響對(duì)特殊群體的正確理解;情感計(jì)算研究將幫助機(jī)器人理解人類(lèi)情感,并需考慮到不同的環(huán)境,包括不同的視角、光照條件、運(yùn)動(dòng)、遮擋等;陪伴機(jī)器人的物理設(shè)計(jì)需跨學(xué)科合作,考量安全性、成本、效能和文化適應(yīng)性,需探索機(jī)器人形態(tài)與功能在不同環(huán)境中的最優(yōu)組合。
媒介交互
協(xié)作機(jī)器人和社交機(jī)器人不僅可以與用戶(hù)共享空間,還能執(zhí)行遠(yuǎn)程操作,以及在危險(xiǎn)環(huán)境中執(zhí)行任務(wù),如遠(yuǎn)程手術(shù)、管道橋梁等基礎(chǔ)設(shè)施檢查和太空探索。交互媒介也多種多樣,如搖桿、語(yǔ)音指令、腦機(jī)接口等。交互難點(diǎn)一般在于操作者要具有足夠的“處境意識(shí)”,并做出正確的控制決策。需發(fā)展增強(qiáng)現(xiàn)實(shí)和混合現(xiàn)實(shí)技術(shù)以提高“處境意識(shí)”,新的可穿戴設(shè)備也可為“處境意識(shí)”的集成提供機(jī)會(huì);觸覺(jué)反饋對(duì)精準(zhǔn)操作和社交互動(dòng)至關(guān)重要,需進(jìn)一步實(shí)現(xiàn)大面積接觸感知和高效封裝,并開(kāi)發(fā)輕巧、舒適和便攜的可穿戴觸覺(jué)設(shè)備,可以從軟體機(jī)器人技術(shù)借鑒。此外,在安全場(chǎng)景中,人類(lèi)可以操作控制非人形或運(yùn)動(dòng)學(xué)不匹配的機(jī)器人,如一群機(jī)器人或連續(xù)外科機(jī)器人,需開(kāi)發(fā)能夠直觀映射人類(lèi)輸入與機(jī)器人動(dòng)作的界面。