首頁 > 區(qū)域 > 正文

未來智造局|當(dāng)AI走進(jìn)物理世界:從一場技能賽看具身智能的“能”與“不能”?

新華財經(jīng)|2025年12月17日
閱讀量:

在日前落幕的2025全球開發(fā)者先鋒大會上,機(jī)器人在插花、搬運(yùn)、救災(zāi)等真實場景中各顯神通。冷冰冰的技術(shù)參數(shù),在這里化作了鮮活的技能比拼。當(dāng)然,大賽也暴露了具身智能“笨拙”的一面:在疊衣服、擰螺絲等精細(xì)操作背后,不少機(jī)器人仍連著“遙操作”的手柄。恰恰是在這“能”與“不能”的縫隙中,公眾得以窺見這一火熱領(lǐng)域的技術(shù)邊界與未來方向。

13c963aee89c4137aef322e7a81efa1c.jpeg

新華財經(jīng)上海12月17日電(記者 杜康、龔雯)在日前舉辦的2025全球開發(fā)者先鋒大會上,機(jī)器人在插花、搬運(yùn)、救災(zāi)等真實場景中“各顯神通”。冷冰冰的技術(shù)參數(shù),在這里化作了鮮活的技能比拼。當(dāng)然,大賽也暴露了具身智能“笨拙”的一面:在疊衣服、擰螺絲等精細(xì)操作背后,不少機(jī)器人仍連著“遙操作”的手柄。

恰恰是在這“能”與“不能”的縫隙中,公眾得以窺見這一火熱領(lǐng)域的技術(shù)邊界與未來方向。

機(jī)器人的“能”里看技術(shù)進(jìn)階

回望過去一年,中國具身智能領(lǐng)域“快步疾行”:智元遠(yuǎn)征A2人形機(jī)器人完成無間斷百公里跨省行走,充分證明了機(jī)器人能夠“走得穩(wěn)”;行業(yè)商業(yè)化“大單”頻現(xiàn),機(jī)器人真正進(jìn)入工廠,負(fù)責(zé)分揀、上下料;VLA(視覺-語言-動作)模型的進(jìn)化,則讓機(jī)器人大腦更聰明,能夠聽懂人的需求。

在2025全球開發(fā)者先鋒大會上,觀眾再一次真切看到了機(jī)器人的“能”。

“從桌面上,挑出紅玫瑰插入花瓶中?!痹诓寤▓鼍百愔?,伴隨著指令聲落下,機(jī)器人開始絲滑行動,順利識別出不同的花材,完成任務(wù)。在餐廳服務(wù)比賽中,機(jī)器人可以進(jìn)行桌面垃圾收納,面對沾有番茄醬的餐巾紙,識別出可碰觸抓拿的位置;針對不同材質(zhì)的杯子,可以控制握力,確保水不灑出。

“過去一年,VLA模型的應(yīng)用,讓機(jī)器人的大腦、小腦與本體之間協(xié)同度大幅提升?!弊恳娴脜①愱爢T李宗道表示。打個比喻,過去機(jī)器人像一個訓(xùn)練有素的雜技演員,動作精準(zhǔn)漂亮,但如果沒有明確的指令或預(yù)設(shè)的場景,它就是個只會空翻的機(jī)器。VLA讓機(jī)器人開始像一個有常識的實習(xí)生,它動作可能沒有那么完美,但能聽得懂人話,能適應(yīng)陌生的環(huán)境,知道一杯水到底是給人喝,還是用來澆花。

傲意科技首席運(yùn)營官陳瑤從靈巧手角度,指出了行業(yè)在硬件方面的進(jìn)步?!?025年,我們首次將精細(xì)觸覺反饋引入實用化產(chǎn)品,讓機(jī)器人的手,不僅能感受力的大小,也能感知力的方向。更重要的是,我們完成了靈巧手從感知到力控的閉環(huán),能夠利用數(shù)據(jù)來實時控制電機(jī)。簡單來講,靈巧手已經(jīng)可以實現(xiàn)‘既不會把豆腐捏碎,也不會讓盤子掉落’?!?/p>

機(jī)器人的“不能”里看落地鴻溝

當(dāng)視線轉(zhuǎn)向機(jī)器人的“不能”,行業(yè)下一步的技術(shù)攻堅點浮出水面。

——實驗室能夠自主疊衣服,換個環(huán)境就“罷工”。

相較于插花、搬箱子等行為來說,“疊衣服”的任務(wù)難度上升不少?!耙驗橐路侨彳浀?,每一次拿放后的堆疊形態(tài)是隨機(jī)的,比如可能袖子被蓋住,或者領(lǐng)口出現(xiàn)歪斜。機(jī)器人要理解這種無序狀態(tài),需要更多的數(shù)據(jù)量 ?!庇袇①愱爢T透露,為了覆蓋柔性物體的狀態(tài)分布,僅一件特定樣式衣服的堆疊訓(xùn)練,就需要采集高達(dá)200小時的遙操作數(shù)據(jù)。

更棘手的是環(huán)境干擾?!肮庹兆兓?、桌子周邊物體的擺放、強(qiáng)光下周邊物體在桌子上的倒影等,都有可能讓機(jī)器人‘智商下線’,操作不準(zhǔn)。這種難以將目標(biāo)與‘背景噪音’剝離的困境,折射出當(dāng)下具身智能在物理場景理解能力上的短板——泛化性不足?!眳①愱爢T對記者表示。

——擰螺絲等精細(xì)活兒,機(jī)器人干起來仍有難度。

記者在比賽現(xiàn)場看到,即使是面對簡化版的道具螺絲,機(jī)器人依然需要在人類的遙操作下完成。

一方面,擰螺絲時不僅靠看,還要靠“手感”。有參賽隊員表示,“人類擰螺絲時,能感受到螺絲刀頭是否卡入了槽口,是否出現(xiàn)滑絲,這是一個連續(xù)的、微秒級的力覺反饋閉環(huán)。但當(dāng)前具身智能的靈敏度,往往不足以捕捉螺紋咬合瞬間的微小震動?!?/p>

另一方面,機(jī)器人還不夠“懂”物理。參賽隊員對記者表示,目前的VLA模型已經(jīng)能夠識別“螺絲”這一物體,但對摩擦力、扭矩反饋等物理特征的理解依然淺薄?!白呗诽杩啃∧X,擰螺絲則需要大腦參與物理認(rèn)知的構(gòu)建,這是完全不同的賽道?!?/p>

——從實驗室到工廠,仍要跨過“穩(wěn)定性”的大關(guān)。

在工業(yè)搬運(yùn)場景,雖然機(jī)器人已能自主導(dǎo)航并抓取箱子,但在現(xiàn)場演示中,動作磕絆、箱子重心不穩(wěn)等情況仍時有發(fā)生。

對此,工業(yè)搬運(yùn)場景賽事指導(dǎo)朱彬彬表示,雖然工業(yè)搬運(yùn)已經(jīng)有了相對成熟的技術(shù)方案,參賽隊伍基本都能達(dá)成搬運(yùn)目標(biāo),但這些表現(xiàn)距離工業(yè)落地仍有差距,“需要團(tuán)隊?wèi)?yīng)用工程化方案,解決工業(yè)場景中遇到的實際問題?!?/p>

“這些比賽中出現(xiàn)的不完美,恰恰暴露出了具身智能從實驗室到實際場景落地中需要克服的難點?!敝毂虮蛘f。

從“進(jìn)化路標(biāo)”看未來

為了解決這些落地中的困境,具身智能的研究范式仍未收斂,行業(yè)依然在開展技術(shù)路徑的探索。

比如,“世界模型”被行業(yè)寄予了很大期望?!笆澜缒P汀迸善毡檎J(rèn)為,大語言模型存在根本局限,缺乏對物理世界的三維空間建模能力與動態(tài)因果推理能力,導(dǎo)致具身智能在跨場景落地時頻繁出現(xiàn)認(rèn)知斷層。

2025年11月,有“AI教母”之稱的人工智能科學(xué)家、斯坦福大學(xué)教授李飛飛創(chuàng)立的 World Labs推出首款產(chǎn)品Marble,以多模態(tài)“世界模型”為核心引擎,可從單張圖像、視頻片段或文本描述中,生成具備持久性的三維數(shù)字孿生空間,為空間智能搭建起關(guān)鍵的三維認(rèn)知基座。

技術(shù)路線之爭尚未有定論,但行業(yè)進(jìn)化邏輯卻有跡可循。中國科學(xué)院院士姚期智近日給出了技術(shù)演進(jìn)的幾個“路標(biāo)”,為理解人工智能發(fā)展提供了一份參考。

在姚期智看來,具身智能的進(jìn)化,要從“模仿”走向“推理”,打破缺乏可解釋世界模型和物理因果推理的現(xiàn)狀,將推理、規(guī)劃與控制納入同一個閉環(huán)框架;要從局部技能走向全身協(xié)同,現(xiàn)有機(jī)器人的運(yùn)動能力及操作能力仍是兩套系統(tǒng),未來需統(tǒng)一全身控制與手部精細(xì)操作規(guī)劃,以支撐多步驟通用技能。

除了算法的進(jìn)化,行業(yè)還需要跨越數(shù)據(jù)與生態(tài)的關(guān)隘。姚期智表示,具身智能行業(yè)未來還要走出“數(shù)據(jù)匱乏”,探索新的收集技術(shù)并構(gòu)建可規(guī)?;臄?shù)據(jù)工廠;要結(jié)束“各自為戰(zhàn)”的局面,通過建立開放基準(zhǔn)與安全規(guī)范,鼓勵算法的開源與復(fù)現(xiàn),通過挑戰(zhàn)賽推動優(yōu)秀算法可重復(fù)、可驗證、可產(chǎn)業(yè)化,真正鋪平產(chǎn)業(yè)化之路。

?

編輯:葛佳明

?

聲明:新華財經(jīng)(中國金融信息網(wǎng))為新華社承建的國家金融信息平臺。任何情況下,本平臺所發(fā)布的信息均不構(gòu)成投資建議。如有問題,請聯(lián)系客服:400-6123115

傳播矩陣