隨著人工智能(AI)技術的不斷發(fā)展,通用人工智能(AGI)成為了研究者和企業(yè)追求的終極目標,。然而,,實現(xiàn)AGI的難度極大,需要克服眾多技術難題,。具身智能強調將智能與實體世界緊密結合,,通過感知、認知和行動的統(tǒng)一來實現(xiàn)對環(huán)境的適應和應對,。這種理念克服了傳統(tǒng)AI的局限,,使得機器能夠更好地理解、感知和適應真實世界,,被認為是通向AGI的最后一公里,。本次論壇旨在探討具身智能對AGI發(fā)展的影響和未來前景,,通過多角度、多層次的討論,,深入分析具身智能與身具智能各自的優(yōu)劣,,并探討其對AGI研究的啟示和挑戰(zhàn)。
本次論壇由中國計算機學會(CCF)主辦,,CCF青年計算機科技論壇(YOCSEF)廣州分論壇學術委員會承辦,,廣州唐邦信息科技有限公司提供贊助支持,YOCSEF廣州AC委員,、中山大學計算機學院胡建芳副教授和YOCSEF廣州學術秘書,、廣東外語外貿(mào)大學姜思羽副教授共同擔任執(zhí)行主席。論壇邀請了中山大學計算機學院教授成慧,、深圳大學特聘教授胡瑞珍,、華南理工大學教授張智軍以及香港科技大學(廣州)人工智能學域助理教授梁俊衛(wèi)作為引導發(fā)言嘉賓,華南理工大學研究員丁長興,、南方科技大學副教授鄭鋒以及上??萍即髮W助理教授楊思蓓作為論壇思辨嘉賓。
YOCSEF總部副主席陳小軍(深圳大學),,YOCSEF廣州前主席黃書強(暨南大學),、余志文(華南理工大學)、譚臺哲(廣東工業(yè)大學),,YOCSEF廣州現(xiàn)任主席李冠彬(中山大學),, YOCSEF廣州AC委員劉偉莉(廣東技術師范大學)、姚恩義(華南理工大學)等,,以及來自多所高校及企事業(yè)單位的林倞(中山大學教授,、國家杰青)、王旭(深圳大學),、王子佳(廣州大學),、吳漢瑞(暨南大學)、余自如(華南理工大學)等共50多人參加了本次技術論壇,。
首先,,由中山大學計算機學院副教授胡建芳進行論壇開場,介紹了出席論壇的嘉賓和關于此次論壇活動的背景和意義,。接下來是陳小軍(深圳大學)進行論壇致辭,,介紹了CCF YOCSEF文化。
執(zhí)行主席胡建芳老師論壇開場介紹
深圳大學陳小軍致辭并介紹CCF YOCSEF文化
在致辭環(huán)節(jié)之后,,論壇進入引導發(fā)言環(huán)節(jié),。本次論壇邀請到的四位引導發(fā)言嘉賓分別作了題為“單機自主與多機協(xié)同”、“智能體交互行為規(guī)劃與生成”,、“機器人多模態(tài)感知與運動動態(tài)神經(jīng)學習方法研究” ,、“面向通用服務的具身智能”的分享,。
來自中山大學計算機學院教授成慧以“單機自主與多機協(xié)同”為題,介紹了單機自主與多機協(xié)同探索在復雜環(huán)境中的應用,,分享了機器人在未知環(huán)境中的自主決策和探索能力,,尤其是移動機器人如何利用感知和計算能力自主完成任務。討論了機器人在復雜環(huán)境中主動探索的技術挑戰(zhàn),,包括環(huán)境感知,、空間移動能力、決策效率和計算資源的限制,。還展示了通過實驗驗證的自主探索算法應用,,涵蓋地面機器人、無人機和多機器人協(xié)同工作,。他特別強調了在真實環(huán)境中,,機器人如何應對外部不確定因素(如氣流、摩擦力)對其控制精度和安全性的影響,,提出了結合控制理論和機器學習的自主學習控制策略,,以提升機器人的自主適應能力和任務執(zhí)行穩(wěn)定性。
中山大學計算機學院教授成慧做引導報告
來自深圳大學特聘教授胡瑞珍以“智能體交互行為規(guī)劃與生成”為題,,重點介紹了虛擬空間中的智能體交互和規(guī)劃,。強調了交互在具身智能中的重要性,特別是在虛擬環(huán)境中的任務規(guī)劃和執(zhí)行,。首先探討了高層任務規(guī)劃,,即如何根據(jù)虛擬環(huán)境中的感知信息合理分解任務,確保任務的合理性和可執(zhí)行性,。通過圖結構動態(tài)更新感知信息和大模型理解任務,,可以保證任務在虛擬環(huán)境中的執(zhí)行。最后老師還強調在智能體交互生成中的幾何空間關系,,如智能體如何精確抓取物體,、避免物理碰撞等。通過合理的任務規(guī)劃和精確的交互生成,,實現(xiàn)智能體在虛擬環(huán)境中的自然交互,。
深圳大學特聘教授胡瑞珍做引導報告
來自華南理工大學教授張智軍以“機器人多模態(tài)感知與運動動態(tài)神經(jīng)學習方法研究”為題,集中探討了多模態(tài)感知與運動控制在機器人智能中的關鍵作用,。他首先介紹了一種結合腦電波、視覺,、語音等多模態(tài)感知信號的機器人控制系統(tǒng),。這個系統(tǒng)通過多種感知渠道來獲取外部環(huán)境的信息,然后利用這些信息來控制機器人的動作和行為,。他特別強調了腦電波的信號處理,,這是一種通過提取大腦活動來直接控制機器人的方法,。這種控制方式體現(xiàn)了智能體與人類之間的高效交互,特別是在養(yǎng)老,、殘疾人輔助等應用場景中,,為那些有運動障礙的個體提供了獨立和有尊嚴的生活方式。此外,,他還提到了交互式增長學習,,這是一種通過人機互動來提高機器學習模型的方法。例如,,當機器人做出正確的決策時,,人類可以給予正面反饋;當決策錯誤時,,則給予修正,。這種方法能夠大幅度提升機器人的自我學習能力,使其在交互過程中逐漸優(yōu)化任務執(zhí)行效率,。專家特別提到,,他們已經(jīng)通過實物實驗驗證了該系統(tǒng)的有效性,顯示了這一多模態(tài)感知系統(tǒng)在實際應用中的巨大潛力,。
華南理工大學教授張智軍做引導報告
來自香港科技大學(廣州) 助理教授梁俊衛(wèi)以“面向通用服務的具身智能”為題,,講到機器人在通用服務場景下的智能感知與預測能力,特別是社交導航領域的前沿研究,。他首先提出了一個基于視覺和語言大模型的導航方法,,稱為“實例導航”(Instagram Instance Navigation)。這一方法的核心在于如何讓機器人依賴視覺和語言輸入,,在無地圖的情況下自主進行目標導航,。傳統(tǒng)導航方法通常依賴簡單的視覺輸入和固定的目標物體,但實例導航任務要求機器人能夠根據(jù)復雜的自然語言描述找到特定的目標物體,。例如,,機器人不僅要找到一個沙發(fā),還需要根據(jù)描述找到特定的黑色皮質沙發(fā),,并且能夠準確定位到沙發(fā)在房間中的位置,。這個任務顯著提高了機器人對語言理解和視覺處理的要求,也為導航算法的設計帶來了新的挑戰(zhàn),。還提出了“社交導航”這一概念,。社交導航的難點在于,機器人不僅要避免與人類行人發(fā)生碰撞,,還需要考慮到人類的社交舒適度,,例如機器人不能擋在行人的正前方,或者讓人類感到不適,。通過引入社交導航的任務,,機器人必須能夠預測行人的移動軌跡,,并且合理規(guī)劃自己的路徑以避免干擾人類的正常活動,。專家還展示了通過強化學習訓練的社交導航系統(tǒng),,該系統(tǒng)能夠在復雜的室內環(huán)境中導航,同時避開人類行人,,甚至能夠主動為行人讓路,。這一工作展示了未來服務機器人在人類環(huán)境中的廣泛應用潛力,尤其是在公共場所或家庭服務中,,能夠極大地提升人機交互的自然性與安全性,。
香港科技大學(廣州) 助理教授梁俊衛(wèi)做引導報告
頒發(fā)引導報告嘉賓感謝狀
由論壇執(zhí)行主席胡建芳、姜思羽主持進入論壇思辨環(huán)節(jié)
思辨議題1:具身與智能該如何發(fā)展,,具身先行,,智能先行,還是同行并進,?
延伸議題1:具身與智能兩者之間有何區(qū)別和關聯(lián),?
延伸議題2:發(fā)展具身與發(fā)展智能分別需要哪些條件?
這個議題,,由華南理工大學研究員丁長興老師進行發(fā)言,,他提出具身和智能技術是兩者獨立發(fā)展的觀點。他認為具身和智能在過去的研究中各自獨立發(fā)展,,彼此并無明顯的融合,。具身更多關注硬件和運動能力,智能則側重于決策和認知層面,。當兩者發(fā)展到一定階段,,才會形成互補的關系。在這個過程中,,智能可以幫助機器人更好地理解人類的復雜意圖,,具身則可以通過交互產(chǎn)生更多的學習數(shù)據(jù),推動智能系統(tǒng)進一步發(fā)展?,。其次他認為智能和技術應該是各自發(fā)展到一定階段之后,,融合成了一個新的形態(tài),在這個形態(tài)里面具身和智能應該是各自起到了一個硬件和軟件的作用,,他們取得的角色或者作用是不一樣的,。具身和智能應該是一個相互促進循環(huán)迭代的一個關系。隨后中山大學林倞老師發(fā)言,,他認為智能應該先行,,他堅持主張智能優(yōu)先發(fā)展的立場。他指出,正是由于近年來智能技術特別是大模型的發(fā)展,,才使得具身智能成為焦點。如果沒有智能的突破,,具身技術也不會引起如此大的關注,。他認為,智能的快速發(fā)展可以為硬件和具身的進步提供更好的支持,,智能的發(fā)展會帶動具身技術的進步,,從而推動整個機器人領域的發(fā)展。但來自廣東工業(yè)大學譚臺哲老師對林倞老師提出不同的觀點,,他認為機器人要想具有人工智能的能力,,即實現(xiàn)某些特定的任務首先要有硬件,有了硬件的基礎才能針對性適配其能力和方法,,因此具身智能應該具身先行,。華南理工大學余志文老師也認為具身技術應優(yōu)先發(fā)展,他指出當前機器人的身體靈活性和運動能力與人類仍存在很大差距,,而智能技術已經(jīng)發(fā)展到相對高的水平,,因此具身技術的發(fā)展應加快步伐。他認為,,具身技術是實現(xiàn)機器人實際應用的關鍵,,而不是繼續(xù)推進智能技術的突破。來自廣東技術師范大學劉偉莉老師提出了動態(tài)發(fā)展的觀點,。她認為,,具身和智能并不是線性發(fā)展或絕對的先后關系,而是在不同階段根據(jù)需要進行分離和融合,。兩者在某些階段可能會相互獨立發(fā)展,,但當發(fā)展到一定階段后,又會彼此促進,,最終推動具身智能的共同進步,。她形容這種關系為“合而分,分而合”,,強調智能和具身的互動和共進,。中山大學成慧老師從多學科交叉的角度探討了具身智能現(xiàn)有的研究模式,她指出,,機器人作為一個交叉學科,,涉及到的領域非常廣泛,包括機械,、計算機,、材料、電子等多個方向。她強調,,人工智能的迅速發(fā)展,,尤其是大模型的出現(xiàn),降低了技術的門檻,,使得更多研究者能夠參與到這一領域,。這種研究方式的變化使得具身智能的發(fā)展得以加速,因此她認為,,具身和智能技術應當齊頭并進,,不能分離看待。
在這個議題上,,參會的各位老師都分別發(fā)表了自己的觀點,,有人認為智能先行,也有人認為應該具身先行,,還有人認為具身智能是一種動態(tài)發(fā)展的過程,。由于大模型和深度學習技術的快速發(fā)展,智能領域已經(jīng)展示了其強大的能力,,即使硬件具備極高的靈活性,,如果沒有智能技術的支持,也無法完成復雜任務,。也有老師提出具身智能是一個雙螺旋式發(fā)展的過程,,對于具身在鏈條的前面還是智能在鏈條的前面的問題,就是仁者見仁,,智者見智,,是一種相互促進相互影響的一種方式。
華南理工大學研究員丁長興做思辨發(fā)言
思辨議題2:具身智能的哪種發(fā)展路徑對AGI更有潛力,?
延伸議題1:AGI的實現(xiàn)是否一定需要具身智能,?
延伸議題2:具身智能可以為AGI提供哪些便利?
對于這個議題,,由南方科技大學副教授鄭鋒首先發(fā)言,,他強調在實現(xiàn)通用人工智能(AGI)的路徑中,智能比具身更為重要,。雖然從應用角度看,,硬件和具身技術顯得關鍵,但從實現(xiàn)AGI的角度,,統(tǒng)一的數(shù)據(jù)和模型才是核心步驟,。他認為通用模型的發(fā)展并不一定依賴具身智能,尤其是在數(shù)字空間中,,智能已經(jīng)可以接近人類智能,。其次也指出未來的AGI可能不局限于具身形態(tài),,數(shù)字空間中的智能體或許能夠指導具身系統(tǒng)的發(fā)展,并最終形成多種形式的智能體,,甚至不需要具備與人類相同的物理形態(tài),。接下來林倞老師再次提出了智能優(yōu)先的觀點,認為人工智能尤其是大模型的發(fā)展為AGI的突破奠定了基礎,。他認為,,智能技術的快速發(fā)展可以為AGI的實現(xiàn)提供更多的可能性。林老師指出,,當前許多機器人硬件雖然足夠先進,但智能不足以完成復雜任務,,因此優(yōu)先發(fā)展智能技術可以提升具身系統(tǒng)的整體能力,。智能先行能夠更快影響AGI的發(fā)展。他也強調AGI的實現(xiàn)一定需要具身智能,,虛實融合能為AGI提供最大的便利,。胡瑞珍老師也認為虛實融合是最能促進AGI的進步,人類的智能是通過跟環(huán)境的交互不停增長的,,要去實現(xiàn)AGI并演化出人類的這種智能,,就只能與環(huán)境進行交互學習。余志文老師則堅持具身的發(fā)展路徑對AGI更有潛力,,他認為,,AGI的真正實現(xiàn)依賴于智能體對真實環(huán)境的充分理解和適應,而具身技術的進展能讓機器人更好地與物理世界交互,。因此,,具身技術應加快發(fā)展,以幫助AGI在更復雜的物理環(huán)境中表現(xiàn)出色,。智能技術固然重要,,但沒有具身的支持,AGI將無法在物理世界中有效應用,。陳小軍老師提出了不一樣的觀點,,他強調智能與身體的關聯(lián),但也探討了智能可能脫離物理載體的可能性,。也指出當前的具身智能主要基于我們對物理世界的理解,,但未來智能或許可以脫離肉身,進入更抽象的層面,。他通過類比AGI的進化,,提出智能可能不再局限于物理世界,而是可以擴展到數(shù)字空間或網(wǎng)絡空間中,。盡管這個觀點看似天馬行空,,但他認為在網(wǎng)絡空間中,智能同樣可以展現(xiàn)出高度的自主性和復雜性,無需依賴具體的物理實體,。
在這個議題上,,嘉賓們針對具身智能如何促進AGI發(fā)展這個話題進行了深入討論。在這個議題的討論中,,大家提出了很多對通用人工智能(AGI)和具身智能發(fā)展路徑的觀點,。AGI的實現(xiàn)依賴于統(tǒng)一的數(shù)據(jù)和模型,且通用模型的發(fā)展不一定依賴具身智能,,數(shù)字空間中的智能體有可能引導具身系統(tǒng)的發(fā)展,,甚至不需要具備物理形態(tài)。其次AGI需要對物理環(huán)境有充分理解,,具身技術的進展能夠增強智能體與物理世界的互動,,推動AGI在復雜環(huán)境中發(fā)揮作用。
南方科技大學副教授鄭鋒思辨發(fā)言
思辨議題3:具身智能最有可能落地的場景及時間點是什么,?
延伸議題1:具身智能落地需要克服哪些困難,,技術、法律,、倫理等,?
延伸議題2:具身智能與人類智能是否會有沖突,如何解決,?
對于這個議題,,上海科技大學助理教授楊思蓓認為自動駕駛是具身智能最先有可能規(guī)?;?/span>落地的場景,。她認為,雖然自動駕駛看似與具身智能無關,,但實際上汽車可以視作智能體的一個載體,。特斯拉的自動駕駛系統(tǒng)不僅是為了駕駛汽車,而是為發(fā)展通用型智能體提供數(shù)據(jù)和技術支持,。楊老師強調,,自動駕駛技術的發(fā)展路徑對于其它智能體(如機械狗或人形機器人)具有借鑒意義。胡瑞珍老師針對具身智能的定義提出觀點,,認為目前的應用大多是針對特定任務設計的專用系統(tǒng),,而不是具備通用能力的智能體。她指出,,實現(xiàn)具身智能落地需要確保載體能夠在多種任務中泛化,,認為具身智能要在不同任務中通用可能還需要很長時間,并且目前的工業(yè)應用更側重于特定場景的智能化,。香港科技大學(廣州)梁俊衛(wèi)老師補充到,,雖然目前機器人產(chǎn)業(yè)百花齊放,,但最終可能會形成幾家主導公司,這與其它行業(yè)如汽車或計算機領域的發(fā)展軌跡相似,。他還強調,,機器人領域的供應鏈非常長,不太可能由一家公司獨占鰲頭,。未來的機器人將由本體制造商和自動化公司共同合作,,前者負責硬件設計,后者負責應用場景的實現(xiàn),,例如養(yǎng)老,、康復等。
在這個議題上有專家認為自動駕駛是具身智能最有可能落地的一個場景,,雖然人形機器人是具身智能的理想載體,,但其技術尚未成熟。部分專家指出人形機器人雖然功能強大,,但在法律、倫理和成本方面的障礙阻礙了其商業(yè)化進程,。但也有專家認為仿身人形機器人是最有可能落地的一個場景,。與會專家從不同的角度探討了具身智能與通用人工智能的關系,包括涉及到倫理問題,、未來的場景化應用以及如何降低成本使技術普及等,。與會專家普遍認為,具身智能在未來幾年可能會逐步落地,,尤其是在工業(yè)和特定服務領域,,而人形機器人在實際應用中仍面臨許多挑戰(zhàn),特別是成本和倫理的問題,。
上??萍即髮W助理教授楊思蓓思辨發(fā)言
嘉賓就思辨議題發(fā)表看法
頒發(fā)思辨發(fā)言嘉賓感謝狀
論壇思辨現(xiàn)場討論熱烈,此次論壇歷時近兩小時,,圍繞具身智能的發(fā)展路徑,、技術挑戰(zhàn)及應用場景展開了深入探討,涵蓋了具身智能發(fā)展過程中的技術,、產(chǎn)業(yè),、應用和倫理問題。與會嘉賓普遍認為,,具身智能與AGI的實現(xiàn)需要智能和具身技術的相互促進,,未來具身智能將廣泛應用于自動駕駛、工業(yè),、家庭服務等場景,,同時面臨著產(chǎn)業(yè)整合與倫理挑戰(zhàn),。
全體嘉賓合影留念