人工智慧公司DeepMind再度掀起機器學習革命!這次不是靠下圍棋,而是讓機器人互打桌球,來進化自己的智慧與動作能力。Google旗下的DeepMind團隊近日揭示,他們如何透過讓兩隻機器手臂進行「自我對抗」桌球比賽,不靠人類大量指導,就能逐步學會高難度技巧,進一步朝「真正能自主學習」的機器人目標邁進。
人工智慧公司DeepMind再度掀起機器學習革命!這次不是靠下圍棋,而是讓機器人互打桌球,來進化自己的智慧與動作能力。Google旗下的DeepMind團隊近日揭示,他們如何透過讓兩隻機器手臂進行「自我對抗」桌球比賽,不靠人類大量指導,就能逐步學會高難度技巧,進一步朝「真正能自主學習」的機器人目標邁進。
Google DeepMind讓機器人互打桌球,訓練其自主學習、自我成長。(圖/取自IEEE Spectrum影片)為什麼選桌球當訓練場域?
DeepMind選擇桌球作為訓練平台,正是因為它囊括了機器人技術在受限卻高度動態的環境中面臨的許多艱鉅挑戰。
桌球不僅需要極高的感知與精準控制能力,還結合了戰略思維與快速反應,堪稱結合「眼力、腦力、肢體反應」於一身的綜合性挑戰,使其成為開發和評估穩健學習演算法的理想領域。
這些演算法能夠處理即時互動、複雜物理、高級推理以及自適應策略的需求,正是未來機器人要在工廠、家庭甚至醫療機構中工作所必須具備的核心能力。
傳統機器人學習有哪些瓶頸?
目前主流機器人學習方式有兩種:模仿學習和強化學習。前者仰賴大量人類示範,後者則需要人工設計獎勵機制,讓機器透過試錯學習。
然而兩者都有致命限制:需要大量的人工參與,才能讓機器繼續進化,這大幅限制了自我學習的可能性。
這也讓DeepMind思考,機器人能否在學習和改進循環中,在極少甚至完全不需要人工干預的情況下學習並提升技能?
DeepMind如何解決這個問題?
DeepMind的靈感來自AlphaGo的自我對弈模式,讓機器人「自己跟自己打」。他們建置了一個全自動桌球實驗室,包括自動撿球、遠端監控、持續訓練環境,讓兩隻機器手臂可以24小時不間斷切磋球技。
這個想法簡單卻有效!當一個機器人發現更好的策略時,它的對手就會被迫適應並改進,從而形成一個技能水平不斷提升的循環。
DeepMind初期先進行「合作模式」學習,讓機器人互相幫忙維持來回,學習基本擊球與反應技巧;接著才切入「競爭模式」,逼迫雙方為了贏球使出更多花招,進而拓展擊球策略與技能的廣度與深度。
人機對戰成果如何?
雖然兩隻機器人要真正達到高度競爭還有挑戰,但DeepMind發現,讓機器人和人類初學者對打,其實能加速訓練效果。根據用戶測試,這款桌球AI能贏過初學者、對中階選手打成五五波,雖然還打不贏高手,但已展現出「具備基本實戰水準」的表現。
更進一步:用AI當教練指導機器人
除了讓機器人互打,DeepMind還引入了另一種新穎方式:使用「視覺語言模型(VLM)」,例如 Gemini來當教練。透過一組稱為「SAS Prompt(總結、分析、綜合)」的提示語,AI教練能觀察機器人的表現、找出問題並給出改善建議。
這套方法完全不需人工設計獎勵函數,而是靠模型對情境的理解進行引導,成為新一代「可解釋」機器學習流程。
邁向自學型智慧機器人的未來
DeepMind表示,他們正致力打破「需要人類不斷介入」的學習限制,開發讓機器人可以在沒有人工幫助下,自主學習並逐步精進的系統。這不僅讓機器人成本更低,也能更靈活地應對現實世界中未定義或未知的情境。
雖然挑戰依然不少,穩定機器人對機器人的學習以及擴展基於VLM的指導都是艱鉅的任務,但DeepMind對這些研究方向充滿信心。他們相信,這些方法將有機會成為下一代機器人核心學習模式,可以引導出更強大、適應性更強、有自我成長能力的機器人。
資料來源:IEEE Spectrum
這篇文章 為什麼Google要讓機器人互打桌球?竟是要它自主學習、自我成長 最早出現於 科技島-掌握科技新聞、科技職場最新資訊。