外表比潮玩手辦更靈動,內(nèi)在比貓狗等“毛孩子”更懂人:市場或許要迎來第一批陪伴機器人了。
7月2日,記者了解到,陪伴機器人靈童機器人將在8月開啟第一波交付。第一財經(jīng)記者前往研發(fā)辦公室體驗了動作捕捉、人機交互、情緒識別等機器人的軟硬件訓練環(huán)節(jié)。
在體驗中,記者了解到,想要讓陪伴機器人更懂人,不僅要賦予它語言能力,還要讓它“動得像人”、看得懂人、記得住人與它之間的情感軌跡。這需要機器人工程、模型算法研發(fā)團隊的成員“灌”大量的交互數(shù)據(jù),并進行微調(diào)。
對于這個融合AI與硬件的新故事,市場已經(jīng)迫不及待了。今年6月,珞博智能宣布完成數(shù)千萬元的天使輪融資。萌友智能也在去年年底官宣了一輪數(shù)百萬美元的融資,旗下產(chǎn)品已經(jīng)在海外眾籌平臺Kickstarter上陸續(xù)交付。而在靈童機器人的融資股東中,科大訊飛和策源資本都位列其中,產(chǎn)品目前已經(jīng)在京東上線。
陪伴機器人想要脫離玩具定位,走向長期陪伴,靠的不是AI的噱頭,而是與用戶之間建立“關(guān)系”的能力。當語言不再是唯一入口,當視覺和觸覺能夠輔助機器識別,當機器的“性格”與“靈性”成為產(chǎn)品賣點,陪伴機器人正在重新定義AI硬件“情緒價值”的邊界。
映射人體數(shù)據(jù),機器人學做人
7月2日下午,在上海漕河涇開發(fā)區(qū)的人形機器人創(chuàng)新孵化器,記者被“五花大綁”起來。在靈童機器人的辦公室,第一財經(jīng)記者體驗了穿戴式的動捕設(shè)備。記者的頭部、小臂、大臂、背部和腰部各綁了一個彈力帶,帶子的表面裝有一個數(shù)據(jù)盒。在八個彈力帶的作用下,機器人很快跟著記者“有樣學樣”做出各種動作。
這套動捕裝置是讓機器人學習人類動作的核心裝備,記者每一個動作,幾乎都能被桌面上的人形機器人實時“模仿”出來。靈童機器人的核心產(chǎn)品是一個內(nèi)置AI模塊的桌面人形機器人,外觀上看接近于二次元手辦,身高60厘米。在記者問它“你怎么看起來有點不開心?”時,它叉起了腰,佯裝生氣地回答:“因為你沒有陪我聊天呀?!?/span>
這個叉腰的小動作,正是記者通過動捕設(shè)備采集人體動作數(shù)據(jù)后“教”給機器人的。靈童機器人的研發(fā)負責人賈星亮告訴第一財經(jīng),動捕設(shè)備記錄下人體骨骼的運動軌跡后,會將數(shù)據(jù)轉(zhuǎn)化成特定格式的文件,再由工程師建模,將人體骨骼與機器人關(guān)節(jié)一一對應(yīng)?!暗唵蔚?∶1映射會導致動作變形,因此,工程師會根據(jù)機器人的本體結(jié)構(gòu)進行微調(diào)?!北热缛祟悡]手時肩膀旋轉(zhuǎn)30度,但機器人手臂較短,就需要按比例縮小這個幅度。
在這個身高約為人類身高三分之一的機器人身體中,一共有35個數(shù)字伺服舵機——是機器人能夠“動起來”的前提。為了讓機器人“懂”人,靈童研發(fā)團隊還以大語言模型為基礎(chǔ),引入了視覺、觸覺等多模態(tài)輸入,并借助機器人的具身性拓展了表達方式。
“系統(tǒng)會綜合分析用戶的語音語調(diào)、對話內(nèi)容以及場景信息,來判斷其情緒狀態(tài)。”賈星亮舉例,開心時語音往往會上揚,而悲傷時語速則會變慢?!拔覀冞€在完善視覺識別功能,未來機器人有機會通過攝像頭識別用戶的面部表情?!彼f。
強調(diào)情緒價值,語言交互是最優(yōu)解嗎?
“最近機器人的性格很好,情緒價值拉滿?!币晃混`童機器人的產(chǎn)品工程師如是評價機器人最近的表現(xiàn)。
作為硅基生命,機器人給用戶的情緒價值都由背后的大模型決定。當機器人識別到用戶的情緒后,機器人會從預設(shè)的100多個基礎(chǔ)動作中選擇最合適的反應(yīng)。這些動作主要來自專業(yè)動捕演員的表演,也有部分是從網(wǎng)絡(luò)視頻、游戲當中提取的。例如,當檢測到用戶處于愉悅狀態(tài)時,機器人可能會微笑并揮手致意;而當用戶情緒低落時,它則可能張開雙臂,做出一個安慰性的擁抱動作。
記者在研發(fā)辦公室現(xiàn)場看到,工程師正在通過強化學習的方式對這些輸入與輸出進行精度訓練?!熬拖窠绦『W會察言觀色一樣,”一位工程師解釋說,“機器人需要在不斷互動中學會‘什么時候該揮手,什么時候該跳舞’?!庇柧氝^程需要工程師與機器人持續(xù)對話,并在機器人作出反應(yīng)時給予正向反饋。隨著訓練的深入,機器人逐漸趨近于高獎勵行為,從而表現(xiàn)出越來越自然、貼心的“情緒價值”。
但情緒價值一定要通過對話的交互來實現(xiàn)嗎?業(yè)內(nèi)仍然存在不同的觀點。
北京萌友智能的CEO何嘉斌在接受第一財經(jīng)記者的采訪時表示,聊天并不是陪伴機器人的核心環(huán)節(jié),甚至“沒有必然的聯(lián)系”?!叭绻寝k公的場景,包含頻繁交流和對話的交互動作,并不一定是陪伴機器人的最優(yōu)解?!?/span>
帶人設(shè)、個性化的語言交互,只是陪伴機器人的一個產(chǎn)品形態(tài)。他認為,陪伴機器人產(chǎn)品體驗中最容易做出產(chǎn)品溢價和用戶黏性的部分是“靈性”,即機器在多模態(tài)體系下的自學習能力和人類在交互中投射的情感。
萌友智能的產(chǎn)品Ropet是一個擁有毛茸茸外觀的桌面機器人,它并不像人,從外表看,只是一個毛絨玩具。何嘉斌介紹,Ropet能夠通過自身的視覺和觸覺傳感器識別到用戶的輸入行為,通過多模態(tài)的識別和計算,利用自身的硬件進行反饋,比如在觸摸的時候發(fā)出聲音或改變眼睛的狀態(tài),來“表達”喜愛。
當與人類的交互行為被機器以數(shù)據(jù)的形式在一段周期內(nèi)記錄,有點像人類用數(shù)據(jù)去“喂養(yǎng)”一個寵物。何嘉斌說,多模態(tài)的感知能力疊加持續(xù)的行為學習能力,構(gòu)成了產(chǎn)品“靈性”的核心部分,而這些都不一定要通過語音交互來實現(xiàn)的。
智能不止于大模型,AI能否撐起溢價
SevenUp Capital的創(chuàng)始人趙楠透露,根據(jù)他的觀察,毛絨玩具廠商采購一塊嵌入玩具中的AI物理模塊的價格在30~50元,AI物理模塊廠商自身的硬件毛利率在20%左右。而一個毛絨玩具的終端售價大約在150~200元。但加上AI陪伴的交互功能,一個毛絨玩具的售價有機會達到500元左右。
這意味著,AI能力正成為陪伴機器人區(qū)別于傳統(tǒng)“玩具”品類的核心要素。不過,AI如何真正落地到具體的場景和產(chǎn)品中,仍然是一個需要精細打磨的課題。陪伴機器人的“AI故事”該怎么講,才能讓用戶真正感到陪伴?
“和用戶共創(chuàng),或許是建立親密關(guān)系的關(guān)鍵?!辟Z星亮告訴第一財經(jīng)記者,在用戶使用靈童機器人產(chǎn)品的過程當中,能夠定制化地導入個人經(jīng)歷和經(jīng)驗,并通過自定義人設(shè)的方式與用戶共同“塑造性格”?!盀榱吮苊饣舆^程出現(xiàn)割裂感,我們還提供了記憶的永久保存功能?!辟Z星亮介紹,機器人模型能夠抽取對話中的關(guān)鍵詞進行長期記憶,用戶可以隨時調(diào)取這些“共同回憶”來進行互動。
陪伴機器人SKYRIS的創(chuàng)始人張宇諾告訴第一財經(jīng)記者,陪伴機器人的核心在于“如何建立關(guān)系”。SKYRIS的產(chǎn)品是一只會飛的機器人BOBO。BOBO外觀像一個氣球,但有兩只小翅膀、類似小鳥的眼睛和嘴巴。在他看來,盡管AI大模型為產(chǎn)品賦予了智能,但真正實現(xiàn)“陪伴”,還需要更多維度的設(shè)計和輔助機制。
“就像人類之間建立關(guān)系,不只是靠語言對話,還需要主動開啟話題、持續(xù)引導、及時反饋、深入挖掘情緒等多個環(huán)節(jié),而這些情感互動的細膩之處,僅靠大模型遠遠不夠?!彼f。
因此,在大模型能力背后,依然少不了大量機器人工程師的參與。賈星亮表示,團隊每天需要與機器人進行高頻互動,通過不斷測試和微調(diào)模型反應(yīng),優(yōu)化其對話邏輯與情緒識別能力?!霸诋a(chǎn)品最終交付前,我們會對情緒理解的準確性,以及硬件動作的穩(wěn)定性做最后一輪打磨。”
(審核編輯: 光光)
分享