【新智元導(dǎo)讀】一家來(lái)自紐約的初創(chuàng)公司Hume AI發(fā)布了一款標(biāo)榜為「第一個(gè)具有情商的對(duì)話式人工智能」的共情語(yǔ)音接口(EVI),并表示其能夠從用戶(hù)那里檢測(cè)到53種不同的情緒。
AI的下一個(gè)重大突破是理解情感嗎?Hume AI表示是的。
3月27日,一家名為Hume AI的新創(chuàng)公司宣布,他們已經(jīng)在一輪B輪融資中籌集了5000萬(wàn)美元。
這家初創(chuàng)公司由前Google DeepMind研究員Alan Cowen共同創(chuàng)立并擔(dān)任CEO。
Hume AI與其他人工智能模型提供商和初創(chuàng)公司的區(qū)別在于,它專(zhuān)注于創(chuàng)建一款能夠理解人類(lèi)情感、適當(dāng)做出反應(yīng)并向用戶(hù)傳達(dá)情感的人工智能助手。
這款聊天機(jī)器人不僅基于文本,還使用語(yǔ)音對(duì)話作為其接口,通過(guò)聽(tīng)取人類(lèi)用戶(hù)的語(yǔ)調(diào)、音高、停頓等聲音特征來(lái)運(yùn)作。
Hume AI同時(shí)發(fā)布了其名為「共情語(yǔ)音界面」(Empathic Voice Interface)的演示,只需要使用帶有麥克風(fēng)的設(shè)備,就可以與之進(jìn)行互動(dòng)。
為什么AI需要理解情感
Hume AI的理論是,通過(guò)開(kāi)發(fā)能夠更細(xì)致地理解和表達(dá)人類(lèi)情感的AI模型,它可以更好地為服務(wù)用戶(hù)。
Hume AI不僅僅想要了解用戶(hù)「快樂(lè)」、「悲傷」、「憤怒」、「害怕」等等通用的人類(lèi)情緒,而是更微妙、通常是多維的情緒。
比如「欽佩」,「崇拜」,「入迷」,「諷刺」,「羞恥」等等,Hume AI在其網(wǎng)站上總共列出了53種不同的情緒。
官網(wǎng)地址:https://dev.hume.ai/docs/expression-measurement-api/overview(上下滑動(dòng)查看全部)
對(duì)此,Hume AI表示:
情感智能包括從行為中推斷意圖和偏好的能力。這正是AI界面試圖實(shí)現(xiàn)的核心目標(biāo):推斷用戶(hù)想要什么并實(shí)現(xiàn)它。因此,在某種意義上,情感智能是AI界面的最重要的要求。
通過(guò)語(yǔ)音AI,你可以獲得更多關(guān)于用戶(hù)意圖和偏好的線索。
這使得我們的AI在預(yù)測(cè)人類(lèi)偏好和結(jié)果、知道何時(shí)說(shuō)話、知道該說(shuō)什么以及如何以正確的語(yǔ)氣說(shuō)話方面變得更加出色。
Hume AI演示之后,反響十分狂熱。
云端和Web應(yīng)用開(kāi)發(fā)軟件公司Vercel的首席執(zhí)行官Guillermo Rauch就發(fā)帖稱(chēng):「這是迄今為止我見(jiàn)過(guò)的最好的人工智能演示之一。」
如何從語(yǔ)音變化中檢測(cè)情緒
在其網(wǎng)站上,Hume指出:「這些模型是基于大規(guī)模、實(shí)驗(yàn)控制的情感表達(dá)數(shù)據(jù)的人類(lèi)強(qiáng)度評(píng)分上進(jìn)行訓(xùn)練的?!?/p>
這些數(shù)據(jù)來(lái)源于Cowen及其同事發(fā)表的兩篇科學(xué)研究論文:「Deep learning reveals what vocal bursts express in different cultures」和「Deep learning reveals what facial expressions mean to people in different cultures」。
第一項(xiàng)研究包括來(lái)自美國(guó)、中國(guó)、印度、南非和委內(nèi)瑞拉的16,000名參與者,有意思的是,數(shù)據(jù)集里面還有一部分是用來(lái)記錄「語(yǔ)音爆發(fā)」或非詞匯聲音,如笑聲和「嗯嗯」等。
第二項(xiàng)研究包括來(lái)自上述五個(gè)國(guó)家以及埃塞俄比亞的5,833名參與者,他們?cè)谟?jì)算機(jī)上進(jìn)行了一項(xiàng)調(diào)查,在調(diào)查中他們分析了來(lái)自4,659個(gè)面部表情數(shù)據(jù)庫(kù)的高達(dá)30個(gè)不同的「種子圖像」。
參與者被要求模仿他們?cè)陔娔X上看到的面部表情,并從一個(gè)包含48種情緒的列表中,按照1-100的強(qiáng)度進(jìn)行評(píng)定。
在互動(dòng)中,Hume AI的EVI說(shuō)道,Hume的團(tuán)隊(duì)「收集了有史以來(lái)最大、最多樣化的人類(lèi)情感表達(dá)庫(kù)。我們談?wù)摰氖莵?lái)自世界各地的一百多萬(wàn)參與者,參與了各種各樣的現(xiàn)實(shí)生活互動(dòng)。」
Hume AI利用這兩項(xiàng)研究的照片和參與者的音頻數(shù)據(jù)訓(xùn)練了自己的深度神經(jīng)網(wǎng)絡(luò)。
這些數(shù)據(jù)還用于創(chuàng)建了一個(gè)「語(yǔ)音韻律模型」(speech prosody model),用于測(cè)量語(yǔ)音的調(diào)子、節(jié)奏和音色,并整合到EVI中。
情感AI的應(yīng)用和約束
Hume AI提供其EVI的API,允許用戶(hù)根據(jù)其獨(dú)特的數(shù)據(jù)集訓(xùn)練自己的Hume AI模型。
同時(shí)還提供「表達(dá)測(cè)量API」(Expression Measurement API), 企業(yè)客戶(hù)可以使用該API構(gòu)建應(yīng)用程序。
在表達(dá)測(cè)量API中可以訪問(wèn)的其他屬性包括理解面部表情、語(yǔ)音爆發(fā)和情感語(yǔ)言——后者測(cè)量「轉(zhuǎn)錄文本的情感語(yǔ)調(diào),包括53個(gè)維度」。
EVI可以作為任何應(yīng)用的界面。開(kāi)發(fā)人員可以使用Hume AI的API構(gòu)建個(gè)人AI助手、代理和可穿戴設(shè)備等等,產(chǎn)品可涵蓋從AI助手到健康管理、從教學(xué)輔導(dǎo)到客戶(hù)服務(wù)等各個(gè)領(lǐng)域。
但同時(shí),人們可能會(huì)對(duì)Hume的EVI產(chǎn)生依賴(lài)或以一種不健康的方式沉迷于它的潛力,該技術(shù)也可能會(huì)被用于一些不好的用途,比如操縱、欺詐等等。
在直接被問(wèn)及此可能性時(shí),考恩提供了以下聲明:
當(dāng)人工智能利用我們的情感行為來(lái)達(dá)到某些目標(biāo)(比如促進(jìn)購(gòu)買(mǎi)、提高參與度或培養(yǎng)習(xí)慣)時(shí),它可能會(huì)學(xué)會(huì)操縱和利用我們的情感。
因此,開(kāi)發(fā)人員應(yīng)該將了解用戶(hù)情感行為視為人工智能本身的目標(biāo),而不是將這些行為僅僅當(dāng)作達(dá)到第三方目標(biāo)的手段。
算法用于檢測(cè)情感線索應(yīng)該服務(wù)于用戶(hù)健康和福祉的目標(biāo),包括對(duì)異常情況做出適當(dāng)反應(yīng)、保護(hù)用戶(hù)免受濫用,并促進(jìn)用戶(hù)的情感認(rèn)知和自主性。
該網(wǎng)站還包括一系列「不支持的用例」,例如操縱、欺騙、「優(yōu)化減少幸福感」(如「心理戰(zhàn)爭(zhēng)或折磨」)以及「無(wú)限制的共情人工智能」。
但這不過(guò)泛泛而談,當(dāng)AI真的有了情感之后,如何用倫理、用法律去約束,人類(lèi)還有很長(zhǎng)的路要去探索。