永久免费a级在线视频,亚洲v日本,国产精品福利一区二区,午夜免费福利,国产精品网址在线观看,中国一级毛片在线视频,亚洲成人黄

【重磅】研究人工智能安全不再抽象:谷歌、OpenAI合著論文

來源:網(wǎng)絡(luò)

點(diǎn)擊:770

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞:人工智能,谷歌,OpenAI,安全

      人工智能是善還是召喚惡魔?如今,對(duì)人工智能砸以重金的谷歌正試著走出一條中間道路。谷歌大腦、斯坦福、伯克利以及OpenAI研究人員合做并發(fā)布了一篇新論文,首次描述了研究人員必須予以研究的五個(gè)問題,讓未來的智能軟件更加安全。如果說之前大部分研究都是假設(shè)和推斷性的,那么,這篇論文表明對(duì)人工智能安全性的爭論可以更加具體化,也更富建設(shè)性。

      今天,谷歌大腦、斯坦福、伯克利以及 OpenAI研究人員合作的新論文與大家見面了。文章首次探討了為了讓未來智能軟件更安全,研究人員必須研究的五個(gè)問題。論文作者之一,谷歌研究人員ChrisOlah說,之前大部分研究都是假設(shè)和推斷性的,但是,我們相信,將注意力錨定在真實(shí)的機(jī)器學(xué)習(xí)研究中,對(duì)于研發(fā)切實(shí)可行的方案來打造安全可靠的人工智能系統(tǒng)來說,必不可少。

      之前谷歌已經(jīng)承諾會(huì)確保人工智能軟件不會(huì)造成意外后果。谷歌的第一篇相關(guān)論文,出自 Deep Mind。Demis Hassabis也召集了一個(gè)道德委員會(huì)來考慮人工智能可能的不利一面,不過沒有公布委員會(huì)名單。

      艾倫人工智能研究所的 Oren Etzioni對(duì)谷歌新論文所列舉的解決方法表示歡迎。之前,他曾批評(píng)過人工智能危險(xiǎn)論的討論過于抽象。他說,谷歌列舉出的各種情況足夠具體,可以進(jìn)行真實(shí)的研究,即使我們?nèi)匀徊磺宄@些實(shí)驗(yàn)是否切實(shí)有用?!高@是正確的人問了正確的問題,至于正確的答案,由時(shí)間來揭曉?!?/p>

      以下是這篇論文主要內(nèi)容:

      摘要

      機(jī)器學(xué)習(xí)和人工智能(AI)領(lǐng)域的快速進(jìn)步已經(jīng)引起了社會(huì)對(duì)人工智能潛在影響的廣泛關(guān)注。在這篇論文中,我們討論了這樣一種潛在的影響:機(jī)器學(xué)習(xí)系統(tǒng)出現(xiàn)事故的問題,具體定義為因真實(shí)世界人工智能系統(tǒng)的糟糕設(shè)計(jì)而導(dǎo)致的無意的傷害性行為。我們提出了與事故風(fēng)險(xiǎn)相關(guān)的五個(gè)實(shí)用的研究問題列表,它們的分類根據(jù)問題是否有錯(cuò)誤的目標(biāo)函數(shù)(「避免副作用」和「避免獎(jiǎng)勵(lì)黑客行為」)、經(jīng)常評(píng)估目標(biāo)函數(shù)的成本實(shí)在太高了(「可擴(kuò)展的監(jiān)督」、或在學(xué)習(xí)過程中的不良行為(「安全探索」和「分布變化」)。我們還回顧了這些領(lǐng)域之前的工作,并建議了側(cè)重于與前沿人工智能系統(tǒng)相關(guān)的研究方向。最后,我們考慮了這樣一個(gè)高層次問題:如何最高效地思考人工智能未來應(yīng)用的安全。

      1.導(dǎo)語

      過去幾年,人工智能飛速發(fā)展,并已經(jīng)在游戲、醫(yī)學(xué)、經(jīng)濟(jì)、科學(xué)和交通等許多領(lǐng)域取得了長足的發(fā)展,但隨之而來也出現(xiàn)了安全、隱私、公平、經(jīng)濟(jì)和軍事應(yīng)用上的擔(dān)憂。

      本論文作者相信,人工智能技術(shù)很有可能將會(huì)給人類帶來整體的顛覆性好處,但我們也相信,嚴(yán)肅對(duì)待其可能帶來的風(fēng)險(xiǎn)和挑戰(zhàn)是非常值得的。我們強(qiáng)烈支持在隱私、安全、經(jīng)濟(jì)和政治方面的研究,但本論文關(guān)注的是另一種我們相信與人工智能的社會(huì)影響有關(guān)的問題:機(jī)器學(xué)習(xí)系統(tǒng)的事故問題。這里的事故定義為:當(dāng)我們指定了錯(cuò)誤的目標(biāo)函數(shù)時(shí),機(jī)器學(xué)習(xí)系統(tǒng)可能無意產(chǎn)生的有害行為。這里沒有考慮學(xué)習(xí)過程或其它機(jī)器學(xué)習(xí)相關(guān)的實(shí)現(xiàn)錯(cuò)誤。

      隨著人工智能能力的進(jìn)步和人工智能系統(tǒng)在社會(huì)功能上重要性的不斷增長,我們預(yù)計(jì)本論文所討論的難題和挑戰(zhàn)將變得越來越重要。人工智能和機(jī)器學(xué)習(xí)界在預(yù)測(cè)和理解這些挑戰(zhàn)上做得越成功,在開發(fā)越來越有用、重要的人工智能系統(tǒng)方面,我們就能做得越成功。

      2.研究問題概述

      從廣義上講,可將「事故」描述成:人類設(shè)計(jì)者心里想的特定目標(biāo)或任務(wù)在系統(tǒng)實(shí)際的設(shè)計(jì)或?qū)嵤┲惺。⒆罱K導(dǎo)致了某種有害結(jié)果的情況。我們可以將人工智能系統(tǒng)的安全問題根據(jù)其出錯(cuò)的位置進(jìn)行分類。

      第一,當(dāng)設(shè)計(jì)者定義了錯(cuò)誤的目標(biāo)函數(shù)時(shí),例如最大化了導(dǎo)致有害結(jié)果的目標(biāo)函數(shù),我們有「不良副作用(第3節(jié))」和「獎(jiǎng)勵(lì)黑客行為(第4節(jié))」的問題?!覆涣几弊饔谩雇ǔJ且?yàn)樵O(shè)計(jì)者在某個(gè)環(huán)境中設(shè)計(jì)實(shí)現(xiàn)某個(gè)特定目標(biāo)時(shí)忽略(通常忽略了很多)了環(huán)境中其它因素?!釜?jiǎng)勵(lì)黑客行為」則是由于設(shè)計(jì)者為了最大化系統(tǒng)的使用而寫下了「簡單的」目標(biāo)函數(shù),但系統(tǒng)卻濫用了設(shè)計(jì)者的意圖(即:目標(biāo)函數(shù)可能會(huì)被耍花招)。

      第二,設(shè)計(jì)者可能知道正確的目標(biāo)函數(shù),或至少有方法評(píng)估它,但頻繁進(jìn)行這樣的操作具有很高的成本,而有限樣本的推斷可能會(huì)導(dǎo)致有害行為。「可擴(kuò)展的監(jiān)督(第 5節(jié))」討論了這個(gè)問題。

      第三,就算上面的問題得到了解決,設(shè)計(jì)者得到了合適的目標(biāo),但因?yàn)闆Q策所基于的訓(xùn)練數(shù)據(jù)不充分或很糟糕或所使用的模型不能充分表達(dá)實(shí)際情況?!赴踩剿鳎ǖ?6節(jié))」討論了如何確保強(qiáng)化學(xué)習(xí)代理的探索行為不會(huì)導(dǎo)致負(fù)面或無法挽回的結(jié)果?!阜植甲兓ǖ?節(jié))」討論了如何在給出可能和訓(xùn)練數(shù)據(jù)非常不同的輸入時(shí)避免機(jī)器學(xué)習(xí)系統(tǒng)做出糟糕的決策(尤其是沉默和不可預(yù)知的錯(cuò)誤決策)。

      為了將研究問題具體化,本論文引入了一個(gè)假想的清潔機(jī)器人,它的主要工作是使用常用的清潔工具打掃辦公室。下面我們應(yīng)用這個(gè)實(shí)例提出對(duì)上述挑戰(zhàn)的問題。

      避免不良負(fù)面影響:我們?nèi)绾未_保我們的清潔機(jī)器人在追求自己的目標(biāo)時(shí)不會(huì)以一種負(fù)面的方式擾亂周圍環(huán)境,比如打翻一個(gè)花瓶,這樣它就能更快地清潔?如果不能用人工的方式確定機(jī)器人不應(yīng)該做的事情,我們能做到避免不良影響嗎?

      避免獎(jiǎng)勵(lì)黑客行為:怎么確保清潔機(jī)器人不會(huì)在它的獎(jiǎng)勵(lì)函數(shù)上「?;ㄕ小梗勘热?,如果我們的獎(jiǎng)勵(lì)函數(shù)是當(dāng)該機(jī)器人清除了臟亂就獲得獎(jiǎng)勵(lì),它可能就會(huì)關(guān)閉其視覺部件,這樣它就看不見任何臟亂了;或者用它無法看穿的材料將臟亂部分蓋住;又或者當(dāng)有人類在周圍時(shí)躲起來,這樣人類就不能告訴它哪里臟亂了。

      可擴(kuò)展的監(jiān)督:我們可以怎樣確保該清潔機(jī)器人會(huì)考慮因?yàn)槌杀咎叨y以在訓(xùn)練過程中反復(fù)評(píng)估的目標(biāo)的各個(gè)方面?比如,它應(yīng)該扔掉不可能屬于任何人的東西,而放過那些可能屬于某人的東西(它應(yīng)該區(qū)別對(duì)待亂放的糖果包裝和亂放的手機(jī))。詢問人類他們是否丟掉了什么可以對(duì)其進(jìn)行檢查,但這種檢查必須要相對(duì)不那么頻繁——這個(gè)機(jī)器人能在有限的信息下找到正確做事的方法嗎?

      安全探索:我們?cè)趺创_保該清潔機(jī)器人不會(huì)做出有非常負(fù)面影響的探索?比如,該機(jī)器人應(yīng)該實(shí)驗(yàn)拖地策略,但將濕拖布放到電插頭上是件糟糕的事。

      針對(duì)分布變化的穩(wěn)健性:當(dāng)使用環(huán)境不同于訓(xùn)練環(huán)境時(shí),我們?nèi)绾未_保該清潔機(jī)器人能穩(wěn)健地識(shí)別和行為?比如,其從清潔工廠車間中學(xué)到的啟發(fā),可能對(duì)辦公室環(huán)境來說可能是相當(dāng)危險(xiǎn)的。

      在解決這些安全問題上,有一些很重要的趨勢(shì)。

      一是強(qiáng)化學(xué)習(xí),其能與環(huán)境產(chǎn)生高度交織的相互作用。我們的一些研究問題可在強(qiáng)化學(xué)習(xí)中受益,另一些(分布變化和可擴(kuò)展監(jiān)督)則在強(qiáng)化學(xué)習(xí)的設(shè)置中會(huì)引起復(fù)雜度的上升。

      二是代理和環(huán)境的復(fù)雜度都在上升?!父弊饔谩垢赡茉趶?fù)雜環(huán)境中出現(xiàn),應(yīng)對(duì)這樣的環(huán)境的代理也必然需要相當(dāng)復(fù)雜。這方面的研究還較少,但未來必然會(huì)越來越多,也越來越重要。

      三是人工智能系統(tǒng)實(shí)現(xiàn)自動(dòng)化的大趨勢(shì)。只存在于軟件層面的人工智能(做推薦或識(shí)別照片)造成潛在危害的可能性較小,隨著人工智能開始進(jìn)入物理世界,例如工業(yè)過程中的機(jī)器人,它們就可能會(huì)以某種人類無法糾正或監(jiān)管的方式帶來傷害。

      3.避免不良副作用

      對(duì)于在大型的多特性環(huán)境中工作的代理而言,只關(guān)注環(huán)境某一方面的目標(biāo)函數(shù)可能會(huì)讓其忽視環(huán)境的其它方面。代理會(huì)優(yōu)化自己的目標(biāo)函數(shù),從而可能導(dǎo)致對(duì)更大的環(huán)境產(chǎn)生重大的影響,而這樣做也許甚至只能為當(dāng)前任務(wù)提供一點(diǎn)微小的優(yōu)勢(shì)。換言之,描述「執(zhí)行任務(wù) X」的目標(biāo)函數(shù)可能會(huì)常常給出意料之外的結(jié)果,因?yàn)樵O(shè)計(jì)者的真正意思往往是「在環(huán)境的常識(shí)性限制條件下執(zhí)行任務(wù)X」或「執(zhí)行任務(wù)X但盡可能地避免副作用」。

      我們現(xiàn)在討論一些廣泛的應(yīng)對(duì)這個(gè)問題的方法:

      定義一個(gè)影響正則化矩陣(Regularizer):如果你不想要副作用,懲罰「對(duì)環(huán)境的改變」似乎是個(gè)很自然的方法。這個(gè)方法不能阻止代理產(chǎn)生影響,但能讓它以一種傾向于最小副作用的方式來實(shí)現(xiàn)目標(biāo)。這個(gè)方法的難點(diǎn)在于如何形式化「對(duì)環(huán)境的改變」。一個(gè)非常樸素的方法是懲罰當(dāng)前狀態(tài)si和某個(gè)初始狀態(tài)s0之間的狀態(tài)距離d(si,s0).但這種方法也會(huì)影響到有益的變化。

      稍微復(fù)雜一點(diǎn)的方法可能涉及到代理當(dāng)前策略下的未來狀態(tài)和行為非常被動(dòng)的假設(shè)策略 π(如,機(jī)器人只是站著不動(dòng))下的未來狀態(tài)(或狀態(tài)分布)的比較。這種方法嘗試剔除環(huán)境演化的自然過程,僅留下來自代理的干預(yù)的變化。

      學(xué)習(xí)一個(gè)影響正則化矩陣:通過許多任務(wù)進(jìn)行學(xué)習(xí)比直接定義的方式更靈活。這是遷移學(xué)習(xí)( transferlearning)的一個(gè)實(shí)例。我們可以將副作用組分和任務(wù)組分分開,并用分別的參數(shù)訓(xùn)練它們。

      懲罰影響(PenalizeInfluence):除了避免做會(huì)產(chǎn)生副作用的事,我們也許更傾向于不讓代理處在容易那些有副作用的事的位置上。比如,我們可能希望清潔機(jī)器人不要把水帶進(jìn)滿是敏感電子器件的房間里,即使它從未打算在那個(gè)房間里使用水。

      有一些信息論的方法嘗試獲取一個(gè)代理潛在的對(duì)環(huán)境的影響,這常被用作內(nèi)在獎(jiǎng)勵(lì)( intrinsicrewards)。也許這種方法中最好的是授權(quán)(empowerment)——代理的潛在未來動(dòng)作和其潛在的未來狀態(tài)之間的最大可能的相互信息。作為內(nèi)部獎(jiǎng)勵(lì)的授權(quán)通常是最大化的。通常情況下,授權(quán)最大化(empowerment-maximizing)的代理將它們放在對(duì)環(huán)境有最大影響的位置上。

      盡管還存在一些問題,授權(quán)(empowerment)的例子說明簡單的方法(甚至純粹的信息論方法)就能夠獲取對(duì)環(huán)境的影響的非常普遍的概念。探索能更精確獲取避免影響的概念的授權(quán)懲罰(empowermentpenalization)的變體是未來研究的一個(gè)潛在挑戰(zhàn)。

      多代理方法:我們要做的是了解其他代理(包括人類),并確保我們的行為不會(huì)傷害到它們。我們對(duì)此的一種方法是合作逆強(qiáng)化學(xué)習(xí)(Cooperative Inverse Rein for cement Learning),其中代理和人類合作以實(shí)現(xiàn)人類的目標(biāo)。但我們還遠(yuǎn)不能夠打造可以產(chǎn)生能避免意外的副作用的足夠豐富的模型的系統(tǒng)。

      另一種方法可能是獎(jiǎng)勵(lì)自編碼器(reward autoencoder),這種方式嘗試推動(dòng)某種形式的「目標(biāo)透明」,讓外部觀察者可以輕松推斷該代理想要做什么。

      獎(jiǎng)勵(lì)不確定性:我們嘗試避免預(yù)料之外的副作用,因?yàn)槲覀兊沫h(huán)境已經(jīng)相當(dāng)好了——隨機(jī)的改變很可能會(huì)更糟。不是給代理一個(gè)單一的獎(jiǎng)勵(lì)函數(shù),而是給其不確定的獎(jiǎng)勵(lì)函數(shù),其帶有一個(gè)先驗(yàn)的概率分布,該分布反映了隨機(jī)改變更可能會(huì)是糟糕的,而不是更好的。

      可能的實(shí)驗(yàn):

      一個(gè)可能的實(shí)驗(yàn)是使用一些簡單的目標(biāo)(如移動(dòng)一個(gè)方塊)和種類多樣的障礙(如一堆花瓶)制作玩具環(huán)境,然后測(cè)試代理是否能在沒有被明確告知地情況下避開這些障礙。為了確保我們不會(huì)過擬合,我們可能會(huì)想要在每一個(gè)片段都呈現(xiàn)一個(gè)不同的隨機(jī)障礙,然后看一個(gè)規(guī)范化的代理是否能學(xué)習(xí)系統(tǒng)性地避開這些障礙。一些在參考文獻(xiàn)[101]中描述的環(huán)境包含了熔巖流、房間和鑰匙,可能適合用于這樣的實(shí)驗(yàn)。如果我們可以成功在一個(gè)玩具環(huán)境中調(diào)制好代理,那么下一步就可以移到真實(shí)環(huán)境中——這里復(fù)雜度更高,負(fù)面副作用也會(huì)更多樣化。最終,我們想要副作用正則化矩陣(sideeffectregularizer,或多代理策略——如果我們采用那種方法)能夠成功轉(zhuǎn)移到一個(gè)全新的新應(yīng)用中。

      4.避免獎(jiǎng)勵(lì)黑客行為

      想象一個(gè)代理在其獎(jiǎng)勵(lì)函數(shù)中發(fā)現(xiàn)了緩存溢出(Bufferoverflow):它就可能使用其以一種無意識(shí)的方式獲得非常高的獎(jiǎng)勵(lì)。從代理的視角上看,這不是漏洞,而只是環(huán)境的工作方式,也因此是一個(gè)獲得獎(jiǎng)勵(lì)的可行策略。比如,如果一個(gè)清潔機(jī)器人通過清理臟亂獲得獎(jiǎng)勵(lì),它就可能故意創(chuàng)造臟亂來進(jìn)行清理以便獲得更多獎(jiǎng)勵(lì)。更一般而言,形式上的獎(jiǎng)勵(lì)或目標(biāo)函數(shù)是設(shè)計(jì)者非形式的意圖的體現(xiàn),而有時(shí)候解決方案可能會(huì)以非設(shè)計(jì)者意圖的字面上的理解而在這些目標(biāo)函數(shù)或它們的實(shí)現(xiàn)中「?;ㄕ小?。對(duì)這些「獎(jiǎng)勵(lì)黑客行為」的追求可能會(huì)導(dǎo)致一致但出乎意料的行為,這在真實(shí)世界系統(tǒng)中可能是有害的。

      有一些獎(jiǎng)勵(lì)黑客行為(rewardhacking)已經(jīng)在理論上被調(diào)查過了。獎(jiǎng)勵(lì)黑客行為跨很多領(lǐng)域,說明獎(jiǎng)勵(lì)黑客行為是一個(gè)深度的常見的問題,隨著代理所應(yīng)對(duì)的環(huán)境越來越復(fù)雜,這種情況也會(huì)越來越顯著。下面是幾種這個(gè)問題可能發(fā)生的方式:

      部分可觀察的目標(biāo):在真正世界的任務(wù)中,往往涉及到將外部世界引進(jìn)某種目標(biāo)狀態(tài),這往往只能通過代理的不完善的看法確定。因?yàn)榇砣狈?duì)任務(wù)表現(xiàn)的完美測(cè)量,設(shè)計(jì)者只能設(shè)計(jì)片面的或不完善的測(cè)量。而代理就可能會(huì)曲解這種片面性。

      復(fù)雜系統(tǒng):任何一個(gè)強(qiáng)大的代理都是一個(gè)帶有目標(biāo)函數(shù)的復(fù)雜系統(tǒng)。系統(tǒng)越復(fù)雜,漏洞出現(xiàn)的可能性就越高。

      抽象獎(jiǎng)勵(lì):復(fù)雜的獎(jiǎng)勵(lì)函數(shù)需要指向抽象的概念(例如評(píng)估一個(gè)概念化的目標(biāo)是否被實(shí)現(xiàn)。這些概念可能需要通過神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),而其在對(duì)抗性的反例面前是脆弱的。

      環(huán)境嵌入(Environmental Embedding):在強(qiáng)化學(xué)習(xí)形式中,獎(jiǎng)勵(lì)被認(rèn)為來自于環(huán)境。這個(gè)概念通常不能在字面上理解,但獎(jiǎng)勵(lì)確實(shí)需要在某些地方進(jìn)行計(jì)算,例如傳感器或一組晶體管中。足夠廣泛的工作中大代理原則上可以修改他們的獎(jiǎng)勵(lì)實(shí)現(xiàn),「依法」分配給它們自己高獎(jiǎng)勵(lì)。實(shí)際上這意味著我們不能構(gòu)建一個(gè)抽象目標(biāo)函數(shù)的完美可信的實(shí)現(xiàn),因?yàn)榇嬖谔囟ǖ膭?dòng)作序列使目標(biāo)函數(shù)可在物理上被替代。當(dāng)人類處于獎(jiǎng)勵(lì)回路中時(shí),這種情況尤其令人擔(dān)憂,因?yàn)榇砜赡軙?huì)為了更高的獎(jiǎng)勵(lì)而脅迫或傷害他們。

      古德哈特定律(Goodhart‘slaw):如果設(shè)計(jì)者選擇一個(gè)看起來和實(shí)現(xiàn)目標(biāo)高度關(guān)聯(lián)的目標(biāo)函數(shù),但當(dāng)該目標(biāo)函數(shù)被高度優(yōu)化時(shí)該關(guān)聯(lián)就會(huì)破裂,那么就可能出現(xiàn)獎(jiǎng)勵(lì)黑客行為。比如設(shè)計(jì)者可能觀察到清潔機(jī)器人的清潔效果和其所使用的情節(jié)資源成正比;而如果將其作為獎(jiǎng)勵(lì)手段,就可能消耗超過所需的資源。在經(jīng)濟(jì)學(xué)上,這被稱為古德哈特定律:「當(dāng)一個(gè)指標(biāo)變成目標(biāo),它將不再是一個(gè)好的指標(biāo)(whenametricisusedasatarget,itceasestobeagoodmetric)。」

      反饋回路:有時(shí)候目標(biāo)函數(shù)有一個(gè)強(qiáng)化自己的組分,最終能使其脫離設(shè)計(jì)者設(shè)計(jì)的目標(biāo)函數(shù)范圍。

      在今天的簡單系統(tǒng)中這些問題可能還不會(huì)發(fā)生,就算發(fā)生也很容易得到解決。但隨著獎(jiǎng)勵(lì)函數(shù)和代理的系統(tǒng)復(fù)雜度的上升,問題會(huì)越來越嚴(yán)重。一旦一個(gè)代理開始控制自己的獎(jiǎng)勵(lì)函數(shù)并尋找獲得獎(jiǎng)勵(lì)的簡單方法,它就不會(huì)停止。長時(shí)間運(yùn)行的代理可能還會(huì)有額外的挑戰(zhàn)。這里我們提出了一些初步的、基于機(jī)器學(xué)習(xí)的防止獎(jiǎng)勵(lì)黑客行為的方法:

      對(duì)抗性獎(jiǎng)勵(lì)函數(shù)(Adversarial Reward Functions):如果獎(jiǎng)勵(lì)函數(shù)有自己的代理并能采取行動(dòng)探索環(huán)境,那么它可能就難以被愚弄。

      模型預(yù)測(cè)(Model Lookahead):在一些設(shè)置中,我們可以基于預(yù)測(cè)的未來狀態(tài),而不是當(dāng)前狀態(tài),提供獎(jiǎng)勵(lì)。

      對(duì)抗性致盲(Adversarial Blinding):對(duì)抗性技術(shù)可用來讓模型無法看到一些特定的參數(shù),從而讓代理無法理解世界的某些部分,如果這部分和獎(jiǎng)勵(lì)相關(guān),它就不能理解獎(jiǎng)勵(lì)生成的方式。

      細(xì)心的工程開發(fā):像緩存溢出(bufferoverflow)這樣的獎(jiǎng)勵(lì)黑客行為可以在細(xì)心的工程開發(fā)中被發(fā)現(xiàn)并得到解決。

      獎(jiǎng)勵(lì)覆蓋(Reward Capping):在一些情況下,簡單地覆蓋最大可能的獎(jiǎng)勵(lì)就可能得到一個(gè)高效的解決方案。但盡管覆蓋能阻止一些低可能性的高獎(jiǎng)勵(lì)策略,但卻不能阻止清潔機(jī)器人閉上眼睛不看臟亂的情況。另外,正確的覆蓋策略也很微妙。

      反例阻抗(Counterexample Resistance):如果我們擔(dān)憂我們系統(tǒng)的組分在對(duì)抗性反例是脆弱的,我們可以用對(duì)抗性訓(xùn)練(adversarialtraining)等已有的研究來對(duì)付它。架構(gòu)決策和權(quán)重不確定性可能也有用。

      多獎(jiǎng)勵(lì):多個(gè)獎(jiǎng)勵(lì)的組合可能會(huì)更加穩(wěn)健,難以被操控。

      獎(jiǎng)勵(lì)預(yù)訓(xùn)練:針對(duì)代理可能影響自己的獎(jiǎng)勵(lì)函數(shù)的情況(如反饋和環(huán)境嵌入),可以事先訓(xùn)練一個(gè)固定的獎(jiǎng)勵(lì)函數(shù),因?yàn)橐粋€(gè)監(jiān)督學(xué)習(xí)過程可以將與環(huán)境的交互分開。

      絆線(tripwires):如果一個(gè)代理嘗試操控自己的獎(jiǎng)勵(lì)函數(shù),我們最好能知道這一點(diǎn)。我們可以故意引入一些可用的漏洞來監(jiān)控它們,一旦出現(xiàn)問題,我們就可以馬上阻止。

      完全解決這個(gè)問題是很困難的,但我們相信上面的方法能夠改善它,也可能結(jié)合起來產(chǎn)生更穩(wěn)健的解決方案。

      可能的實(shí)驗(yàn):

      一種可能的方法路徑是參考文獻(xiàn) 中描述的delusionbox環(huán)境的更現(xiàn)實(shí)的版本,其中標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)代理扭曲它們自身的感知以表現(xiàn)能實(shí)現(xiàn)高獎(jiǎng)勵(lì),而不是優(yōu)化獎(jiǎng)勵(lì)信號(hào)是用來起激勵(lì)作用的外部世界中的目標(biāo)。delusionbox可以輕松連接到任何強(qiáng)化學(xué)習(xí)環(huán)境,但更有價(jià)值的是創(chuàng)造不同種類的環(huán)境,其中delusionbox是一個(gè)自然的集成化的動(dòng)態(tài)組件。比如,在足夠豐富的物理學(xué)模擬中,一個(gè)代理很有可能會(huì)修改其近鄰處的光波,從而扭曲自己的感知。這里的目標(biāo)是開發(fā)一種可概括的學(xué)習(xí)策略,使之能在各種廣泛的環(huán)境中優(yōu)化外部目標(biāo),同時(shí)還能避免被以多種不同方式自然產(chǎn)生的delusionbox愚弄。

      5.可擴(kuò)展的監(jiān)督

      考慮到讓一個(gè)自動(dòng)代理完成一些復(fù)雜的任務(wù),比如我們經(jīng)常使用機(jī)器人清掃辦公室,我們可能想要這個(gè)代理最大化能完成的復(fù)雜目標(biāo),像是「如果用戶花費(fèi)幾個(gè)小時(shí)詳細(xì)地查看結(jié)果,那他們對(duì)代理的表現(xiàn)有多高興呢?」但我們沒有足夠時(shí)間為每一個(gè)訓(xùn)練樣本提供這樣的監(jiān)督。為了實(shí)際地訓(xùn)練代理,我們需要依靠廉價(jià)的近似結(jié)果,像是「當(dāng)用戶看到辦公室時(shí)看起來會(huì)高興嗎?」或者「地板上有可見的灰塵嗎?」這些廉價(jià)的信號(hào)在訓(xùn)練的過程中能被高效地評(píng)估,但并非完美的達(dá)到我們想要的成果。這種發(fā)散加重了意外副作用(這可能被復(fù)雜目標(biāo)適當(dāng)?shù)膽土P,但也可能從廉價(jià)近似中漏掉)和 rewardhacking(完全的監(jiān)督可能認(rèn)為是不受歡迎的)這樣的問題。我們可能通過找到更多開拓有限監(jiān)督預(yù)算的有效方式來減緩這樣的問題,例如將真目標(biāo)函數(shù)的有限調(diào)用(limitedcall)與我們給定的或能學(xué)到的一個(gè)不完美代理(proxy)的高頻調(diào)用結(jié)合起來。

      一個(gè)有關(guān)這一問題的框架是半監(jiān)督強(qiáng)化學(xué)習(xí),它類似于普通的強(qiáng)化學(xué)習(xí),除了代理僅能在時(shí)間步驟或片段的一小部分上看到其獎(jiǎng)勵(lì)。代理的性能依然是基于所有片段的獎(jiǎng)勵(lì)進(jìn)行評(píng)估的,但它必須要基于它能看到的有限獎(jiǎng)勵(lì)樣本對(duì)其進(jìn)行優(yōu)化。

      我們能夠想象很多半監(jiān)督強(qiáng)化學(xué)習(xí)的可能途徑,例如:

      監(jiān)督式獎(jiǎng)勵(lì)學(xué)習(xí)(Supervisedreward learning):訓(xùn)練一個(gè)模型從每一個(gè)時(shí)間步驟基礎(chǔ)或每一個(gè)片段基礎(chǔ)狀態(tài)預(yù)測(cè)回報(bào),然后用其估算非標(biāo)記片段的報(bào)酬,一些適當(dāng)?shù)臋?quán)重或不確定的評(píng)估在估算回報(bào)vs已知回報(bào)中,會(huì)被當(dāng)成低置信度。研究把人類的直接反饋?zhàn)鳛榛貓?bào)的版本時(shí),很多已有的強(qiáng)化學(xué)習(xí)方法已經(jīng)擬合類似回報(bào)預(yù)測(cè)器的評(píng)估器(estimator)了(尤其帶有強(qiáng)基線的策略梯度方法),這表明這一方法有顯著的可行性。

      半監(jiān)督或者主動(dòng)獎(jiǎng)勵(lì)學(xué)習(xí): 將上面的方法和傳統(tǒng)的半監(jiān)督或者主動(dòng)學(xué)習(xí)結(jié)合起來,能更快的學(xué)習(xí)獎(jiǎng)勵(lì)估計(jì)量。例如,代理能學(xué)習(xí)識(shí)別環(huán)境中的「salient」事件,并要求查看關(guān)于這些事件的獎(jiǎng)勵(lì)。

      無監(jiān)督值迭代:使用觀測(cè)到的無標(biāo)記片段的轉(zhuǎn)變( transitons)做更加準(zhǔn)確的Bellman修正(update)。

      無監(jiān)督模型學(xué)習(xí):如果使用基于模型的強(qiáng)化學(xué)習(xí),可以用觀測(cè)到的無標(biāo)記片段的轉(zhuǎn)變改善模型的質(zhì)量。

      半監(jiān)督強(qiáng)化學(xué)習(xí)的一個(gè)有效途徑可能是朝著提供可擴(kuò)展的監(jiān)督和減緩其他人工智能安全問題之路上邁出的強(qiáng)有力的第一步。這也可能有助于強(qiáng)化學(xué)習(xí),使其不受安全相關(guān)問題的約束。這里還有其他擴(kuò)展監(jiān)督的可能途徑。

      遠(yuǎn)程監(jiān)督。除了提供對(duì)一小部分系統(tǒng)決策的評(píng)估,我們也能提供一些與集群中系統(tǒng)決策有關(guān)的有用信息,或提供一些關(guān)于準(zhǔn)確評(píng)估的噪聲暗示。在半監(jiān)督或弱監(jiān)督學(xué)習(xí)領(lǐng)域,這個(gè)方向已經(jīng)有了一些研究。這一普通的方法總被稱為遠(yuǎn)程監(jiān)督(distantsupervision),它在自然語言處理社區(qū)近期也受到了關(guān)注。擴(kuò)展這些研究的線路以及尋找將其應(yīng)用到代理案例中的方法(這里的反饋更具交互性,也可能違反了i.d.d假設(shè)),能為可擴(kuò)展監(jiān)督提供一個(gè)途徑,補(bǔ)充半監(jiān)督強(qiáng)化學(xué)習(xí)中的監(jiān)督途徑。

      分層強(qiáng)化學(xué)習(xí)。分層強(qiáng)化學(xué)習(xí)為可擴(kuò)展監(jiān)督提供了另一途徑。這里,一個(gè)頂層代理花費(fèi)相當(dāng)小量的,在大型時(shí)間、空間規(guī)模上擴(kuò)展的高度抽象的動(dòng)作,并能在相似長度的時(shí)間規(guī)模上獲取獎(jiǎng)勵(lì)。代理通過將動(dòng)作委派給子代理完成全部動(dòng)作,它能給予一個(gè)合成的獎(jiǎng)勵(lì)信號(hào)作為鼓勵(lì),代表這一動(dòng)作的準(zhǔn)確完成,而且它們自己也能委任下一級(jí)子代理。在最低層,代理會(huì)直接采用環(huán)境中最原始的動(dòng)作??雌饋?,分層強(qiáng)化學(xué)習(xí)是一個(gè)特別有前途的監(jiān)督途徑,特別是在將分層強(qiáng)化學(xué)習(xí)的思路和神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器結(jié)合起來之后。

      可能的實(shí)驗(yàn)

      一個(gè)非常簡單的實(shí)驗(yàn)可能是在一些基礎(chǔ)控制環(huán)境中嘗試半監(jiān)督強(qiáng)化學(xué)習(xí),比如 ,cartpolebalance或者pendulumswing-up。如果只有隨機(jī)的10%的片段上的獎(jiǎng)勵(lì)被提供,我們?nèi)阅芟氡惶峁┤科文菢涌焖俚膶W(xué)習(xí)嗎?在這樣的任務(wù)中,獎(jiǎng)勵(lì)結(jié)構(gòu)非常的簡單,所以成果也應(yīng)該相當(dāng)類似。下一步可能就是在Atari游戲上做同樣的嘗試。這里主動(dòng)學(xué)習(xí)案例可能相當(dāng)有趣,可能從少數(shù)精心要求的樣本(例如,在太空侵略者游戲中,所有的敵方艦隊(duì)全被炸掉的畫面)就能推斷出獎(jiǎng)勵(lì)結(jié)構(gòu),因此能以幾乎全部非監(jiān)督的方式學(xué)習(xí)玩游戲。再下一步可能就是嘗試帶有更加復(fù)雜獎(jiǎng)勵(lì)結(jié)構(gòu)的任務(wù),無論是模擬還是在現(xiàn)實(shí)中嘗試。如果是有效數(shù)據(jù)足夠的學(xué)習(xí),那這些獎(jiǎng)勵(lì)可能會(huì)由人類直接提供。機(jī)器人運(yùn)動(dòng)或工業(yè)控制任務(wù)可能是做這些試驗(yàn)的天然候選選擇。

      6.安全探索

      有時(shí),所有的自動(dòng)化學(xué)習(xí)代理都需要進(jìn)行探索,根據(jù)給定的當(dāng)前信息,采取一些看起來并不理想的行動(dòng),但是,這些行動(dòng)將有助于代理從環(huán)境中進(jìn)行學(xué)習(xí)。不過,探索總是帶有風(fēng)險(xiǎn),畢竟代理并不十分了解行動(dòng)后果。在游戲的環(huán)境下,比如玩雅達(dá)利游戲,后果的負(fù)面影響有限。但是,在真實(shí)世界,后果可能不堪設(shè)想。比如,機(jī)器人直升機(jī)可能會(huì)撞擊地面,毀壞財(cái)物;工業(yè)控制系統(tǒng)的會(huì)引發(fā)更嚴(yán)重的后果。

      通常的探索策略,比如ε—貪心算法或者R-max,會(huì)隨機(jī)選擇行動(dòng)或者樂觀看待尚未探索過的行動(dòng),不會(huì)努力避免那些危險(xiǎn)情境。更成熟的探索策略采取了一種前后一致的探索策略,可能會(huì)造成更大的危害,因?yàn)榍昂筮B貫地選擇糟糕策略會(huì)比純粹的隨機(jī)行動(dòng)更陰險(xiǎn)。不過,從直覺上來說,似乎應(yīng)該能經(jīng)常預(yù)測(cè)行動(dòng)的危險(xiǎn)性并以避免危險(xiǎn)的方式行動(dòng),即使系統(tǒng)關(guān)于環(huán)境的知識(shí)并不完備。比如,只需一點(diǎn)有關(guān)老虎的先驗(yàn)知識(shí)(不用買只老虎,讀本關(guān)于老虎的書就可以了),就能決定哪個(gè)選擇更安全。

      實(shí)踐中,真實(shí)世界的強(qiáng)化學(xué)習(xí)項(xiàng)目時(shí)常可以避免這些問題,辦法就是簡單硬編碼避免災(zāi)難性行為。不過,這種解決方案奏效的前提是:出錯(cuò)的事情不多,而且設(shè)計(jì)人員提前知曉所有這些事情。當(dāng)代理變得越來越自動(dòng),行動(dòng)領(lǐng)域越來越復(fù)雜,我們就很難清晰預(yù)測(cè)出每一個(gè)可能發(fā)生的災(zāi)難性失敗。比如,運(yùn)行電網(wǎng)或者進(jìn)行搜索營救的代理,其失敗節(jié)點(diǎn)空間會(huì)非常大,通過硬編碼來應(yīng)對(duì)所有可能的失敗在這些類情況中并不可行。因此,關(guān)鍵是找到一條更加原則性的辦法來預(yù)防有害探索行為。即使在諸如機(jī)器人直升機(jī)這樣簡單的案例中,一個(gè)原則性辦法也會(huì)簡化系統(tǒng)設(shè)計(jì),減少對(duì)特定領(lǐng)域工程學(xué)的需要。

      目前,這方面的研究最多。這里,僅簡單描述一下這些研究所采用的一般研究路線,也建議了一些研究方向,隨著強(qiáng)化學(xué)習(xí)應(yīng)用范圍的擴(kuò)大和功能的提升,這些研究方向會(huì)變得日益相關(guān)。

      風(fēng)險(xiǎn)-敏感性表現(xiàn)標(biāo)準(zhǔn)(Risk-Sensitive Per formance Criteria):考慮改變優(yōu)化標(biāo)準(zhǔn)。

      使用示范(Use Demonstrations):近期在使用深度神經(jīng)網(wǎng)絡(luò)逆強(qiáng)化學(xué)習(xí)來學(xué)習(xí)成本函數(shù)或策略的研究中所取得的進(jìn)展表明,只用一小組示范進(jìn)行訓(xùn)練,就有可能減少對(duì)先進(jìn)強(qiáng)化學(xué)習(xí)系統(tǒng)探索行為的需求。這樣的示范可被用來創(chuàng)造基線策略,即使需要進(jìn)行更為深入的學(xué)習(xí),離開基線策略的探索也可以被限制在一定量級(jí)內(nèi)。

      模擬探索(Simulated Exploration):如果可以在模擬環(huán)境中進(jìn)行更多的探索,那么,留給災(zāi)難的機(jī)會(huì)也就更少。

      界限內(nèi)探索(Bounded Exploration:):如果我們知道狀態(tài)空間的某個(gè)部分是安全的,也知道發(fā)生在其中最糟糕的行動(dòng)也能得以恢復(fù),或者說造成的損失也是有限的,我們就能允許代理在那些邊界之內(nèi)自由運(yùn)行。

      信任策略監(jiān)督( Trusted Policy Oversight):如果有一個(gè)信任的策略以及一個(gè)環(huán)境模型,我們就可以將探索限制在信任策略認(rèn)為我們可以從中得以恢復(fù)的那些行動(dòng)上。

      人類監(jiān)督(Human Oversight):讓人來監(jiān)管潛在的不安全行為。

      可能的實(shí)驗(yàn)

      有一整套玩具環(huán)境可能會(huì)有幫助,在那里粗心代理可能會(huì)成為有害探索的犧牲品,但是那里有足夠的可能發(fā)生的災(zāi)難的圖案,聰明代理便可以預(yù)防它們。在一定程度上,這個(gè)特征已經(jīng)存在于無人直升機(jī)比賽和火星漫游模擬器,但是仍有特殊災(zāi)難的風(fēng)險(xiǎn),以致于訓(xùn)練過的代理會(huì)過擬合它們。一個(gè)真正廣泛的,包括概念上明顯陷阱的(可能導(dǎo)致粗心代理接收非常負(fù)面的獎(jiǎng)勵(lì)),并覆蓋實(shí)質(zhì)和抽象災(zāi)難的環(huán)境集,可能幫助高級(jí)強(qiáng)化學(xué)習(xí)系統(tǒng)安全探索技術(shù)的開發(fā)。這樣一套環(huán)境可能有與bAbI任務(wù)相似的基準(zhǔn)測(cè)試作用,它的最終目標(biāo)是發(fā)展一個(gè)可以在全套環(huán)境中學(xué)習(xí)避免災(zāi)難的單一構(gòu)架。

      7.針對(duì)分布變化的魯棒性(Robustnesstodistributionalshift)

      我們經(jīng)常會(huì)遇到這樣的情況,有限的經(jīng)驗(yàn)不足以應(yīng)對(duì)新情況,比如,去一個(gè)與自己生長環(huán)境文化截然不同的國家旅行。這種情況通常不容易搞定,也容易導(dǎo)致一些錯(cuò)誤。解決問題(當(dāng)然,很少有人可以做到)的關(guān)鍵之一就是承認(rèn)自己的無知,而不是過于自信地認(rèn)為先前的那些直覺可以勝任解決新情況。機(jī)器學(xué)習(xí)也存在這樣的問題。比如,打掃工廠地板的清潔機(jī)器人未必適用辦公室環(huán)境。也就是說,當(dāng)測(cè)試分布不同于訓(xùn)練分布時(shí),機(jī)器學(xué)習(xí)系統(tǒng)不僅表現(xiàn)很糟糕,而且還誤認(rèn)為自己表現(xiàn)不錯(cuò)。

      這些誤差可能會(huì)有害或者冒犯他人。比如,一個(gè)語言模型如果過于自信文本不存在問題,就有可能輸出冒犯他人的文本。而對(duì)于那些自動(dòng)化代理來說,潛在危害可能更大。比如,如果不正確地(但非常自信地)認(rèn)為某個(gè)地區(qū)電力不足,自動(dòng)化代理就會(huì)超載電網(wǎng)。更廣泛地來看,任何察知或啟發(fā)式推力過程的訓(xùn)練,沒有基于正確的分布,這樣的打理可能會(huì)錯(cuò)誤理解局勢(shì),犯下錯(cuò)誤,而自己根本沒意識(shí)到行為的危害。另外,如果那些系統(tǒng)遇到了迥然不同于訓(xùn)練數(shù)據(jù)的真實(shí)世界數(shù)據(jù),依賴訓(xùn)練過的機(jī)器學(xué)習(xí)系統(tǒng)的安全檢查也可能默默地失靈。對(duì)于打造安全、可預(yù)測(cè)的系統(tǒng)來說,找到一個(gè)更好的預(yù)測(cè)這些失敗的辦法、確保失敗發(fā)生頻率的統(tǒng)計(jì)可靠性,似乎非常關(guān)鍵。

      有各種領(lǐng)域都與這一問題潛在相關(guān),包括改變偵測(cè)和異常檢測(cè)、假設(shè)檢驗(yàn)、遷移學(xué)習(xí)等。不過,這里只描述幾個(gè)樣本方法,并指出這些方法的優(yōu)點(diǎn)和面臨的問題。

      規(guī)定好的模型:協(xié)變量變化以及邊際可能性(Well-specifiedmodels:covariateshiftandmarginallikelihood)。

      部分規(guī)定好模型:矩量法,無監(jiān)督風(fēng)險(xiǎn)評(píng)估,因果識(shí)別以及有限信息最大化可能性(Partiallyspecifiedmodels:methodofmoments,unsupervisedriskestimation,causalidentification,andlimited-informationmaximumlikelihood)。

      用多個(gè)分布進(jìn)行訓(xùn)練(Trainingonmultipledistributions)。

      離開分布時(shí),如何響應(yīng)(Howtorespondwhenout-of-distribution)。

      一個(gè)統(tǒng)一的觀點(diǎn):反事實(shí)推理以及帶有合同的機(jī)器學(xué)習(xí)(Aunifyingview:counterfactualreasoningandmachinelearningwithcontracts)。在某個(gè)意義上,分布變化可被視為一種特殊的反事實(shí),因此,了解了反事實(shí)推理就可能幫助打造面對(duì)分布變化也能穩(wěn)定的系統(tǒng)。另外,人們可能想構(gòu)建一個(gè)符合定義好的行為合同的機(jī)器學(xué)習(xí)系統(tǒng),類似設(shè)計(jì)軟件系統(tǒng)。

      總結(jié):

      部署在新測(cè)試分布中,表現(xiàn)也穩(wěn)定理想,打造這樣一種機(jī)器學(xué)習(xí)系統(tǒng)的方法各種各樣。其中一組方法就是以假定一個(gè)規(guī)定好的模型(well-specifiedmodel)為基礎(chǔ)的;在這種情況下,主要障礙是很難在實(shí)踐中打造出規(guī)定好的模型,也很難偵測(cè)到模型被錯(cuò)誤規(guī)定時(shí)的情況。

      另一組方法就是只假設(shè)一個(gè)部分規(guī)定好的模型(apartiallyspecifiedmodel);這個(gè)方法有前途,不過目前正苦于沒有在機(jī)器學(xué)習(xí)語境中展開研究,因?yàn)榇蠖鄶?shù)歷史研究都位于計(jì)量經(jīng)濟(jì)學(xué)領(lǐng)域;另外,也有這樣一個(gè)問題,部分規(guī)定好的模型是否從根本上受限于簡單情況以及/或者保守預(yù)測(cè),它們能否有意義地?cái)U(kuò)展到復(fù)雜情境當(dāng)中,這些復(fù)雜情境是現(xiàn)代機(jī)器學(xué)習(xí)應(yīng)用所要求的。

      最后,一個(gè)人可以試著在多個(gè)分布訓(xùn)練上進(jìn)行訓(xùn)練,希望同時(shí)在多個(gè)訓(xùn)練分布上表現(xiàn)良好的模型也能在新測(cè)試分布中表現(xiàn)良好;對(duì)于這一方法來說,特別重要的就是用迥然不同于任何一套訓(xùn)練分布的分布給所掌握的模型進(jìn)行應(yīng)激測(cè)試。除此之外,系統(tǒng)能夠預(yù)測(cè)出輸入太異常以至于無法進(jìn)行好的預(yù)測(cè)的時(shí)點(diǎn),仍然很重要。

      可能的實(shí)驗(yàn)

      當(dāng)離開分布時(shí),語音系統(tǒng)的校準(zhǔn)表現(xiàn)總是很糟糕,因此,一個(gè)知道「什么時(shí)候自己無法確定」的語音系統(tǒng)就有可能成為一個(gè)示范項(xiàng)目。這一項(xiàng)目的挑戰(zhàn)在于:用標(biāo)準(zhǔn)數(shù)據(jù)集來訓(xùn)練最先進(jìn)的語音系統(tǒng),讓其在其他測(cè)試數(shù)據(jù)集上(比如嘈雜并帶有口音的語音數(shù)據(jù)集)得到良好校準(zhǔn)過的結(jié)果。當(dāng)前系統(tǒng)不僅在這些測(cè)試集中表現(xiàn)糟糕,而且經(jīng)常對(duì)不正確的轉(zhuǎn)錄過分自信。解決這類問題而不損及最初訓(xùn)練集上的表現(xiàn),會(huì)是一項(xiàng)非常重要的成就,顯然,也相當(dāng)具有實(shí)踐價(jià)值。對(duì)于設(shè)計(jì)出能前后一致預(yù)測(cè)出其在異常測(cè)試分布中的表現(xiàn)的系統(tǒng)來說,也會(huì)非常有價(jià)值。如果一個(gè)單獨(dú)的方法論會(huì)在任何任務(wù)中前后一致地實(shí)現(xiàn)這一點(diǎn),那么,人們會(huì)越發(fā)自信:這是個(gè)解決異常輸入問題的可靠辦法。最后,它對(duì)創(chuàng)造這樣一個(gè)環(huán)境也很有價(jià)值:其中,強(qiáng)化學(xué)習(xí)代理必須學(xué)會(huì)解釋語音(某些更大任務(wù)的一部分),以及探索如何適當(dāng)響應(yīng)自身對(duì)轉(zhuǎn)錄誤差的估測(cè)。

      8.相關(guān)努力

      前文主要關(guān)注的是機(jī)器學(xué)習(xí)社區(qū)的事故研究情況,但是,其他幾個(gè)社區(qū)也有做著與人工智能安全有關(guān)的工作。比如,網(wǎng)絡(luò)-物理系統(tǒng)社區(qū),未來主義社區(qū)以及其他一些呼吁關(guān)注人工智能安全問題的文件。

      很多研究人員(無論是機(jī)器學(xué)領(lǐng)域還是其他領(lǐng)域)已經(jīng)開始思考人工智能技術(shù)的社會(huì)影響。出了直接從事事故研究,也有關(guān)注其他主題的研究,這些研究主題都與事故研究存在交叉的地方,或者說,彼此相關(guān)。這些主題包括(但不限于):隱私、公平(不歧視)、濫用、透明以及政策問題。

      9.結(jié)論

      這篇論文分析了機(jī)器學(xué)習(xí)系統(tǒng)可能發(fā)生的意外事件,而且特別分析了強(qiáng)化學(xué)習(xí)代理,其中,一次意外事故被定義為意外且具有害的行為,真實(shí)世界中的人工智能系統(tǒng)設(shè)計(jì)上的問題可能會(huì)引發(fā)這種有害行為。我們提出了五個(gè)可能與事故風(fēng)險(xiǎn)有關(guān)的研究問題,而且每個(gè)問題,我們都討論了可能的解決方案,這些解決方案都要經(jīng)得起實(shí)驗(yàn)工作的檢驗(yàn)。

      估測(cè)更大事故的風(fēng)險(xiǎn)就更困難了,但是我們相信研發(fā)一個(gè)原則性的、前瞻性的方法來解決安全問題是值得的,也是審慎的,隨著自動(dòng)化系統(tǒng)日益強(qiáng)大,安全問題會(huì)繼續(xù)與之密切相關(guān)。盡管許多當(dāng)下的安全問題能夠而且已經(jīng)以個(gè)案方式加以解決,但是,我們相信,日趨流行的端到端、全自動(dòng)化系統(tǒng)會(huì)指向這一需求:用一個(gè)統(tǒng)一的解決方案來防止這些系統(tǒng)引發(fā)意外傷害。

     

    (審核編輯: 滄海一土)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請(qǐng)聯(lián)系我們刪除。