【重磅】研究人工智能安全不再抽象：谷歌、OpenAI合著論文

2017-03-25 00:00:00

來源：網(wǎng)絡(luò)

點(diǎn)擊：770

A⁺ A^-

關(guān)鍵詞：人工智能,谷歌,OpenAI,安全

　　人工智能是善還是召喚惡魔？如今，對(duì)人工智能砸以重金的谷歌正試著走出一條中間道路。谷歌大腦、斯坦福、伯克利以及OpenAI研究人員合做并發(fā)布了一篇新論文，首次描述了研究人員必須予以研究的五個(gè)問題，讓未來的智能軟件更加安全。如果說之前大部分研究都是假設(shè)和推斷性的，那么，這篇論文表明對(duì)人工智能安全性的爭論可以更加具體化，也更富建設(shè)性。

　　今天，谷歌大腦、斯坦福、伯克利以及 OpenAI研究人員合作的新論文與大家見面了。文章首次探討了為了讓未來智能軟件更安全，研究人員必須研究的五個(gè)問題。論文作者之一，谷歌研究人員ChrisOlah說，之前大部分研究都是假設(shè)和推斷性的，但是，我們相信，將注意力錨定在真實(shí)的機(jī)器學(xué)習(xí)研究中，對(duì)于研發(fā)切實(shí)可行的方案來打造安全可靠的人工智能系統(tǒng)來說，必不可少。

　　之前谷歌已經(jīng)承諾會(huì)確保人工智能軟件不會(huì)造成意外后果。谷歌的第一篇相關(guān)論文，出自 Deep Mind。Demis Hassabis也召集了一個(gè)道德委員會(huì)來考慮人工智能可能的不利一面，不過沒有公布委員會(huì)名單。

　　艾倫人工智能研究所的 Oren Etzioni對(duì)谷歌新論文所列舉的解決方法表示歡迎。之前，他曾批評(píng)過人工智能危險(xiǎn)論的討論過于抽象。他說，谷歌列舉出的各種情況足夠具體，可以進(jìn)行真實(shí)的研究，即使我們?nèi)匀徊磺宄@些實(shí)驗(yàn)是否切實(shí)有用?！高@是正確的人問了正確的問題，至于正確的答案，由時(shí)間來揭曉?！?/p>

　　以下是這篇論文主要內(nèi)容：

　　摘要

　　機(jī)器學(xué)習(xí)和人工智能（AI）領(lǐng)域的快速進(jìn)步已經(jīng)引起了社會(huì)對(duì)人工智能潛在影響的廣泛關(guān)注。在這篇論文中，我們討論了這樣一種潛在的影響：機(jī)器學(xué)習(xí)系統(tǒng)出現(xiàn)事故的問題，具體定義為因真實(shí)世界人工智能系統(tǒng)的糟糕設(shè)計(jì)而導(dǎo)致的無意的傷害性行為。我們提出了與事故風(fēng)險(xiǎn)相關(guān)的五個(gè)實(shí)用的研究問題列表，它們的分類根據(jù)問題是否有錯(cuò)誤的目標(biāo)函數(shù)（「避免副作用」和「避免獎(jiǎng)勵(lì)黑客行為」）、經(jīng)常評(píng)估目標(biāo)函數(shù)的成本實(shí)在太高了（「可擴(kuò)展的監(jiān)督」、或在學(xué)習(xí)過程中的不良行為（「安全探索」和「分布變化」）。我們還回顧了這些領(lǐng)域之前的工作，并建議了側(cè)重于與前沿人工智能系統(tǒng)相關(guān)的研究方向。最后，我們考慮了這樣一個(gè)高層次問題：如何最高效地思考人工智能未來應(yīng)用的安全。

　　1.導(dǎo)語

　　過去幾年，人工智能飛速發(fā)展，并已經(jīng)在游戲、醫(yī)學(xué)、經(jīng)濟(jì)、科學(xué)和交通等許多領(lǐng)域取得了長足的發(fā)展，但隨之而來也出現(xiàn)了安全、隱私、公平、經(jīng)濟(jì)和軍事應(yīng)用上的擔(dān)憂。

　　本論文作者相信，人工智能技術(shù)很有可能將會(huì)給人類帶來整體的顛覆性好處，但我們也相信，嚴(yán)肅對(duì)待其可能帶來的風(fēng)險(xiǎn)和挑戰(zhàn)是非常值得的。我們強(qiáng)烈支持在隱私、安全、經(jīng)濟(jì)和政治方面的研究，但本論文關(guān)注的是另一種我們相信與人工智能的社會(huì)影響有關(guān)的問題：機(jī)器學(xué)習(xí)系統(tǒng)的事故問題。這里的事故定義為：當(dāng)我們指定了錯(cuò)誤的目標(biāo)函數(shù)時(shí)，機(jī)器學(xué)習(xí)系統(tǒng)可能無意產(chǎn)生的有害行為。這里沒有考慮學(xué)習(xí)過程或其它機(jī)器學(xué)習(xí)相關(guān)的實(shí)現(xiàn)錯(cuò)誤。

　　隨著人工智能能力的進(jìn)步和人工智能系統(tǒng)在社會(huì)功能上重要性的不斷增長，我們預(yù)計(jì)本論文所討論的難題和挑戰(zhàn)將變得越來越重要。人工智能和機(jī)器學(xué)習(xí)界在預(yù)測(cè)和理解這些挑戰(zhàn)上做得越成功，在開發(fā)越來越有用、重要的人工智能系統(tǒng)方面，我們就能做得越成功。

　　2.研究問題概述

　　從廣義上講，可將「事故」描述成：人類設(shè)計(jì)者心里想的特定目標(biāo)或任務(wù)在系統(tǒng)實(shí)際的設(shè)計(jì)或?qū)嵤┲惺。⒆罱K導(dǎo)致了某種有害結(jié)果的情況。我們可以將人工智能系統(tǒng)的安全問題根據(jù)其出錯(cuò)的位置進(jìn)行分類。

　　第一，當(dāng)設(shè)計(jì)者定義了錯(cuò)誤的目標(biāo)函數(shù)時(shí)，例如最大化了導(dǎo)致有害結(jié)果的目標(biāo)函數(shù)，我們有「不良副作用（第3節(jié)）」和「獎(jiǎng)勵(lì)黑客行為（第4節(jié)）」的問題?！覆涣几弊饔谩雇ǔＪ且?yàn)樵O(shè)計(jì)者在某個(gè)環(huán)境中設(shè)計(jì)實(shí)現(xiàn)某個(gè)特定目標(biāo)時(shí)忽略（通常忽略了很多）了環(huán)境中其它因素?！釜?jiǎng)勵(lì)黑客行為」則是由于設(shè)計(jì)者為了最大化系統(tǒng)的使用而寫下了「簡單的」目標(biāo)函數(shù)，但系統(tǒng)卻濫用了設(shè)計(jì)者的意圖（即：目標(biāo)函數(shù)可能會(huì)被耍花招）。

　　第二，設(shè)計(jì)者可能知道正確的目標(biāo)函數(shù)，或至少有方法評(píng)估它，但頻繁進(jìn)行這樣的操作具有很高的成本，而有限樣本的推斷可能會(huì)導(dǎo)致有害行為。「可擴(kuò)展的監(jiān)督（第 5節(jié)）」討論了這個(gè)問題。

　　第三，就算上面的問題得到了解決，設(shè)計(jì)者得到了合適的目標(biāo)，但因?yàn)闆Q策所基于的訓(xùn)練數(shù)據(jù)不充分或很糟糕或所使用的模型不能充分表達(dá)實(shí)際情況?！赴踩剿鳎ǖ?6節(jié)）」討論了如何確保強(qiáng)化學(xué)習(xí)代理的探索行為不會(huì)導(dǎo)致負(fù)面或無法挽回的結(jié)果?！阜植甲兓ǖ?節(jié)）」討論了如何在給出可能和訓(xùn)練數(shù)據(jù)非常不同的輸入時(shí)避免機(jī)器學(xué)習(xí)系統(tǒng)做出糟糕的決策（尤其是沉默和不可預(yù)知的錯(cuò)誤決策）。

　　為了將研究問題具體化，本論文引入了一個(gè)假想的清潔機(jī)器人，它的主要工作是使用常用的清潔工具打掃辦公室。下面我們應(yīng)用這個(gè)實(shí)例提出對(duì)上述挑戰(zhàn)的問題。

　　避免不良負(fù)面影響：我們?nèi)绾未_保我們的清潔機(jī)器人在追求自己的目標(biāo)時(shí)不會(huì)以一種負(fù)面的方式擾亂周圍環(huán)境，比如打翻一個(gè)花瓶，這樣它就能更快地清潔？如果不能用人工的方式確定機(jī)器人不應(yīng)該做的事情，我們能做到避免不良影響嗎？

　　避免獎(jiǎng)勵(lì)黑客行為：怎么確保清潔機(jī)器人不會(huì)在它的獎(jiǎng)勵(lì)函數(shù)上「?；ㄕ小梗勘热?，如果我們的獎(jiǎng)勵(lì)函數(shù)是當(dāng)該機(jī)器人清除了臟亂就獲得獎(jiǎng)勵(lì)，它可能就會(huì)關(guān)閉其視覺部件，這樣它就看不見任何臟亂了；或者用它無法看穿的材料將臟亂部分蓋住；又或者當(dāng)有人類在周圍時(shí)躲起來，這樣人類就不能告訴它哪里臟亂了。

　　可擴(kuò)展的監(jiān)督：我們可以怎樣確保該清潔機(jī)器人會(huì)考慮因?yàn)槌杀咎叨y以在訓(xùn)練過程中反復(fù)評(píng)估的目標(biāo)的各個(gè)方面？比如，它應(yīng)該扔掉不可能屬于任何人的東西，而放過那些可能屬于某人的東西（它應(yīng)該區(qū)別對(duì)待亂放的糖果包裝和亂放的手機(jī)）。詢問人類他們是否丟掉了什么可以對(duì)其進(jìn)行檢查，但這種檢查必須要相對(duì)不那么頻繁——這個(gè)機(jī)器人能在有限的信息下找到正確做事的方法嗎？

　　安全探索：我們?cè)趺创_保該清潔機(jī)器人不會(huì)做出有非常負(fù)面影響的探索？比如，該機(jī)器人應(yīng)該實(shí)驗(yàn)拖地策略，但將濕拖布放到電插頭上是件糟糕的事。

　　針對(duì)分布變化的穩(wěn)健性：當(dāng)使用環(huán)境不同于訓(xùn)練環(huán)境時(shí)，我們?nèi)绾未_保該清潔機(jī)器人能穩(wěn)健地識(shí)別和行為？比如，其從清潔工廠車間中學(xué)到的啟發(fā)，可能對(duì)辦公室環(huán)境來說可能是相當(dāng)危險(xiǎn)的。

　　在解決這些安全問題上，有一些很重要的趨勢(shì)。

　　一是強(qiáng)化學(xué)習(xí)，其能與環(huán)境產(chǎn)生高度交織的相互作用。我們的一些研究問題可在強(qiáng)化學(xué)習(xí)中受益，另一些（分布變化和可擴(kuò)展監(jiān)督）則在強(qiáng)化學(xué)習(xí)的設(shè)置中會(huì)引起復(fù)雜度的上升。

　　二是代理和環(huán)境的復(fù)雜度都在上升?！父弊饔谩垢赡茉趶?fù)雜環(huán)境中出現(xiàn)，應(yīng)對(duì)這樣的環(huán)境的代理也必然需要相當(dāng)復(fù)雜。這方面的研究還較少，但未來必然會(huì)越來越多，也越來越重要。

　　三是人工智能系統(tǒng)實(shí)現(xiàn)自動(dòng)化的大趨勢(shì)。只存在于軟件層面的人工智能（做推薦或識(shí)別照片）造成潛在危害的可能性較小，隨著人工智能開始進(jìn)入物理世界，例如工業(yè)過程中的機(jī)器人，它們就可能會(huì)以某種人類無法糾正或監(jiān)管的方式帶來傷害。

　　3.避免不良副作用

　　對(duì)于在大型的多特性環(huán)境中工作的代理而言，只關(guān)注環(huán)境某一方面的目標(biāo)函數(shù)可能會(huì)讓其忽視環(huán)境的其它方面。代理會(huì)優(yōu)化自己的目標(biāo)函數(shù)，從而可能導(dǎo)致對(duì)更大的環(huán)境產(chǎn)生重大的影響，而這樣做也許甚至只能為當(dāng)前任務(wù)提供一點(diǎn)微小的優(yōu)勢(shì)。換言之，描述「執(zhí)行任務(wù) X」的目標(biāo)函數(shù)可能會(huì)常常給出意料之外的結(jié)果，因?yàn)樵O(shè)計(jì)者的真正意思往往是「在環(huán)境的常識(shí)性限制條件下執(zhí)行任務(wù)X」或「執(zhí)行任務(wù)X但盡可能地避免副作用」。

　　我們現(xiàn)在討論一些廣泛的應(yīng)對(duì)這個(gè)問題的方法：

　　定義一個(gè)影響正則化矩陣（Regularizer）：如果你不想要副作用，懲罰「對(duì)環(huán)境的改變」似乎是個(gè)很自然的方法。這個(gè)方法不能阻止代理產(chǎn)生影響，但能讓它以一種傾向于最小副作用的方式來實(shí)現(xiàn)目標(biāo)。這個(gè)方法的難點(diǎn)在于如何形式化「對(duì)環(huán)境的改變」。一個(gè)非常樸素的方法是懲罰當(dāng)前狀態(tài)si和某個(gè)初始狀態(tài)s0之間的狀態(tài)距離d(si，s0).但這種方法也會(huì)影響到有益的變化。

　　稍微復(fù)雜一點(diǎn)的方法可能涉及到代理當(dāng)前策略下的未來狀態(tài)和行為非常被動(dòng)的假設(shè)策略 π（如，機(jī)器人只是站著不動(dòng)）下的未來狀態(tài)（或狀態(tài)分布）的比較。這種方法嘗試剔除環(huán)境演化的自然過程，僅留下來自代理的干預(yù)的變化。

　　學(xué)習(xí)一個(gè)影響正則化矩陣：通過許多任務(wù)進(jìn)行學(xué)習(xí)比直接定義的方式更靈活。這是遷移學(xué)習(xí)（ transferlearning）的一個(gè)實(shí)例。我們可以將副作用組分和任務(wù)組分分開，并用分別的參數(shù)訓(xùn)練它們。

　　懲罰影響(PenalizeInfluence)：除了避免做會(huì)產(chǎn)生副作用的事，我們也許更傾向于不讓代理處在容易那些有副作用的事的位置上。比如，我們可能希望清潔機(jī)器人不要把水帶進(jìn)滿是敏感電子器件的房間里，即使它從未打算在那個(gè)房間里使用水。

　　有一些信息論的方法嘗試獲取一個(gè)代理潛在的對(duì)環(huán)境的影響，這常被用作內(nèi)在獎(jiǎng)勵(lì)（ intrinsicrewards）。也許這種方法中最好的是授權(quán)（empowerment）——代理的潛在未來動(dòng)作和其潛在的未來狀態(tài)之間的最大可能的相互信息。作為內(nèi)部獎(jiǎng)勵(lì)的授權(quán)通常是最大化的。通常情況下，授權(quán)最大化（empowerment-maximizing）的代理將它們放在對(duì)環(huán)境有最大影響的位置上。

　　盡管還存在一些問題，授權(quán)（empowerment）的例子說明簡單的方法（甚至純粹的信息論方法）就能夠獲取對(duì)環(huán)境的影響的非常普遍的概念。探索能更精確獲取避免影響的概念的授權(quán)懲罰（empowermentpenalization）的變體是未來研究的一個(gè)潛在挑戰(zhàn)。

　　多代理方法：我們要做的是了解其他代理（包括人類），并確保我們的行為不會(huì)傷害到它們。我們對(duì)此的一種方法是合作逆強(qiáng)化學(xué)習(xí)（Cooperative Inverse Rein for cement Learning），其中代理和人類合作以實(shí)現(xiàn)人類的目標(biāo)。但我們還遠(yuǎn)不能夠打造可以產(chǎn)生能避免意外的副作用的足夠豐富的模型的系統(tǒng)。

　　另一種方法可能是獎(jiǎng)勵(lì)自編碼器（reward autoencoder），這種方式嘗試推動(dòng)某種形式的「目標(biāo)透明」，讓外部觀察者可以輕松推斷該代理想要做什么。

　　獎(jiǎng)勵(lì)不確定性：我們嘗試避免預(yù)料之外的副作用，因?yàn)槲覀兊沫h(huán)境已經(jīng)相當(dāng)好了——隨機(jī)的改變很可能會(huì)更糟。不是給代理一個(gè)單一的獎(jiǎng)勵(lì)函數(shù)，而是給其不確定的獎(jiǎng)勵(lì)函數(shù)，其帶有一個(gè)先驗(yàn)的概率分布，該分布反映了隨機(jī)改變更可能會(huì)是糟糕的，而不是更好的。

　　可能的實(shí)驗(yàn)：

　　一個(gè)可能的實(shí)驗(yàn)是使用一些簡單的目標(biāo)（如移動(dòng)一個(gè)方塊）和種類多樣的障礙（如一堆花瓶）制作玩具環(huán)境，然后測(cè)試代理是否能在沒有被明確告知地情況下避開這些障礙。為了確保我們不會(huì)過擬合，我們可能會(huì)想要在每一個(gè)片段都呈現(xiàn)一個(gè)不同的隨機(jī)障礙，然后看一個(gè)規(guī)范化的代理是否能學(xué)習(xí)系統(tǒng)性地避開這些障礙。一些在參考文獻(xiàn)[101]中描述的環(huán)境包含了熔巖流、房間和鑰匙，可能適合用于這樣的實(shí)驗(yàn)。如果我們可以成功在一個(gè)玩具環(huán)境中調(diào)制好代理，那么下一步就可以移到真實(shí)環(huán)境中——這里復(fù)雜度更高，負(fù)面副作用也會(huì)更多樣化。最終，我們想要副作用正則化矩陣（sideeffectregularizer，或多代理策略——如果我們采用那種方法）能夠成功轉(zhuǎn)移到一個(gè)全新的新應(yīng)用中。

　　4.避免獎(jiǎng)勵(lì)黑客行為

　　想象一個(gè)代理在其獎(jiǎng)勵(lì)函數(shù)中發(fā)現(xiàn)了緩存溢出（Bufferoverflow）：它就可能使用其以一種無意識(shí)的方式獲得非常高的獎(jiǎng)勵(lì)。從代理的視角上看，這不是漏洞，而只是環(huán)境的工作方式，也因此是一個(gè)獲得獎(jiǎng)勵(lì)的可行策略。比如，如果一個(gè)清潔機(jī)器人通過清理臟亂獲得獎(jiǎng)勵(lì)，它就可能故意創(chuàng)造臟亂來進(jìn)行清理以便獲得更多獎(jiǎng)勵(lì)。更一般而言，形式上的獎(jiǎng)勵(lì)或目標(biāo)函數(shù)是設(shè)計(jì)者非形式的意圖的體現(xiàn)，而有時(shí)候解決方案可能會(huì)以非設(shè)計(jì)者意圖的字面上的理解而在這些目標(biāo)函數(shù)或它們的實(shí)現(xiàn)中「?；ㄕ小?。對(duì)這些「獎(jiǎng)勵(lì)黑客行為」的追求可能會(huì)導(dǎo)致一致但出乎意料的行為，這在真實(shí)世界系統(tǒng)中可能是有害的。

　　有一些獎(jiǎng)勵(lì)黑客行為（rewardhacking）已經(jīng)在理論上被調(diào)查過了。獎(jiǎng)勵(lì)黑客行為跨很多領(lǐng)域，說明獎(jiǎng)勵(lì)黑客行為是一個(gè)深度的常見的問題，隨著代理所應(yīng)對(duì)的環(huán)境越來越復(fù)雜，這種情況也會(huì)越來越顯著。下面是幾種這個(gè)問題可能發(fā)生的方式：

　　部分可觀察的目標(biāo)：在真正世界的任務(wù)中，往往涉及到將外部世界引進(jìn)某種目標(biāo)狀態(tài)，這往往只能通過代理的不完善的看法確定。因?yàn)榇砣狈?duì)任務(wù)表現(xiàn)的完美測(cè)量，設(shè)計(jì)者只能設(shè)計(jì)片面的或不完善的測(cè)量。而代理就可能會(huì)曲解這種片面性。

　　復(fù)雜系統(tǒng)：任何一個(gè)強(qiáng)大的代理都是一個(gè)帶有目標(biāo)函數(shù)的復(fù)雜系統(tǒng)。系統(tǒng)越復(fù)雜，漏洞出現(xiàn)的可能性就越高。

　　抽象獎(jiǎng)勵(lì)：復(fù)雜的獎(jiǎng)勵(lì)函數(shù)需要指向抽象的概念（例如評(píng)估一個(gè)概念化的目標(biāo)是否被實(shí)現(xiàn)。這些概念可能需要通過神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，而其在對(duì)抗性的反例面前是脆弱的。

　　環(huán)境嵌入（Environmental Embedding）：在強(qiáng)化學(xué)習(xí)形式中，獎(jiǎng)勵(lì)被認(rèn)為來自于環(huán)境。這個(gè)概念通常不能在字面上理解，但獎(jiǎng)勵(lì)確實(shí)需要在某些地方進(jìn)行計(jì)算，例如傳感器或一組晶體管中。足夠廣泛的工作中大代理原則上可以修改他們的獎(jiǎng)勵(lì)實(shí)現(xiàn)，「依法」分配給它們自己高獎(jiǎng)勵(lì)。實(shí)際上這意味著我們不能構(gòu)建一個(gè)抽象目標(biāo)函數(shù)的完美可信的實(shí)現(xiàn)，因?yàn)榇嬖谔囟ǖ膭?dòng)作序列使目標(biāo)函數(shù)可在物理上被替代。當(dāng)人類處于獎(jiǎng)勵(lì)回路中時(shí)，這種情況尤其令人擔(dān)憂，因?yàn)榇砜赡軙?huì)為了更高的獎(jiǎng)勵(lì)而脅迫或傷害他們。

　　古德哈特定律（Goodhart‘slaw）：如果設(shè)計(jì)者選擇一個(gè)看起來和實(shí)現(xiàn)目標(biāo)高度關(guān)聯(lián)的目標(biāo)函數(shù)，但當(dāng)該目標(biāo)函數(shù)被高度優(yōu)化時(shí)該關(guān)聯(lián)就會(huì)破裂，那么就可能出現(xiàn)獎(jiǎng)勵(lì)黑客行為。比如設(shè)計(jì)者可能觀察到清潔機(jī)器人的清潔效果和其所使用的情節(jié)資源成正比；而如果將其作為獎(jiǎng)勵(lì)手段，就可能消耗超過所需的資源。在經(jīng)濟(jì)學(xué)上，這被稱為古德哈特定律：「當(dāng)一個(gè)指標(biāo)變成目標(biāo)，它將不再是一個(gè)好的指標(biāo)（whenametricisusedasatarget，itceasestobeagoodmetric）。」

　　反饋回路：有時(shí)候目標(biāo)函數(shù)有一個(gè)強(qiáng)化自己的組分，最終能使其脫離設(shè)計(jì)者設(shè)計(jì)的目標(biāo)函數(shù)范圍。

　　在今天的簡單系統(tǒng)中這些問題可能還不會(huì)發(fā)生，就算發(fā)生也很容易得到解決。但隨著獎(jiǎng)勵(lì)函數(shù)和代理的系統(tǒng)復(fù)雜度的上升，問題會(huì)越來越嚴(yán)重。一旦一個(gè)代理開始控制自己的獎(jiǎng)勵(lì)函數(shù)并尋找獲得獎(jiǎng)勵(lì)的簡單方法，它就不會(huì)停止。長時(shí)間運(yùn)行的代理可能還會(huì)有額外的挑戰(zhàn)。這里我們提出了一些初步的、基于機(jī)器學(xué)習(xí)的防止獎(jiǎng)勵(lì)黑客行為的方法：

　　對(duì)抗性獎(jiǎng)勵(lì)函數(shù)（Adversarial Reward Functions）：如果獎(jiǎng)勵(lì)函數(shù)有自己的代理并能采取行動(dòng)探索環(huán)境，那么它可能就難以被愚弄。

　　模型預(yù)測(cè)（Model Lookahead）：在一些設(shè)置中，我們可以基于預(yù)測(cè)的未來狀態(tài)，而不是當(dāng)前狀態(tài)，提供獎(jiǎng)勵(lì)。

　　對(duì)抗性致盲（Adversarial Blinding）：對(duì)抗性技術(shù)可用來讓模型無法看到一些特定的參數(shù)，從而讓代理無法理解世界的某些部分，如果這部分和獎(jiǎng)勵(lì)相關(guān)，它就不能理解獎(jiǎng)勵(lì)生成的方式。

　　細(xì)心的工程開發(fā)：像緩存溢出（bufferoverflow）這樣的獎(jiǎng)勵(lì)黑客行為可以在細(xì)心的工程開發(fā)中被發(fā)現(xiàn)并得到解決。

　　獎(jiǎng)勵(lì)覆蓋（Reward Capping）：在一些情況下，簡單地覆蓋最大可能的獎(jiǎng)勵(lì)就可能得到一個(gè)高效的解決方案。但盡管覆蓋能阻止一些低可能性的高獎(jiǎng)勵(lì)策略，但卻不能阻止清潔機(jī)器人閉上眼睛不看臟亂的情況。另外，正確的覆蓋策略也很微妙。

　　反例阻抗（Counterexample Resistance）：如果我們擔(dān)憂我們系統(tǒng)的組分在對(duì)抗性反例是脆弱的，我們可以用對(duì)抗性訓(xùn)練（adversarialtraining）等已有的研究來對(duì)付它。架構(gòu)決策和權(quán)重不確定性可能也有用。

　　多獎(jiǎng)勵(lì)：多個(gè)獎(jiǎng)勵(lì)的組合可能會(huì)更加穩(wěn)健，難以被操控。

　　獎(jiǎng)勵(lì)預(yù)訓(xùn)練：針對(duì)代理可能影響自己的獎(jiǎng)勵(lì)函數(shù)的情況（如反饋和環(huán)境嵌入），可以事先訓(xùn)練一個(gè)固定的獎(jiǎng)勵(lì)函數(shù)，因?yàn)橐粋€(gè)監(jiān)督學(xué)習(xí)過程可以將與環(huán)境的交互分開。

　　絆線(tripwires)：如果一個(gè)代理嘗試操控自己的獎(jiǎng)勵(lì)函數(shù)，我們最好能知道這一點(diǎn)。我們可以故意引入一些可用的漏洞來監(jiān)控它們，一旦出現(xiàn)問題，我們就可以馬上阻止。

　　完全解決這個(gè)問題是很困難的，但我們相信上面的方法能夠改善它，也可能結(jié)合起來產(chǎn)生更穩(wěn)健的解決方案。

　　可能的實(shí)驗(yàn)：

　　一種可能的方法路徑是參考文獻(xiàn) 中描述的delusionbox環(huán)境的更現(xiàn)實(shí)的版本，其中標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)代理扭曲它們自身的感知以表現(xiàn)能實(shí)現(xiàn)高獎(jiǎng)勵(lì)，而不是優(yōu)化獎(jiǎng)勵(lì)信號(hào)是用來起激勵(lì)作用的外部世界中的目標(biāo)。delusionbox可以輕松連接到任何強(qiáng)化學(xué)習(xí)環(huán)境，但更有價(jià)值的是創(chuàng)造不同種類的環(huán)境，其中delusionbox是一個(gè)自然的集成化的動(dòng)態(tài)組件。比如，在足夠豐富的物理學(xué)模擬中，一個(gè)代理很有可能會(huì)修改其近鄰處的光波，從而扭曲自己的感知。這里的目標(biāo)是開發(fā)一種可概括的學(xué)習(xí)策略，使之能在各種廣泛的環(huán)境中優(yōu)化外部目標(biāo)，同時(shí)還能避免被以多種不同方式自然產(chǎn)生的delusionbox愚弄。

　　5.可擴(kuò)展的監(jiān)督

　　考慮到讓一個(gè)自動(dòng)代理完成一些復(fù)雜的任務(wù)，比如我們經(jīng)常使用機(jī)器人清掃辦公室，我們可能想要這個(gè)代理最大化能完成的復(fù)雜目標(biāo)，像是「如果用戶花費(fèi)幾個(gè)小時(shí)詳細(xì)地查看結(jié)果，那他們對(duì)代理的表現(xiàn)有多高興呢？」但我們沒有足夠時(shí)間為每一個(gè)訓(xùn)練樣本提供這樣的監(jiān)督。為了實(shí)際地訓(xùn)練代理，我們需要依靠廉價(jià)的近似結(jié)果，像是「當(dāng)用戶看到辦公室時(shí)看起來會(huì)高興嗎？」或者「地板上有可見的灰塵嗎？」這些廉價(jià)的信號(hào)在訓(xùn)練的過程中能被高效地評(píng)估，但并非完美的達(dá)到我們想要的成果。這種發(fā)散加重了意外副作用（這可能被復(fù)雜目標(biāo)適當(dāng)?shù)膽土P，但也可能從廉價(jià)近似中漏掉）和 rewardhacking（完全的監(jiān)督可能認(rèn)為是不受歡迎的）這樣的問題。我們可能通過找到更多開拓有限監(jiān)督預(yù)算的有效方式來減緩這樣的問題，例如將真目標(biāo)函數(shù)的有限調(diào)用（limitedcall）與我們給定的或能學(xué)到的一個(gè)不完美代理（proxy）的高頻調(diào)用結(jié)合起來。

　　一個(gè)有關(guān)這一問題的框架是半監(jiān)督強(qiáng)化學(xué)習(xí)，它類似于普通的強(qiáng)化學(xué)習(xí)，除了代理僅能在時(shí)間步驟或片段的一小部分上看到其獎(jiǎng)勵(lì)。代理的性能依然是基于所有片段的獎(jiǎng)勵(lì)進(jìn)行評(píng)估的，但它必須要基于它能看到的有限獎(jiǎng)勵(lì)樣本對(duì)其進(jìn)行優(yōu)化。

　　我們能夠想象很多半監(jiān)督強(qiáng)化學(xué)習(xí)的可能途徑，例如：

　　監(jiān)督式獎(jiǎng)勵(lì)學(xué)習(xí)（Supervisedreward learning）：訓(xùn)練一個(gè)模型從每一個(gè)時(shí)間步驟基礎(chǔ)或每一個(gè)片段基礎(chǔ)狀態(tài)預(yù)測(cè)回報(bào)，然后用其估算非標(biāo)記片段的報(bào)酬，一些適當(dāng)?shù)臋?quán)重或不確定的評(píng)估在估算回報(bào)vs已知回報(bào)中，會(huì)被當(dāng)成低置信度。研究把人類的直接反饋?zhàn)鳛榛貓?bào)的版本時(shí)，很多已有的強(qiáng)化學(xué)習(xí)方法已經(jīng)擬合類似回報(bào)預(yù)測(cè)器的評(píng)估器（estimator）了（尤其帶有強(qiáng)基線的策略梯度方法），這表明這一方法有顯著的可行性。

　　半監(jiān)督或者主動(dòng)獎(jiǎng)勵(lì)學(xué)習(xí)：將上面的方法和傳統(tǒng)的半監(jiān)督或者主動(dòng)學(xué)習(xí)結(jié)合起來，能更快的學(xué)習(xí)獎(jiǎng)勵(lì)估計(jì)量。例如，代理能學(xué)習(xí)識(shí)別環(huán)境中的「salient」事件，并要求查看關(guān)于這些事件的獎(jiǎng)勵(lì)。

　　無監(jiān)督值迭代：使用觀測(cè)到的無標(biāo)記片段的轉(zhuǎn)變（ transitons）做更加準(zhǔn)確的Bellman修正（update）。

　　無監(jiān)督模型學(xué)習(xí)：如果使用基于模型的強(qiáng)化學(xué)習(xí)，可以用觀測(cè)到的無標(biāo)記片段的轉(zhuǎn)變改善模型的質(zhì)量。

　　半監(jiān)督強(qiáng)化學(xué)習(xí)的一個(gè)有效途徑可能是朝著提供可擴(kuò)展的監(jiān)督和減緩其他人工智能安全問題之路上邁出的強(qiáng)有力的第一步。這也可能有助于強(qiáng)化學(xué)習(xí)，使其不受安全相關(guān)問題的約束。這里還有其他擴(kuò)展監(jiān)督的可能途徑。

　　遠(yuǎn)程監(jiān)督。除了提供對(duì)一小部分系統(tǒng)決策的評(píng)估，我們也能提供一些與集群中系統(tǒng)決策有關(guān)的有用信息，或提供一些關(guān)于準(zhǔn)確評(píng)估的噪聲暗示。在半監(jiān)督或弱監(jiān)督學(xué)習(xí)領(lǐng)域，這個(gè)方向已經(jīng)有了一些研究。這一普通的方法總被稱為遠(yuǎn)程監(jiān)督（distantsupervision），它在自然語言處理社區(qū)近期也受到了關(guān)注。擴(kuò)展這些研究的線路以及尋找將其應(yīng)用到代理案例中的方法（這里的反饋更具交互性，也可能違反了i.d.d假設(shè)），能為可擴(kuò)展監(jiān)督提供一個(gè)途徑，補(bǔ)充半監(jiān)督強(qiáng)化學(xué)習(xí)中的監(jiān)督途徑。

　　分層強(qiáng)化學(xué)習(xí)。分層強(qiáng)化學(xué)習(xí)為可擴(kuò)展監(jiān)督提供了另一途徑。這里，一個(gè)頂層代理花費(fèi)相當(dāng)小量的，在大型時(shí)間、空間規(guī)模上擴(kuò)展的高度抽象的動(dòng)作，并能在相似長度的時(shí)間規(guī)模上獲取獎(jiǎng)勵(lì)。代理通過將動(dòng)作委派給子代理完成全部動(dòng)作，它能給予一個(gè)合成的獎(jiǎng)勵(lì)信號(hào)作為鼓勵(lì)，代表這一動(dòng)作的準(zhǔn)確完成，而且它們自己也能委任下一級(jí)子代理。在最低層，代理會(huì)直接采用環(huán)境中最原始的動(dòng)作?？雌饋?，分層強(qiáng)化學(xué)習(xí)是一個(gè)特別有前途的監(jiān)督途徑，特別是在將分層強(qiáng)化學(xué)習(xí)的思路和神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器結(jié)合起來之后。

　　可能的實(shí)驗(yàn)

　　一個(gè)非常簡單的實(shí)驗(yàn)可能是在一些基礎(chǔ)控制環(huán)境中嘗試半監(jiān)督強(qiáng)化學(xué)習(xí)，比如，cartpolebalance或者pendulumswing-up。如果只有隨機(jī)的10%的片段上的獎(jiǎng)勵(lì)被提供，我們?nèi)阅芟氡惶峁┤科文菢涌焖俚膶W(xué)習(xí)嗎？在這樣的任務(wù)中，獎(jiǎng)勵(lì)結(jié)構(gòu)非常的簡單，所以成果也應(yīng)該相當(dāng)類似。下一步可能就是在Atari游戲上做同樣的嘗試。這里主動(dòng)學(xué)習(xí)案例可能相當(dāng)有趣，可能從少數(shù)精心要求的樣本（例如，在太空侵略者游戲中，所有的敵方艦隊(duì)全被炸掉的畫面）就能推斷出獎(jiǎng)勵(lì)結(jié)構(gòu)，因此能以幾乎全部非監(jiān)督的方式學(xué)習(xí)玩游戲。再下一步可能就是嘗試帶有更加復(fù)雜獎(jiǎng)勵(lì)結(jié)構(gòu)的任務(wù)，無論是模擬還是在現(xiàn)實(shí)中嘗試。如果是有效數(shù)據(jù)足夠的學(xué)習(xí)，那這些獎(jiǎng)勵(lì)可能會(huì)由人類直接提供。機(jī)器人運(yùn)動(dòng)或工業(yè)控制任務(wù)可能是做這些試驗(yàn)的天然候選選擇。

　　6.安全探索

　　有時(shí)，所有的自動(dòng)化學(xué)習(xí)代理都需要進(jìn)行探索，根據(jù)給定的當(dāng)前信息，采取一些看起來并不理想的行動(dòng)，但是，這些行動(dòng)將有助于代理從環(huán)境中進(jìn)行學(xué)習(xí)。不過，探索總是帶有風(fēng)險(xiǎn)，畢竟代理并不十分了解行動(dòng)后果。在游戲的環(huán)境下，比如玩雅達(dá)利游戲，后果的負(fù)面影響有限。但是，在真實(shí)世界，后果可能不堪設(shè)想。比如，機(jī)器人直升機(jī)可能會(huì)撞擊地面，毀壞財(cái)物；工業(yè)控制系統(tǒng)的會(huì)引發(fā)更嚴(yán)重的后果。

　　通常的探索策略，比如ε—貪心算法或者R-max，會(huì)隨機(jī)選擇行動(dòng)或者樂觀看待尚未探索過的行動(dòng)，不會(huì)努力避免那些危險(xiǎn)情境。更成熟的探索策略采取了一種前后一致的探索策略，可能會(huì)造成更大的危害，因?yàn)榍昂筮B貫地選擇糟糕策略會(huì)比純粹的隨機(jī)行動(dòng)更陰險(xiǎn)。不過，從直覺上來說，似乎應(yīng)該能經(jīng)常預(yù)測(cè)行動(dòng)的危險(xiǎn)性并以避免危險(xiǎn)的方式行動(dòng)，即使系統(tǒng)關(guān)于環(huán)境的知識(shí)并不完備。比如，只需一點(diǎn)有關(guān)老虎的先驗(yàn)知識(shí)（不用買只老虎，讀本關(guān)于老虎的書就可以了），就能決定哪個(gè)選擇更安全。

　　實(shí)踐中，真實(shí)世界的強(qiáng)化學(xué)習(xí)項(xiàng)目時(shí)常可以避免這些問題，辦法就是簡單硬編碼避免災(zāi)難性行為。不過，這種解決方案奏效的前提是：出錯(cuò)的事情不多，而且設(shè)計(jì)人員提前知曉所有這些事情。當(dāng)代理變得越來越自動(dòng)，行動(dòng)領(lǐng)域越來越復(fù)雜，我們就很難清晰預(yù)測(cè)出每一個(gè)可能發(fā)生的災(zāi)難性失敗。比如，運(yùn)行電網(wǎng)或者進(jìn)行搜索營救的代理，其失敗節(jié)點(diǎn)空間會(huì)非常大，通過硬編碼來應(yīng)對(duì)所有可能的失敗在這些類情況中并不可行。因此，關(guān)鍵是找到一條更加原則性的辦法來預(yù)防有害探索行為。即使在諸如機(jī)器人直升機(jī)這樣簡單的案例中，一個(gè)原則性辦法也會(huì)簡化系統(tǒng)設(shè)計(jì)，減少對(duì)特定領(lǐng)域工程學(xué)的需要。

　　目前，這方面的研究最多。這里，僅簡單描述一下這些研究所采用的一般研究路線，也建議了一些研究方向，隨著強(qiáng)化學(xué)習(xí)應(yīng)用范圍的擴(kuò)大和功能的提升，這些研究方向會(huì)變得日益相關(guān)。

　　風(fēng)險(xiǎn)-敏感性表現(xiàn)標(biāo)準(zhǔn)（Risk-Sensitive Per formance Criteria）：考慮改變優(yōu)化標(biāo)準(zhǔn)。

　　使用示范（Use Demonstrations）：近期在使用深度神經(jīng)網(wǎng)絡(luò)逆強(qiáng)化學(xué)習(xí)來學(xué)習(xí)成本函數(shù)或策略的研究中所取得的進(jìn)展表明，只用一小組示范進(jìn)行訓(xùn)練，就有可能減少對(duì)先進(jìn)強(qiáng)化學(xué)習(xí)系統(tǒng)探索行為的需求。這樣的示范可被用來創(chuàng)造基線策略，即使需要進(jìn)行更為深入的學(xué)習(xí)，離開基線策略的探索也可以被限制在一定量級(jí)內(nèi)。

　　模擬探索（Simulated Exploration）：如果可以在模擬環(huán)境中進(jìn)行更多的探索，那么，留給災(zāi)難的機(jī)會(huì)也就更少。

　　界限內(nèi)探索（Bounded Exploration：）：如果我們知道狀態(tài)空間的某個(gè)部分是安全的，也知道發(fā)生在其中最糟糕的行動(dòng)也能得以恢復(fù)，或者說造成的損失也是有限的，我們就能允許代理在那些邊界之內(nèi)自由運(yùn)行。

　　信任策略監(jiān)督（ Trusted Policy Oversight）：如果有一個(gè)信任的策略以及一個(gè)環(huán)境模型，我們就可以將探索限制在信任策略認(rèn)為我們可以從中得以恢復(fù)的那些行動(dòng)上。

　　人類監(jiān)督（Human Oversight）：讓人來監(jiān)管潛在的不安全行為。

　　可能的實(shí)驗(yàn)

　　有一整套玩具環(huán)境可能會(huì)有幫助，在那里粗心代理可能會(huì)成為有害探索的犧牲品，但是那里有足夠的可能發(fā)生的災(zāi)難的圖案，聰明代理便可以預(yù)防它們。在一定程度上，這個(gè)特征已經(jīng)存在于無人直升機(jī)比賽和火星漫游模擬器，但是仍有特殊災(zāi)難的風(fēng)險(xiǎn)，以致于訓(xùn)練過的代理會(huì)過擬合它們。一個(gè)真正廣泛的，包括概念上明顯陷阱的（可能導(dǎo)致粗心代理接收非常負(fù)面的獎(jiǎng)勵(lì)），并覆蓋實(shí)質(zhì)和抽象災(zāi)難的環(huán)境集，可能幫助高級(jí)強(qiáng)化學(xué)習(xí)系統(tǒng)安全探索技術(shù)的開發(fā)。這樣一套環(huán)境可能有與bAbI任務(wù)相似的基準(zhǔn)測(cè)試作用，它的最終目標(biāo)是發(fā)展一個(gè)可以在全套環(huán)境中學(xué)習(xí)避免災(zāi)難的單一構(gòu)架。

　　7.針對(duì)分布變化的魯棒性（Robustnesstodistributionalshift）

　　我們經(jīng)常會(huì)遇到這樣的情況，有限的經(jīng)驗(yàn)不足以應(yīng)對(duì)新情況，比如，去一個(gè)與自己生長環(huán)境文化截然不同的國家旅行。這種情況通常不容易搞定，也容易導(dǎo)致一些錯(cuò)誤。解決問題（當(dāng)然，很少有人可以做到）的關(guān)鍵之一就是承認(rèn)自己的無知，而不是過于自信地認(rèn)為先前的那些直覺可以勝任解決新情況。機(jī)器學(xué)習(xí)也存在這樣的問題。比如，打掃工廠地板的清潔機(jī)器人未必適用辦公室環(huán)境。也就是說，當(dāng)測(cè)試分布不同于訓(xùn)練分布時(shí)，機(jī)器學(xué)習(xí)系統(tǒng)不僅表現(xiàn)很糟糕，而且還誤認(rèn)為自己表現(xiàn)不錯(cuò)。

　　這些誤差可能會(huì)有害或者冒犯他人。比如，一個(gè)語言模型如果過于自信文本不存在問題，就有可能輸出冒犯他人的文本。而對(duì)于那些自動(dòng)化代理來說，潛在危害可能更大。比如，如果不正確地（但非常自信地）認(rèn)為某個(gè)地區(qū)電力不足，自動(dòng)化代理就會(huì)超載電網(wǎng)。更廣泛地來看，任何察知或啟發(fā)式推力過程的訓(xùn)練，沒有基于正確的分布，這樣的打理可能會(huì)錯(cuò)誤理解局勢(shì)，犯下錯(cuò)誤，而自己根本沒意識(shí)到行為的危害。另外，如果那些系統(tǒng)遇到了迥然不同于訓(xùn)練數(shù)據(jù)的真實(shí)世界數(shù)據(jù)，依賴訓(xùn)練過的機(jī)器學(xué)習(xí)系統(tǒng)的安全檢查也可能默默地失靈。對(duì)于打造安全、可預(yù)測(cè)的系統(tǒng)來說，找到一個(gè)更好的預(yù)測(cè)這些失敗的辦法、確保失敗發(fā)生頻率的統(tǒng)計(jì)可靠性，似乎非常關(guān)鍵。

　　有各種領(lǐng)域都與這一問題潛在相關(guān)，包括改變偵測(cè)和異常檢測(cè)、假設(shè)檢驗(yàn)、遷移學(xué)習(xí)等。不過，這里只描述幾個(gè)樣本方法，并指出這些方法的優(yōu)點(diǎn)和面臨的問題。

　　規(guī)定好的模型：協(xié)變量變化以及邊際可能性（Well-specifiedmodels：covariateshiftandmarginallikelihood）。

　　部分規(guī)定好模型：矩量法，無監(jiān)督風(fēng)險(xiǎn)評(píng)估，因果識(shí)別以及有限信息最大化可能性（Partiallyspecifiedmodels：methodofmoments，unsupervisedriskestimation，causalidentification，andlimited-informationmaximumlikelihood）。

　　用多個(gè)分布進(jìn)行訓(xùn)練（Trainingonmultipledistributions）。

　　離開分布時(shí)，如何響應(yīng)（Howtorespondwhenout-of-distribution）。

　　一個(gè)統(tǒng)一的觀點(diǎn)：反事實(shí)推理以及帶有合同的機(jī)器學(xué)習(xí)（Aunifyingview：counterfactualreasoningandmachinelearningwithcontracts）。在某個(gè)意義上，分布變化可被視為一種特殊的反事實(shí)，因此，了解了反事實(shí)推理就可能幫助打造面對(duì)分布變化也能穩(wěn)定的系統(tǒng)。另外，人們可能想構(gòu)建一個(gè)符合定義好的行為合同的機(jī)器學(xué)習(xí)系統(tǒng)，類似設(shè)計(jì)軟件系統(tǒng)。

　　總結(jié)：

　　部署在新測(cè)試分布中，表現(xiàn)也穩(wěn)定理想，打造這樣一種機(jī)器學(xué)習(xí)系統(tǒng)的方法各種各樣。其中一組方法就是以假定一個(gè)規(guī)定好的模型（well-specifiedmodel）為基礎(chǔ)的；在這種情況下，主要障礙是很難在實(shí)踐中打造出規(guī)定好的模型，也很難偵測(cè)到模型被錯(cuò)誤規(guī)定時(shí)的情況。

　　另一組方法就是只假設(shè)一個(gè)部分規(guī)定好的模型（apartiallyspecifiedmodel）；這個(gè)方法有前途，不過目前正苦于沒有在機(jī)器學(xué)習(xí)語境中展開研究，因?yàn)榇蠖鄶?shù)歷史研究都位于計(jì)量經(jīng)濟(jì)學(xué)領(lǐng)域；另外，也有這樣一個(gè)問題，部分規(guī)定好的模型是否從根本上受限于簡單情況以及/或者保守預(yù)測(cè)，它們能否有意義地?cái)U(kuò)展到復(fù)雜情境當(dāng)中，這些復(fù)雜情境是現(xiàn)代機(jī)器學(xué)習(xí)應(yīng)用所要求的。

　　最后，一個(gè)人可以試著在多個(gè)分布訓(xùn)練上進(jìn)行訓(xùn)練，希望同時(shí)在多個(gè)訓(xùn)練分布上表現(xiàn)良好的模型也能在新測(cè)試分布中表現(xiàn)良好；對(duì)于這一方法來說，特別重要的就是用迥然不同于任何一套訓(xùn)練分布的分布給所掌握的模型進(jìn)行應(yīng)激測(cè)試。除此之外，系統(tǒng)能夠預(yù)測(cè)出輸入太異常以至于無法進(jìn)行好的預(yù)測(cè)的時(shí)點(diǎn)，仍然很重要。

　　可能的實(shí)驗(yàn)

　　當(dāng)離開分布時(shí)，語音系統(tǒng)的校準(zhǔn)表現(xiàn)總是很糟糕，因此，一個(gè)知道「什么時(shí)候自己無法確定」的語音系統(tǒng)就有可能成為一個(gè)示范項(xiàng)目。這一項(xiàng)目的挑戰(zhàn)在于：用標(biāo)準(zhǔn)數(shù)據(jù)集來訓(xùn)練最先進(jìn)的語音系統(tǒng)，讓其在其他測(cè)試數(shù)據(jù)集上（比如嘈雜并帶有口音的語音數(shù)據(jù)集）得到良好校準(zhǔn)過的結(jié)果。當(dāng)前系統(tǒng)不僅在這些測(cè)試集中表現(xiàn)糟糕，而且經(jīng)常對(duì)不正確的轉(zhuǎn)錄過分自信。解決這類問題而不損及最初訓(xùn)練集上的表現(xiàn)，會(huì)是一項(xiàng)非常重要的成就，顯然，也相當(dāng)具有實(shí)踐價(jià)值。對(duì)于設(shè)計(jì)出能前后一致預(yù)測(cè)出其在異常測(cè)試分布中的表現(xiàn)的系統(tǒng)來說，也會(huì)非常有價(jià)值。如果一個(gè)單獨(dú)的方法論會(huì)在任何任務(wù)中前后一致地實(shí)現(xiàn)這一點(diǎn)，那么，人們會(huì)越發(fā)自信：這是個(gè)解決異常輸入問題的可靠辦法。最后，它對(duì)創(chuàng)造這樣一個(gè)環(huán)境也很有價(jià)值：其中，強(qiáng)化學(xué)習(xí)代理必須學(xué)會(huì)解釋語音（某些更大任務(wù)的一部分），以及探索如何適當(dāng)響應(yīng)自身對(duì)轉(zhuǎn)錄誤差的估測(cè)。

　　8.相關(guān)努力

　　前文主要關(guān)注的是機(jī)器學(xué)習(xí)社區(qū)的事故研究情況，但是，其他幾個(gè)社區(qū)也有做著與人工智能安全有關(guān)的工作。比如，網(wǎng)絡(luò)-物理系統(tǒng)社區(qū)，未來主義社區(qū)以及其他一些呼吁關(guān)注人工智能安全問題的文件。

　　很多研究人員（無論是機(jī)器學(xué)領(lǐng)域還是其他領(lǐng)域）已經(jīng)開始思考人工智能技術(shù)的社會(huì)影響。出了直接從事事故研究，也有關(guān)注其他主題的研究，這些研究主題都與事故研究存在交叉的地方，或者說，彼此相關(guān)。這些主題包括（但不限于）：隱私、公平（不歧視）、濫用、透明以及政策問題。

　　9.結(jié)論

　　這篇論文分析了機(jī)器學(xué)習(xí)系統(tǒng)可能發(fā)生的意外事件，而且特別分析了強(qiáng)化學(xué)習(xí)代理，其中，一次意外事故被定義為意外且具有害的行為，真實(shí)世界中的人工智能系統(tǒng)設(shè)計(jì)上的問題可能會(huì)引發(fā)這種有害行為。我們提出了五個(gè)可能與事故風(fēng)險(xiǎn)有關(guān)的研究問題，而且每個(gè)問題，我們都討論了可能的解決方案，這些解決方案都要經(jīng)得起實(shí)驗(yàn)工作的檢驗(yàn)。

　　估測(cè)更大事故的風(fēng)險(xiǎn)就更困難了，但是我們相信研發(fā)一個(gè)原則性的、前瞻性的方法來解決安全問題是值得的，也是審慎的，隨著自動(dòng)化系統(tǒng)日益強(qiáng)大，安全問題會(huì)繼續(xù)與之密切相關(guān)。盡管許多當(dāng)下的安全問題能夠而且已經(jīng)以個(gè)案方式加以解決，但是，我們相信，日趨流行的端到端、全自動(dòng)化系統(tǒng)會(huì)指向這一需求：用一個(gè)統(tǒng)一的解決方案來防止這些系統(tǒng)引發(fā)意外傷害。

(審核編輯: 滄海一土)

聲明：除特別說明之外，新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán)，請(qǐng)聯(lián)系我們刪除。

分享

永久免费a级在线视频,亚洲v日本,国产精品福利一区二区,午夜免费福利,国产精品网址在线观看,中国一级毛片在线视频,亚洲成人黄

【重磅】研究人工智能安全不再抽象：谷歌、OpenAI合著論文

點(diǎn)擊排行

專題