讓人工智能系統(tǒng)更負責任的落地,AINow新報告給出10條建議
近日,美國研究組織AINow發(fā)布第二份人工智能年度研究報告。這份報告是「AINow」人工智能研討會的一部分,該研討會邀請了近百名相關(guān)領(lǐng)域內(nèi)的研究人員,討論人工智能對社會經(jīng)濟的影響。報告指出,人工智能技術(shù)正發(fā)展迅速,尚處于早期階段的人工智能技術(shù)正在從人臉掃描、人力推薦以及網(wǎng)絡(luò)借貸等常見的應(yīng)用場景中不斷滲透到我們的日常生活里。
盡管人們對快速發(fā)展的人工智能抱有很大的預期,但是我們也看到了這一高風險的領(lǐng)域正面臨巨大的挑戰(zhàn)。例如在刑事司法中,非盈利媒體ProPublica的調(diào)查小組發(fā)現(xiàn),法庭和執(zhí)法部門用于預測刑事被告再犯的算法,可能對非裔美國人存在一定的偏見。這一現(xiàn)象隨后被許多學者證實。在醫(yī)療保健領(lǐng)域,匹茲堡大學醫(yī)學中心的研究發(fā)現(xiàn),一種用于治療肺炎患者的AI系統(tǒng),機器人維修,缺失了一項對嚴重并發(fā)癥的風險評估。在教育領(lǐng)域,德克薩斯州的評教算法被暴露出存在嚴重的缺陷,教師們也成功起訴了他們所在的學區(qū)。
或許這些例子僅僅是一個開始,未來還會有更大的挑戰(zhàn)。其中一部分原因在于,目前的AI領(lǐng)域缺少標準化的測試模式和審核方法,無法完全避免算法偏差,保障絕對的安全。
然而,這些早期的AI系統(tǒng)正被應(yīng)用到多個行業(yè),包括醫(yī)療、金融、法律、教育以及各種辦公場地。這些系統(tǒng)也已經(jīng)滲透到我們生活的方方面面,它們可以用于預測我們的音樂愛好、生病的概率、適合的工作以及借貸的數(shù)額等。
這里的問題不是蓄意對人工智能的濫用。而是人們在使用AI技術(shù)的過程中,沒有用于確保公平公正的流程和標準,更沒有思考它們所帶來的社會效應(yīng)。當研發(fā)的藥品在推向市場之前,它必須要經(jīng)過嚴格的科學測試,并持續(xù)檢測其中長期的效果。其實高風險AI的應(yīng)用也當如此。謹慎是非常必要的,因為如果一旦出錯,許多人會受到嚴重的傷害。
作為報告的一部分,AINow還為AI產(chǎn)業(yè)的研究人員和政策制定者提供了10條建議。這些建議并不是完整的解決方案,只是進一步工作的起點。AINow稱:「盡管AI產(chǎn)品正在迅速發(fā)展,但對算法偏見和公正的研究仍處于起步階段,如果我們想要確保AI系統(tǒng)得以被負責任地部署與管理,需要做的事情還很多。」
建議一:刑事司法、醫(yī)療、福利和教育等高風險領(lǐng)域內(nèi)的核心公共機構(gòu)不應(yīng)再使用具有「黑箱」特性的AI技術(shù)及算法系統(tǒng),包括未經(jīng)審核和驗證的情況下使用預訓練模型,采用由第三方供應(yīng)商授權(quán)的AI系統(tǒng)及內(nèi)部創(chuàng)建的算法。
公共機構(gòu)使用這類系統(tǒng)會嚴重引起人們對這類法定訴訟程序的擔憂。這些系統(tǒng)至少要經(jīng)歷公共審計、測試及審查的過程,工業(yè)機器人維修,符合相應(yīng)的問責標準。
這將帶來一個重大的轉(zhuǎn)變:提出的這項建議反映了AI及相關(guān)系統(tǒng)已經(jīng)對部分重大決策產(chǎn)生影響。過去的一年里,也有許多能夠作證這一點的研究報告。人們在朝著這個方向邁進,本月,紐約市議會就開展了一項關(guān)于保障算法決策系統(tǒng)的透明度和測試的相關(guān)法案。
建議二:在發(fā)布AI系統(tǒng)之前,企業(yè)應(yīng)該進行嚴格的預發(fā)布測試,以便確保系統(tǒng)不會因訓練數(shù)據(jù)、算法或其他系統(tǒng)設(shè)計的原因?qū)е氯魏五e誤及偏差的發(fā)生。
AI是一個發(fā)展迅猛的領(lǐng)域,開展測試的方法、假設(shè)以及測試結(jié)果,都應(yīng)該是公開透明、有明確版本的,這有助于應(yīng)對更新升級以及新的發(fā)現(xiàn)。
那些開發(fā)系統(tǒng)并從中獲利的人應(yīng)該肩負起相應(yīng)的測試及保障環(huán)節(jié)的責任,包括預發(fā)布版本的測試。AI領(lǐng)域距離標準化方法的實現(xiàn)還有很長的路要走,這也是建議這些方法和假設(shè)需要公開審核和討論的原因。如果隨著時間的推移,AI領(lǐng)域能夠制定出具有魯棒性的測試準則,那么這種開放性是至關(guān)重要的。另外,即便在標準化方法中,實驗室測試也不能捕捉到所有的錯誤和盲區(qū),這也是建議三出現(xiàn)的原因。
建議三:在AI系統(tǒng)發(fā)布之后,企業(yè)需要繼續(xù)監(jiān)測其在不同環(huán)境和社區(qū)中的使用情況。
監(jiān)測方法和結(jié)果的定義需要一個公開、嚴謹?shù)膶W術(shù)過程,要對公眾負責。特別是在高風險決策環(huán)境中,應(yīng)該優(yōu)先考慮傳統(tǒng)邊緣化社區(qū)的看法和經(jīng)驗。
確保AI算法系統(tǒng)的安全性問題是非常復雜的,是一個針對給定系統(tǒng)生命周期的持續(xù)過程,而不是一個完成后就可以遺忘的短期檢驗。只有在動態(tài)的使用案例和環(huán)境中進行監(jiān)測才能確保AI系統(tǒng)不會在假設(shè)和領(lǐng)域發(fā)生改變時引入錯誤和偏差。同樣值得注意的是,許多AI模型和系統(tǒng)都有通用性,產(chǎn)品可能會采用一些即插即用的附加功能,如情感檢測或面部識別等。這意味著那些提供通用AI模型的企業(yè)也可以考慮選擇已經(jīng)批準使用的功能,這些經(jīng)過許可的功能已經(jīng)把潛在的負面影響和風險等因素考慮在內(nèi)。
建議四:需要進行更多的研究并制定相應(yīng)的政策讓AI系統(tǒng)用于工作場所管理和監(jiān)測中,包括招聘和人力資源環(huán)節(jié)。
這項研究將補充目前自動化取代工人的這一研究焦點,應(yīng)該特別注意對勞工權(quán)利和行為的潛在影響,以及操縱行為的潛力以及在招聘和晉升過程中無意強化的偏見。
圍繞AI和勞動力的爭論通常會集中在工人流離失所的問題上,這是一個非常嚴重的問題。然而,了解AI算法系統(tǒng)在整個工作場所中的使用情況也同樣重要,KUKA機器人維修,包括行為推動,到檢測環(huán)節(jié),再到績效評估過程。例如,一家名為HireVue的公司最近部署了一項基于AI的視頻面試服務(wù),可以分析求職者的講話、肢體語言、語調(diào),從而確定求職者是否符合一家給定公司的「優(yōu)秀」模型。鑒于這些系統(tǒng)存在降低多樣性并鞏固現(xiàn)有偏見的可能性,人們需要做更多的工作來充分理解AI是如何融入管理、招聘、調(diào)度以及日常工作場所中的實踐中的。
建議五:制定標準,跟蹤系統(tǒng)整個生命周期的啟動、開發(fā)過程和訓練數(shù)據(jù)集的使用情況。
這是為了更好地了解和監(jiān)控偏差及代表性曲解問題。除了更好地記錄訓練數(shù)據(jù)集的創(chuàng)建和維護過程,AI偏差領(lǐng)域的社會科學家和測量研究員應(yīng)該繼續(xù)檢驗現(xiàn)有的訓練數(shù)據(jù)集,并努力理解已經(jīng)存在在實際工作中的潛在盲區(qū)和偏差。
依賴于大規(guī)模數(shù)據(jù),AI才能發(fā)現(xiàn)模式并作出預測。這些數(shù)據(jù)反映人類歷史的同時,也不可避免地反映了訓練數(shù)據(jù)集的偏差和成見。機器學習技術(shù)山擅長提取統(tǒng)計模式,常常會在試圖概括常見案例的過程下省略不同的異常值,這也是不根據(jù)數(shù)據(jù)表面價值進行偏差研究的重要原因。這樣的研究要從理解訓練AI系統(tǒng)的數(shù)據(jù)來自哪里開始,追蹤這些數(shù)據(jù)是如何在系統(tǒng)中使用的,而且要隨著時間推移驗證給定數(shù)據(jù)集的形態(tài)。在掌握這一點的基礎(chǔ)上,人們可以更好地理解數(shù)據(jù)中反映出的錯誤和偏差,進而研發(fā)出能夠在數(shù)據(jù)的開發(fā)和采集中識別這種情況并將其削弱的方法。
建議六:以跨學科視角看待AI的偏差研究與緩解策略的研究。