必威电竞|足球世界杯竞猜平台

圖靈測試
來源:互聯網

圖靈測試(The Turing test),是一種用于評估人工智能系統智能程度的測試方法。測試的基本原理是測試者(一個人)通過使用鍵盤和屏幕與被測試者(另一個人和一個機器)在隔離狀態下進行對話,如果測試者無法通過對話分辨被測試者是機器還是人類,那么這個機器就可以被認為是通過了圖靈測試,即表現出了具有欺騙性的人類智能。

“圖靈測試”這一概念源于計算機科學和密碼學的先驅、英國數學家兼計算機科學家(Alan Mathison Turing)于1950年發表的論文《計算機器與智能》(Computing Machinery and Intelligence)中為探討“機器可以思考嗎”這一問題而提出的一種思想實驗。圖靈測試的目標是判斷一個機器是否具有智能,而非關注特定的技術細節。基于圖靈的論文,一般認為,圖靈測試有三個主要版本,分別被稱為“模仿游戲”、“標準圖靈測試”和“標準解釋”。從“圖靈測試”這一概念提出以來,“圖靈測試”的內涵就一直隨著“智能”概念和人工智能的發展而變化,圖靈測試的原理也隨之被廣泛應用于計算機程序中,并產生了許多測試變體。盡管圖靈測試在學術界引起了廣泛的討論和爭議,但它仍然被視為是評估人工智能智能程度的經典方法。

發展沿革

哲學基礎

機器是否能夠思考”這一問題與心靈哲學中的二元論和物理主義觀點緊密相連。根據二元論觀點,心靈是非物質的或者至少具有非物質屬性,因此無法僅通過物質性術語來解釋。相比之下,物理主義認為心靈可以在物質層面得以解釋,從而留下了人工產生心靈的可能性。

1673年勒內·笛卡爾在《方法論》中寫道:“人類可以制造多種不同的自動機或者說是運動機械。人類可以通過創新改進機器的構造使其能夠發出聲音,甚至對人類的某些行為作出回應。例如,當人類觸摸機器的特定部位,它會問人類想對它說些什么;如果在觸摸另一個部位,它可能會驚叫自己受傷了。”這些說法預示了圖靈測試的一些思想。笛卡爾指出,對于任何一種機器(比如計算機),不論其程序設計多么完善,功能與人的意識多么相近,都不能等同于意識本身的內在狀態或表征人類意識的語義內容。雖然勒內·笛卡爾沒有看到后來機器(計算機)在模擬人類行為方面的驚人成就,但他從哲學的深刻性上已經預見到了后來關于機器思維的許多爭論的要點。

丹尼斯·迪德羅在其1746年的著作《哲學思考》中提出了類似于圖靈測試的標準,但其中隱含了重要的限制性假設,即參與者是自然生命體,而非創造出來的人工制品。他認為,如果有人發現一只能夠回答一切問題的鸚形目,那么他會毫不猶豫地宣布這只鸚鵡具有智能。這在當時是物理主義者的一個常見論點。

1936年,利奧六世阿爾弗雷德·艾耶爾(Alfred Ayer)考慮了其他人是否擁有與人類相同的有意識體驗的標準哲學問題,即如何知道其他人與自己一樣具有意識體驗。在他的著作《語言真理與邏輯》中,艾爾提出了一種按照有無意識來區分人和機器的方法,即通過檢驗來確定對象存在或不存在意識:“一個表面上具有意識的對象實際上并不是有意識的存在,而只是一個假人或機器,這是因為它未能通過確定存在或不存在意識的經驗測試中的任何一個。”這個觀點與艾倫·麥席森·圖靈測試的思想已經非常接近了。

概念提出

1936年,作為Ratio Club(一個不正式的英國控制論和null研究人員組成的團體)成員之一的null發表了題為《論數字計算在決斷難題中的應用》的文章。在這篇論文中,圖靈討論了當時數學領域的熱門話題“可計算問題”,并在文中提出著名的“圖靈機”(Turing Machine)當時稱之為“通用機”。“圖靈機”不是一種具體的機器,而是一種抽象計算機模型也可以說為一種數學邏輯機,可制造一種十分簡單但運算能力極強的計算裝置,用來計算所有能想象得到的可計算函數。“圖靈機”與“馮·諾伊曼機”齊名,被永遠載入計算機的發展史中。

1937年,艾倫·麥席森·圖靈發表論文《可計算性與λ可定義性》為庫爾特·卡塞雷斯遞歸函數null的λ微積分等模型提供了合理解釋。后來著名的“丘奇-圖靈論題”說明了λ演算、遞歸函數和圖靈可計算是等價的,即所有可計算或是機械程序可計算的函數,恰好就是用一般遞歸函數去逼近無限。也可以說,所有計算或算法都可以由一臺圖靈機來執行。

null從1941年開始就一直在探討機器智能的概念,在圖靈1947年的報告“Intelligent Machinery”中,他探討了“機器是否能夠表現出智能行為”的問題,并在此背景下提出了他后來測試的前身:“設計一臺能下不太差的國際象棋的紙帶機器并不難。現在找三個實驗對象、兩個國際象棋選手以及一個紙帶機器。有兩個房間,能夠用一定的方式傳遞走法,然后其中一位國際象棋選手在和另一位選手以及紙帶機器之間下棋,他可能會很難判斷在和誰下棋。”

1950年10月,艾倫·麥席森·圖靈在《心靈》(Mind)雜志上發表了一篇題為《計算機器與智能》(Computing Machinery and Intelligence)的論文,首次提出機器具備思維的可能性,探討“機器能思考嗎”這個問題,并提出了一種思想實驗,即“模仿游戲”,這個思想實驗后來就被演化為“圖靈測試”的概念。這篇文章也為圖靈贏得了“人工智能之父”的桂冠。圖靈提出了具體的判斷標準即讓計算機來冒充人,如果不足70%的人判對,也就是超過30%的人誤以為在和自己說話的是人而非計算機,那就算作圖靈測試通過。圖靈測試及其隱含的思想成了現代新機械論的基礎,并演變成了以機械論為核心的計算主義、機器功能主義等。

內涵演變

從“圖靈測試”這一概念提出以來,“圖靈測試”的內涵就一直隨著“智能”概念和人工智能的發展而變化。在20世紀50年代,艾倫·麥席森·圖靈的智能概念定義為機器能夠思考,圖靈測試的內容包括限于五分鐘時間和識別概率不超過70%的客觀指標。20世紀60年代,“智能”概念未有變化,維茲豪曼的聊天機器人采取了狡猾策略,它符合圖靈測試的兩個客觀標準,卻無法表明機器具有“智能”,因此圖靈測試添加了應當排除狡猾策略的要求。2011年計算機小托馬斯·沃森在智力問答游戲節目中取得勝利,如果按照1950年圖靈的最初界定,沃森通過了更高層次圖靈測試——智力問答的人機對決,但如果像沃森的設計者那樣把圖靈測試理解為像人那樣思考,那么沃森還沒有通過圖靈測試。當代美國人工智能專家庫茲韋爾(Ray Kurzweil)用“奇點”(Singularity)這一概念重新表述了圖靈測試,他認為機器“智能”在當代面臨著臨近“奇點”的可能性,在未來15年內信息可以上傳到人類大腦,30年內奇點來臨———人工智能超越人類智能。

測試內容

圖靈測試作為一種經典方法,其核心思想在于通過模擬對話來測試計算機是否能夠模擬人類的智能行為。這一測試的設計旨在探究計算機是否能夠通過自然語言交流、推理和理解等方式來模仿人類智能的表現。

圖靈測試包含三個參與者,分別是測試者(人類)(C),被測試的機器(A),和另一個被測試者(人類)(B)。評判者通過控制打字機向A和B提問,從而判斷哪一個是機器,哪一個是人類。

標準的圖靈測試需滿足以下條件:

隔離:評判者被隔離,不能直接看到A和B。通常是通過計算機終端進行對話,或者通過書面形式交流。

自由對話:評判者可以提出任何問題,而A和B的目標是回答這些問題。評判者基于回答來判斷哪一方是機器,哪一方是人類。

目標:機器的目標是欺騙評判者,使其無法準確區分機器和人類。人類的目標是通過提問來判斷哪一方是機器,哪一方是人類。

時間限制:現在的圖靈測試測試時長通常為5分鐘。如果電腦能回答由人類測試者提出的一系列問題,且其超過30%的回答讓測試者誤認為是人類所答,則電腦通過測試。這一標準最早由圖靈在其論文中提出。

一般性測試:艾倫·麥席森·圖靈強調測試的一般性,即機器不僅僅是模仿某個特定人類的表現,而是具有一般性的智能,能夠在不同領域表現得像人類一樣。

機器的成功標準:如果機器能夠以一種讓評判者無法準確判斷其是否為機器的方式回答問題,那么它就通過了圖靈測試。

圖靈測試并不是一個具體的測試協議,而更像是一個概念性的框架。它引發了深刻的哲學和科學討論,關于什么是智能、機器是否能夠具有意識等問題。然而,測試的結果可能受到對話主題、測試環境、評判者的主觀態度等因素的影響,所以圖靈測試的結果實際上并不能完全準確地判定計算機是否真正具備了智能。

測試版本

索爾·特雷格(Saul Traiger)指出,圖靈測試至少有三個主要版本,其中兩個版本在《計算機與智能》中提出,分別被稱為“模仿游戲”和“標準圖靈測試”。關于第三個版本“標準解釋”是否為艾倫·麥席森·圖靈所描述,還是基于對他的論文的誤解,存在一些爭議,這三個版本并不被視為等同,它們各自具有不同的優勢和劣勢。

第一個版本指圖靈的原始論文描述的一個涉及三名玩家的簡單派對游戲。圖靈測試的核心思路,是要求計算機在沒有直接物理接觸的情況下接受人類的詢問,并盡可能把自己偽裝成人類。在論文中,圖靈設計的模仿游戲中有三個參與者:一個男人(A),一個女人(B)和一個男女皆可的提問者(C)。提問者呆在一個與另外兩人相隔離的屋子里,游戲的目標是提問者要判斷出外面哪個是男人,哪個是女人。提問者用標簽X,Y指稱外面的兩個人,游戲結束時,他要說出“X是A,Y是B”或者“X是B,Y是A”。

?為了排除聲音幫助提問者得出結論,問題的答案應該寫出來,最好是打出來。理想的安排是,讓兩個屋子用遠程打印通訊,也可以通過中間人傳遞答案。而B在這個游戲中的任務是努力幫助提問者,她的最優策略可能就是給出正確答案。她可以在她的答案中加入“我是女的,別聽他的”這樣的話,但是這并不能提供更多的幫助,因為男人A同樣也能做出相似的評論。

版本二:標準圖靈測試

第二個版本出現在艾倫·麥席森·圖靈的1950年論文中,在模仿游戲之后圖靈提出這樣一個問題,“如果用機器代替A,將會發生什么情況?同與兩個人玩這個游戲相比,提問者判斷錯誤的幾率是否發生變化?”這個問題取代了原問題“機器能思考嗎? ”。與原始的模仿游戲測試類似,玩家A的角色由計算機扮演,而玩家B的角色則由一個男性人類扮演,玩家C則繼續扮演一個男女皆可的人類提問者對A和B進行提問來判斷出被提問者是計算機還是人類。假設有一個特定的數字計算機A'。通過修改這臺計算機,使其具有足夠的存儲,適當提高其動作速度,并為其提供適當的程序,A'是否可以被改裝成滿足模仿游戲中A的部分的要求。

在這個版本中,玩家A(計算機)和玩家B(人類)都試圖欺騙詢問者做出不正確的決定。此外,艾倫·麥席森·圖靈在論文中提出了一個替代形式,即人類提問者只與一個計算機或一個男人交談。胡瑪·沙(Huma Shah)指出,圖靈本人關注的是機器是否能夠思考,并提供了一種簡單的方法來檢驗:通過人機問答會話。他認為圖靈描述了一個可以通過兩種不同方式實施的模仿游戲:一種是一對一的質詢者,即人類提問者對機器單獨進行測試;另一種是機器與人類同時進行對比,由人類提問者同時對一個人類和一個機器進行提問。由于測試是一種無法區分性能的測試,因此可以包括口頭測試和非口頭測試(如書面測試)。

版本三:標準解釋

“標準解釋”是艾倫·麥席森·圖靈在1952年提出的第三種版本。圖靈在的廣播中提出,一個陪審團向計算機進行提問,而計算機的任務是讓陪審團中一定比例的人相信它真的是一個人。對于“標準解釋”,目前普遍的理解是,圖靈測試的目的不是確定計算機能否愚弄人類提問者并使人相信它是人類,而是計算機是否能夠模仿人類。在這個版本中,玩家A是計算機,玩家B是男性或女性人類。人類詢問者的任務是確定誰是計算機,誰是人類。

關于“圖靈測試”的版本存在很多爭議,Sterrett認為可以從圖靈的1950年論文中提取出兩個不同的測試,采用派對游戲并比較成功頻率的測試被稱為“原始模仿游戲測試”,而由人類法官與人類和機器進行對話的測試被稱為“標準圖靈測試”。Sterrett同意標準圖靈測試存在批評者所指出的問題,但認為所定義的原始模仿游戲測試對許多問題是免疫的,因為存在一個關鍵的區別:與標準圖靈測試不同,它并不以類似人類性能為標準,因此一個人可能無法通過原始模仿游戲測試。還有其他學者解釋為提出模仿游戲本身是測試,而沒有指出原始模仿游戲版本測試成功頻率的比較標準。Saygin提出,也許原始游戲是提出不那么偏見的實驗設計的一種方式,因為它隱藏了計算機的參與。模仿游戲還包括“標準解釋”中沒有的“社會黑客”,因為在游戲中,計算機和男性人類都需要假扮成他們不是的人。

程序應用

ELIZA程序

1966年,麻省理工學院教授約瑟夫維茲豪曼(Joseph Weizenbaum)編寫了聊天機器人ELIZA程序(Eliza program),它通過檢查用戶輸入的評論中的關鍵詞來工作。如果找到關鍵詞,就會應用一個轉換用戶評論的規則,然后返回結果句子。如果沒有找到關鍵詞,ELIZA要么用一個通用的應答回應,要么重復之前的評論之一。此外,魏岑鮑姆開發了ELIZA,旨在模擬羅杰斯式心理治療師的行為。ELIZA通過這種方式“假裝幾乎不了解真實世界”,使其能夠欺騙人們以為他們正在與真人交談。有些人對ELIZA的表現“很難相信它不是人類”。因此,一些人認為ELIZA可能是第一款能夠通過圖靈測試的程序之一。然而,對于這種觀點,存在很大的爭議。例如,ELIZA曾經進行過一個版本的圖靈測試。在電子郵件出現之前,一位業務主管正在使用他公司的內部消息服務系統聯系一名程序員。程序員讓ELIZA運行,主管連接到了ELIZA,并產生了如下對話:

事實上,主管和ELIZA之間的這種交流在幾個重要方面都未能滿足圖靈測試的規范,因此,即使主管確實將ELIZA誤認為是人,也不能說ELIZA通過了測試。首先,這位主管并沒有試圖區分計算機和人類,他只是假設他正在與人類交談。他從來沒有想過通過提出一些探索性的問題來檢驗這個假設。其次,在非競爭情況下,判斷者可能會忽視機器性能特征,機器可以應用狡猾的策略來回答超過有限知識基礎的問題,例如ELIZA的回避,這在機器與人類對戰時可能成為決定性的證據。人類參與者的存在也證明了人類不希望被程序愚弄。維茲豪曼于1976年撰寫了專著《計算能力與人類理性:從判斷到計算》,認為ELIZA程序不能算作通過圖靈測試,它不屬于真正的機器智能。他的依據是,智能機器只能決策,而不能選擇。決策是一個可以程序化的計算行為,它缺乏人類的諸如同情和才智這樣的品質,成為人的能力應當包括情緒等非數學因素判斷的結果而不僅僅是計算的結果。

PARRY程序

肯尼斯·科爾比(Kenneth Colby)在1972年創建了PARRY,這個程序被描述為“帶有態度的ELIZA”。它試圖模仿偏執性精神分裂癥患者的行為,使用了與魏岑鮑姆所采用的類似的方法。為了驗證這項工作,PARRY在20世紀70年代早期通過圖靈測試的變種進行了測試。一組經驗豐富的精神科醫生通過電傳打印機分析了一組真實的患者和運行PARRY的計算機,另一組33名精神科醫生看了對話的記錄。然后,兩組醫生被要求確定哪些“患者”是人類,哪些是計算機程序。精神科醫生只能在52%的時間內正確識別出“患者”是人類還是計算機程序,這個數字與隨機猜測一致。但艾倫·麥席森·圖靈從未明確說明他的測試中的詢問者是否知道參與者中有一個是計算機。他只是陳述玩家A將被一臺機器替換,而沒有提到玩家C是否會意識到這個替換。當科爾比等人測試PARRY時,他們假設在詢問期間,詢問者不需要知道被采訪的人中是否有一個或多個是計算機,這對測試的實施和結果產生了重大影響。

沃森

在近代,在人類最重要的本質“能力”方面,智能機器已經超越人類。1997年IBM公司的計算機深藍(Deep Blue)戰勝國際象棋冠軍加里·卡斯帕羅夫(Garry Kasparov);2011年,IBM公司研發的計算機小托馬斯·沃森Watson)可以“聽懂”人的話語。按照艾倫·麥席森·圖靈1950年的圖靈測試界定,計算機沃森能夠處理人類的自然語言并迅速回答復雜問題,它通過了比圖靈測試更復雜的人機對決的智力問答。但是沃森的設計者并不認為沃森通過了圖靈測試。他們設定計算機沃森只是滿足某些領域的人腦功能,它只在機器學習、自然語言算法、大規模數據庫等有限領域模擬人腦取得成功。

尤金·古斯特曼

2014年6月7日是圖靈逝世60周年紀念日。這一天,在倫敦皇家自然知識促進學會舉行的“2014圖靈測試”大會上,舉辦方英國雷丁大學發布新聞稿宣稱,一臺由俄羅斯人弗拉基米爾·維西羅夫(Vladimir Veselov)創立的模擬13歲小男孩的人工智能軟件尤金·古斯特曼(Eugene Goostman)首次“通過”了圖靈測試。在2014年舉行的共有5臺超級計算機參賽的圖靈測試競賽上,尤金·古斯特曼設法讓測試人相信被測試者33%的答復為人類所為。這一測試成功正逢艾倫·麥席森·圖靈去世60周年紀念,被認為是人工智能領域里程碑式的突破。雷丁大學的客座教授Kevin Warwick說,盡管此前曾有人聲稱圖靈測試已經得到通過,但是相比之下,這次活動的標準是最為嚴格的,沒有對問題做任何預設。因此,他們自豪地宣布圖靈測試首次獲得通過。

相關爭論

1952年,圖靈預測“至少需要100年”,機器才有機會在無限制提問的前提下通過圖靈測試。這是一個明智且謹慎的預測,清楚地表明圖靈意識到創造一臺可以通過測試的機器多么困難。事實上,他談到了“給機器編程以實現思考”的項目。圖靈測試探索了機器模仿人腦的能力,但僅限于大腦的公開語言行為(通過鍵盤表達)。雖然語言行為只是人類大腦產生的全部行為的一小部分,但艾倫·麥席森·圖靈指出,語言問答仍然使判斷者能夠在人類的幾乎所有領域中探索大腦(或機器)的能力。他舉的例子包括數學、國際象棋、詩歌和交流。在1952年的電臺廣播演講中,圖靈認為,“機器能通過測試嗎”這個問題與“機器是否會思考”不同,但對于人類目前對機器的期望來說似乎已經足夠接近了。不是每個人都同意圖靈上述兩個問題“足夠接近”的觀點,而且在他首次提出測試60多年后,關于其有效性的爭論至今仍在激烈進行。

衡量標準

圖靈測試并沒有明確規定其能夠作為衡量智能的標準。該測試旨在檢驗計算機是否能模仿人類行為,而非直接評估其智能水平。一些專家認為,圖靈測試只是展示了欺騙人類的容易程度,并非衡量機器智能的準確指標。艾倫·麥席森·圖靈本人在對“思考機器”的可能性進行回應時,明確指出該測試只是為了討論研究前進的方向,而非直接衡量智能。

然而,圖靈測試在兩個方面存在衡量智能的局限性:首先,一些人類行為并非智能的表現,但圖靈測試要求計算機模仿所有人類行為,甚至包括非智能的行為。如果機器未能完全模仿這些非智能行為,那么它將無法通過測試。其次,一些智能行為并非人類特有,但圖靈測試要求機器避免展現過于智能的能力,如解決困難問題或提出獨立見解。因此,該測試無法衡量超出人類能力范圍的智能,無法評估比人類更智能的系統。

盡管如此,圖靈測試仍被提出作為衡量機器“思考能力”或“智能”的方法。然而,這一提議受到哲學家和計算機科學家的質疑。他們對于如何判斷質詢者的可靠性、僅比較行為的價值以及將機器與人類進行比較的意義等提出了質疑。因此,一些人工智能研究者對該測試在他們領域的相關性持懷疑態度。

測試方式

圖靈測試是借由人類語言(對話)來判斷機器智能的存在。但是這種對話模擬的方式是否能夠全面衡量計算機的智能仍然存在爭議。一些評論家認為,圖靈測試可能過于依賴于自然語言處理能力,而忽視了計算機在其他領域如視覺、音頻、推理等方面的智能表現。1968年弗德(Fodor)指出,由于圖靈測試只能表現出人類智能的部分功能即語言功能,所以即使通過圖靈測試也只能說明機器只具備人類智能的部分功能。1970年邁爾澤(Bernard N.Meltzer)指出,圖靈測試是在引誘人工智能領域的研究者去完成一個被誤導的目標,讓他們以為只有對話才是實現人工智能的途徑。1990年代,謝伯(Stuart Shieber)、哈納德(Harnad)、查克·海耶斯(P.Hayes)和福特(K.Ford)等人都表達了類似的觀點。

1996年,惠特比(Blay Whitby)在總結人工智慧的發展史時將人工智能和圖靈測試發展劃分為四個階段:第一個階段是計算機科學發展初期,圖靈測試所展現的人工智能這一宏大遠景,對計算機算法及硬件的發展提出了更高要求;第二個階段,人工智能的發展局限于模式識別這類有限的目標上,幾乎看不到計算機通過艾倫·麥席森·圖靈測試的可能;第三個階段是計算機科學飛速發展并廣泛應用于各行各業的階段,有關圖靈測試的討論成了利奧六世爭論的話題;而到第四個階段,許多人工智能專家似乎已經不再關注圖靈測試這類幾乎不可能完成的目標了。

艾倫·麥席森·圖靈曾明確說過,圖靈測試可以被廣泛地運用到不同種類的測試,評判者可以要求測試機器的幽默能力、使用非母語的能力、或者其他各類能力。隨著人工智慧領域的快速發展,現代智能系統在圖像識別、語音識別、自動駕駛等方面取得了顯著進展。因此,許多研究者呼吁將圖靈測試與其他更全面的智能評估方法結合,以更準確地評估和界定計算機的智能水平。

評估角度

圖靈測試關注機器的外部行為來研究思維。約翰·希爾勒認為外部行為不能確定機器是真正思考還是僅模擬思考。在他1980年的論文中,塞爾提出了“中文房間”思想實驗,基于這樣一個事實:在過去,計算機指的是執行計算任務的人類文員。塞爾認為,通過在“人類計算機”上運行程序,可以測試某些程序是否能產生思想或認知。該實驗進行了三種假設:

塞爾的“中文屋論證”旨在說明,即使人類計算機不懂中文,也能用中文傳遞信息。他指出,計算機僅通過操作不理解的符號通過圖靈測試,沒有理解,不能像人類一樣思考。因此,圖靈測試不能證明機器思考。像塞爾這樣的心靈哲學研究者引發了關于智能、機器意識和圖靈測試價值的辯論,持續至1980和1990年代。

判斷依據

圖靈測試的結果常常受計算機模仿人類的能力主導,而不完全依賴于提問者的技能或態度。艾倫·麥席森·圖靈在描述測試時,并未具體說明審問者需要的技能,只提到了“普通審問者”。例如,ELIZA這類聊天機器人曾使沒有戒備的人誤以為自己在與人交談,沒有意識到他們可能正在與計算機互動。有效通過圖靈測試的關鍵在于,機器需要通過對話暗示自己的機器身份,而審問者需要識別出這些線索。如果機器保持沉默,審問者難以準確判斷。

在洛布納獎競賽中,早期使用的“不成熟”的審問者容易被機器欺騙,但后來即便是哲學家、計算機科學家等專家也會被誤導。這種測試中常見的是“合謀效應”,即人類被錯誤地認為是機器。這引發了關于如何確保被測試者在測試中表現出典型人類反應的問題。

應用價值

所有持肯定性觀點的學者都認為圖靈測試在人工智能研究和發展中具有重要的應用價值。弗倫奇(Robert M.French)、庫伯(Kevin L.Copple)等認為,圖靈測試有助于科學家們深入研究人類的行為表現和人類的互動行為,從而逐步實現“更好的人工智能”。作為一種具體的評價方法,圖靈測試為人工智能領域的研究者提供了一個具體的檢驗智能的途徑,不僅考察了計算機在自然語言理解和生成方面的能力,還鼓勵了研究者探索推理、邏輯等更高級的智能表現。圖靈測試也引發了關于智能本質、意識是否可以通過模擬實現等哲學問題的討論,不僅促進了人工智能領域的發展,也影響了認知科學和哲學領域的發展。

部分人工智慧研究人員認為,艾倫·麥席森·圖靈測試只會分散有益的研究注意力。約翰·麥卡錫(John McCarthy)觀察到人工智能的哲學“不太可能對人工智能研究的實踐應用產生更多影響,就像哲學對科學實踐的影響一樣微弱。”斯圖爾特·拉塞爾和彼德·諾米格認為圖靈測試并不是許多學術或商業努力的主要焦點:首先,有更簡單的方法來測試他們的程序。當前與人工智能相關領域的大部分研究都是針對特定的目標,人工智能研究人員只需直接給予它們任務;其次,創造出類似真人的模擬是一個獨立的復雜問題,不需要為實現人工智慧研究的基本目標而解決,在藝術作品、游戲或復雜的用戶界面中,可信的人物角色可能會引人入勝,但它們并不是創造智能機器的科學的一部分,也就是說,不是用智能來解決問題的機器。

測試變體

反向圖靈測試

反向圖靈測試是由于一個或多個角色之間的模擬已經在機器和人之間逆轉,因此對圖靈測試進行一定程度的修改,以增強其適用性。R. D. Hinshelwood將“反圖靈測試”的思維描述為“認知識別裝置”。挑戰在于讓計算機確定它是否正在與人類或其他計算機互動,這是艾倫·麥席森·圖靈試圖回答的原始問題的延伸,但能夠提供足夠高的標準以通常所認為人類特有的方式來定義一臺可以“思考”的機器。

完全圖靈測試

完全圖靈測試(Total Turing Test)是針對圖靈測試中僅僅測試機器語言智能方面的不足而提出來的測試,該測試需要與真實世界中的對象和人進行交互。為了通過完全圖靈測試,機器人需要具備自然語言處理使之能成功地用人類語言交流,知識表示以存儲它知道的或聽到的信息,自然推理以運用存儲的信息來回答問題并推出新結論,機器學習以適應新情況并檢測和預測模式,計算機視覺以感知物體,機器人學以操縱和移動對象等能力。

比較的道德圖靈測試

“比較的道德圖靈測試”(Comparative Moral Turing Test,MTT)由科林·艾倫、加里·瓦納和杰森·辛瑟于2000 年首先提出。比較的道德圖靈測試從對話轉向行為,對人類和人工道德行為體實際的、道德上重要的行為進行描述,排除各種可能識別行為體身份的因素之后,提供給提問者。如果提問者在一定比例上正確識別出機器,那么機器就不能通過測試。不過,這個版本的問題在于,機器的行為方式比人類更容易識別,因為在同樣的環境中,機器的行為始終如一。因此,應該對提問者進行詢問,讓其評價哪一個行為體的行為更不道德。如果提問者認為機器的行為沒有比人類更不道德,那么機器就通過了測試。

溫納格斯基模式挑戰

溫納格斯基模式挑戰(英語:Winograd Schema Challenge,縮寫WSC)是多倫多大學計算機科學家赫克托·萊韋斯克提出的機器智能測試。該測試試圖改進傳統的圖靈測試,通過向機器詢問特別設計的選擇題來檢測其智能。這些問題都包含一種特殊結構,被稱為“溫納格斯基模式”(Winograd Schema),名稱來源于斯坦福大學計算機科學家特里·威諾格拉德。機器需要識別問題中的前指關系(anaphora),即指出問題中某一代詞的先行詞。為了正確回答問題,機器需要要擁有常識推理的能力。

語言模型測試

阿瑟·施瓦寧格(Arthur Schwaninger)提出了一種圖靈測試的變體,可以區分僅能使用語言的系統和理解語言的系統,其中機器面臨的是不依賴于任何先前知識但需要自我反思才能適當回答的哲學問題。由于現代自然語言處理在基于大量文本語料庫生成文本方面的高度成功,可以通過操作初始模型訓練中使用過的單詞和句子來通過圖靈測試。但因為審問者對訓練數據沒有明確的理解,該模型可能只是返回存在于大量訓練數據中類似方式的句子。

領域專家系統

愛德華·費根鮑姆(Edward Feigenbaum)在2003年的一篇論文中提出領域專家圖靈測試,也被稱為“費根鮑姆測試”。他表明,專家系統中的計算智能實例是為了在困難的現實世界領域中執行專家級行為而構建的,這些領域的背景包括大量的知識。例如:醫學、物理科學和工程學的各個領域以及許多商業和制造流程的分析和控制。與應用領域的最佳人類行為相比,用于規劃復雜操作的專家系統尤其強大,比如在波斯尼亞戰役中,北約空中作戰中心就使用了其中一個高性能程序,還有兩個程序則成為成功制造規劃軟件公司的基礎。所有這些專家系統計算智能的開發是為了滿足理解復雜問題并解決問題的科學需求和工程需求,它們被設計為特定于領域和這些領域中的某些任務,因此都無法通過圖靈測試。在與人交互的能力方面,它們的靈活性有限。然而,在某些情況下,它們的任務表現卻是世界一流的。

詞匯判斷測試

羅伯特·弗倫奇認為,通過提出揭示人類認知的低級(即無意識)過程的問題,審問者可以區分人類和非人類的對話者。他做了一個“詞匯判斷測試”實驗:參加詞匯判斷測試的人每次能看到一個在屏幕上閃現的單詞或非單詞,受試者看到單詞按下其中一個按鈕,看到非單詞則按下另一個按鈕。實驗者測量了單詞閃現和受試者按下按鈕之間的這一小段時間,并發現如果一個單詞出現之前,相關單詞在屏幕上出現,那么人們對這個單詞做出反應的時間就會減少,這種加速效應被稱為“聯動”。例如,當“魚”這個詞出現過后會讓典型的英國人對“薯條”反應更快,而“面包”會讓英國人對“黃油”這個詞反應更快。這些“聯動”是特定于文化的:在英國,魚和薯條、面包和黃油是常見的食物組合。弗倫奇聲稱這種特定于文化的“聯動”效應,可用于在圖靈測試中判斷哪位參與者是計算機,因為計算機不會共享人特有的“聯動指紋”。

電子健康記錄

在ACM通信雜志上發表的一封信描述了生成合成患者群體的概念,并提出了一種用于評估合成和真實患者之間區別的圖靈測試變體。該信件稱,在電子健康記錄(EHR)的背景下,盡管人類醫生可以很容易地區分合成生成的和真正的活人患者,但機器是否能夠自行作出這樣的判斷呢。在合成患者身份變成公共衛生問題之前,合法的EHR市場可能會從應用類似于圖靈測試的技術中受益,以確保更大的數據可靠性和診斷價值。因此,任何新技術都必須考慮患者的異質性。

相關獎項

勒布納獎(Loebner Prize)每年提供一個實際的圖靈測試平臺,首次比賽于1991年11月舉行。這個獎項的發起人是休·勒布納(Hugh Loebner)。位于美國馬薩諸塞州的劍橋行為研究中心(Cambridge Center for Behavioral Studies)組織了2003年以前的比賽。勒布納表示,創辦這項競賽的一個原因是推進人工智能研究的狀態,至少在某種程度上,因為在40年的討論中,沒有人采取措施來實施圖靈測試。勒布納獎測試對話智能,獲獎者通常是聊天機器人程序或人工對話實體(ACE)。早期的勒布納獎規則限制了對話:每個參賽作品和隱藏的人類只能就一個主題進行對話,因此質詢者在每次實體交互中只能進行一行問題的提問。這個限制性的對話規則在1995年的勒布納獎中被取消。在勒布納2003年比賽中,薩里大學允許每個質詢者與實體、機器或隱藏的人類互動五分鐘。在2004年到2007年之間的勒布納獎中,質詢者和實體之間允許的交互時間超過了20分鐘。

1991年的第一屆勒布納獎比賽重新引發了關于圖靈測試的可行性和追求它的價值的討論,不僅在大眾媒體中,還在學術界中。第一次比賽的勝利者是一個無法識別智能的毫無意識的程序,成功地欺騙了質詢者,使其進行錯誤的識別。這凸顯了圖靈測試的一些缺點:機器贏得了比賽,在某種程度上是因為它能夠“模仿人類的打字錯誤”,不成熟的質詢者很容易被欺騙,一些AI研究人員被引導認為測試只是轉移了更有成效的研究的注意力。然而,該競賽每年都授予銅牌,獎給那些在評委眼中,在當年的參賽作品中展示出“最人類”對話行為的計算機系統,銀獎(僅文本)和金獎(音頻和視覺)則從未被獲得。Artificial Linguistic Internet Computer Entity(A.L.I.C.E.)曾三次獲得銅獎(2000、2001、2004),在2005年和2006年,Learning AI Jabberwacky獲得了獎項。

影響及評價

艾倫·麥席森·圖靈1950年的經典論文被公認為是人工智能學科興起的標志。圖靈測試作為一種經典的方法被應用于計算機程序中,旨在解決如何評估計算機是否能夠表現出與人類思維相似的智能行為。

關于圖靈測試對于人工智能的發展意義,在不同的歷史階段人們的認識有所不同。1950—1960年代,圖靈測試被普遍認為是人工智能領域的靈感源泉;1970—1980年代,它確實給人工智能領域的前沿研究帶來了某種程度的困擾;1990年之后,圖靈測試雖然不被認為是人工智能的終極目標,但已經成為該領域研究中不可或缺的課題。

人工智能概念的創始人之一明斯基(Marvin Minsky)曾經用一句話描述人工智能:“讓機器從事需要人的智能的工作的科學。”明斯基的這一定位是嚴格遵循“圖靈測試”中的“模仿游戲”說的——人工智能追求的是讓機器對入進行功能性的替代,讓機器實現對人的智能活動的模仿。

圖靈測試本質上是對人類智能的一種操作性定義。圖靈測試引發了許多哲學和倫理問題,這些問題深刻地影響了人們對人工智能的認識和接受。雖然圖靈測試在評估是否具有智能方面起到了重要作用,但其本質、局限性以及對于智能的準確度仍然存在廣泛的爭議和討論。

參考資料 >

術語在線.術語在線.2023-11-25

..2024-01-06

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

Alan Mathison Turing (1912-54).King's College.2023-07-28

On Turing machines.Machine Logic.2023-08-03

李德毅院士前瞻性觀點論文:《認知物理學——薛定諤、圖靈和維納的啟示和超越》.澎湃新聞.2023-08-14

數學的不完美之美——阿蘭?圖靈與圖靈機.中國科學院軟件研究所.2023-08-02

..2023-11-29

..2024-01-06

#ChatGPT首次通過圖靈測試#.新浪微博.2025-05-10

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

計算機首次通過圖靈測試.淄博新聞網.2024-01-06

超級計算機首次通過圖靈測試 成功模擬13歲男孩-中新網.中國新聞網.2024-01-06

..2023-11-29

..2023-11-29

Artificial stupidity.The Economist.2023-08-09

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2024-01-06

..2023-11-29

..2023-11-29

..2023-11-29

完全圖靈測試.zzkook.2024-01-19

..2023-11-29

..2023-11-29

..2023-11-29

..2023-11-29

..2023-08-09

..2023-11-29

..2023-11-29

生活家百科家居網