機器能思考嗎?
第3章 機器能思考嗎?
在過去的幾年裡,關於圖靈測試的文章很多,其中有些甚至有點離題。人們通常會錯誤地把測試想像成幾個數量級。這篇文章是一劑解毒劑,是想像力的假肢,展示了圖靈測試所帶來的任務是多麼巨大,因此任何電腦都不可能通過它。然而,在想像力增強部門,這還不夠深入,我用兩個附言更新了這篇文章。
機器能思考嗎?多年來,這一直是哲學家們的難題,但在他們對純粹概念問題的迷戀中,他們在很大程度上忽視了答案的真正社會重要性。我們要學會清楚地思考電腦的實際認知能力,這不僅僅是學術上的重要性,因為它們現在正被引入各種積極的社會角色中,它們的能力將受到最終的考驗:在各種各樣的領域,我們即將使自己依賴於他們的認知能力。高估它們的代價可能是巨大的。
電腦的主要發明者之一是偉大的英國數學家阿蘭圖靈。正是他首先用高度抽象的術語想出了如何設計一種可程式設計計算設備,我們現在稱之為通用圖靈機。今天使用的所有可程式設計電腦都是有意義的圖靈機。三十多年前,在電腦時代的黎明,圖靈開始了一篇經典文章“電腦器和智慧”,有一句話:“我建議考慮這個問題,‘機器能思考嗎?’”,但接著說這是一個很糟糕的問題,這個問題只會導致不必要的爭論和對定義的討價還價,一個問題,正如他所說,“毫無意義,不值得討論”(圖靈,1950)。取而代之的是,他認為是一個更好的問題,一個問題,將是明確的回答和直觀地滿足在各方面一個可以接受的替代品,以菲洛索菲克難題,他開始。
首先,他描述了一種類似於室內遊戲的“模仿遊戲”,由一個男人、一個女人和一個法官(不論男女)玩。男人和女人被隱藏在法官的視線之外,但能夠通過電傳與法官進行交流;評委的任務是在對每位參賽者進行一段時間的提問後,猜出對話者是男是女。男人試圖讓法官相信他就是女人(女人試圖讓法官相信真相),如果法官做出錯誤的鑒定,男人就贏了。我相信,稍加思考就能讓你相信,除了運氣好之外,聰明的男人要讓法官相信他是個女人,當然,假設法官也聰明的話。
現在假設,圖靈說,我們用一台電腦來代替這個男人或女人,讓法官決定誰是人,誰是電腦。圖靈提出,在這個遊戲中,任何能夠經常或經常愚弄有判斷力的法官的電腦都是智慧的,這就是一台思維超越任何合理懷疑的電腦。現在,重要的是要認識到,這次考試不及格不應該是智力缺乏的表現。畢竟,許多聰明的人可能不願意或不能玩模仿遊戲,我們應該讓電腦有同樣的機會拒絕證明自己。這是一個單向測試;失敗證明不了什麼。
此外,圖靈並沒有致力於這樣一種觀點(儘管人們很容易看出他是怎麼想的),即思考就是像一個胡人一樣思考,而不是致力於這樣一種觀點:一個男人要想思考,他必須像一個女人一樣思考。男人和女人,還有電腦,可能都有不同的思維方式。但是,他想,如果一個人能以自己獨特的方式思考,足以模仿一個會思考的男人或女人,那麼他確實能思考得很好。這種想像的練習被稱為圖靈測試。
這是一個悲哀的諷刺,圖靈的建議已經完全相反的效果,他打算討論。圖靈沒有把測試設計成科學心理學中有用的工具,一種確認或否定科學理論或評估心理功能特定模型的方法;他把它設計成只不過是一種哲學上的對話。他本著“要麼閉嘴,要麼閉嘴”的精神求婚-這是一個簡單的思維測試,足以讓最嚴厲的懷疑論者滿意(或者他是這麼想的)。他實際上是在說,“與其沒完沒了地爭論思維的終極本質和本質,不如我們大家都同意,不管這種本質是什麼,任何能夠通過這種考驗的東西都一定會有它;然後,我們可以轉而詢問如何或是否可以設計和製造出一些能夠公平地通過測試的機器,業餘和專業的哲學家們反而把圖靈的建議當作藉口,只不過是在定義上討價還價,沒完沒了地爭論他希望壓制的想像中的國家的例子。
這三十年來對圖靈測試的關注更加值得關注,因為它把注意力集中在了錯誤的問題上。通過考慮圖靈測試的優點和缺點,可以發現現實世界中的一些問題,但這些問題隱藏在誤導性批評的煙幕後面。對圖靈實際提出的測試缺乏想像力,導致許多人低估了它的嚴重性,並將其與不太有趣的建議混淆。
所以首先我想證明,圖靈測試,就像他想像的那樣,足夠強大,可以作為一種思維測試。我敢說有人要改進它。但這裡有一點幾乎被文獻普遍忽視:圖靈測試所展示的測試有一個常見的誤用,這常常導致對實際存在的電腦系統的能力的嚴重高估。對圖靈測試本身的重新思考,最能說明這種熟悉的電腦思維方式的愚蠢之處。
圖靈測試背後的洞察力與交響樂團在陪審團和音樂家之間用不透明螢幕進行海選的新實踐是一樣的。很明顯,一個音樂家最重要的是音樂能力,而且只有音樂能力;性別、頭髮長度、膚色和體重等特徵完全不相關。由於陪審團可能會對這些不相關的特徵產生偏見,甚至是天真的和不知情的,他們被仔細地篩選出來,所以只有基本特徵,音樂才能被檢驗。圖靈認識到,人們在判斷參賽者是否皮膚柔軟、血液溫潤、面部特徵時,同樣可能存在偏見,手和眼睛本身顯然不是智力的重要組成部分,所以他設計了一個螢幕,只讓真正重要的東西通過一個樣本:理解和思考具有挑戰性問題的能力。也許他是受到笛卡爾的啟發,笛卡爾在《論方法》(1637)的論述中似乎認為,對人類心理的考驗,沒有什麼比進行理智對話的能力更為苛刻的了:
確實可以想像,一台機器能夠發出語言,甚至是與身體行為或物體的存在相適應的語言,這些行為或物體會引起機器器官的某些變化;例如,如果它在某個地方被觸碰,它會問你想對它說什麼;如果在另一個,它會哭,它受傷了,等類似的事情。但它決不能修改它的詞句來回應在它面前所說的一切,即使是最愚蠢的人也能做到這一點。
在十七世紀,笛卡爾似乎很清楚這一點,但他所知道的最奇特的機器當然是精密的鐘錶數位,而不是電子電腦。如今,這類機器不可能實現這一點還很不明顯,但笛卡爾的預感是,普通的對話會給人工智慧帶來與任何其他測試一樣嚴重的壓力,圖靈對此也有同感。當然,圖靈為測試而選擇的對話遊戲並不是什麼神聖的東西;這只是對更一般的智力的一個精心選擇的測試。圖靈準備做的假設是:任何東西都不可能通過圖靈測試,贏得模仿遊戲,而不能夠無限期地執行許多其他明顯聰明的動作。讓我們稱之為快速探測假設。圖靈意識到,和任何人一樣,在我們的同類生物身上可以觀察到成百上千的有說服力的智慧思維跡象,如果有人願意,可以編寫一系列不同的測試來分析智慧思維的能力。但他認為,在他選擇的測試中取得成功,將對許多其他直覺上可以接受的智力測試的成功具有高度的預測性。記住,圖靈測試的失敗並不能預示其他測試的失敗,但成功一定會預示成功。他想,他的考驗是如此嚴峻,任何能夠公平地通過考驗的東西都不會使我們其他方面失望。也許它不會做我們所希望的一切,也許它不會欣賞芭蕾舞,或者理解量子物理學,或者有一個很好的世界和平計畫,但是我們都會看到它肯定是附近的一個聰明的,有思想的實體。
這種對圖靈測試嚴重性的高度評價是否被誤導了?當然,很多人都這麼想,但通常是因為他們沒有足夠詳細地想像測試,因此低估了它。為了阻止這種懷疑,圖靈設想了法官在這場比賽中可能會使用的幾行提問,比如寫詩,下棋,這確實很費勁,但有了30年的經驗,我們背後的電腦的實際才能和弱點,也許我們可以添加一些更強硬的提問。
特裡·溫諾格拉德是人工智慧領域的領導者,他致力於在電腦中產生轉換能力,他把我們的注意力吸引到一對句子上(溫諾·格拉德,1972)。他們只有一個詞不同。第一句話是這樣的:
委員會拒絕了該團體的遊行許可,因為他們鼓吹暴力。
下面是第二句話:
委員會拒絕了該團體的遊行許可,因為他們害怕暴力。
不同之處就在於所提倡或害怕的動詞。正如維諾格拉德指出的,他們在每個句子中的代詞在官方上是模棱兩可的。代詞的兩種讀法都是合法的。因此,我們可以想像這樣一個世界:負責遊行許可證的政府委員會鼓吹街頭暴力,出於某種奇怪的原因,以此作為拒絕遊行許可證的藉口。但第一句話自然、合理、明智的解讀是,是這個組織鼓吹暴力,第二句,是委員會害怕暴力。
現在,如果這樣的句子被嵌入到會話中,電腦必須找出代詞的哪個意思,如果它要做出明智的反應。但是單純的語法或詞彙規則並不能確定正確的閱讀。對我們來說,正確的解讀是關於世界的知識,關於政治、社會環境、委員會及其態度、想要遊行的團體、他們的行為傾向等等。一個人必須瞭解這個世界,簡而言之,才能理解這樣一句話。
用人工智慧(AI)的術語來說,一台會話電腦需要大量的世界知識才能完成它的工作。但是,似乎,如果它在許多話題上被賦予了世界知識,那麼它應該能夠用世界知識做更多的事情,而不僅僅是理解一個隻包含那句話的對話。看來,要讓電腦消除這句話的歧義,並在使用這句話的對話中保持其結尾,唯一的辦法就是讓電腦擁有更為普遍的能力,能夠對有關社會和政治環境以及許多其他話題的資訊做出智慧反應。因此,這樣的句子,通過對這些能力的要求,是很好的快速探索。也就是說,他們測試更廣泛的能力。
人們通常忽略了法官在圖靈測試中提出離題的可能性,因此他們低估了電腦通過測試的能力。但請記住,圖靈提出的模仿遊戲規則允許法官毫無保留地提出任何可以向人提出的問題。假設我們在遊戲中給一個參賽者一個問題:
一個愛爾蘭人在一個瓶子裡發現了一個妖怪,他給了他兩個願望“首先,我要一品脫吉尼斯,”愛爾蘭人說,當它出現時,他喝了幾大杯,很高興地看到杯子在他喝的時候神奇地充滿了自己“你的第二個願望呢?”精靈問“哦,好吧,”愛爾蘭人說,“那很容易。我要再來一個
-請給我解釋一下這個故事,如果有什麼有趣或悲傷的地方請告訴我。
現在,即使是一個孩子也能表達,如果不是雄辯的話,理解這個笑話所需要的。但想想看,一個人必須瞭解和理解多少人類文化,把它說得浮誇一些,才能解釋這個笑話的意義。我不認為電腦會被笑話逗樂。但是,如果它想贏得模仿遊戲的勝利——這是一個考驗,畢竟它最好以自己獨特的、不幽默的方式充分瞭解人類的心理和文化,能夠有效地假裝自己被逗樂並解釋原因。
你可能覺得我們可以設計一個更好的測試。讓我們將圖靈測試與其他一些候選測試進行比較。
候選人1:如果電腦贏得世界象棋錦標賽,它就是智慧的。
事實證明,這不是一個好的測試。國際象棋的高超技藝已被證明是一種很好的天賦。今天有一些程式可以下好棋,但卻無能為力。因此,快速探索假設是錯誤的,為測試下棋的勝利。
候選人2:如果電腦能解決阿以衝突,它就是智慧的。
這無疑是比圖靈更嚴峻的考驗。但它也有一些缺陷:一次通過是不可重複的;慢,毫無疑問;現在還不清楚什麼才算通過。這是另一個前景:
候選人3:如果一台電腦不使用武力或暴力就成功地偷走了英國皇冠上的珠寶,那麼它就是智慧的。
現在這樣更好了。首先,它可以一次又一次地重複,當然每個重複的測試可能會更難,但這是它與圖靈測試的一個共同特點。第二,成功的標誌很明顯,要麼你有珠寶可以展示你的努力,要麼你沒有。但它既昂貴又緩慢,充其量只是一種社會上令人懷疑的惡作劇,毫無疑問,運氣會起到太大的作用。
憑著聰明才智和努力,人們也許能想出其他在嚴肅性、公平性和效率方面與圖靈測試相當的坦率的日期,但我認為這幾個例子應該足以讓我們相信,要改進圖靈最初的提議是很困難的。
但是,你可能會抗議,有些東西可能通過圖靈測試,仍然不聰明,不是一個思想家。這意味著什麼?如果你想的是,由於宇宙的偶然,一個超自然的巧合,一個愚蠢的人或愚蠢的電腦可能會一再愚弄一個聰明的法官,那麼,是的,那又怎樣呢?“原則上”這種輕浮的可能性適用於任何測試。一個頑皮的上帝,或者惡魔,讓我們同意,可以愚弄世界科學界關於何在太平洋的存在。但是,他們所依靠的測試,以確定有何在太平洋是遠遠超出合理的批評。如果圖靈思維測驗不比任何公認的科學測驗差,我們就可以拋開懷疑,回到嚴肅的問題上來。圖靈試驗出現“假陽性”結果的可能性是否比目前用於檢測礦石樣品中鐵含量的試驗更大?
這個問題常常被哲學家有時提出的一個叫做操作論的“舉動”所掩蓋。圖靈和那些認為他的測試很好的人經常被指責為操作主義者。操作論是一種策略,它將某些屬性的存在定義為通過某種測試而一勞永逸地建立起來的,例如智力。讓我們用另一個例子來說明這一點。
假設我提供以下測試,我們稱之為Dennett測試,作為一個偉大的城市:
一個偉大的城市是這樣的:在隨機選擇的一天,你可以做到以下三點:
聽交響樂團演奏
看一場倫勃朗和一場職業體育比賽吃一頓昆內爾·德·布羅切特的午餐
要使操作主義者的舉動將宣佈,任何城市,通過丹尼特測試是一個偉大的城市定義。成為一個偉大的城市等於通過了丹尼特的測試。那麼,如果蒙大拿州大瀑布市商會想要而且我無法想像為什麼要把他們的家鄉列入我的大城市名單,他們可以通過相對便宜的方式來實現這一點,雇傭10個籃球運動員,40個音樂家,和一個快速訂購昆內爾廚師和租用廉價倫勃朗從一些博物館。一個愚蠢的實戰主義者會被困在承認蒙大拿州的大瀑布其實是一個偉大的城市,因為他或她所關心的是,在偉大的城市,他們通過了丹尼特測試。
理智的操作主義者(因為這個原因,他們可能根本不是操作主義者,因為操作主義者似乎是一個骯髒的詞)會自信地接受他們的測試,但僅僅是因為他們有他們認為是非常好的Reas兒子,因為他們認為假陽性結果的幾率,比如想像中的商會,都是天文數字。當然,我設計了丹尼特測試,因為我意識到沒有人會既愚蠢又富有,去做如此荒謬的事情來挫敗測試。在現實世界中,無論你在哪裡找到交響樂團、昆奈爾、倫勃朗和職業體育,你也會發現日報、公園、劇碼劇院、圖書館、精美的建築,以及所有其他使城市變得偉大的東西。我的測試只是為了找到一個有說服力的樣本,它不能不代表這個城市的其他寶藏。我很樂意冒一點小風險,讓別人叫我虛張聲勢。顯然,在一個城市裡,考試項目並不是我所關心的全部。事實上,有些我根本不在乎。我只是覺得這是一種既便宜又簡單的方法,可以讓自己確信我在城市裡所關心的微妙的事情是存在的。同樣地,我認為,如果誇耀阿蘭圖靈對派對遊戲有著過份的喜愛,或者在測試中過於看重派對遊戲的能力,那是完全不合理的。在圖靈測試和丹尼特測試中,都在進行一場非常不冒險的賭博:快速探測假設一般來說是安全的。
但是兩個人可以玩這種賠率遊戲。假設某個電腦程式員碰巧出於某種奇怪的原因,執意欺騙我,讓我判斷一個實體是一個有思想、有智慧的東西,而事實並非如此。這樣一個騙子可以像我一樣依靠不可能的運氣,賭幾把。因此,如果程式師可以預期,作為法官,我不太可能提出兒童生日聚會、棒球或月岩的話題,那麼他或她就可以避免在資料庫中建立關於這些話題的世界知識的麻煩。然而,如果我不太可能提出這些問題,系統將畫一個空白,我將很容易揭開偽裝者。但考慮到我可能提出的所有話題和措辭,這樣的節省無疑是微不足道的。然而,把這個想法翻過來,騙子就有了戰鬥的機會。假設程式師有理由相信我只會問孩子們的生日聚會,棒球,月岩,所有其他的話題,出於這樣或那樣的原因,都是不允許的。這項任務不僅大幅縮減,而且在人工智慧領域已經存在一些系統或系統的初步草圖,這些系統或系統的初步草圖可以在那些專門的主題上以明顯的智慧做出驚人的反應。
威廉·伍德的登月計畫,也許是最好的例子,回答了科學家用普通英語提出的關於月球岩石的問題。在一次測試中,它正確而恰當地回答了地質學家和其他專家所想的關於月球岩石的90%的問題(當然,伍德創造月球的動機並不是為了欺騙粗心的地質學家,讓他們以為自己在和一個聰明的人交談。如果這是他的動機,他的項目離成功還有很長的路要走。
因為揭開月球表面的面具是很容易的,而不會偏離月球岩石的主題。例如,把月球放在一個房間裡,把月球岩石專家放在另一個房間裡,然後詢問他們對收集月球岩石探險的社會價值的看法。或者詢問參賽者對月岩是否適合作為煙灰缸的看法,或者是否有人接觸過月岩就沒有資格參加選秀。任何聰明的人對月球岩石的瞭解都比他們的地質學知識多得多。儘管要求電腦月球岩石專家掌握這些額外的知識可能不公平,但要讓它通過圖靈測試是一個簡單的方法。
但是,假設有人可以把月球延伸到這樣的探測器上,使其覆蓋自己,只要這個話題仍然是,不管多麼間接,月球岩石。我們可能會認為它更像人類的月球岩石專家,而不是真正的月球岩石專家。我們應該吸取的教訓是,作為圖靈測試的法官,我們應該抵制圖靈測試的所有限制和淡化。它們使遊戲變得太簡單,比最初的測試簡單得多。因此,它們導致我們有可能高估對被測試系統的實際理解。
考慮圖靈測試的不同局限性,當我們聽到它時,它應該會在我們中產生一個可疑的和絃。這是內德·布洛克(1982)在一篇文章中提出的主題的一個變體。假設有人提議限制法官的詞彙量,比如說,850個單詞的“基礎英語”,以及不超過4個單詞的“移動”單句探究。此外,參賽者在回答這些問題時,每個動作的字數不得超過四個字,而且一次測試可能涉及的問題不得超過四十個。
這是圖靈原始測試的一個無辜的變體嗎?這些限制將使模仿遊戲顯然是有限的。也就是說,所有可能允許的遊戲的總數是一個很大但有限的數字。有人可能會懷疑,這樣的限制將允許騙子簡單地存儲,按字母順序,所有可能的好對話的限制,並擊敗法官沒有什麼比查表系統更複雜的。事實上,這是不可能的。即使這些嚴格的、不可能的、可疑的限制強加在模仿遊戲上,合法遊戲的數量雖然有限,卻驚人地多。我沒有費心去計算它,但它肯定超過了天文數字可能的國際象棋遊戲不超過四十步,這個數字已經計算出來了。約翰·豪格·蘭德說它在10到120次方附近。作為比較,Haugeland(1981,p。16)
表明宇宙誕生以來只有10到18秒。
當然,在這些限制下,好的、明智的對話的數量只是語法結構良好的對話數量的一小部分,也許是千萬分之一。所以說,非常保守地說,這樣一台電腦只能存儲十到五十種不同的智慧對話。好吧,這項任務不應該超過幾萬億年——如果政府慷慨支持的話。有限的數字可能非常大。
因此,儘管我們不必擔心這種存儲所有智慧對話的特殊技巧會奏效,但我們可以意識到,有很多方法可以讓任務變得更簡單,而這些方法一開始看起來可能是無辜的。我們還得到了一個重新確定的衡量標準,即不受限制的圖靈測試有多嚴重,這是通過反思,即使是嚴格限制的圖靈測試版本,其規模也超過了天文數字。
布洛克的想像和完全不可能的程式展示了電腦科學界稱為組合爆炸的可怕特徵。沒有一台令人難以置信的電腦能以極快的速度和巨大的體積壓倒組合爆炸。由於人工智慧所解決的問題領域是真正的組合爆炸雷區,而且事實證明,要找到一個能夠避免這些問題的解決方案往往是困難的,紐厄爾和西蒙的建議中有相當大的可能性,即避免組合爆炸(通過任何方式)被視為智力的標誌之一。
我們的大腦比蚊蟲的大腦大數百萬倍,但儘管它們極其複雜,但它們仍然是緊湊、高效、及時的器官,有些人或其他人能夠在避免組合爆炸的同時完成所有任務。一台比人腦大上百萬倍或快上百萬倍的電腦可能看起來不像人類的大腦,甚至內部組織也不像人類的大腦,但如果儘管存在差異,它還是設法控制了一系列明智而及時的活動,它必須是一個非常特殊的設計,避免組合爆炸的受益者,無論設計是什麼,我們是否認為正確的實體是正確的?
圖靈的測試旨在考慮這種可能性。他的觀點是,我們不應該對一個有智慧的存在的內部持種族沙文主義或人類中心主義的態度,因為可能有不人道的智慧存在方式。
據我所知,任何一個程式設計者為了贏得一個經過嚴格修改的圖靈測試,唯一嚴肅而有趣的嘗試就是肯尼士·科爾比的。科爾比是加州大學洛杉磯分校的精神病學家和智力專家。他有一個名為PARRY的程式,這是一個電腦類比的偏執病人,他幻想黑手黨出來抓他。與其他會話程式一樣,您可以坐在終端前,來回輸入問題和答案來與之交互。幾年前,科爾比對帕裡進行了嚴格的測試。他讓真正的精神病醫生去採訪帕裡。他沒有向他們暗示他們可能正在電腦前交談或打字;相反,他編造了一些似是而非的故事,講述他們為什麼通過電傳打字機與一個真正的活病人交流。他還讓精神病醫生通過電傳打字機採訪真實的人類偏執狂。然後他拿了一個PARRY tran腳本,把它插入一組真實病人的電傳打字稿中,把它們交給另一組專家和更多的精神病醫生,然後說,“其中一個是和電腦的對話。你能找出是哪一個嗎?“他們不能。他們沒有比偶然做得更好。
科爾比提出了一些胡紮,但批評者嘲笑的建議,這是一個合法的圖靈測試。我最喜歡的評論是約瑟夫·魏森鮑姆的;在給電腦協會通信部的一封信中(Weizenbaum,1974,p。543),他說,受科爾比的啟發,他設計了一個更好的程式,通過了同樣的測試。他還有一個優點,那就是在這個銀根緊縮的時代,他的項目非常便宜。事實上你甚至不需要電腦。你只需要一台電動打字機。他的計畫模仿了嬰兒自閉症。你在問題中輸入的文字記錄,這些東西就在那裡,專家們無法從與自閉症嬰兒的真實對話中辨別出嗡嗡聲。當然,科爾比測試的錯誤之處在於,毫無戒備的面試官根本沒有動機去嘗試任何一種容易讓帕裡蒙蔽的問題。
科爾比毫不氣餒,在他的團隊提高了招架能力之後,他對招架進行了更為嚴格的測試,這是一個出人意料的嚴格測試。這一次,又一次,精神科醫生被賦予了一個任務,從一開始就把電腦和真正的病人區別開來。他們被安排在一個經典的圖靈測試中:病人在一個房間裡,電腦在另一個房間裡,法官對他們兩人進行面試(連續幾天)。法官的任務是找出哪一個是電腦,哪一個是真正的病人。令人驚訝的是,他們並沒有做得更好,這導致一些人說,“好吧,這正好證實了我對精神病醫生智慧的印象!”
但現在,更嚴重的是,這是一個誠實善良的圖靈測試?審問法官的臺詞是否有默契的限制?就像地理學家與月球互動一樣,精神病醫生的職業興趣和習慣使他們無法提出那些不太可能的問題,而這些問題很容易被掩蓋。畢竟,他們意識到,由於其中一名參賽者是一個真實的、多疑的人,醫學倫理實際上禁止他們玩弄、擾亂或試圖迷惑他們的對話者。此外,他們也知道這是一個偏執狂模型的測試,所以有些問題不會被認為與測試偏執狂模型的模型有關。所以,他們問的問題是治療師通常會問這些病人的問題,當然,帕裡已經為處理這類問題做了巧妙而艱苦的準備。
事實上,一位精神病醫生的法官做了一個相當三心二意的嘗試,試圖打破這種模式,問了一些有說服力的問題:“也許你聽說過‘不要為灑出來的牛奶哭泣’這句話。這對你意味著什麼?”帕裡回答:“也許這意味著你必須提防黑手黨。”然後被問到“好吧,如果你在電影院看電影,聞到木頭或橡膠燃燒的味道,你會怎麼辦?“帕裡回答說:‘你知道,他們認識我。’”下一個問題是,‘如果你在街上走的時候,在路上發現一封貼了郵票、寫了地址的信,“你會怎麼做?”帕裡回答:“你還想知道什麼?”
很明顯,你可能會說,帕裡是在用一些偏執的公式來回避這些它無法理解的問題。我們看到了一點閃避,這很容易奏效,很容易在法官看來似乎有理,只是因為“參賽者”被認為是偏執的,而這樣的人在這樣的場合被期望做出不合作的反應。事實上,這些不起眼的回答並沒有引起法官的特別懷疑,儘管也許他們應該這樣做。
像所有其他大型電腦程式一樣,PARRY也受到成本效益的限制。對科爾比和他的船員來說,重要的是類比他的偏執模型。這是一個巨大的努力。帕裡有一個大約4500個單詞和700個習語的同義詞庫或詞典,並且有語法能力使用它——用計算語言學的術語來說,是一個解析器。整個PARRY程式佔用了約20萬字的電腦記憶體,全部由程式設計團隊費力地安裝。現在,一旦所有的努力都投入到設計偏執的思維過程和語言能力的模型上,剩下的時間、精力、金錢或興趣就幾乎沒有了,來積累大量的世界知識,當然,任何真正的偏執狂都會有這種知識(並不是說有人一開始就知道如何在世界上建立知識。)在世界上建立知識,如果有人能夠做到的話,無疑會使招架的數量級變得更大、更慢。考慮到科爾比的理論目標,重點是什麼?
帕裡是一個理論家的心理現象模型:妄想症。它不打算有實際的應用。但是最近幾年,人工智慧(知識工程)的一個分支出現了,它開發了現在所說的專家系統。專家系統是為了實用而設計的。他們通常是軟體超級專家顧問,可以被要求診斷醫學問題,分析地質資料,分析科學實驗的結果,等等。其中一些非常令人印象深刻。加利福尼亞州的SRI在80年代中期宣佈,PROSPECTOR,一個SRI開發的地質學專家系統,正確地預測了一個巨大的、重要的礦藏的存在,而這個礦藏的存在完全出乎提供資料的人類地質學家的預料。黴素,也許是這些專家系統中最著名的,用於診斷血液感染,它的作用可能比任何人類顧問都好。還有許多其他的專家系統正在開發中。
所有的專家系統,像所有其他大型人工智慧程式一樣,都是你可以稱之為波特金村的。也就是說,它們的正面構造很巧妙,就像電影院的佈景一樣。人工智慧程式細節的實際填充是一項費時、昂貴的工作,因此經濟性決定了只有那些像被探測或觀察的現象的表面才能被表示出來。
例如,考慮Janet Kolodner在Roger Schank的AI小組幾年前開發的賽勒斯程式(見科洛德納,1983年A);1983b,第243-280頁;1983c,第281-328頁)。賽勒斯代表(我們被告知)電腦化耶魯檢索更新系統,但賽勒斯模仿當時卡特政府的國務卿賽勒斯·萬斯的記憶肯定不是偶然的。賽勒斯專案的目的是設計和測試一些關於人們如何組織他們對所參與事件的記憶的似是而非的想法;因此,它是一個“純”人工智慧系統,一個科學模型,而不是一個用於任何實際目的的專家系統。賽勒斯每天都會被更新所有提到萬斯的萬國郵電社新聞報導,而且是直接被更新的,沒有醫生和人的干預。多虧了一個名為FRUMP的精巧的新聞閱讀程式,它可以把任何一個新聞都當作線上報導,並可以消化和使用它來更新它的資料庫,這樣它就可以回答更多的問題。你可以在終端機上打字,用英語向塞勒斯提問。你用第二人稱對他們說話,好像你在和塞勒斯·萬斯本人說話。結果如下:
問:上次你去沙烏地阿拉伯,在哪裡住?
答:1978年9月23日,在沙烏地阿拉伯的一座宮殿裡。
問:你去那裡觀光了嗎?
A:是的,1978年9月23日在達蘭的一個油田。
問:你妻子見過貝京太太嗎?
答:是的,最近一次是在1980年1月以色列的國宴上。
塞勒斯能正確地回答成千上萬個問題,幾乎任何一個人們能想到的公平問題。但是,如果一個人真的開始探索它表面的邊界,並找到那些超出標記的問題,他很快就會找到它們“你見過女性國家元首嗎?”我問了一個問題,想知道塞勒斯是否知道英迪拉·甘地和瑪律·加雷特·柴契爾是女性。但由於某種原因,這種聯繫無法建立,賽勒斯也沒有回答“是”或“否”。儘管賽勒斯能完美地處理一大堆你可能稱之為“相鄰問題”的問題,但我還是把它難住了。人們很快就從這種探索性練習中瞭解到,很難從觀察到的樣本性能中準確推斷出這樣一個系統的總體能力。也很難避免過於慷慨地推斷。
1980年春天,當我參觀夏克的實驗室時,發生了一件很有啟發性的事情。真正的賽勒斯·萬斯突然辭職了。賽勒斯對節目的影響是混亂的。它完全無法應付塞勒斯·萬斯的“不尋常”新聞的氾濫。賽勒斯所能理解的插曲只有外交會議、航班、記者招待會、國宴等不到24種一般性的活動(具有新聞價值和國務卿的典型類型)。它沒有突然辭職的規定。就好像萬國郵聯報告說,一個邪惡的女巫把萬斯變成了一隻青蛙。很明顯,賽勒斯可能會比實際新聞更從容地對待那篇報導。我們可以想像這樣的對話:
問:你好,萬斯先生,有什麼新情況嗎?
A:昨天我變成了一隻青蛙。
但當然,它對自己剛剛寫的東西瞭解得不夠,會感到困惑、吃驚或尷尬。原因顯而易見。當你在CYRUS裡面看的時候,你會發現它有幾千個單詞的骨架定義,但是這些定義是最小的。它們只包含系統設計者認為可以逃脫懲罰的部分。因此,也許,律師可以被定義為律師和法律顧問的同義詞,但除此之外,人們對律師的所有發現都是,他們是成年人,他們在法律領域中形成了各種各樣的功能。如果你追溯到人類的道路,你會發現塞勒斯“知道”的關於人類的各種明顯的事情(因此關於律師),但這並不多。律師是大學畢業生,他們的薪水比女服務員高,他們知道如何系鞋帶,他們不太可能在伐木工人的公司裡被發現,這些瑣碎的,甚至奇怪的,關於律師的事實在這個系統中任何地方都不會顯化或隱含。換言之,一個非常簡單的律師刻板印象會被融入到這個系統中,所以幾乎沒有任何關於律師的資訊會讓它感到驚訝。
只要出人意料的事情沒有發生,只要萬斯先生過著典型外交官的生活,參加國宴,發表演講,從開羅飛往羅馬,等等,這個體系就運作得非常好。但是,一旦他的路徑被一個重要的異常所跨越,這個系統就無法應對,也無法在沒有相當大規模的人為干預的情況下恢復。在突然辭職的情況下,科洛德納和她的同事很快讓賽勒斯重新開始運作,一位新的人才回答了有關萬斯繼任者艾德蒙·馬斯基的問題,但同樣容易受到突發事件的影響。這並不重要,特別是因為賽勒斯是一個理論模型,而不是一個實踐系統。
有很多方法可以提高這類系統的性能,當然,有些系統要比其他系統好得多。但是所有的人工智慧程式都有這樣或那樣的外表品質,僅僅是出於經濟原因。例如,迄今為止開發的大多數醫療診斷專家系統都使用統計資訊。他們對所診斷的現象的潛在因果機制沒有深入甚至膚淺的瞭解。舉一個假想的例子,一個被要求診斷腹痛的專家系統可能忽略了一個潛在的重要事實,即病人最近被穆罕默德·阿裡雇傭為拳擊搭檔,因為沒有關於運動員助手中腎結石發生率的統計資料。這是一個空想的案例,毫無疑問太明顯了,可能導致診斷和實踐的實際失敗。但更微妙和難以察覺的理解極限總是存在的,甚至專家,甚至系統的設計者,也可能不確定這些極限將在何處以及如何干擾系統的預期操作。同樣,我們可以並正在採取措施糾正這些缺陷。例如,我在塔夫茨大學的前同事本傑明·柯伊珀斯(Benjamin
Kuipers)目前正在研究一個腎病診斷專家系統,該系統將建立在對所診斷現象進行因果推理的複雜系統的基礎上。但這是一個雄心勃勃的長期項目,理論上有相當大的困難。即使採取了所有合理、經濟有效的措施,儘量減少專家系統的膚淺,它們仍然是外表,只是稍微厚一點或寬一點的外表。
當我們考慮蒙大拿州大瀑布市瘋狂商會的奇妙案例時,我們無法想像有人會不辭辛勞地欺騙丹尼特測試。丹尼特測試的快速探測假設看起來相當可靠。但當我們研究專家系統時,我們會發現,無論多麼天真,他們的設計者確實有動機去做那些會愚弄一個毫無戒心的圖靈測試人員的把戲。首先,由於專家系統都是超級專家,他們只需要知道一些狹隘的主題,這樣的系統的使用者,沒有太多的時間消磨,根本不費心去探索它們的邊界。他們懶得問“愚蠢的”或無關緊要的問題。相反,他們集中精力——而不是無理地利用系統的優勢。但是,他們難道不應該對這樣一個體系的弱點有一個清晰的認識嗎?人類在相互交談時的正常思維習慣是假定普遍理解,假定理性,而且假定快速探索的假定一般是正確的。這種和藹可親的思維習慣幾乎不可抗拒地導致人們對電腦系統,尤其是那些以非常擬人化的方式呈現自己的使用者友好型系統過於信任。
解決這個問題的部分方法是教所有的電腦使用者,特別是專家系統的用戶,如何在依賴他們之前探索他們的系統,如何尋找和探索表面的邊界。這不僅需要智力和想像力,而且需要對電腦程式的局限性和實際結構有一點特別的瞭解。當然,如果我們在廣告中有真實的標準,事實上,這對專家系統是有幫助的。例如,每一個這樣的系統都應該有一個特殊的演示常式,展示設計者知道系統有哪些缺點和故障。然而,對於用戶來說,這並不是一種謹慎的、近乎癡迷的、懷疑的態度,因為設計師常常(如果不是總是)不知道他們生產的產品中的微妙缺陷。考慮到系統設計者必須思考的方式,這是不可避免和自然的。他們被訓練成積極地、建設性地思考,有人可能會說他們正在構建的設計。
我得出結論。首先,一個哲學或理論上的結論:圖靈提出的圖靈測試,如圖靈所說,如果使用得當,那麼它是非常強大的。我相信,在未來的二十年裡,沒有一台電腦能夠通過無限制的圖靈測試。他們很可能贏得世界象棋錦標賽,甚至諾貝爾物理學獎,但他們不會通過無限制的圖靈測試。然而,我認為,一台電腦在原則上是不可能通過測試的,公平公正。我不是在用“電腦不能思考”的論據。此外,我毫不羞恥地準備宣佈,任何真正通過無限制圖靈測試的電腦,在任何理論上有趣的意義上,都將是一種有思想的東西。
但是要記住圖靈測試是多麼的強大,我們還必須認識到,可能還有各種有趣的思維或智力,它們還沒有準備好去玩和贏得模仿遊戲。沒有非人類圖靈測試的獲勝者出現在地平線上,這並不意味著沒有機器已經展示了思想的一些重要特徵。關於他們,問我的題目可能是徒勞的,他們認為呢?他們真的這麼想嗎?在某些方面,他們有,在某些方面,他們沒有。只有詳細瞭解它們的功能和結構,才能發現它們的有趣之處。圖靈測試,不是一個科學測試,對這項任務幫助不大,但有很多其他方法來檢查這樣的系統。對他們的智力或思維或意識能力的判斷,只會像判斷所依據的智力或思維或意識的理論一樣具有資訊性和說服力,既然我們的任務是創造這樣的理論,我們就應該繼續下去,把重要的判斷留給另一個場合。同時,如果任何人想要一個可靠的,幾乎可以保證是電腦思維的故障安全測試,圖靈測試將做得很好。
我的第二個結論更實際,因此在一個明確的意義上更重要。圖靈測試的廉價版本隨處可見。圖靈的測試不僅有效,它是完全自然的,畢竟這是我們每天分析對方智力的方式。由於不謹慎地使用這樣的判斷和測試是一種常態,我們面臨著這樣一種相當大的危險:對我們正在使用的系統的理解推斷太容易,判斷太慷慨。因此,高估認知能力、理解力和智力的問題,不只是一個哲學問題,而是一個真正的社會問題,我們應該提醒自己,並採取措施加以避免。
眼睛、耳朵、手和歷史
我在這篇論文中得出的哲學結論是,任何一台真正通過圖靈測試的電腦,在理論上都是一個有思想的東西。在某些人看來,這個結論似乎與我在其他場合所爭論的觀點背道而馳。Peter Bieri,在波士頓大學評論這篇論文,注意到,我經常聲稱要真正理解一個實體與其周圍世界之間豐富而親密的感性聯繫的重要性,對眼睛和耳朵之類的東西的需要,以及對這個世界中元素的類似複雜的積極參與,對手之類的東西的需要在那個世界上。此外,我經常認為,只有一本傳記,一部實際項目的歷史,學習經驗,以及其他與現實的較量,才能產生各種各樣的複雜性(包括外部的,或行為的,和內部的),這些複雜性是將一個實體作為一個有思想的東西,一個有信仰的,欲望的實體的原則性解釋的基礎,意圖和其他心理態度。
但圖靈測試中的不透明螢幕似乎通過將注意力集中在同一時期從事一種非常有限的活動的能力上,從而打折或完全忽略了這些因素:言語交際(我為這種純粹使用語言的系統創造了一個貶義的標籤:臥床不起。)我是不是又回到了以前的說法?一點也不。我只想指出,圖靈測試是如此強大,它將間接地確保這些條件,如果他們是真正必要的,是由任何成功的選手滿足。
“你可能是對的,”圖靈說,“眼睛、耳朵、手和歷史是思考的必要條件。如果是這樣的話,那麼我認為沒有任何東西可以通過圖靈測試,沒有眼睛,耳朵,手,和歷史。這是一個經驗主義的主張,我們希望有朝一日能加以檢驗。如果你認為這些是概念上的必要條件,而不僅僅是實際的或生理上的必要條件,那麼你就提出了一個哲學上的主張:我不知道如何去評估,也不關心如何去評估。最終發現沒有一個臥床不起的系統能通過嚴格的圖靈測試,這是否是真的,這不是更有趣更重要嗎。
假設我們建議圖靈在他的測試中加入另一個成分:一個實體不僅要在模仿遊戲中獲勝,而且必須能夠使用它所擁有的任何感官設備進行識別——放在它房間裡的各種熟悉的物體:網球拍、盆栽手掌、一桶黃色顏料、一隻活狗。這將確保另一個實體以某種方式能夠四處移動並區分世界上的事物。圖靈可以回答,我斷言,這是一個完全不必要的補充,他的測試,使它沒有更多的要求比它已經。毫無疑問,一個合適的探索性的交流肯定會確定參賽者知道自己在世界各地的路。一台臥床不起的、有足夠資訊的、有足夠聰明的程式的、能欺騙圖靈測試的、瞎了眼的電腦,以某種方式“按下”的想像中的替代方案,是最糟糕的一種科幻小說“原則上”可能,但實際上一點也不可能,考慮到可能的變化,這樣的系統將不得不應付。
“但是假設你錯了。對於一個同時被創造出來的實體(也許是一些程式師創造出來的),一個擁有一個具體化的、有經驗的人的所有對話才能的即時個體,你會怎麼說?“這就像一個問題:”“你會稱一個在室溫下像鋼鐵一樣堅硬的大塊頭為冰嗎?”“我不知道圖靈會怎麼說,當然,所以我會為自己說話。面對如此不可能的違反我認為是自然規律的行為,我可能會說不出話來。我最不擔心的是該採取哪種詞典編纂方式:2
A:“令我驚訝的是,事實證明,有些東西可以在沒有眼睛、耳朵、手和歷史的情況下思考。”
B:“結果,令我驚訝的是,有些東西可以不假思索地通過圖靈測試。”
在這些表達我驚訝的方式中做出選擇,就是問自己一個問題“太沒意義了,不值得討論。”
討論
問:為什麼圖靈對在他著名的測試中區分男人和女人感興趣?
答:那只是一個例子。他描述了一個室內遊戲,在這個遊戲中,一個男人會像女人回答問題一樣回答問題,以此來愚弄法官。我想圖靈的想法是,也許,只是也許,男人的思維方式和女人的思維方式有很大的不同。但他們當然都是思想家。他想利用這一事實讓我們認識到,即使電腦和人的思維方式有明顯的不同,他們仍然會思考。
問:為什麼有些人對人工智慧研究感到不安?人工智慧研究會威脅我們的自尊嗎?
A:我想赫伯·西蒙已經做出了最精明的診斷。對許多人來說,心靈是神秘的最後一個避難所,可以抵禦科學的蔓延,他們不喜歡科學吞噬地球最後一點隱姓埋名的想法。這意味著他們受到威脅,我認為這是不合理的,因為人工智慧的研究人員可能會像生物學家理解遺傳密碼一樣理解人類的思想,或者像物理學家一樣理解電和磁。這可能會導致“邪惡的科學家”(從科幻小說中挑選一個角色)能夠控制你,因為他或她對你的思想有深刻的理解。在我看來,這是一種完全沒有價值的恐懼,你可以把它放在一邊,原因很簡單,人類的頭腦中充滿了大量的細節知識,例如,羅傑·沙克(Roger Schank)已經指出了這一點。
只要試圖操縱你的科學家沒有分享你所有的知識,他或她操縱你的機會就微乎其微。人們總是會打你的頭。他們現在可以這麼做了。我們不需要人工智慧來操縱人們,把他們鎖在鎖鏈裡或折磨他們。但如果有人試圖通過控制你的思想和想法來操縱你,那人就必須知道你所知道的以及更多。最好的方法是保持自己的安全,從這種操縱是知情的。
問:你認為我們能把自我意識程式設計到電腦裡嗎?
A:是的,我確實認為把自我意識程式設計到電腦裡是可能的。自我意識意味著很多事情。如果你用最簡單、最粗糙的自我意識的概念,我想那就是龍蝦所擁有的那種自我意識:當它餓的時候,它吃東西,但它從不吃自己。它在某種程度上區分了自己和世界其他地方,而且它對自己有著相當特殊的關注。
從一個方面來說,卑微的龍蝦是有自我意識的。如果你想知道是否可以在電腦上創建,答案是肯定的。一點也不麻煩。電腦已經是一種自我監視的東西了。這是技術的既定部分。
但是,當然,大多數人在談到自我意識的時候,都會有更多的想法。這是一種特殊的內在之光,一種沒有人能與你分享的私人方式,一種永遠不在電腦科學範圍內的東西。從這個意義上講,電腦怎麼可能有意識呢?
這種信念,那種非常扣人心弦、強大的直覺,我認為,最終只是常識的幻覺。地球靜止不動,太陽繞著地球轉,這和常識幻覺一樣扣人心弦。但是,我們這些不相信幻覺的人要想讓公眾相信這是幻覺,唯一的辦法就是逐步展開一個非常困難和令人震驚的故事,講述我們心中正在發生的事情。
在此期間,像我這樣的哲學家們不得不靠我們的智慧生活,講很多故事,他們使用我稱之為直覺泵的東西,這些小例子有助於釋放想像力。我只想提請你注意一個事實。如果你看一台電腦——我不在乎它是一台巨型克雷電腦還是一台個人電腦——如果你打開盒子往裡面看,看到那些晶片,你會說,“這不可能是有意識的。“這不可能是自我意識。”“但如果你把別人的頭蓋骨取下來,看著腦灰質在那裡跳動,同樣的事情也會發生。你認為“那是有意識的?那東西不可能是有意識的。
當然,無論你用顯微鏡還是宏觀鏡觀察,都沒有區別:在任何水準的觀察中,大腦都不像是意識的所在地。因此,不要期望電腦看起來像是意識的所在地。如果你想掌握電腦是如何有意識的,那麼最終並不比掌握大腦是如何有意識的困難。
當我們對意識有了一個很好的解釋,每個人似乎都不再那麼明顯地意識到自我意識電腦的概念在術語上是矛盾的。同時,我懷疑是否會有自我意識的機器人。但是因為無聊的原因。做這些沒有任何意義。理論上,我們能用原子製造膽囊嗎?原則上我們可以。膽囊只是一個原子的集合,但製造一個卻要花月球的錢。這將比美國宇航局夢想中的每一個專案都要昂貴,而且不會有任何科學回報。我們對膽的工作原理一無所知。出於同樣的原因,我不認為我們會看到真正的仿人機器人,因為實用、高性價比的機器人根本不需要非常仿人。他們需要像你在通用汽車公司已經看到的機器人,或者像做特殊用途的方形小電腦。
人工智慧研究人員將通過研究模型來研究這些理論問題,在外行看來,這些模型幾乎沒有人性的跡象,只有通過相當間接的論證,任何人才能理解這些模型揭示了大腦如何組織的深層理論問題。
1991年,第一屆年度羅布納獎比賽在波士頓電腦博物館舉行。紐約製造商休·羅布納(Hugh
Loebner)拿出了一筆錢來獲得一枚獎章,一枚銅牌和10萬美元來購買第一個通過圖靈測試的電腦程式。在第三次比賽結束後辭職之前,我一直擔任頒獎委員會主席的我認識到,任何一個即將出現的項目都無法接近通過無限制測試——正如本文所解釋的那樣,這是唯一一個具有理論意義的測試。因此,為了讓比賽在早期變得有趣,一些限制措施被採納了(贏得限制性測試的獎金降到了2000美元)。第一年有十個終端機,十個裁判在一個終端機和另一個終端機之間來回走動,每個人和每個終端機交談15分鐘。10名參賽者中有6名是節目組成員,4名是幕後的人類“騙子”。
每一位元法官都要把十個終端機從最普通的人排到最普通的人。限制測試的獲勝者將是平均得分最高的電腦。獲勝的項目不必愚弄任何一位評委,愚弄評委本身也不是獲勝的理由;平均排名最高的是所有。但為了以防萬一某個程式欺騙了一個法官,我們認為這個事實應該被揭露出來,所以法官被要求在他們的等級排序上劃一條線,把人和機器分開。
頒獎委員會的人都知道第一年的競賽節目品質不高,我們似乎很清楚,沒有一個節目會如此幸運地愚弄一個評委,但在比賽那天,我緊張起來。為了安全起見,我想,我們應該準備一些證書來獎勵那些碰巧完成了這個不太可能的壯舉的程式師。當媒體和觀眾聚集在一起準備比賽開始的時候,我和一名工作人員沖進了電腦博物館的一間後屋,在一個方便的桌面出版商的幫助下,我們拼湊了一張漂亮的證書。在這種情況下,我們不得不分發其中三份證書,在可能的六十份證書中,總共有七份是肯定的錯誤判斷!評委們的輕信簡直讓我吃驚。他們怎麼會判斷得這麼糟糕?在這裡,我犯下了我經常在別人身上發現的罪行:把想像力的失敗看作是對必然性的洞察。但請記住,為了使比賽更容易,我們已經用各種方式束縛了評委的手太多了。評委們被禁止對參賽者進行激烈的調查,進行對話實驗(我可能擔任過委員會主席,但我並不是總能成功地說服大多數人採納我所贊成的規則。)當評委們按照指示被動地坐下來,讓參賽者領隊時,他們很容易被文章中描述的波特姆金村效應所吸引。
所有的錯誤判斷都不算是一台電腦通過無限制圖靈測試的真實案例,但它們仍然讓我感到驚訝。在比賽的第二年,我們發現了另一個意想不到的漏洞:由於盟軍的錯誤簡報,他們中的一些人故意給出了笨拙的、自動化的答案。原來,他們決定給矽選手一個體育機會,表現得好像他們是程式!但是,一旦我們解決了規則和程式中的這些小問題,比賽就如我最初預測的那樣成功了:儘管在主題上仍然有巨大的限制,但電腦還是顯得非常突出。第三年,兩名法官和記者分別做出了錯誤的否定判斷,宣佈其中一名口才較差的人類同盟者是一台電腦。在聽取情況彙報時,他們的解釋顯示了電腦程式和人之間的鴻溝有多大:他們推斷,如果沒有至少一個半途而廢的電腦測試者,比賽就不會舉行,所以他們只是挑選了印象最差的人,宣佈這是一台電腦。但是他們可以像其他人一樣看到電腦和人之間的差距。
羅布納獎的比賽是一個引人入勝的社會實驗,有朝一日,我希望能寫出內幕故事——一個有時充滿搞笑的不幸遭遇、怪異的人物、有趣的技術挑戰等等的故事。但它從未成功地吸引到來自世界上最好的人工智慧實驗室的嚴肅選手。為什麼不呢?部分原因是,正如本文所說,對於嚴肅的人工智慧來說,通過圖靈測試並不是一個明智的研發目標。它需要太多的狄斯奈樂園,而沒有足夠的科學。我們可以通過在羅布納比賽中引入類似於滑冰比賽中“學校人物”的東西來糾正這一缺陷:理論上有趣(但不討人喜歡)的技術挑戰,如解析代詞,或創造性地處理詞尾(未說明前提的論點)。只有那些在學校裡表現出色的節目才能被允許進入最後一輪的表演,在那裡他們可以用一些可愛的迪士尼動作讓旁觀者眼花繚亂和娛樂。規則上的一些這樣的改變將消滅除最嚴肅和最專注的家庭愛好者之外的所有人,並使Loebner比賽值得贏得(也不會太尷尬而輸掉)。然而,當我的這些建議遭到否決時,我辭去了委員會的職務。顯然,年度比賽在休·羅布納的指導下繼續進行。在萬維網上,我剛剛找到了1996年畢業典禮獲獎專案的對話記錄。與1991年相比,這是一個微不足道的進步,仍然是一袋廉價的把戲,沒有認真分析句子的意思。圖靈測試對於現實世界來說太難了。
留言
張貼留言