精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 百科知識 ?仿生數(shù)碼新皮質(zhì)

        仿生數(shù)碼新皮質(zhì)

        時間:2023-03-03 百科知識 版權(quán)反饋
        【摘要】:我們現(xiàn)在已能模擬包含160萬個視覺神經(jīng)元的人腦視覺新皮質(zhì),模擬完整人類大腦的目標(biāo)預(yù)計2023年就可實現(xiàn)。阿蘭·圖靈只有計算機(jī)能像人類那樣思考,它才被認(rèn)為是智能的。生物新皮質(zhì)要經(jīng)過不斷地重復(fù)才能掌握一種新的技能,數(shù)碼新皮質(zhì)也不例外。馬克拉姆不斷取得新成果。馬克拉姆的反對者卻提出了質(zhì)疑,他們認(rèn)為馬克拉姆雖已成功模擬出神經(jīng)元,但卻無法證明這些模擬神經(jīng)元就是真實神經(jīng)元的再現(xiàn)。
        仿生數(shù)碼新皮質(zhì)_如何創(chuàng)造思維:人類思想所揭示出的奧秘

        我們現(xiàn)在已能模擬包含160萬個視覺神經(jīng)元的人腦視覺新皮質(zhì),模擬完整人類大腦的目標(biāo)預(yù)計2023年就可實現(xiàn)?!笆噶苛炕狈椒饶芨咝Ю糜嬎銠C(jī)資源,又能保留重要的語言識別特征?!半[馬爾可夫模型”讓語音識別系統(tǒng)能同時完成識別和學(xué)習(xí)兩項任務(wù)。

        不要相信任何自圓其說的話,除非你知道他的思考模式。

        亞瑟·衛(wèi)斯理,選自《哈利·波特》

        我想要的不過是一個平凡而并非超凡的大腦,它只要跟美國電話電報局總經(jīng)理的一樣就行。

        阿蘭·圖靈

        只有計算機(jī)能像人類那樣思考,它才被認(rèn)為是智能的。

        阿蘭·圖靈

        我相信在世紀(jì)末,語言的使用和教育水平會有極大的改變,人們在談到“機(jī)器思考”時,會覺得理所當(dāng)然。

        阿蘭·圖靈

        母老鼠天生就會打洞,即使它一生都不曾見過其他的母老鼠怎樣打洞。同樣,就算其他同類沒有示范完成這些復(fù)雜任務(wù)的具體步驟,蜘蛛還是天生就會織網(wǎng),毛蟲還是天生就會織繭,海貍還是天生就會建造水壩。當(dāng)然,我們并不是說這些(織網(wǎng)、織繭、建造水壩)不是習(xí)得行為,只不過是說一代的學(xué)習(xí)是無法掌握這些行為的,必須通過數(shù)千代學(xué)習(xí)的積累。毋庸置疑,動物行為的進(jìn)化的確是一個學(xué)習(xí)的過程,但是這種進(jìn)化是整個物種群體的學(xué)習(xí)而不是個體的學(xué)習(xí)。進(jìn)化的成果通過DNA遺傳給下一代。

        新皮質(zhì)進(jìn)化的意義就在于它大大縮短了學(xué)習(xí)過程(層次化知識)——從數(shù)千年縮短到幾個月,甚至更短。就算某種哺乳動物遇到無法解決的難題(問題的解決需要一系列步驟),但只要其中的一名成員偶然找到解決方法,該方法就會在種群中迅速擴(kuò)散傳播。

        當(dāng)我們從生物智能轉(zhuǎn)向非生物智能時,我們的學(xué)習(xí)速度提高了幾百萬倍。一旦數(shù)碼新皮質(zhì)習(xí)得一種技能,它就會在短短幾分鐘甚至幾秒之內(nèi)將這種技能傳授給其他皮質(zhì)。舉個例子,在我的第一家公司——我在1973年創(chuàng)立的庫茨韋爾計算機(jī)產(chǎn)品股份有限公司(Kurzweil Computer Products),我們花了很長時間研究一種叫做全字體(可以是任何字體)光學(xué)字符識別(OCR)的技術(shù),以期識別掃描文件中的打印字符。這項技術(shù)連續(xù)開發(fā)了40年,新近產(chǎn)物是Nuance公司的Omnipage。如果你希望你的電腦能識別打印字符,你不必像我們那樣花費數(shù)十年的時間訓(xùn)練電腦,你只要下載以軟件形式存儲的最新模式即可。20世紀(jì)90年代,我們開始研究語音識別,這項技術(shù)作為Siri系統(tǒng)的一部分,已經(jīng)持續(xù)開發(fā)了數(shù)十年。同樣,你也可以在數(shù)秒之內(nèi)就下載這種研究電腦很多年才能習(xí)得的最新模式。

        我們最終的夢想是研究出一種人造新皮質(zhì),它在功能和靈活性方面皆可與人類大腦新皮質(zhì)相媲美。想想這種發(fā)明問世的益處吧。電子線路運行的速度會比生物線路快成千上萬倍。雖然一開始,我們要犧牲速度來彌補(bǔ)電腦平行演化的缺乏,但是最終,數(shù)碼新皮質(zhì)層還是要比生物多樣性變化更快,還是會提高速度。

        假如我們放大新皮質(zhì),我們無需擔(dān)心附加新皮質(zhì)與我們的身體、大腦的匹配度是多少,因為就像如今的計算技術(shù)一樣,新皮質(zhì)大多數(shù)會儲存在云端。我曾經(jīng)估計我們的生物大腦新皮質(zhì)可以承載3億個模式識別器。借助人類不斷進(jìn)化的寬前額和占據(jù)腦容量80%空間的大腦新皮質(zhì),這個數(shù)字對我們的大腦來說不成問題。但一旦我們的大腦開始云思維,我們就不再受自然條件的限制,就能無限使用數(shù)十億甚至數(shù)百億個模式識別器,基本不需要再考慮我們的需求,以及庫茲韋爾定律在每個時間點可以提供什么。

        生物新皮質(zhì)要經(jīng)過不斷地重復(fù)才能掌握一種新的技能,數(shù)碼新皮質(zhì)也不例外。但是一旦數(shù)碼新皮質(zhì)在某一時間學(xué)會了某種新知識,它就能在第一時間與其他數(shù)碼新皮質(zhì)交換信息。就像如今我們每個人都擁有自己的數(shù)據(jù)庫一樣,我們也可擁有儲存在云端的新皮質(zhì)擴(kuò)展器。

        最后,通過數(shù)碼新皮質(zhì),我們可以備份智力中的數(shù)碼部分。這不僅暗示了新皮質(zhì)可以儲存信息,更令人震驚的是,這樣的信息至今還沒有備份——當(dāng)然,我們確實可以記下大腦中的信息用以備份。將思維的一部分傳輸給能長存于我們生物體中的媒介的能力無疑是個巨大的進(jìn)步,然而大腦中的很多數(shù)據(jù)依然是易損的。

        腦模擬

        準(zhǔn)確模擬人腦是構(gòu)建數(shù)碼大腦的方法之一。例如,哈佛大學(xué)腦科學(xué)博士生大衛(wèi)·達(dá)倫布爾(David Dalrymple)就計劃模擬一種線蟲(蛔蟲)的大腦,因為線蟲的神經(jīng)系統(tǒng)構(gòu)造相對來說比較簡單,大約只有300個神經(jīng)元,他打算細(xì)致深入到分子層次。同時,他還給這個大腦加了個虛擬身體,并模擬了線蟲真實的生存環(huán)境,如此一來,這個虛擬線蟲就可以像真實的線蟲那樣獵食、做其他同類擅長的事情。達(dá)倫布爾說,這似乎是人類第一次完全模擬生物大腦,并且讓其生活在虛擬環(huán)境中。盡管線蟲在競爭食物、消化食物、躲避獵食者和繁衍后代這些方面的確擁有某些技巧經(jīng)驗,但我們依然無從知曉線蟲是否真的有意識,更不用說模擬線蟲了。

        亨利·馬克拉姆的藍(lán)腦計劃(Blue Brain Project)卻致力于模仿人腦,包括整個新皮質(zhì)和舊腦區(qū)域。其中,舊腦區(qū)域的模擬包括大腦海馬體、杏仁核以及小腦等。各個部分的模擬程度有所不同,最高可達(dá)到分子層次的完全模擬。如同我在第4章提到的那樣,馬克拉姆已經(jīng)發(fā)現(xiàn)了新皮質(zhì)中反復(fù)出現(xiàn)神經(jīng)元的關(guān)鍵分子,這說明學(xué)習(xí)是由這些分子而不是那些單個的神經(jīng)元完成的。

        馬克拉姆不斷取得新成果。2005年,這個項目剛剛啟動,他就成功模擬出第一個神經(jīng)元。2008年,他的團(tuán)隊已經(jīng)模擬出包含10000個神經(jīng)元的老鼠大腦新皮質(zhì)。截至2011年,神經(jīng)元的數(shù)量翻了100倍,達(dá)到了1000000個,馬克拉姆將它稱為“中回路”(Mesocircuit)。馬克拉姆的反對者卻提出了質(zhì)疑,他們認(rèn)為馬克拉姆雖已成功模擬出神經(jīng)元,但卻無法證明這些模擬神經(jīng)元就是真實神經(jīng)元的再現(xiàn)。要證明這一點,這些模擬神經(jīng)元必須演示我將在下面討論的學(xué)習(xí)。

        馬克拉姆計劃到2014年,完成對老鼠整個大腦100個中回路的完全模擬,總共包含1億個神經(jīng)元和大約1萬億個突觸。在2009年召開的牛津TED研討會上,馬克拉姆說道:“模擬人類大腦并非不可能,我們可以在10年內(nèi)完成這項任務(wù)?!彼罱哪繕?biāo)是在2023年模擬出一個完整的大腦(見圖7—1)。

        圖7—1 計算機(jī)速度(軟磁盤)

        通過對真實神經(jīng)元詳細(xì)的解剖及電化學(xué)分析,馬克拉姆和其團(tuán)隊試圖以真實神經(jīng)元為模板建構(gòu)模型。借助名為“膜片鉗機(jī)器人”的自動裝備,他們能夠測定特定的粒子通道、神經(jīng)傳遞素以及負(fù)責(zé)每個神經(jīng)元內(nèi)電化學(xué)活動的生化酶。馬克拉姆說,這種自動系統(tǒng)能將30年的分析時間縮短為6個月。而且他們還從這些分析中發(fā)現(xiàn)了新皮質(zhì)基本功能單元——“樂高記憶”模塊。

        麻省理工學(xué)院的神經(jīng)科學(xué)家艾德·鮑登(Ed Boyden)、佐治亞大學(xué)機(jī)械工程技術(shù)系的克萊格·福利斯特(Craig Forest)教授及其研究生撒哈拉·利丹達(dá)拉瑪哈(Suhasa Kodandaramaiah)均對膜片鉗機(jī)器化技術(shù)作出了突出貢獻(xiàn)(見圖7—2)。他們宣稱,在不損害神經(jīng)元精細(xì)薄膜組織的情況下,這種精確到1微米的自動系統(tǒng)可以近距離掃描神經(jīng)組織。鮑登說:“這是人類不能而機(jī)器人卻能做的事情?!?/p>

        圖7—2 由麻省理工大學(xué)和佐治亞大學(xué)共同開發(fā)的膜片鉗尖端正在掃描神經(jīng)組織

        回到馬克拉姆的模擬大腦,在成功模擬出新皮質(zhì)列后,馬克拉姆說過:“現(xiàn)在我們要做的就是擴(kuò)大模擬數(shù)量?!睌?shù)量的確很重要,但仍有其他重要問題需要解決,即學(xué)習(xí)。如果藍(lán)腦計劃所模擬的大腦要會“講話、思考、像人類那樣活動”——馬卡拉姆在2009年接受BBC采訪時提到的目標(biāo),那么要完成上述任務(wù),大腦的模擬新皮質(zhì)就必須擁有足夠的信息。任何試圖跟新生兒交流的人都會明白,想達(dá)到上述目標(biāo)還要解決很多問題。

        有兩種方法可以讓模擬大腦——如藍(lán)腦,具備學(xué)習(xí)能力。第一種:讓模擬大腦像人腦那樣學(xué)習(xí)。模擬大腦應(yīng)像新生兒那樣——自身就具有學(xué)習(xí)分層知識以及在感覺預(yù)處理區(qū)預(yù)編某些轉(zhuǎn)化的能力。我們還需將新生嬰兒和具備交流能力的成人之間的學(xué)習(xí)模式放到非生物學(xué)習(xí)模式中。但是這種方法仍存在問題,按照藍(lán)腦模擬的大腦要正常運行的話,至少要等到21世紀(jì)20年代早期。除非研究人員愿意等個10年或20年,讓藍(lán)腦達(dá)到成人的智力水平,否則,即使計算機(jī)性價比越來越高,運行速度持續(xù)加快,藍(lán)腦的現(xiàn)實運行速度依然會很緩慢。

        另外一種方法就是以人腦為模型,因為人腦已經(jīng)擁有充足的知識進(jìn)行有意義語言交談以及表現(xiàn)成熟的行為方式,然后將人腦的新皮質(zhì)模式復(fù)制到模擬大腦中。這種方法的問題在于,它要求我們掌握能夠處理這個任務(wù)、具備足夠的時空分辨率的無損傷掃描技術(shù)。我認(rèn)為這項“移植”技術(shù)在21世紀(jì)40年代之前不會問世。(準(zhǔn)確模擬大腦的計算要求——大約每秒1019,可能會于21世紀(jì)20年代在超級計算機(jī)上得以實現(xiàn),但是實現(xiàn)大腦無損掃描則需要更長的時間。)

        還有第三種方法,我認(rèn)為像藍(lán)腦這樣的模擬大腦計劃就應(yīng)該采用這種方法。通過構(gòu)建不同精細(xì)程度的功能等同體,我們可以簡化分子模型,包括本書中描述的功能算法以及接近全分子模擬的模型。學(xué)習(xí)速度也會因簡化而提升,提升的速度則取決于簡化的程度。我們還可以將教育軟件植入模擬大腦(利用功能模型),模擬大腦學(xué)習(xí)的速度也會相對提高。這樣,全分子的模擬大腦就可以被較為簡單的模型取代,而后者仍然保留了前者循序漸進(jìn)的學(xué)習(xí)方式。之后我們就可以循序漸進(jìn)地模仿人類的學(xué)習(xí)。

        美國計算機(jī)科學(xué)家達(dá)曼德拉·莫哈(Dharmendra Modha)及其IBM的同事成功模擬了人類視覺新皮質(zhì),其中包含16億個視覺神經(jīng)元和9萬億個突觸,相當(dāng)于一只貓的新皮質(zhì)神經(jīng)元和突觸總和。即使將其裝入擁有147456個處理器的IBM藍(lán)色基因超級計算機(jī),其運行速度還是比人類的處理速度慢100倍。他們憑借這項工作獲得了美國計算機(jī)協(xié)會(Association for Computing Machinery)頒發(fā)的貝爾·戈登獎(Gordon Bell Prize)。

        無論是藍(lán)腦計劃,還是莫哈的新皮質(zhì)模擬計劃,這些仿真大腦計劃的最終目的都可歸為一點,即完善和確定一個功能模型。與人腦水平相當(dāng)?shù)娜斯ぶ悄苤饕捎帽緯杏懻摰哪P汀δ芩惴P?。但是精?xì)到分子程度的模擬可以幫助我們完善此模型,并讓我們明白到底哪些細(xì)節(jié)才是最重要的。20世紀(jì)八九十年代的語音識別技術(shù)發(fā)展過程中,只要能夠了解聽覺神經(jīng)及早期聽覺皮質(zhì)負(fù)責(zé)的實際信號傳遞,我們就能精簡算法。不論功能模型多么完美,弄清楚它在大腦中的運行軌跡也是有益的——因為這會加深我們對人類功能機(jī)制和機(jī)能失調(diào)的認(rèn)識。

        只要擁有真實大腦的詳細(xì)數(shù)據(jù),我們就能模擬出生物學(xué)意義上的大腦。馬克拉姆團(tuán)隊正在收集自己的數(shù)據(jù)。還有其他規(guī)模較大的項目也在收集此類數(shù)據(jù),并將所收集的數(shù)據(jù)轉(zhuǎn)化成科學(xué)家可以利用的數(shù)據(jù)。例如,紐約的科爾德斯普林實驗室(Cold Spring Harbor Laboratory in New York)在對某種哺乳動物(老鼠)的大腦進(jìn)行掃描后,于2012年6月公布了500兆兆字節(jié)的數(shù)據(jù)。在他們公布的掃描圖上,用戶可以像在谷歌地圖上查看位置那樣查看大腦的各個組成部分。用戶可以在整個大腦區(qū)域內(nèi)任意移動,也可以放大任意區(qū)域,以清楚地觀看某個神經(jīng)元及其與其他神經(jīng)元的連接。用戶還可以點亮任意連接并跟蹤它在腦內(nèi)的運行軌跡。

        美國國立衛(wèi)生研究院(National Institutes of Health)的16個部門共同承接了名為“人類連接組計劃”(Human Connectome Projeot)的新項目,并獲得3850萬美元的資助。該項目由圣路易斯華盛頓大學(xué)領(lǐng)銜,明尼蘇達(dá)大學(xué)、哈佛大學(xué)、馬薩諸塞州總醫(yī)院(Massachusetts General Hospital)和加州大學(xué)洛杉磯分校也參與其中。該項目致力于使用一些非侵入性掃描技術(shù),包括新型核磁共振(MRI)、腦磁圖描記(記錄大腦電流活動產(chǎn)生的磁場)、彌散跟蹤技術(shù)(跟蹤大腦纖維束軌跡的方法),繪制人類大腦三維連接圖。

        就像我將在第10章講到的,非侵入性掃描技術(shù)的空間分辨率正在飛速提高。瓦·韋登及其馬薩諸塞州總醫(yī)院的同事發(fā)現(xiàn):新皮質(zhì)的電路呈現(xiàn)出一種高度規(guī)則的網(wǎng)格結(jié)構(gòu),這個結(jié)構(gòu)我已經(jīng)在第4章中講到過。

        牛津大學(xué)計算機(jī)神經(jīng)科學(xué)家安德斯·桑德伯格(Anders Sandberg)和瑞典哲學(xué)家尼克·博斯特羅姆(Nick Bostrom)聯(lián)合發(fā)表了著作《全腦模擬路線圖》(Whole Brain Emulation:A Roadmap)。該著作詳細(xì)論述了不同級別的人腦模擬(也包括其他類型的大腦)——從高級功能模型到分子級別(見圖7—3和圖7—4)。

        著作雖未提供統(tǒng)一標(biāo)準(zhǔn),卻對模擬不同類型大腦的精確性提出了要求,如:大腦掃描、建模、儲存和計算方面。著作中提到的領(lǐng)域的研究正在飛速發(fā)展,精細(xì)的人腦模擬即將問世。

        圖7—3 全腦模擬所需的技術(shù)能力略圖

        注:來自安德斯·桑德伯格和尼克·博斯特羅姆合著的《全腦模擬:一份藍(lán)圖》。

        圖7—4 技術(shù)能力略圖

        注:來自安德斯·桑德伯格和尼克·博斯特羅姆合著的《全腦模擬:一份藍(lán)圖》。

        神經(jīng)網(wǎng)絡(luò)

        1964年,16歲的我給康奈爾大學(xué)的弗蘭克·羅森布拉特(Frank Rosenblatt)教授寫信詢問關(guān)于馬克一代(Mark 1 Perceptron)感知器的問題。弗蘭克教授于1960年研制出這臺與大腦相似的機(jī)器。我有幸受邀去參觀并試用這臺機(jī)器。

        弗蘭克教授在神經(jīng)元電子模型的基礎(chǔ)上發(fā)明了感知器。輸入信息的價值取決于兩個維度。對語音來講,這兩個維度就是重復(fù)度和時間。因此,每個價值都代表了特定時間點的頻率強(qiáng)度。對圖像而言,每個點都是一個像素,而每個像素都擁有一個二維圖像。系統(tǒng)會隨機(jī)將輸入信息的某個點連接到仿真神經(jīng)元第一層的輸入點。每個連接點的突觸強(qiáng)度——揭示了每個連接點的重要性,都是隨機(jī)分配的。某個神經(jīng)元接收到信號的總和如果超出了它的最大承載量,它不僅會短路,還會向輸出連接點發(fā)出信號;如果總和沒有超出最大值,神經(jīng)元就不會短路,輸出信號也為零。每一層神經(jīng)元的輸出信息都會隨機(jī)地與下一層神經(jīng)元輸入網(wǎng)絡(luò)連接。馬克一代感知器擁有3層結(jié)構(gòu),因而它就擁有了多種布局(見圖7—5)。例如,下一層的輸出信息可以返回到上一層。在最高層,隨意挑選的神經(jīng)元輸出提供答案。

        圖7—5 馬克一代感知器的布局

        神經(jīng)網(wǎng)絡(luò)線路和突觸強(qiáng)度都是隨機(jī)設(shè)定的,所以未加訓(xùn)練的神經(jīng)網(wǎng)絡(luò)給出的答案也是隨機(jī)的。因此,在建構(gòu)某個神經(jīng)網(wǎng)絡(luò)時,我們首先要了解這個神經(jīng)網(wǎng)絡(luò)要解決的問題,就像最初建構(gòu)的哺乳動物大腦那樣。神經(jīng)網(wǎng)絡(luò)最初處于無知狀態(tài),它的老師可能是生物人、計算機(jī)程序或者其他,總之是經(jīng)過學(xué)習(xí)后更加成熟的神經(jīng)網(wǎng)絡(luò)。當(dāng)學(xué)生給出正確答案時,老師就會獎勵它;給出錯誤答案時,老師就會懲罰它。仍處于學(xué)習(xí)階段的神經(jīng)網(wǎng)絡(luò)也會以得到的反饋為依據(jù),進(jìn)而調(diào)整不同神經(jīng)元的連接強(qiáng)度。那些與正確答案一致的連接強(qiáng)度不斷增強(qiáng),而給出錯誤答案的連接強(qiáng)度則會減弱。

        一段時間后,即使沒有老師指導(dǎo),神經(jīng)網(wǎng)絡(luò)也能自行運算出正確答案。實驗證明,即使老師不可靠,神經(jīng)網(wǎng)絡(luò)依然可以完成相應(yīng)的學(xué)習(xí)。只要這個老師在60%的時間里是可靠的,作為學(xué)生的神經(jīng)網(wǎng)絡(luò)就可以完全掌握規(guī)定的知識。

        但是感知器對其能夠快速掌握的資料類別是有限制的。1964年拜訪弗蘭克教授時,我對輸入信息做了些簡單調(diào)整。系統(tǒng)識別打印字符的速度和準(zhǔn)確率令人滿意,自由聯(lián)想能力也很棒(即使我遮擋了部分文字,系統(tǒng)仍然能輸出正確的信件內(nèi)容),但對非常規(guī)文字的識別能力較差,字體和字號的改變會影響它的準(zhǔn)確率。

        20世紀(jì)60年代后期,神經(jīng)網(wǎng)絡(luò)已為人們熟知,“連接主義”占據(jù)了人工智能領(lǐng)域的半壁江山。那些直接為解決某個問題而設(shè)計的程序,例如怎樣識別打印字符中的不變特征,已淪為較為傳統(tǒng)的人工智能方法。

        1964年我還拜訪了馬文·明斯基(Marvin Minsky)——人工智能領(lǐng)域創(chuàng)始人之一。雖然他是20世紀(jì)50年代神經(jīng)網(wǎng)絡(luò)發(fā)展的先驅(qū),但是他仍然對這項技術(shù)持懷疑態(tài)度。神經(jīng)網(wǎng)絡(luò)之所以火熱,部分是由于人們在解決問題時不需要自己編寫程序,依靠神經(jīng)網(wǎng)絡(luò)就可以找到解決方法。1965年我進(jìn)入麻省理工學(xué)院學(xué)習(xí),師從明斯基教授,我十分贊同明斯基教授對神經(jīng)網(wǎng)絡(luò)持有的懷疑態(tài)度。

        1969年,麻省理工學(xué)院人工智能實驗室的兩位開創(chuàng)者明斯基和西蒙·派珀特(Seymour Papert)發(fā)表了著作《感知器》(Percepiron)。該著作論證了一個簡單的定理:感知器自身并不能判斷一幅圖像到底有沒有被成功連接。這立刻在業(yè)界引起軒然大波。人腦可以輕易判斷出一幅圖像到底有沒有被成功連接,而配有合適程序的計算機(jī)也可以輕易地做到這一點,感知器并不能做到這一點這個事實被很多人認(rèn)為是一個致命的軟肋(見圖7—6)。

        圖7—6 兩張圖像來自《感知器》一書的封面

        注:上面的那幅圖像并不是一個整體(黑色部分是由兩個分開的部分合成的)。下面的圖像則是一個完整的整體。像弗蘭克·羅森帕爾特研究的馬克一代這樣的前饋感知器無法識別出兩幅圖像的差別。

        然而,《感知器》論證的定理的適用范圍卻被人為地擴(kuò)大了。書中提到的定理只適用于前饋神經(jīng)網(wǎng)絡(luò)(包含羅森布拉特的感知器)這種特殊的神經(jīng)網(wǎng)絡(luò);其他類型的神經(jīng)網(wǎng)絡(luò)并沒有此限制。這本著作的問世使得20世紀(jì)70年代對神經(jīng)網(wǎng)絡(luò)的投資大大減少。直到20世紀(jì)80年代,這個領(lǐng)域才得以復(fù)蘇,因為更為實際可行的生物神經(jīng)元模型誕生了,避免明斯基和派珀特感知器定理的模型也出現(xiàn)了。然而,至今仍無人問津新皮質(zhì)解決恒定性的能力,即增強(qiáng)新皮質(zhì)性能的關(guān)鍵。

        矢量量化

        20世紀(jì)90年代初期,我開始探索另一個經(jīng)典模式識別難題:人類語音識別。最初,我們采用傳統(tǒng)人工智能方法,利用專業(yè)知識直接對語言基本構(gòu)成單位——音素,以及音素形成單詞和詞組的方法進(jìn)行編程。每個音素都有自己獨特的頻率模式。例如,我們知道“e”和“ah”這兩個元音在某些情況下會產(chǎn)生共振頻率,即共振,而且每個音素都擁有自己的共振峰值,“z”和“s”這樣的咝音則擁有特定頻率的連續(xù)音響。

        我們用聲波來記錄語言。通過一系列過濾器,語言最終可以轉(zhuǎn)化為不同頻段(即我們平時所感知的音高)。光譜圖則體現(xiàn)了這種轉(zhuǎn)化(見圖7—7和圖7—8)。

        過濾器就相當(dāng)于我們的耳蝸,是生物處理聲音的前期步驟。根據(jù)音素的不同頻率模式,軟件先識別音素,然后根據(jù)得到的音素串識別不同的單詞。

        測試取得了部分成功。我們的機(jī)器可以識別某個擁有中等詞匯量,即幾千個單詞的說話者的說話內(nèi)容。而當(dāng)我們試圖識別數(shù)以千計的單詞、不同的講話者以及流利無間斷的話語(詞與詞之間沒有停頓)時,就會遇到不變特征這一難題。針對同一音素,不同的人會有不同的發(fā)音,例如某些人發(fā)的“e”音聽起來很像其他人發(fā)的“ah”音。而且就算是同一個人,同一個音素的發(fā)音特征也會有所變化。音素的發(fā)音通常受到臨近音素的影響。很多音素也會出現(xiàn)完全消音的現(xiàn)象。許多單詞出現(xiàn)的情境不同,發(fā)音(音素串組成單詞)也會不同。我們的編程基礎(chǔ)——語言學(xué)規(guī)則被推翻了,而且它也遠(yuǎn)遠(yuǎn)無法滿足口語的多變性。

        我突然明白,層級知識結(jié)構(gòu)決定了人類語言模式和概念能否被正確識別。擁有復(fù)雜層級結(jié)構(gòu)的人類語言就證明了上述觀點。但是,我們?nèi)詿o從知曉這些結(jié)構(gòu)的基本成分。因此在研究機(jī)器人識別正常人類語言時,這也是我思考的第一個問題。

        圖7—8 一個人說出“hide”這個單詞時的聲譜圖

        注:水平部分顯示了說話者聲音的共振峰。共振峰不僅頻繁出現(xiàn),而且峰值較高。

        空氣振動后,聲音就進(jìn)入人耳。隨后,耳蝸內(nèi)的3000多個內(nèi)部毛細(xì)胞將這種振動轉(zhuǎn)換為不同頻率段。每個毛細(xì)胞都擁有特定的頻率段(也就是我們所說的聲調(diào)),而且每個毛細(xì)胞都是一個頻率過濾器,當(dāng)它們收到符合頻率段的聲音或者相近的頻率段時,毛細(xì)胞就會發(fā)出信號。當(dāng)聲音離開人的耳蝸時,3000多個不同的信號就是聲音的體現(xiàn),每個信號代表了窄頻率帶(頻率帶之間會有很多重合)的時間變化強(qiáng)度。

        雖然大腦不會歧視任何信號,但是在我看來,大腦也無法公正地對這3000多個聽覺信號進(jìn)行模式匹配。我曾懷疑進(jìn)化就是如此缺乏效率。現(xiàn)在我們已經(jīng)了解:在聲音信號到達(dá)新皮質(zhì)之前,聽覺神經(jīng)內(nèi)的數(shù)據(jù)會急劇減少

        在我們設(shè)計的語音識別軟件中,我們同樣也植入了過濾器軟件,確切地說,一共有16個,后來增加到32個,但我們發(fā)現(xiàn)數(shù)量的增加并不影響最終結(jié)果。所以,在我們的系統(tǒng)中,每個點由16個數(shù)字表示。我們不僅要保留重要的語言識別特征,還得把16個數(shù)據(jù)帶整合為1個數(shù)據(jù)帶。

        為了整合數(shù)據(jù),我們采用了數(shù)學(xué)最優(yōu)化法,即矢量量化(vector quantification)。無論情況怎樣變化,聲音(至少是一只耳朵聽到的聲音)都由16個不同的數(shù)字表示:即16個聲頻過濾器過濾后的信息。(對人類的聽覺系統(tǒng)而言,需要3000組這樣的數(shù)字才能夠?qū)崿F(xiàn)全模擬,每組數(shù)字代表了人類耳蝸的一個毛細(xì)胞。)在數(shù)學(xué)領(lǐng)域,這樣的一組數(shù)字(不管是生物學(xué)意義上的3000組數(shù)字還是軟件設(shè)置上的16組數(shù)字)被稱為向量。

        簡而言之,我們可以用二維矢量坐標(biāo)來表示矢量量化過程(見圖7—9)。每一個矢量都可以視為一個二維空間的交匯點。

        圖7—9 矢量量化過程

        如果將很多這樣的矢量放到圖中,你就會發(fā)現(xiàn)它們呈現(xiàn)一種集群狀態(tài)(見圖7—10)。

        圖7—10 矢量的群集狀態(tài)

        為了清晰地辨別這些集群數(shù)字,我們需要限制觀察的數(shù)目。我們將項目中的數(shù)字限定為1024個,這樣我們就可以為它們編號,并且匹配一個10比特(因為210=1024)的標(biāo)簽。正如預(yù)期,我們的矢量樣本數(shù)據(jù)滿足了數(shù)據(jù)多樣性的要求。我們首先假設(shè)最初的1024個矢量為單點集群。然后加入新的矢量,即第1025個矢量,隨后找到跟它最接近的那個點。如果這兩個點之間的距離比這1024個點中最近的兩個點之間的距離還要小,我們就認(rèn)為這個點就是一個新集群的開始。然后我們就將距離最近的兩個集群合并為一個單獨的集群。這樣我們?nèi)匀挥?024個集群。因此,在這1024個集群中,每個集群就不止擁有一個點。隨后我們按照這種方式處理數(shù)據(jù),但集群的數(shù)量始終保持不變。處理完所有點之后,我們就用這個集群中的中心點來表示這個多點集群(見圖7—11)。

        圖7—11 多點集群

        矢量樣本中所有的矢量都會采用同樣的方法。通常情況下,我們會將數(shù)百萬個點加入到1024(210)個集群中;根據(jù)不同情況,我們也會將集群數(shù)目增加到2048(211)或者4096(212)個。每個集群都用位于該集群幾何中心的那個矢量來表示。這樣,該集群中所有點到該集群中心點的距離總和就能盡可能達(dá)到最小。

        與最初數(shù)百萬個點(或者數(shù)量更多的可能點)相比,采用這種方法后,我們就可以將龐大的數(shù)量減少到1024個,使得空間最優(yōu)化。那些用不到的空間也就被遺棄了。

        然后,我們?yōu)槊總€集群分配一個數(shù)字(0~1023)。這些被簡化、量化的數(shù)字就是其所指集群的代號,這也是這項技術(shù)得名為矢量量化的原因。當(dāng)新的輸入矢量出現(xiàn)后,我們就用離這個矢量最近的那個集群數(shù)字表示。

        根據(jù)每個集群中心點到其他集群中心點的距離,我們可以預(yù)先繪制一張表格。當(dāng)新的矢量(我們用量化點來表示這個矢量,換句話說,就是這個新點到離它最近的那個集群的數(shù)字)進(jìn)入系統(tǒng)時,我們就可以立即計算出這個新矢量與其他集群之間的距離。因為我們是用離這個點最近的集群的數(shù)字表示這個點的,所以我們就能知道這個點與以后加入這個集群的點之間的距離。

        在描述這項技術(shù)時,我只用了兩個數(shù)字來表示一個矢量,而在軟件中每個點都由16個基本矢量來表示,雖然數(shù)量不同,但方法是一樣的。因為我們采用了16個數(shù)字來表示16個不同的頻率段,所以我們系統(tǒng)中的每個點都占據(jù)了一個16維的空間。人類很難想象三維(如果把時間這個維度加進(jìn)去就是四維)以上的空間到底是什么樣子,但是機(jī)器卻沒有這樣的困難。

        運用這項技術(shù),我們已經(jīng)取得了4項成果。第一,我們大大降低了數(shù)據(jù)的復(fù)雜性。第二,我們將16維空間數(shù)據(jù)縮小為一維空間數(shù)據(jù)(每個矢量都是一個數(shù)字)。第三,在研究傳遞盡可能多信息的可能聲音的空間比例時,我們提高了尋找不變特征的能力。大多頻率段的組合在物理上是無法實現(xiàn)的,至少是很難實現(xiàn)的,因此我們不需要給予不可能輸入連接與可能輸入連接同樣的空間,這項技術(shù)使得減少數(shù)據(jù)成為可能。第四,即使原始數(shù)據(jù)包含多個維度,我們?nèi)匀豢梢允褂靡痪S模式識別器。這一方法可以高效使用可用的計算機(jī)資源。

        用隱馬爾可夫模型解讀你的思維

        利用矢量量化法簡化數(shù)據(jù)的同時,我們還突出了信息的關(guān)鍵特征,但這還不夠,我們還需要其他的方法來找出不變特征的層級結(jié)構(gòu),因為后者才是決定新信息是否有意義的關(guān)鍵。從20世紀(jì)80年代早期開始,我就從事模式識別研究,到現(xiàn)在已經(jīng)有20年的知識積累,因此我非常了解一維數(shù)據(jù)在處理信息不變特征時的強(qiáng)大力量,及其高效性和便捷性。雖然在20世紀(jì)80年代初期,人們對大腦新皮質(zhì)的認(rèn)識并不多,但是從處理模式識別問題的經(jīng)驗出發(fā),我推想人腦在處理數(shù)據(jù)時也是將多維數(shù)據(jù)(不管是來自眼睛、耳朵,還是皮膚)減少為一維數(shù)據(jù),尤其是在處理新皮質(zhì)層級結(jié)構(gòu)傳出的信息時。

        至于語音識別這個難題,語音信號信息結(jié)構(gòu)似乎呈現(xiàn)出一種層級結(jié)構(gòu),該結(jié)構(gòu)的每一層又由一連串正向元素組成。一種模式的元素可能是另一種低層次模式,也可能是輸入信息(在語音識別中,輸入信息是我們的量化矢量)的基本組成部分。

        你會發(fā)現(xiàn)我前面提到的模式與我之前提到的大腦新皮質(zhì)模式很相似。因此,我們可以說:人類語言就是大腦類線性模式層級結(jié)構(gòu)的產(chǎn)物。如果我們能夠捕捉到說話人大腦中的這些模式,當(dāng)他發(fā)表新言論時,我們只需將捕捉到的這些模式與我們儲存的模式相比較,就能明白他在講什么。但不幸的是,我們尚不能直接觀察說話者的大腦,我們只知道他說話的內(nèi)容。當(dāng)然,他的話語成功地傳達(dá)了他的目的,因為說話者就是通過語言表達(dá)思想。

        所以我就在思考:有沒有一種數(shù)學(xué)方法可以使我們依據(jù)說話者的話語推斷出其大腦中的模式呢?當(dāng)然了,只有一句話肯定是不夠的,但是就算我們有龐大的語料庫,我們能否利用這個語料庫來推斷出說話者新皮質(zhì)內(nèi)的模式呢?或者至少找到一種數(shù)學(xué)意義上的等值結(jié)構(gòu),我們可以利用這種等值結(jié)構(gòu)識別新的話語?

        圖7—12 在隱馬爾可夫模型中,從S1層到S4

        注:該圖向我們展示了在隱馬爾可夫模型中,S1層是跨越“隱形”內(nèi)部狀態(tài)到達(dá)到S4層的。Pi,j代表了由Si層跨越到SJ層的可能性。傳播的可能性則由經(jīng)過測試數(shù)據(jù)(其中也包括在實際使用過程中產(chǎn)生的數(shù)據(jù))調(diào)整后的系統(tǒng)決定。通過將新序列(譬如一條新的語句)與原有序列相比對,我們就可以得到該模型識別出這個新序列的可能性。

        人們往往不太重視數(shù)學(xué)的強(qiáng)大力量,要知道,我們在幾分之一秒之內(nèi)檢索所需的知識利用的就是數(shù)學(xué)方法。至于我在20世紀(jì)80年代初研究語音識別時遇到的問題,隱馬爾可夫模型給出了很好的解決方法。俄國數(shù)學(xué)家安德烈·安德烈耶維奇·馬爾可夫(Andrei Andreyvich Markov)創(chuàng)建了“等級序列狀態(tài)”的數(shù)學(xué)理論。該模型建立的基礎(chǔ)是同一鏈條中狀態(tài)跨越的可能性,如果上述條件成立,我們就能在下一個更高層級上激活一種狀態(tài)。這句話聽起來是不是很耳熟?

        馬爾可夫模型包含了所有可能發(fā)生的狀態(tài)。馬爾可夫進(jìn)一步假設(shè)了一種情況:系統(tǒng)呈現(xiàn)出一種層級性的線性序列狀態(tài),但是我們無法直接觀察到上面提到的狀態(tài),這就是隱馬爾可夫模型中“隱”字的由來。在這個層級結(jié)構(gòu)中,位于最底層的線性序列狀態(tài)發(fā)出信號,這種信號可以被人類識別。馬爾可夫提出一種數(shù)學(xué)方法,主要依據(jù)可見的輸出信號計算狀態(tài)改變發(fā)生的概率。1923年,諾伯特·維納(Norbert Wiener)完善了這種方法。改善后的方法同時也為確定馬爾可夫模型中的連接提供了解決方案,而且系統(tǒng)會直接忽略那些出現(xiàn)概率極小的連接。這很像人類新皮質(zhì)處理連接的方法——如果某些連接很少或者從未被使用過,這些連接就會被視為不可能連接并被遺棄。在我們的情況中,可見輸出就是說話者的語言信號,狀態(tài)可能性和馬爾可夫模型中的連接就構(gòu)成了產(chǎn)生可見輸出的新皮質(zhì)層級結(jié)構(gòu)。

        我預(yù)設(shè)了一個系統(tǒng),在這個系統(tǒng)中,我們不僅可以提取人類語言的樣本,還可以借助連接和可能性以及利用隱馬爾可夫模型技術(shù)推斷出某個層級狀態(tài)(本質(zhì)上說是產(chǎn)生語言的模擬新皮質(zhì)),然后再利用推斷出的層級網(wǎng)絡(luò)狀態(tài)結(jié)構(gòu)識別新話語。為了使這個系統(tǒng)與語言本身無關(guān)聯(lián),我們會使用很多不同個體的話語樣本來培養(yǎng)隱馬爾可夫模型。我們在層級結(jié)構(gòu)中加入了構(gòu)成語言信息的基本元素,所以模型也可稱為隱馬爾可夫?qū)蛹壞P停℉HMMs)。

        我在庫茲韋爾應(yīng)用智能公司(Kurzweil Applied Intelligence)的同事們卻對這項技術(shù)表示懷疑,他們認(rèn)為隱馬爾可夫模型只不過是一種智能方法,會讓人想起神經(jīng)網(wǎng)絡(luò),但這種方法已經(jīng)不再適用,使用這種方法收獲甚微。需要指出的是,神經(jīng)網(wǎng)絡(luò)系統(tǒng)中的網(wǎng)絡(luò)是固定的,不會因輸入而改變:生物量會有所改變,而連接卻不會。在馬爾可夫模型系統(tǒng)中,如果系統(tǒng)設(shè)置正確,為了適應(yīng)拓?fù)浣Y(jié)構(gòu),系統(tǒng)會刪去那些從未用過的連接。

        我啟動了名叫“臭鼬工廠”(名字源自一種管理原則,意為拋開慣例,不走尋常路)的項目,項目組成員包括:我自己,一名業(yè)余程序員和一名電氣工程師(負(fù)責(zé)制作頻率濾波器)。令人驚奇的是,我們的項目進(jìn)展得很順利,我們的產(chǎn)品可以準(zhǔn)確地識別長句子。

        試驗成功后,我們后續(xù)的語音識別試驗均以隱馬爾可夫模型為基礎(chǔ)。其他的語音識別公司好像也發(fā)現(xiàn)了這個模型的重要性,因此從20世紀(jì)80年代中期開始,自動語音識別研究絕大部分都是以此模型為基礎(chǔ)的。隱馬爾可夫模型同樣也被應(yīng)用到語言整合領(lǐng)域,因為我們的生物層級皮質(zhì)結(jié)構(gòu)不只要識別輸入,也會產(chǎn)生輸出,例如語言和身體運動。

        隱馬爾可夫?qū)蛹壞P鸵脖粦?yīng)用到能理解自然語言句子的系統(tǒng)中,這些句子上升到了概念層級結(jié)構(gòu)。

        圖7—13 隱馬爾可夫模型中,產(chǎn)生自然語言時中層級狀態(tài)和可能性連接示意圖

        為了弄清楚隱馬爾可夫結(jié)構(gòu)的工作機(jī)制,我們先來了解一種網(wǎng)絡(luò),它包含了所有可能的狀態(tài)改變。上述矢量量化方法在這里非常有用,如果沒有它,我們還要考慮更多的可能狀態(tài)改變。圖7—14是一張簡化的初始拓?fù)鋱D。

        圖7—14 隱馬爾可夫模型識別兩個單詞的簡單拓?fù)鋱D

        計算機(jī)逐一處理樣本中的話語信息。為了更好地利用我們的語料庫,我們反復(fù)修改每個話語狀態(tài)改變的可能性。我們運用語音識別中的馬爾可夫模型對每個音素中能發(fā)現(xiàn)聲音特定模型的可能性、不同音素之間的影響以及音素的可能組合進(jìn)行編碼。這個系統(tǒng)也包括語言結(jié)構(gòu)更高層次的可能性網(wǎng)絡(luò),例如:單詞的序列、詞組,甚至是語言層級結(jié)構(gòu)。

        盡管我們以前的語音識別系統(tǒng)都包含音素結(jié)構(gòu)的特定規(guī)律,以及人類語言學(xué)家外部編碼的序列,但以隱馬爾可夫?qū)蛹壞P蜑榛A(chǔ)的新系統(tǒng)中卻沒有明確地表明英語中有44個音素,音素矢量的序列,或者是哪些音素組合更為常見。相反,我們讓系統(tǒng)在長時間處理人類語言信息的過程中自己發(fā)現(xiàn)這樣的規(guī)律。相對于原來的人工編碼而言,新系統(tǒng)會發(fā)現(xiàn)那些被人類專家忽視的概率性定則。我們發(fā)現(xiàn)系統(tǒng)自動從數(shù)據(jù)中習(xí)得的很多規(guī)則雖與人類專家定下的規(guī)則差別不大,但卻更重要。

        一旦網(wǎng)絡(luò)構(gòu)建完畢,假如知道輸入矢量的實際序列,利用網(wǎng)絡(luò)考慮可選擇的路徑,繼而選擇可能的路徑,我們便開始嘗試識別語音。換句話說,如果我們發(fā)現(xiàn)了有可能產(chǎn)生那個話語的狀態(tài)序列,我們就可以斷定那就是產(chǎn)生此話語的皮質(zhì)序列。因為模擬隱馬爾可夫?qū)蛹壞P桶瑔卧~規(guī)則,所以系統(tǒng)可以提供它聽到的語音標(biāo)音。

        系統(tǒng)在使用過程中不斷被完善,語音識別的準(zhǔn)確率也越來越高。就像我之前介紹的那樣,此系統(tǒng)可以跟人類新皮質(zhì)結(jié)構(gòu)一樣,同時完成識別和學(xué)習(xí)這兩項工作。

        進(jìn)化(遺傳)算法

        還有一個很重要的問題亟待解決:我們怎樣設(shè)置控制模式識別系統(tǒng)工作的諸多參數(shù)?這些參數(shù)可能包括:矢量量化階段的矢量數(shù)、層級狀態(tài)的初始拓?fù)洌ㄔ陔[馬爾可夫模型刪去未用過的層級結(jié)構(gòu)狀態(tài)前的訓(xùn)練階段)、層級結(jié)構(gòu)中每層的閾值、控制參數(shù)數(shù)量的參數(shù)等。我們可以憑直覺設(shè)置這些參數(shù),但結(jié)果卻不會太理想。

        我們稱這些參數(shù)為“上帝參數(shù)”,因為這些參數(shù)早在決定隱馬爾可夫模型拓?fù)浣Y(jié)構(gòu)的智能方法出現(xiàn)之前就存在了(生物學(xué)上是指早在他學(xué)習(xí)之前,他的新皮質(zhì)層級結(jié)構(gòu)中就有了相似的連接)。這也許會造成某種意義上的誤讀,因為這些基于DNA的初始設(shè)計細(xì)節(jié)是由生物進(jìn)化過程決定的,盡管在進(jìn)化過程中我們可能會發(fā)現(xiàn)上帝之手(雖然我真的認(rèn)為進(jìn)化是一種精神過程,對此第9章會進(jìn)行討論)。

        在模擬分層學(xué)習(xí)機(jī)識別系統(tǒng)中設(shè)定這些“上帝參數(shù)”時,我們又從大自然中得到了啟發(fā),即在模仿大自然進(jìn)化的基礎(chǔ)上對之進(jìn)行完善。這就是所謂的進(jìn)化或者遺傳算法,它包含了模擬的有性繁殖和突變。

        下面是對這一算法的簡單描述。首先,為了給出問題的解決方法,我們需要確定一種代碼。如果問題是電路設(shè)計參數(shù)的優(yōu)化,我們就列出決定這條電路特點的所有參數(shù)(每個參數(shù)都有特定的比特值)的目錄。這個目錄就是遺傳算法中的遺傳代碼。然后,我們隨機(jī)生成數(shù)以千計或更多的遺傳代碼。每個這類代碼(體現(xiàn)了一套給定參數(shù))都被視為“解決問題”的模擬機(jī)制。

        通過使用評估每組參數(shù)的給定方法,我們可以在模擬環(huán)境中評估每種模擬機(jī)制。這種評估是遺傳算法能否取得成功的關(guān)鍵。舉個例子,我們會運行參數(shù)產(chǎn)生的每個程序,并用合適的標(biāo)準(zhǔn)(是否完成了任務(wù),完成任務(wù)所耗費的時間等)對其加以評估。最好的問題解決方案(最好的設(shè)計)會被選擇出來,其他的則會被淘汰。

        接下來就是優(yōu)勝者的自我繁衍,繁衍的個數(shù)與模擬生物數(shù)量相同時,這個過程才會停止。這個過程的完成仿照了生物的有性繁殖,換句話說,后代的誕生通常是從母親和父親那里分別遺傳一部分基因,然后形成自己的基因。通常情況下,雄性機(jī)制和雌性機(jī)制沒有明顯的差別,任何一對父母都可以孕育新生命,所以我們這里討論的是同性婚姻。這可能不像自然界中的有性繁殖那樣有趣,但是這種繁殖仍有雙親。在模擬機(jī)制繁殖的過程中,我們允許染色體發(fā)生突變(隨機(jī)變化)。

        現(xiàn)在,我們僅僅完成了一代模擬進(jìn)化,接下來要做的就是重復(fù)上述步驟生成更多代新機(jī)制。每代機(jī)制完成后,我們會評估其改善程度(利用評價函數(shù)計算所有優(yōu)勝機(jī)制的平均改善度)。如果兩代機(jī)制之間的改善程度非常小,我們就停止這種繁衍進(jìn)程,并使用上一代的最優(yōu)機(jī)制。

        遺傳算法的關(guān)鍵是:人類并不直接將解決方法編程,而是讓其在模擬競爭和改善的重復(fù)過程中自行找到解決方法。生物進(jìn)化力量雖強(qiáng)大但是過程卻太過緩慢,所以為了提高其智能,我們要大大加快其進(jìn)化速度。計算機(jī)能在幾個小時或者幾天之內(nèi)完成數(shù)代的進(jìn)化,但有時我們會故意讓其花費數(shù)周時間完成模擬成百上千代的進(jìn)化。但是我們只能重復(fù)這種過程一次。一旦這種模擬進(jìn)化開始,我們就可以用這種高度進(jìn)化、高度完善的機(jī)制快速解決實際問題。對于語音識別系統(tǒng),我們就可以用這種機(jī)制完善網(wǎng)絡(luò)的初始拓?fù)浣Y(jié)構(gòu)以及其他重要參數(shù)。在這一過程中我們采用兩種智能方法:利用遺傳算法,我們可以模擬生物進(jìn)化,得出最優(yōu)機(jī)制;利用隱馬爾可夫模型,我們可以模擬人類學(xué)習(xí)過程中起重要作用的皮質(zhì)結(jié)構(gòu)。

        遺傳算法要想成功還需要一種能有效評價每種可能性解決方案的方法??紤]到每一代模擬進(jìn)化過程中的數(shù)千種可能方案,評價方法必須簡單易行。在解決那些變量很多又需要計算出精準(zhǔn)分析方案的難題時,遺傳算法非常有效。例如,我們在設(shè)計發(fā)動機(jī)時就得處理超過一百個變量,而且還需滿足眾多的限制條件。與傳統(tǒng)算法相比,美國通用電氣公司利用遺傳算法設(shè)計出了能夠更好地滿足限制條件的噴氣發(fā)動機(jī)。

        在使用遺傳算法時,你必須很清楚地知道你的需求。遺傳算法雖能完美地解決貨物儲存劃區(qū)問題,但步驟卻很繁雜,因為程序員忘了在評價函數(shù)中加入減少步驟這一條件。

        斯科特·德拉維斯(Scott Drave)的電波項目(Electric Sheep Project),則是遺傳算法的藝術(shù)杰作。此項目的評價函數(shù)使用人類評估程序,這種程序融合了數(shù)千人的開源合作。電波會隨著時間的變化而變化,你可以進(jìn)入網(wǎng)站(electricsheep.org)觀看。

        要解決語言識別中的難題,遺傳算法和隱馬爾可夫模型的結(jié)合極其有效。運用遺傳算法模擬進(jìn)化可以大大地提高隱馬爾可夫?qū)蛹壗Y(jié)構(gòu)網(wǎng)絡(luò)的性能。生物進(jìn)化模擬的機(jī)制遠(yuǎn)遠(yuǎn)優(yōu)于基于直覺的原始設(shè)計。

        在此基礎(chǔ)上,我們又嘗試對整個系統(tǒng)作了一點微小的調(diào)整。例如,我們會對輸入信息做出微小擾動(幅度很小的隨機(jī)變化)。再者,我們還嘗試讓馬爾可夫模型算出的結(jié)果影響其臨近模型的運算,從而使某個模型“混進(jìn)”其相鄰的模型中。雖然當(dāng)初我們不曾想到這些調(diào)整和新皮質(zhì)結(jié)構(gòu)之間的關(guān)系,但后來事實證明兩者極為相似。

        試驗開始時,這類改變會影響系統(tǒng)的性能(以識別準(zhǔn)確率為標(biāo)準(zhǔn))。但當(dāng)我們開動進(jìn)化程序(即遺傳算法)后,這些被放在適當(dāng)位置的改變調(diào)整項就會對應(yīng)地適應(yīng)系統(tǒng),系統(tǒng)也因為這些引入的調(diào)整項得到優(yōu)化??傮w來看,這些改變優(yōu)化了系統(tǒng)的性能。如果我們剔除這些調(diào)整項,系統(tǒng)的運行效能也會隨之下降。因為系統(tǒng)已經(jīng)進(jìn)化升級,新的系統(tǒng)也因此更能適應(yīng)新變化。

        對輸入信息作出微小、隨機(jī)的調(diào)整也可以提高系統(tǒng)的性能(重啟遺傳算法),因為這種做法解決了自主系統(tǒng)中著名的“過度契合”難題。否則,這樣的系統(tǒng)就會過分局限于試驗樣品中的特殊例子。通過對輸入信息進(jìn)行隨機(jī)調(diào)整,數(shù)據(jù)中更穩(wěn)定的不變特征就會凸顯出來,系統(tǒng)也能夠提煉出更深層次的語言模式。只有在運行遺傳算法,并以隨機(jī)特征為變量時,這種方法才有效。

        如此一來,在理解生物皮質(zhì)回路時,困難就來了。例如,我們注意到,一個皮質(zhì)連接產(chǎn)生的信息可能會溜到另外一個皮質(zhì)連接中,這就形成了人類大腦皮質(zhì)連接的工作方式:電化學(xué)的軸突和樹突顯然受到其臨近連接電磁效應(yīng)的影響。假設(shè)我們在試驗中把這種影響從人類大腦中剔除——雖然實際操作很難但并非不能實現(xiàn),假設(shè)我們成功地完成了該項實驗,并發(fā)現(xiàn)去掉神經(jīng)泄露的皮質(zhì)電路工作性能有所下降,我們便可據(jù)此得出結(jié)論:這種現(xiàn)象是大腦進(jìn)化的結(jié)果,也對皮質(zhì)電路的高性能起著至關(guān)重要的作用。必須指出的是,由于連接之間復(fù)雜的互相影響,這種結(jié)果表明:實際上,概念層級結(jié)構(gòu)模式的有序模型以及層級之下的預(yù)測更為復(fù)雜。

        但這種結(jié)論也并不準(zhǔn)確?;叵胍幌挛覀兓陔[馬爾可夫?qū)蛹壞P徒?gòu)的模擬皮質(zhì),我們也做了類似神經(jīng)元間交叉談話的調(diào)整。如果我們適當(dāng)?shù)剡\行進(jìn)化程序,系統(tǒng)的性能就會隨之恢復(fù)(因為進(jìn)化程序已經(jīng)適應(yīng)了);如果我們剔除這種交叉談話,系統(tǒng)的性能又會隨之下降。從生物學(xué)意義上來說,進(jìn)化(生物進(jìn)化)確實會造成這種現(xiàn)象。要適應(yīng)新因素,生物進(jìn)化會重新設(shè)定詳細(xì)的系統(tǒng)參數(shù),除非重新進(jìn)化,否則參數(shù)的改變就會降低系統(tǒng)性能。這項試驗在模擬環(huán)境中可以實行,因為在模擬環(huán)境中,進(jìn)化只需要幾天或幾周,但是在生物環(huán)境中卻很難做到,因為這需要數(shù)萬年的時間。

        那么,我們該如何分辨以下幾個方面呢?究竟人腦新皮質(zhì)的特定設(shè)計特征是不是生物進(jìn)化引起的關(guān)鍵創(chuàng)新,或者說對智力水平有很大影響,又或者說僅僅是系統(tǒng)設(shè)計所需的,但卻不一定形成了?只需加入或刪除設(shè)計細(xì)節(jié)的特定變量(如有無連接交叉談話),我們就能回答這些問題。如果選取微生物作為試驗對象,我們也可以觀察生物進(jìn)化是如何進(jìn)行的,因為微生物代際進(jìn)化只需要幾小時,但同樣的實驗以人類這種復(fù)雜的生物為研究對象卻無法實行。這也是生物學(xué)的缺點之一。

        回到語音識別上來,我們發(fā)現(xiàn),如果分別讓(1)負(fù)責(zé)建構(gòu)音素內(nèi)部結(jié)構(gòu)的隱馬爾可夫?qū)蛹壞P秃停?)負(fù)責(zé)建構(gòu)單詞和詞組的隱馬爾可夫?qū)蛹壞P头珠_運行進(jìn)化程序(遺傳算法),語音識別的效果更加理想。系統(tǒng)的兩層都使用了層次隱馬爾可夫模型,但是遺傳算法可以在不同的層級形成不同的設(shè)計變量。該方法中,兩層級之間的現(xiàn)象建構(gòu)是可以共存的,如:連讀時,音素的某些音就會模糊化,“How are you all doing”可能會轉(zhuǎn)變?yōu)椤癏ow're y'all doing”。

        不同的大腦皮質(zhì)區(qū)域也有可能出現(xiàn)類似的現(xiàn)象,因為基于處理過的模式類型,它們已經(jīng)形成了細(xì)微的差別。盡管所有區(qū)域都使用相同的新皮質(zhì)算法,生物進(jìn)化還是有充足的時間調(diào)整每部分的設(shè)計,使得模式之間的配合達(dá)到最優(yōu)化。然而,就像之前討論過的,神經(jīng)系統(tǒng)學(xué)專家和神經(jīng)病學(xué)專家已經(jīng)注意到了這些區(qū)域中的巨大可塑性,而這種可塑性為一般神經(jīng)算法提供了依據(jù)。如果每個區(qū)域的基本方法不同,皮質(zhì)區(qū)域之間是不會互相交流的。

        通過結(jié)合不同的自主算法,我們構(gòu)建的系統(tǒng)獲得了成功。在語音識別的過程中,它們能夠首次識別流暢的句子和相對來說比較清晰的詞語發(fā)音。就算說話者、語調(diào)和口音有所差異,系統(tǒng)也能保持相當(dāng)高的識別率。當(dāng)下這個領(lǐng)域的代表產(chǎn)品是Nuance公司針對計算機(jī)開發(fā)的產(chǎn)品Dragon Naturally Speaking(版本11.5)。假如對語音識別率有高要求的話,我建議可以嘗試一下這款產(chǎn)品,因為該產(chǎn)品的識別率通??梢赃_(dá)到99%,而且通過句子和無限詞匯識別的訓(xùn)練適應(yīng)你的聲音后,產(chǎn)品的識別率可能會更高。對蘋果公司而言,Dragon Dictation是簡單而免費的應(yīng)用,蘋果用戶都可以使用該應(yīng)用。蘋果手機(jī)上的Siri程序也采用了相同的語音識別技術(shù)來識別說話者的話語。

        這些系統(tǒng)的表現(xiàn)證明了數(shù)學(xué)的威力。借助數(shù)學(xué)方法,就算無法直接進(jìn)入說話者的大腦,我們也能夠了解說話者新皮質(zhì)內(nèi)的活動,后者在Siri這樣的系統(tǒng)中,對識別說話者語言和確定說話者話語意義的起著至關(guān)重要的作用。我們也會好奇:如果我們真的能夠觀測到說話者新皮質(zhì)內(nèi)部的活動,能否發(fā)現(xiàn)軟件計算出的隱馬爾可夫?qū)蛹壞P偷倪B接和權(quán)重?我們基本上無法找到精確的匹配,因為與電腦中的模型相比,神經(jīng)元結(jié)構(gòu)細(xì)節(jié)差異更大。但我堅信:實際生物和模擬出的模型之間的高精確性肯定存在著某種數(shù)學(xué)對等體,否則,那些模擬出來的系統(tǒng)為什么會像它們那樣運行呢?

        列表處理語言LISP

        LISP(全名List Processor)是一種計算機(jī)語言,由人工智能領(lǐng)域的開拓者約翰·麥卡錫(John McCarthy)于1958年創(chuàng)造出來。如名字所示,LISP跟列表相關(guān)。每個LISP表達(dá)式就是一個元素列表,其中的每個元素要么是另外一個列表,要么是一個“原子”,后者可能是最簡形式的數(shù)值或符號。列表的子列表仍可以是該列表本身,所以LISP可以循環(huán)遞歸。LISP語句還有另一種遞歸形式:第一個列表包含第二個列表,第二個列表包含第三個列表……循環(huán)遞歸直到回到第一個列表,循環(huán)就結(jié)束了。正因為列表具有這種包含性,所以LISP語言也能夠處理層級結(jié)構(gòu)。列表也可以作為系統(tǒng)的限制條件,且只有在滿足列表的限制條件時,程序才可以正常運行。如此一來,這個由限制條件組成的層級結(jié)構(gòu)就可以被用來識別模式越來越抽象的特征。

        20世紀(jì)70年代和80年代初期,LISP語言曾在人工智能領(lǐng)域風(fēng)靡一時。早期對LISP持樂觀態(tài)度的人認(rèn)為LISP語言再現(xiàn)了人腦的工作方式,而且LISP語言可以簡化,使得任一種智能程序高效運行。所以當(dāng)時,LISP程序員和LISP的相關(guān)產(chǎn)品在“人工智能”領(lǐng)域備受追捧。但到了80年代后期,當(dāng)人們發(fā)現(xiàn)LISP算法并不能為人工智能領(lǐng)域的發(fā)展提供捷徑時,對它的投資也就隨即減少了。

        事實證明,對LISP持樂觀態(tài)度的人的觀點并非無可取之處。我們可以將新皮質(zhì)的某個模式識別器視為一個LISP語句——每個語句由一個成分列表組成,每個語句成分又可能是另外一個列表。按照這種方法,新皮質(zhì)處理信息的方法在性質(zhì)上與列表處理非常相似。而且,新皮質(zhì)可以同時處理3億個類似LISP的語句。

        但是,LISP語言缺少兩種重要特征。一個是缺少學(xué)習(xí)的能力。LISP程序語句完全由程序員設(shè)定。雖然人們曾經(jīng)嘗試了很多方法,以期讓LISP程序自我編碼,但那些方法并不完全由LISP語言自行產(chǎn)生。與此相反,大腦新皮質(zhì)則具備這種能力,它可以從自身的經(jīng)驗和系統(tǒng)的反饋中不斷選取有意義且可以被執(zhí)行的信息來填充語句(即列表),然后自行編程。這是新皮質(zhì)工作的重要原則:每個模式識別器(即每一個類似LISP的語句)可自行編程,且能與它的上、下級列表相連接。另一個就是參數(shù)的數(shù)量。雖然人們可以人為地生成一系列包含這些參數(shù)的列表(生成方式為LISP),但這并不是語言自身所固有的特性。

        LISP語言迎合了人工智能領(lǐng)域的原創(chuàng)理念,即找到一種智能方法自行解決問題,而且這種方法可以通過計算機(jī)編程實現(xiàn)。這種智能方法的首次嘗試是應(yīng)用于神經(jīng)網(wǎng)絡(luò),但試驗不是很成功,因為它不能提供學(xué)習(xí)修改系統(tǒng)拓?fù)浣Y(jié)構(gòu)的方法。而通過自身的機(jī)制修建,隱馬爾可夫?qū)蛹壞P蛥s成功地解決了這個問題。如今隱馬爾可夫?qū)蛹壞P图捌鋽?shù)學(xué)“堂弟”——遺傳算法充當(dāng)了人工智能領(lǐng)域的主力軍。對比了LISP語言中的列表和大腦新皮質(zhì)列表之后,有些人給出了這樣的結(jié)論:大腦太過復(fù)雜,人類難以完全理解大腦。這些批評家指出:大腦有數(shù)萬億個連接,而且每個連接都有自身的特點,這就需要數(shù)萬億條語句與之相對應(yīng)。據(jù)我估計,大腦新皮質(zhì)大約擁有3億個模式處理器——或者說3億個列表,列表中的每個元素又指向另一個列表(或者從最低概念層次來說,指向新皮質(zhì)以外的不可簡化的模式)。3億這個數(shù)字對LISP語句來說確實太大,目前人類還沒有寫出過能包含如此多語句的程序。

        但是我們也應(yīng)該知道,這些列表并非在神經(jīng)系統(tǒng)的最初設(shè)計中就被定型了。大腦自行生成了這些列表,并根據(jù)自身的經(jīng)驗建立了各個級別之間的連接。這就是大腦新皮質(zhì)的秘密。自行完成這項任務(wù)的程序要比形成新皮質(zhì)能力的3億個語句簡單得多。那些程序由染色體設(shè)定。正如我將在第11章介紹的,染色體組中負(fù)責(zé)處理大腦信息的信息量(經(jīng)過無損壓縮后的數(shù)量)大約有2500萬個字節(jié),相當(dāng)于100萬個語句。實際算法甚至還要簡單,因為這2500萬的基因信息只是神經(jīng)元的生理需要,并不具備基因組處理信息的能力。2500萬個字節(jié)我們還是可以處理的。

        分層儲存系統(tǒng)

        在第3章中我已經(jīng)提到,杰夫·霍金斯和迪利普·喬治分別于2003年和2004年發(fā)明了一種結(jié)合了層級列表的新皮質(zhì)模型。我們從霍金斯和布萊克斯利2004年的著作《人工智能的未來》(On Intelligence)中查詢到此層級列表的相關(guān)信息。在迪利普2008年的博士論文中,我們還可以找到對層級短期記憶法的更加緊跟時代步伐、更加有力的論述。在名為NuPIC(Power Analytics Corporation)的系統(tǒng)中,Numenta公司運用了這個方法,并且為福布斯公司和動力分析有限公司這樣的客戶研發(fā)了模式識別和智能數(shù)據(jù)挖掘系統(tǒng)。離開Numenta公司后,喬治開了一家名為代理系統(tǒng)(Vicarious Systems)的新公司。該公司得到了Founder Fund公司(由Facebook背后的風(fēng)險投資家彼得·泰爾和Facebook的第一位總裁肖恩·帕克共同管理)和達(dá)斯汀·莫斯科維茨(Dustin Moskovitz,F(xiàn)acebook的創(chuàng)始人之一)領(lǐng)導(dǎo)的Good Ventures公司的資助。

        在智能建模、學(xué)習(xí)和識別含有多層次結(jié)構(gòu)的信息方面,喬治取得了巨大的進(jìn)步。他稱其系統(tǒng)為“遞歸皮質(zhì)網(wǎng)絡(luò)”,并打算將之應(yīng)用到諸如醫(yī)學(xué)成像和機(jī)器人技術(shù)等領(lǐng)域。從數(shù)學(xué)上來看,隱馬爾可夫?qū)蛹壞P秃蛯蛹墐Υ嫦到y(tǒng)非常類似,尤其是當(dāng)我們允許隱馬爾可夫?qū)蛹壞P妥孕薪M織不同模式識別模塊之間的連接時,兩者更為相像。隱馬爾可夫?qū)蛹壞P瓦€有另一個重要的作用,即通過計算當(dāng)前模式存活的可能性,隱馬爾可夫?qū)蛹壞P涂梢詫斎胄畔⒌闹匾赃M(jìn)行等級建模。

        最近我新開了一家名叫模式(Patterns)的有限責(zé)任公司,通過利用隱馬爾可夫?qū)蛹壞P秃推渌恍┫嚓P(guān)技術(shù)開發(fā)智能的新皮質(zhì)層級結(jié)構(gòu)模型,從而理解識別自然語言。其中一個重要的出發(fā)點是設(shè)計出的模型可以像生物新皮質(zhì)那樣自行組建層級結(jié)構(gòu)。我們設(shè)想的系統(tǒng)不僅可以順利閱讀各類資料,諸如維基百科和其他一些信息,還可以聽懂你的每句話,識別你的每個字(如果你愿意寫的話)。我們的目標(biāo)就是讓它成為你的一位良友,甚至不用問,它就能猜出你內(nèi)心的疑問并作出回答,還可以隨時為你的生活提供有用的信息和建議。

        人工智能的前沿:登上能力層級頂端

        1.一個徒有其表、胸?zé)o點墨的演講者冗長無趣的發(fā)言。

        2.為欣賞歌劇特意給孩子穿上的晚禮服。

        3.12年來胡魯斯加國王的士兵不斷被殺,官員貝奧武夫被派來解決這一難題。

        4.它可能是隨著思維的發(fā)展而形成,也可能早在懷孕期就已形成。

        5.國際教師節(jié)和肯塔基德比賽馬日(Kentucky Derby)。

        6.華茲華斯(Wordsworth)曾說它們不會漫步閑逛,一定會直飛云霄。

        7.固定在馬蹄上的鐵制品或賭場里發(fā)牌的盒子上印著的4個字母的單詞。

        8.意大利歌劇作曲家威爾弟1846年創(chuàng)作作品中的第三場,情人奧黛貝拉受到了上帝的懲罰。

        這些是節(jié)目《危險邊緣》中的提問,沃森全部給出了正確的答案。答案是:甜酥餅式的長篇大論、圍裙、格倫德爾、孕育、五月、云雀和鞋子。對于第8題,沃森先回答:“阿蒂拉是誰?”主持人回他:“能更具體嗎?”沃森便明確答道:“匈奴王阿蒂拉是誰?”這就是正確答案。

        計算機(jī)尋求《危險邊緣》游戲提問線索的技術(shù)與我的頗為相似。計算機(jī)會先找到線索中的關(guān)鍵詞,然后在自身的記憶中(在沃森的例子中,該記憶是指擁有15兆兆位的人類知識的數(shù)據(jù)庫)尋找與關(guān)鍵詞相匹配的話語。計算機(jī)會嚴(yán)密排查能從上下文信息中得知的那些排名靠前的搜索結(jié)果:類別名稱、答案類型、時間、地點,以及提示信息中暗示的性別等。當(dāng)計算機(jī)認(rèn)為信息量足夠確定答案時,便會給出答案。這一過程對《危險邊緣》的參與者而言,既迅速又自然,而且我認(rèn)為在回答問題時,大腦差不多也是如此運作的。

        肯·詹尼斯,(《危險邊緣》的冠軍,后輸給沃森)

        我是歡迎機(jī)器人當(dāng)霸主的人之一。

        肯·詹尼斯(輸給沃森后借用《辛普森一家》的臺詞)

        天?。。ㄎ稚┗卮稹段kU邊緣》的問題比一般參加者更聰明。這真讓人驚訝!

        塞巴斯蒂安·特龍(人工智能標(biāo)準(zhǔn)實驗室前任負(fù)責(zé)人)

        沃森什么都不懂。他只是一個大型蒸汽壓路機(jī)。

        諾姆·喬姆斯基

        人工智能無處不在,發(fā)展形勢也勢不可當(dāng)。通過短信、電子郵件或者電話與人聯(lián)系這一簡單行為就是用智能算法發(fā)送信息的。幾乎每一款產(chǎn)品都是先由人腦和人工智能合力設(shè)計出來,再在工廠自動生產(chǎn)的。假設(shè)明天所有的人工智能系統(tǒng)都罷工了,社會便會癱瘓:我們不能正常從銀行取款,存款自然也就化為烏有;通信、交通和生產(chǎn)也會全部中斷。不過還好,我們的智能機(jī)器還沒有聰明到能夠策劃這樣的陰謀。

        人工智能呈現(xiàn)出一種新特點,即該技術(shù)已經(jīng)徹底改變了普通大眾的生活。例如谷歌的無人駕駛汽車(截至本文寫作時,該車已跑過20多萬英里),這項技術(shù)可以提供明顯減少撞車事故、提高道路流通率、降低開車時操作的復(fù)雜性等一系列好處。盡管無人駕駛汽車可能到本世紀(jì)末才會在世界范圍內(nèi)廣泛使用,但只要這種汽車能遵循某些規(guī)定,它就可以在內(nèi)華達(dá)的公共街道上合法行駛。汽車已配備了自動注意道路情況,以及提醒司機(jī)危險迫近的功能。該項技術(shù)有一部分基于大腦視覺處理模型,該模型由麻省理工學(xué)院托馬索·波焦(Tamason Poggio)教授成功研發(fā)。波焦的博士后學(xué)生安農(nóng)·沙思娃(Amnon Shashua)進(jìn)一步開發(fā)了這一模型,研究出移動眼球(MobilEye)技術(shù)。這項技術(shù)能警告司機(jī)將會發(fā)生的碰撞或者有小孩在車前奔跑等危險狀況。最近,沃爾沃和寶馬等廠家生產(chǎn)的汽車已經(jīng)安裝了這種設(shè)備。

        有幾個原因使得我要在這部分集中討論一下語言技術(shù)。毋庸置疑,語言分層的本質(zhì)反映出我們思維分層的本質(zhì)??谡Z是我們將要討論的第一個術(shù)語,書面語是第二個。如本章所述,我在人工智能領(lǐng)域的工作便是以語言為中心的。掌握語言是靠大量積累而成的一種能力。沃森已經(jīng)閱讀過數(shù)億網(wǎng)頁,并且掌握了文檔中所包含的知識。最終,機(jī)器能夠掌握網(wǎng)上的所有知識——也就是人-機(jī)文明的全部知識。

        鑒于計算機(jī)能夠以文字信息進(jìn)行正常的語言交流,英國數(shù)學(xué)家阿蘭·圖靈(Alan Turing)進(jìn)行了以他名字命名的測試。圖靈認(rèn)為語言包含、體現(xiàn)了所有的人工智能,只借助簡單的語言技巧,機(jī)器是無法通過圖靈測試的。盡管圖靈測試是一項涉及書面語的游戲,圖靈卻堅信計算機(jī)通過測試的唯一方法就是真正擁有與人類水平相當(dāng)?shù)闹悄?。評論家提出,完整的人類水平智能測試應(yīng)當(dāng)包括掌握視、聽信息能力的測試。因為我的很多人工智能項目包含了教計算機(jī)掌握如人類語言、字母形態(tài)以及音樂聲音之類的感覺信息,因此我也十分支持在真正的智能測試中加入這些信息形式。但同時,我也贊同圖靈最初的看法:圖靈測試只進(jìn)行文本信息的測試就足夠了,因為在測試中增加視覺或聽覺信息并不會增加該測試的難度。

        即使不是人工智能專家,人們也會被沃森在《危險邊緣》中的表現(xiàn)所震撼。雖然我明白沃森關(guān)鍵子系統(tǒng)中使用的方法,但這根本不會降低我觀看他表現(xiàn)的好奇心。即使完全了解系統(tǒng)每一部分的工作原理——實際上無人做到這一點,也不能幫你預(yù)測沃森在某種情境下的實際反應(yīng)。因為它包含了數(shù)百個互相影響的子系統(tǒng),每個子系統(tǒng)又要同時處理數(shù)百萬個相互矛盾的假設(shè),所以我們不可能預(yù)測沃森的實際表現(xiàn)。如果要全面研究沃森的思考過程,一個3秒鐘的問題就會讓我們花掉數(shù)百年的時間。

        繼續(xù)講我的故事。20世紀(jì)80年代末和90年代,我們開始研究某些領(lǐng)域?qū)ψ匀徽Z言的理解。我們提供一種叫作“庫茲韋爾聲音”(Kurzweil Voice)的產(chǎn)品,你可以對著它講任何你想講的話,只要與編輯文檔相關(guān)即可,例如“將前一頁的第三段移動至此”。在這一有限卻實用的領(lǐng)域中,庫茲韋爾聲音表現(xiàn)良好。我們還將這一產(chǎn)品延伸到醫(yī)療知識領(lǐng)域,醫(yī)生可以借助它記錄病人的報告。上述產(chǎn)品對放射學(xué)和病理學(xué)相關(guān)領(lǐng)域的知識也有足夠的了解,如果報告有不清楚的地方,該產(chǎn)品就會向醫(yī)生提出疑問,并在報告過程中引導(dǎo)醫(yī)生。這些醫(yī)療報告系統(tǒng)已經(jīng)發(fā)展為Nuance公司價值百萬美元的企業(yè)項目。

        鑒于自然語言理解在自動語音識別中的應(yīng)用,自然語言理解已成為當(dāng)下研究的主流。截至寫作本書時,蘋果4S上自動個人助手Siri在移動計算機(jī)界造成了巨大影響。你可以吩咐Siri做任何智能電話可以做到的事情,比如“附近哪里可以吃到印度食品”,或者“給妻子發(fā)條短信說我正在路上”,或者“大家對布拉德·皮特的新電影有什么看法”。而且,大多數(shù)時候Siri都會回答。Siri還會發(fā)出少量沒有實際意義的閑聊用來娛樂。如果你問它生活的意義何在,它會回答“42”,因為《銀河便車指南》(The Hitchhiker's Guide to the Galaxy)的粉絲把它作為“生命、宇宙和一切終極問題的答案”。沃爾弗拉姆·阿爾法會回答那些知識性問題(包括生活的意義),對此的描述詳見后文?!傲奶鞕C(jī)器人”很多,它們什么事都不做只是閑聊。如果你想跟我們名叫拉蒙娜的聊天機(jī)器人聊天,請訪問我們的網(wǎng)站KurzweilAI.net,并點擊“與拉蒙娜聊天”。

        有人向我抱怨Siri不能滿足某些要求,但我發(fā)現(xiàn)這些人也總是不斷抱怨人工服務(wù)。有時我建議他們跟我一起試用Siri,之后他們覺得Siri的表現(xiàn)超出了預(yù)期。這些抱怨讓我想起了那條會下國際象棋的狗的故事。它的主人如此回答滿腹疑惑的人:“是真的,它的確會下棋,只是結(jié)局比較慘?!盨iri現(xiàn)在也開始遇到強(qiáng)勁的對手,比如谷歌語音搜索。

        普通公眾與掌上電腦進(jìn)行自然對話是新時代的標(biāo)志。人們往往會因為某物存在缺陷就對其予以否定,第一代技術(shù)也沒有逃脫這種命運。即使多年后,此項技術(shù)成熟了,人們還是沒有重視它,因為它早已過時。但事實上,Siri作為第一代技術(shù)的產(chǎn)物運行優(yōu)良,而且這款產(chǎn)品會越來越受歡迎。

        Siri使用的是Nuance基于馬爾可夫?qū)蛹壞P偷恼Z音識別技術(shù)。自然語言的外延最先是由美國國防部高級研究計劃署贊助的CALO項目開發(fā)的。Nuance的自然語言技術(shù)優(yōu)化了Siri的功能,還提供了一項與Siri非常類似的技術(shù)——“游龍”(Dragon Go)!

        理解自然語言使用的方法與理解隱馬爾可夫?qū)蛹壞P陀泻芏嘞嗨浦?,實際上,隱馬爾可夫?qū)蛹壞P捅旧淼氖褂镁秃軓V泛。有些系統(tǒng)并沒有明確標(biāo)明使用的是馬爾可夫?qū)蛹壞P瓦€是隱馬爾可夫?qū)蛹壞P?,不過這兩種模型工作的數(shù)學(xué)原理是完全一樣的。它們都包含線性序列層級,其中的每個元素都有自己的權(quán)重、能夠自我調(diào)試的連接,以及基于學(xué)習(xí)數(shù)據(jù)建構(gòu)的全套智能系統(tǒng)。通常,在實際運用這些系統(tǒng)的過程中,學(xué)習(xí)得以延續(xù)。這一方法與自然語言的層級結(jié)構(gòu)相適應(yīng)——從詞性到單詞,到短語,再到語意結(jié)構(gòu),只不過是抽象概念的自然延伸。在參數(shù)上運行遺傳算法也是有意義的,因為這些參數(shù)控制這種分層學(xué)習(xí)系統(tǒng)的精確學(xué)習(xí)算法,并選擇最優(yōu)化算法細(xì)節(jié)。

        在過去10年中,創(chuàng)造這些分層結(jié)構(gòu)的方法有了新的變化。1984年,道格拉斯·萊拉特(Douglas Lenat)躊躇滿志地啟動了循環(huán)(Cyc,代表enCYClopedic)項目,該項目著眼于創(chuàng)造能夠整理日?!俺WR性”知識的規(guī)則。這些規(guī)則組成了龐大的層級結(jié)構(gòu),每條規(guī)則自身又包含一個線性狀態(tài)鏈。比如,一條循環(huán)規(guī)則可能表示狗有一張臉。然后,循環(huán)便聯(lián)系與臉型結(jié)構(gòu)相關(guān)的一般規(guī)則:有兩只眼睛、一只鼻子、一張嘴,等等。我們雖然希望創(chuàng)建額外的規(guī)則以區(qū)別狗的臉與貓的臉,但不需要為狗的臉創(chuàng)建一套規(guī)則,再為貓的臉創(chuàng)建另一套。這一系統(tǒng)還包括推導(dǎo)引擎:如果有規(guī)則規(guī)定獵犬是一種狗,狗是一種動物,動物要吃食物,那么我們問推導(dǎo)引擎獵犬吃不吃東西,它會給出肯定回答:獵犬要吃食物。在未來20多年中,集千人之力,將有十多億條這類規(guī)則被編寫、測試。有趣的是,編寫循環(huán)規(guī)則的語言,即Cycl,幾乎與LISP語言完全一樣。

        與此同時,對立學(xué)派認(rèn)為理解自然語言,或者是創(chuàng)建一般意義上的智能系統(tǒng)最好的辦法就是通過自動學(xué)習(xí),也就是讓系統(tǒng)處理與系統(tǒng)設(shè)計目的相符的巨量信息。證明這一觀點最有力的例子就是谷歌翻譯,它可以在50種語言間互譯。盡管谷歌翻譯包含了2500種不同的翻譯方向,但大多數(shù)語言并不能直接互譯,翻譯仍然需要以英語為中介語言。因此,谷歌需要的譯員就減少到98位(外加少量與英語不匹配、可以直接互譯的譯員)。谷歌譯員并不使用語法規(guī)則,而是為每一對語言的普通互譯創(chuàng)造大型數(shù)據(jù)庫,其基礎(chǔ)是“羅塞塔石”語言庫中兩種語言間的翻譯文檔。對于6種聯(lián)合國官方語言,谷歌使用的是聯(lián)合國的文件資料,因為這6種語言的資料都會出版;對于不那么常用的語言,谷歌就使用其他資源。

        結(jié)果往往讓人驚訝。美國國防部高級研究計劃署每年都會舉行不同語言間最佳自動語言翻譯系統(tǒng)競賽,谷歌翻譯經(jīng)常在某些語言翻譯競賽中勝出,因為它打敗了那些以語言學(xué)家發(fā)現(xiàn)的語言規(guī)則為基礎(chǔ)的系統(tǒng)。

        過去10年右兩大觀點對理解自然語言產(chǎn)生了重大影響。第一個觀點與層級結(jié)構(gòu)有關(guān)。盡管谷歌的方法從對應(yīng)語言間詞語的序列開始,但其運行必然受到語言內(nèi)部層級本質(zhì)的影響。那些在方法上使用了層級學(xué)習(xí)(如隱馬爾可夫?qū)蛹壞P停┑南到y(tǒng)明顯表現(xiàn)得更好,但這樣的系統(tǒng)不是自動建立的。人類一次只能學(xué)習(xí)一個抽象層級,電腦系統(tǒng)也一樣,因此我們要仔細(xì)控制學(xué)習(xí)進(jìn)程。

        第二個觀點是手動建立的規(guī)則較為適合普通基本知識的核心部分。這種方法翻譯的短文常常更精確。比如,在短文翻譯方面,美國國防部高級研究計劃署將基于規(guī)則的中譯英譯員排在谷歌翻譯前面。對于語言的尾巴,即那數(shù)百萬個不常用的短語和概念,基于規(guī)則的系統(tǒng)翻譯的精確度低得讓人難以接受。如果我們以訓(xùn)練數(shù)據(jù)量為參數(shù)繪制自然語言理解精確度的圖表,基于規(guī)則的系統(tǒng)最初性能很高,但隨后精確度就降低到70%。與此相對,基于語料庫的翻譯系統(tǒng)的準(zhǔn)確度高達(dá)90%,但需要龐大的數(shù)據(jù)庫作為支撐(見圖7—15)。

        圖7—15 自然語言識別系統(tǒng)的準(zhǔn)確率是訓(xùn)練數(shù)據(jù)容量

        注:自然語言識別系統(tǒng)的準(zhǔn)確率是訓(xùn)練數(shù)據(jù)容量的一個函數(shù)。提高該系統(tǒng)準(zhǔn)確率的最好方法就是將兩者結(jié)合:對語言的核心部分,我們用人工規(guī)則對其加以規(guī)定;對語言的其他“分散”規(guī)則,我們則需通過數(shù)據(jù)統(tǒng)計的方法對其加以規(guī)定。

        我們常常需要將基于少量訓(xùn)練材料的中度性能與獲得數(shù)量更多、更精確的翻譯的機(jī)會相結(jié)合。迅速獲得中度性能使得我們能在某一領(lǐng)域嵌入系統(tǒng),然后自動收集人們使用該系統(tǒng)后留下的數(shù)據(jù)。這樣,人們使用系統(tǒng)時系統(tǒng)也能大量學(xué)習(xí),精確度就會有所提高。要反映語言的本性,這種數(shù)據(jù)學(xué)習(xí)就得充分分層,而語言本質(zhì)也反映了人腦的工作機(jī)制。

        這也是Siri和游龍的運行機(jī)制——對最常見的和特定的語言現(xiàn)象使用規(guī)則翻譯法,然后學(xué)習(xí)語言“尾巴”在實際生活中的用法。循環(huán)團(tuán)隊在以人工編碼為基礎(chǔ)改進(jìn)系統(tǒng)遇到性能瓶頸時,也采用這一方法。人工編碼的規(guī)則有兩個必備的功能。首先,它們一開始就能提供足夠的原始精確度,這樣試運行系統(tǒng)就能廣泛應(yīng)用,并在使用過程中自動優(yōu)化升級。其次,它們能為級別較低的抽象層級提供堅實的基礎(chǔ),這樣智能學(xué)習(xí)就能習(xí)得更高概念層的知識。

        如上所述,沃森是人工編碼規(guī)則與分層數(shù)據(jù)學(xué)習(xí)結(jié)合的典型例子。IBM將許多自然語言節(jié)目結(jié)合起來創(chuàng)造了一個可以玩《危險邊緣》游戲的系統(tǒng)。2011年2月14日至16日,沃森與兩位名列前茅的參與者競賽——布蘭德·拉特爾在競猜節(jié)目中贏得的獎金無人能及;肯·詹尼斯曾贏得《危險邊緣》的冠軍,這一紀(jì)錄保持了75天。

        20世紀(jì)80年代中期,我完成了第一部著作《智能機(jī)器時代》。在書中,我曾預(yù)測電腦會于1998年成為國際象棋冠軍。我還預(yù)測到那時我們要么降低對人類智力的看法,提升對機(jī)器智能的看法;要么降低國際象棋的地位。如果歷史是一位向?qū)?,我們會將象棋最小化。這些事在1997年都應(yīng)驗發(fā)生了。當(dāng)IBM的超級國際象棋計算機(jī)“深藍(lán)”戰(zhàn)勝了人類國際象棋冠軍加里·卡斯帕羅夫時,我們立即面對這樣的爭辯:電腦會贏也是情理之中的事,因為電腦是有邏輯的機(jī)器,而國際象棋又是具有邏輯性的游戲。這樣,深藍(lán)的勝利顯得既不讓人驚訝,也不再那么重要了。許多評論家繼續(xù)爭辯,提出電腦永遠(yuǎn)不能掌握人類語言的細(xì)微差別,包括暗喻、明喻、雙關(guān)修辭、語意雙關(guān)和幽默。

        這也是沃森的勝利具有里程碑意義的原因:《危險邊緣》是一個相當(dāng)復(fù)雜、極具挑戰(zhàn)性的語言游戲?!段kU邊緣》中的提問包括了許多人類語言的奇怪變體。許多人可能不會相信,沃森不僅正確回答了那些千奇百怪、復(fù)雜難解的問題,而且它利用的大部分知識都不是手工編碼的。沃森之所以成功,是因為它閱讀過兩億頁自然語言材料,其中包括維基百科的所有網(wǎng)頁和其他百科全書,足足有4兆字節(jié)。正如本書讀者所了解的那樣,維基百科不是用LISP或者Cycl寫成的,而是包含歧義和復(fù)雜邏輯的自然語句。在對問題作出回應(yīng)時,沃森會參考這4兆字節(jié)資料,然后回答問題(我發(fā)現(xiàn)《危險游戲》尋找答案的過程其實是在尋找問題,但這只是一個技術(shù)性問題——答案其實也是問題)。如果沃森能夠在3秒內(nèi),在兩億頁知識的基礎(chǔ)上理解并對問題作出反應(yīng),那類似的系統(tǒng)也能在網(wǎng)上讀取其他上億個網(wǎng)頁資料。實際上,人們正在為此而努力。

        20世紀(jì)70年代到90年代,我們在研發(fā)字符和語言識別系統(tǒng)以及早期的自然語言理解系統(tǒng)時,“專家經(jīng)理”這個方法占據(jù)了主導(dǎo)地位。我們研發(fā)不同的系統(tǒng)、運用不同的方法,但解決的是同一個問題。系統(tǒng)之間的差別有時很小,譬如只是控制學(xué)習(xí)算法的參數(shù)不同而已;但有些差別確實很大,例如用以規(guī)則為基礎(chǔ)的系統(tǒng)代替以分層統(tǒng)計學(xué)習(xí)為基礎(chǔ)的系統(tǒng)?!皩<医?jīng)理”本身也是一個軟件,通過實時測試性能,總結(jié)出這些不同程序處理問題的優(yōu)缺點。它認(rèn)為這些系統(tǒng)的優(yōu)點呈現(xiàn)正交分布:即一個系統(tǒng)在這方面是強(qiáng)者,在其他方面就是弱者。實際上,在調(diào)整后的“專家經(jīng)理”的管理下,這些系統(tǒng)整體的表現(xiàn)遠(yuǎn)遠(yuǎn)好于單個系統(tǒng)的表現(xiàn)。

        沃森的工作方式也是如此。借助非結(jié)構(gòu)化信息管理框架(UIMA),沃森設(shè)計了幾百個不同的系統(tǒng)。沃森系統(tǒng)中很多的個體語言組成與大眾使用的自然語言理解系統(tǒng)是一樣的,這些系統(tǒng)要么直接對《危險邊緣》的提問給予回答,要么至少簡化某些提問。UIMA就像一個“專家經(jīng)理”,需要智能整合不同系統(tǒng)的運算結(jié)果。但它遠(yuǎn)遠(yuǎn)超越了那些早期系統(tǒng),如Nuance的前身研發(fā)出的系統(tǒng),因為就算它的個體系統(tǒng)沒有提供最終答案,這些系統(tǒng)還是能為最終結(jié)果獻(xiàn)出自己的一份力量——只要能縮小解決方案的范圍就足夠了。UIMA能計算出得出最終答案的概率。人腦也能這樣——在問到母親的姓氏時,我們對自己的答案會很自信,但是要說出很多年前偶然遇到的那個人的姓氏時,我們就沒那么自信了。

        因此,為了找到一個能夠理解《危險邊緣》中固有的語言問題的優(yōu)雅方法,IBM的科學(xué)家將他們能得到的所有藝術(shù)語言理解狀態(tài)模型結(jié)合在一起。有些人利用隱馬爾可夫?qū)蛹壞P?;有些人采用隱馬爾可夫?qū)蛹壞P偷臄?shù)學(xué)變體;另外一些人則運用規(guī)則方法直接編碼一套可靠規(guī)則。UIMA根據(jù)每個系統(tǒng)在實際使用過程中的表現(xiàn),以最優(yōu)的方式對不同系統(tǒng)進(jìn)行整合。但是公眾對沃森系統(tǒng)有一些誤解,他們認(rèn)為IBM創(chuàng)造沃森系統(tǒng)的專家們太過關(guān)注UIMA,即他們所創(chuàng)造的專家經(jīng)理。有些評論家認(rèn)為沃森系統(tǒng)并沒有真正理解語言,因為很難知道理解位于哪個部分。盡管UIMA也會借鑒自己以前的經(jīng)驗,但沃森對語言的理解并不僅僅位于UIMA,而是分散在很多組成部分中,包括使用與隱馬爾可夫?qū)蛹壞P屯瑯臃椒ǖ闹悄苷Z言模塊。

        在決定應(yīng)在《危險邊緣》游戲中下多大的賭注時,沃森技術(shù)的某個特定部分會使用UIMA的信心指數(shù)評定系統(tǒng)。雖然沃森已特意為這種游戲升級了系統(tǒng),但核心語言—知識—搜索技術(shù)卻能執(zhí)行更多的任務(wù)。有人肯定會認(rèn)為掌握不常用的專業(yè)知識,如醫(yī)學(xué)知識,要比掌握那些玩《危險邊緣》游戲所需的大眾化知識更難。然而事實卻恰恰相反:專業(yè)知識的脈絡(luò)更加清晰,結(jié)構(gòu)更加完整,而且相對來說,信息歧義程度較低,所以沃森可以非常容易地理解這些精準(zhǔn)的自然語言。IBM公司目前也正與Nuance公司聯(lián)手打造面向醫(yī)學(xué)用途的沃森系統(tǒng)。

        沃森在玩《危險邊緣》這個游戲時的系統(tǒng)對話非常簡單:出現(xiàn)一個問題,沃森尋找相應(yīng)的答案,從技術(shù)上來講,就是提出問題并給出答案。在一個對話中,沃森并不需要回顧所有對話者之前的談話內(nèi)容(Siri系統(tǒng)則需要回顧部分內(nèi)容:如果你要求它給你的妻子發(fā)條短信,第一次,它需要你指認(rèn)你的妻子,但以后就不需要你重復(fù)指認(rèn)了)。雖然回顧對話中的所有消息——這顯然是一個需要通過圖靈測試的任務(wù),是一個額外卻很重要的任務(wù),但是任務(wù)難度并不比沃森的提問回答任務(wù)高。畢竟,沃森已經(jīng)閱讀了數(shù)百萬頁的讀物,其中自然包含了很多故事,所以它能夠追蹤復(fù)雜的序列事件。沃森也應(yīng)該可以追溯自己以往的對話,并在下次回答問題時將其列入知識庫。

        《危險邊緣》的另外一個缺點是問題的答案都比較簡單。例如,它不會要求競猜者歸納《雙城記》(A Tale of Two Cities)的5個主題。針對這個問題,沃森會找到討論小說主題的相關(guān)文件,并整理出自己的答案。通過自己讀書找到答案,而不是抄襲其他思考者的觀點(即使沒有書面文字),這又是另外一個問題。如果要讓沃森自己讀小說找到答案,目前來說,對沃森而言顯然是一個更高水平的任務(wù),而前者就是我所謂的圖靈水平測試任務(wù)(需要指出的是,大部分人對此也沒有自己的原創(chuàng)觀點,而是吸收借鑒了同輩或者專業(yè)人士的觀點)?,F(xiàn)在是2012年,不是2029年,所以我不會期待沃森可以回答圖靈智力水平測試這一難度的問題。而且我還要指出:概括小說主題這種級別的問題并不是簡單的任務(wù)。對于誰簽署了《獨立宣言》這樣的問題,我們可以對其給出的答案作出正確或者錯誤的判斷。但是對概括小說主題這樣高難度的問題,我們無法輕易判斷其答案的正確性。

        值得注意的是,雖然沃森的語言能力低于受教育者的語言能力,但是它卻可以成功打敗在《危險邊緣》中表現(xiàn)最好的兩個選手。成功的秘訣在于:借助其擁有的完美回憶功能和準(zhǔn)確記憶能力,沃森可以將它的語言技能和知識理解能力完美結(jié)合。這就是我們要將個人的、社會的或者歷史的信息儲存在沃森系統(tǒng)內(nèi)的原因。

        我并不打算論述我的推測——到2029年計算機(jī)能夠通過圖靈測試,但是從目前諸如沃森系統(tǒng)取得的進(jìn)步來看,圖靈等級的人工智能應(yīng)該能夠?qū)崿F(xiàn)。如果有人可以研制出為圖靈測試優(yōu)化的沃森系統(tǒng),那便離我們目標(biāo)的實現(xiàn)又近了一步。

        美國哲學(xué)家約翰·塞爾(John Searle)最近提出了一個論點:沃森不具備思考的能力。他援引了自己名為“中文屋”(Chinese room)的思想實驗(將在第11章詳細(xì)闡述),說明沃森只是能夠熟練地運用那些符號,卻不能真正理解那些符號背后的意思。實際上,塞爾并未正確地描述沃森這個系統(tǒng),因為沃森對語言的理解不是基于對符號的理解,而是基于分層數(shù)據(jù)過程。假如我們認(rèn)為沃森系統(tǒng)的智能過程只是熟練地運用符號的話,塞爾的評價就是正確的。但如果真的是這樣的話,人腦也就不能思考了。

        在我看來,那些批評沃森只會對語言進(jìn)行數(shù)據(jù)分析,而不能像人類那樣真正理解語言的批評家是非??尚突?。人腦在處理各種各樣的假設(shè)時,也是基于數(shù)據(jù)信息(新皮質(zhì)層級結(jié)構(gòu)的每一層都是如此),并通過分層數(shù)據(jù)分析的方法處理信息的。沃森和人腦都是借助分層理解來學(xué)習(xí)和作出反應(yīng)。在很多方面,沃森的知識要比單個人的知識豐富得多,沒有哪個人敢說自己掌握了維基百科內(nèi)的所有知識,而維基百科內(nèi)的知識只是沃森知識庫的一部分。與此相反,每個人掌握的概念層次要比沃森多,但是這種差距是可以跨越的。

        Wolfram Alpha是衡量處理組織化信息計算能力的重要系統(tǒng),這個知識引擎(與搜索引擎相對),是由英國數(shù)學(xué)家、科學(xué)家沃爾夫勒姆博士與他的沃爾夫勒姆研究中心(Wolfram Research)的同事一起開發(fā)的。例如,如果你問Wolfram Alpha(在Wolfram Alpha.com這個網(wǎng)站上)“0~1000000范圍內(nèi)有多少個質(zhì)數(shù)”,它會回答:“78498。”它并不是從系統(tǒng)中搜尋答案,而是自行算出答案,并在答案的下方列出計算所用的公式。如果你在一般的搜索引擎頁面上輸入同樣的問題,它只會給出你所需算法的鏈接,并不會直接給出答案。之后你還需要將那些公式輸入Mathematica這樣的軟件中進(jìn)行運算,雖然后者也是沃爾夫勒姆博士開發(fā)的,但是與直接詢問Alpha相比,后者要做的工作(需要理解的東西)明顯要多得多。

        實際上,Alpha包含了1500萬條Mathematica語句。Alpha從將近10萬億字節(jié)的數(shù)據(jù)中計算出答案,沃爾夫勒姆研究中心的員工們仔細(xì)整理過這些數(shù)據(jù)。你可以向Alpha詢問很多實際的問題,例如:“哪個國家的人均GDP值最高?”它會回答:“摩納哥,人均212000美元。”再如:“史蒂芬·沃爾弗拉姆多大了?”它會回答:“在我寫下答案的當(dāng)天,52歲9個月零兩天?!盇lpha也是蘋果Siri系統(tǒng)的一部分。如果你向Siri提一個實際的問題,它就會啟動Alpha來處理你的問題。Alpha也負(fù)責(zé)處理微軟公司必應(yīng)搜索引擎接收的一些提問。

        沃爾夫勒姆博士在自己最近的一篇博文中寫道:Alpha現(xiàn)在處理問題的準(zhǔn)確率可以達(dá)到90%。他同時寫到,以大約18個月為半衰期,Alpha的錯誤率也大大降低了。Alpha是一個令人印象深刻的系統(tǒng),它不僅采用人工編程的方法,還采用了人工搜索數(shù)據(jù)的方法。這就解釋了我們發(fā)明計算機(jī)的原因。隨著科學(xué)、數(shù)學(xué)方法的發(fā)現(xiàn)和匯編,計算機(jī)在處理此類問題時要遠(yuǎn)遠(yuǎn)強(qiáng)于單純的人類智力。Alpha系統(tǒng)已經(jīng)收納了大部分科學(xué)方法,而且還在不斷更新著從經(jīng)濟(jì)學(xué)到物理學(xué)各種各樣知識的最新發(fā)展?fàn)顩r。在我和沃爾夫勒姆的一次個人談話中,他估計如果沃森使用的那些智能方法正常工作時正確率大約為80%,Alpha則可以達(dá)到90%。當(dāng)然,這些數(shù)字都具有一定的自我選擇傾向,因為使用者(例如我自己)已經(jīng)知道Alpha系統(tǒng)擅長哪類問題,同樣的因素也影響智能系統(tǒng)的評價。沃森在《危險邊緣》這個游戲中回答問題的準(zhǔn)確率可能是80%,但即使只有80%,也足以打敗該游戲最強(qiáng)的人類競爭者。

        就像我在思維的模式認(rèn)知理論中提到的那樣,這些智能的方法需要理解我們在實際生活中遇到的那些非常復(fù)雜但又很模糊的層級信息,人類的語言當(dāng)然也包含在內(nèi)。智能系統(tǒng)的完美結(jié)合則需要在準(zhǔn)確的科學(xué)知識和數(shù)據(jù)的前提之下,運用思維的模式識別理論(據(jù)我看來,思維模式識別是人腦的工作機(jī)制)對不同層級的智能進(jìn)行綜合。這樣我們就可以用計算機(jī)闡釋人類,智能在日后也能繼續(xù)發(fā)展。對生物智能而言,雖然我們的大腦新皮質(zhì)具有很強(qiáng)的可塑性,但是新皮質(zhì)自身的物理特性限制了其潛力的發(fā)展。將更多的新皮質(zhì)植入我們的前額無疑是一個非常重要的進(jìn)化創(chuàng)新,但是目前我們還不能輕易增加額葉的容量,即使只增加10%也很困難,更別說擴(kuò)大1000倍了。從生物意義上說,我們不能完成這項創(chuàng)新,但是從技術(shù)層面來講,這項創(chuàng)新是可行的。

        創(chuàng)造思維的策略

        我們的大腦擁有數(shù)十億個神經(jīng)元,但什么是神經(jīng)元呢?簡單地說就是細(xì)胞。如果神經(jīng)元之間沒有建立連接機(jī)制,大腦就沒有知識。神經(jīng)元之間的連接決定了我們可以知道什么,我們到底是誰。

        蒂姆·伯納斯·李

        現(xiàn)在讓我們用上面討論過的知識來構(gòu)建人工大腦。首先,我們需要構(gòu)建一個符合某些必要條件的模式識別器。接下來,我們會復(fù)制識別器,因為我們擁有記憶以及計算源。每個識別器計算出模式被識別出的概率。這樣,每個識別器考慮了觀察到的每個輸入的數(shù)值(某種連續(xù)變量),然后將這些數(shù)據(jù)跟與每個輸入對應(yīng)的習(xí)得數(shù)據(jù)和數(shù)值變化程度參數(shù)進(jìn)行比較。如果計算出的概率超過了臨界值,識別器就會激活模擬軸突。我們用遺傳算法優(yōu)化的參數(shù)就包括這個臨界值以及控制計算模式概率的參數(shù)。識別模式并不需要每個輸入都有效,因此,自聯(lián)想識別就有了空間(某個模式只要展現(xiàn)出一部分,我們就可以識別整個模式)。我們同樣也允許存在抑制信號,即暗示模式根本不可能的信號。

        模式識別向該模式識別器的模擬軸突發(fā)送有效信號。此模擬軸突反過來又會與下一個更高層次的概念級別的一個或多個模式識別器建立連接。下一個更高層次的概念級別連接的所有模式識別器就會將這種模式當(dāng)成輸入。如果大部分模式被識別,每個模式識別器還會向低層概念級別傳遞信號——這表明剩余的模式都是“預(yù)計”的。每個模式識別器都有一條或多條預(yù)設(shè)的信號輸入通道。當(dāng)預(yù)計信號以這種方式被接收時,模式識別器的識別臨界值就降低了,也就更容易識別。

        模式識別器負(fù)責(zé)將自己與位于概念層級結(jié)構(gòu)上、下層級的模式識別器“連接”起來。需要注意的是,所有軟件實現(xiàn)的“連接”都是通過虛擬連接而并非實際線路實現(xiàn)的(類似于網(wǎng)絡(luò)連接,本質(zhì)上是記憶指針)。實際上,這類系統(tǒng)比生物大腦系統(tǒng)更為靈活。人腦中出現(xiàn)新模式時,就需要對應(yīng)生物模式識別器,還需要實際的軸突枝晶鏈接與別的模式識別器建立連接。通常人類的大腦會選取一個跟所需連接十分類似的連接,并在此基礎(chǔ)上增加所需的軸突和樹突,最后形成完整的連接。

        哺乳動物的大腦還掌握另一種技術(shù),即先建立很多的可能性連接,然后再剔除那些無用的神經(jīng)連接。如果一個皮質(zhì)模式識別器已經(jīng)承載了某種舊模式,而生物新皮質(zhì)又為這個模式識別器重新分配了最新信息,那么這個皮質(zhì)模式識別器就需要重新構(gòu)造自身的連接。這些步驟在軟件中很容易實現(xiàn)。我們只需要為這個新的模式識別器分配新的記憶存儲單元,并基于新的記憶存儲單元構(gòu)造新的連接。如果數(shù)字新皮質(zhì)想要將皮質(zhì)記憶資源從一個模式系列轉(zhuǎn)到另外一個模式系列,它只需將舊模式識別器納入記憶,再重新分配記憶資源即可。這種“垃圾回收”和記憶再分配是很多軟件系統(tǒng)構(gòu)建的顯著特征。在數(shù)碼大腦中,在我們從活躍的新皮質(zhì)剔除舊記憶之前,數(shù)碼電腦首先會對舊的記憶進(jìn)行復(fù)制,而這是生物大腦無法做到的。

        很多數(shù)學(xué)技術(shù)可用于構(gòu)建這種自組織層級模式識別。基于多種考慮因素,我最終選擇了隱馬爾可夫?qū)蛹壞P汀奈覍⑵鋺?yīng)用在最初的語音識別和20世紀(jì)80年代的自然語言系統(tǒng)中開始,我對這一模型已有數(shù)十年的研究。從整個領(lǐng)域來看,隱馬爾可夫模型在處理模式識別問題時比其他方法的應(yīng)用范圍更加廣泛,而且它還被用到理解自然語言的研究當(dāng)中。許多NLU系統(tǒng)用到的技術(shù)在數(shù)學(xué)意義上與隱馬爾可夫?qū)蛹壞P头浅n愃啤?/p>

        需要指出的是,所有的隱馬爾可夫模型都是層級性的,其中一些包含的層級較少,例如只包含3層,從發(fā)音到音素再到詞匯。為了模擬大腦,我們則需要根據(jù)要求建立許多新的層級結(jié)構(gòu)。而且,大部分隱馬爾可夫模型并不是完全智能的。盡管有一些連接的重要性為零,這些系統(tǒng)卻有效地減少了初始連接的數(shù)量,不過,系統(tǒng)仍有一些固定的連接。20世紀(jì)80年代到90年代開發(fā)的系統(tǒng)已經(jīng)能夠自動剔除某個固定等級之下的連接,它們也可以建立新的連接,從而更好地對數(shù)據(jù)樣本進(jìn)行建模,學(xué)習(xí)新知識。很關(guān)鍵的一點就是允許系統(tǒng)根據(jù)自己學(xué)到的模式靈活地調(diào)整自身的拓?fù)?。我們也可以利用?shù)學(xué)上的線性規(guī)劃為新的模式識別器指定最優(yōu)連接。

        我們的數(shù)碼大腦還允許一種模式反復(fù)出現(xiàn),尤其是那些經(jīng)常出現(xiàn)的模式,這就為我們識別常用模式,或是表現(xiàn)形式不同的同一種模式提供了堅實的基礎(chǔ)。但我們還需要設(shè)定冗余界限,以保證系統(tǒng)對常用低級別模式的儲存不會占用太多空間。

        冗余規(guī)則、識別臨界值和對“這一模式是預(yù)計的”臨界值設(shè)定的影響,是影響自組織系統(tǒng)性能的重要參數(shù)的幾個例子。最開始的時候我是憑直覺設(shè)定這些參數(shù),之后再用遺傳算法對其進(jìn)行優(yōu)化的。無論是生物大腦還是軟件模擬的大腦,大腦的學(xué)習(xí)能力都是一個值得重視的問題。在前面我已經(jīng)提到,一個層級模式識別系統(tǒng)(不管是數(shù)字的還是生物的)可以同時學(xué)習(xí)兩個優(yōu)選的同一級別的層級結(jié)構(gòu)。為了使系統(tǒng)完全智能化,我首先會采用之前已經(jīng)測試過的層級網(wǎng)絡(luò),該網(wǎng)絡(luò)在識別人類語言、機(jī)打信件和自然語言結(jié)構(gòu)任務(wù)時,學(xué)習(xí)能力已經(jīng)得到了訓(xùn)練。不過,雖然這個系統(tǒng)可以識別自然語言寫成的文件,但一次只能掌握一個層級上的信息。系統(tǒng)學(xué)到的上級知識會為下級知識的學(xué)習(xí)奠定基礎(chǔ)。系統(tǒng)可以反復(fù)學(xué)習(xí)同一個文件,每次閱讀都會學(xué)習(xí)到新知識,這跟人們的學(xué)習(xí)過程有些類似——人們也是在對同一資料的反復(fù)閱讀中加深對它的理解。網(wǎng)絡(luò)上有數(shù)十億頁的信息,僅英文版的維基百科就有400萬篇文章。

        我還會提供一個批判性思維模塊,這個模塊可以對現(xiàn)存所有的模式進(jìn)行連續(xù)不斷的后臺掃描,從而審核該模式與該軟件新皮質(zhì)內(nèi)其他模式(思想)的兼容性。生物大腦沒有這樣的模塊,所以人們能夠平等地對待所有的片段性信息。在識別松散的信息時,數(shù)字模塊會試圖在它自己的皮質(zhì)結(jié)構(gòu)和所有可用的信息中尋找解決方法。在這里,解決的辦法可能僅指判斷這松散信息中的某一部分不正確(如果與該信息相對立的信息在數(shù)量上占優(yōu)勢)。不僅如此,該模塊會在更高概念層次上,為解決這種信息的矛盾性提供方法。系統(tǒng)會將解決方法視為一個新的模式,并與引發(fā)這個搜索的問題建立連接。該批判性思維模塊會一直在后臺運行。如果人類大腦也有這樣的模塊,那該多好。

        同樣,我也會提供一個識別不同領(lǐng)域內(nèi)開放性問題的模塊。作為另外一個連續(xù)運行的后臺程序,它會在不同的知識領(lǐng)域內(nèi)尋求問題的解決方案。我前面已經(jīng)指出,新皮質(zhì)內(nèi)的知識由深層次嵌套網(wǎng)狀模式組成,因此具有隱喻性特征。我們可以用一種模式為另外一個毫不相關(guān)領(lǐng)域的問題提供解決方法。

        我們回顧一下第4章提到的隱喻的例子,用某種氣體分子雜亂無章的運動來隱喻某種進(jìn)化過程中雜亂無章的變化。雖然氣體分子的運動沒有明顯的方向,但是聚集在高腳杯內(nèi)的分子如果有了足夠的時間,最終會跑出高腳杯。這也解決了智力進(jìn)化過程中的一個重要問題。就像氣體分子一樣,具有進(jìn)化意義的變化并沒有明確的目的。但是我們能看到這種變化正朝著更復(fù)雜和更高級的智力方向發(fā)展,最終達(dá)到進(jìn)化的最高端,即新皮質(zhì)具備層級思考的能力。因此我們能夠弄清楚某個領(lǐng)域內(nèi)(生物進(jìn)化)沒有目的和努力方向的進(jìn)程是怎樣完成一個精確目標(biāo)的。以此為基礎(chǔ),我們也就可以了解其他領(lǐng)域內(nèi)相似的進(jìn)程,例如熱力學(xué)領(lǐng)域。

        我之前已經(jīng)提到過查爾斯·賴爾的論斷——經(jīng)過長時間的流水侵蝕,巖石會被侵蝕為山谷,這促使查爾斯·達(dá)爾文作出了自己的論斷,即經(jīng)過不斷的變化,物種的生物特征也許會發(fā)生天翻地覆的變化。這種隱喻性的搜索又是另一種持續(xù)運轉(zhuǎn)的后臺程序。

        為了提供結(jié)構(gòu)思維的對等體,我們需要提供能同時處理很多歌曲列表的方法。列表可能就是對問題解決方法必須滿足的限制條件的說明。

        解決問題的每一步都可能會對現(xiàn)有的思維層級結(jié)構(gòu)進(jìn)行反復(fù)搜索,或者說對現(xiàn)有文獻(xiàn)進(jìn)行反復(fù)搜索。人腦一次只能同時處理4個列表(在沒有計算機(jī)輔助時),但人造新皮質(zhì)卻沒有這樣的限制。

        我們還要借助計算機(jī)擅長的智能來完善我們的人造大腦,例如計算機(jī)可以準(zhǔn)確掌握大量知識,快速、高效地運用已知算法。Wolfran Alpha整合了許多已知的科學(xué)算法,并將它們應(yīng)用于處理已經(jīng)仔細(xì)整理過的數(shù)據(jù)。如果沃爾夫勒姆博士能夠找到降低該系統(tǒng)錯誤率的方法,這個系統(tǒng)仍然有巨大的發(fā)展應(yīng)用空間。

        最后,我們的新大腦還需要擁有一個包含很多小目標(biāo)的大目標(biāo)。對生物大腦而言,我們繼承了由舊腦快樂和恐怖中心設(shè)立的目標(biāo)。為了促進(jìn)物種的繁衍生息,這些早期目標(biāo)在生物進(jìn)化過程中早已被設(shè)定,但是大腦新皮質(zhì)的出現(xiàn)使得我們可以超越早期目標(biāo)。沃森就是為《危險邊緣》這個游戲而生的。另外一個目標(biāo)就是通過圖靈測試。為了達(dá)到目標(biāo),數(shù)碼大腦需要像人類那樣,闡述自己的故事,從而成功地假扮成生物人。數(shù)碼大腦有時還要裝聾作啞,因為任何移植沃森知識的系統(tǒng)很快就會露出馬腳,讓人發(fā)現(xiàn)其不是生物人。

        更為有趣的是,我們可以賦予新大腦更具野心的目標(biāo),即美化世界。當(dāng)然,這個目標(biāo)會引發(fā)一系列的思考:為誰美化?在哪一方面美化?為人類?還是所有有意識的生物?評價有意識的標(biāo)準(zhǔn)又是什么?

        仿真大腦在改變世界進(jìn)程中的地位越來越重要。毫無疑問,與未進(jìn)化的生物大腦相比,仿真大腦在改變世界的進(jìn)程中發(fā)揮了更大的作用。不過,我們還需要思考仿真大腦的道德意義。我們可以從宗教傳統(tǒng)中的黃金法則開始討論這個問題。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋