特德姜講了一個(gè)堪比他寫的科幻小說般的故事。
“這個(gè)事情我是從一個(gè)計(jì)算機(jī)科學(xué)家朋友大衛(wèi)·克里賽爾那里聽到的,他接到锝國(guó)一家建筑公司的求助,說他們公司的施樂復(fù)印機(jī)出現(xiàn)了一些奇怪的問題。當(dāng)他們?cè)趶?fù)印一個(gè)房子的平面圖時(shí),副本和原件之間總是會(huì)存在微小但無法忽視的差異。原件中,每棟房子的三個(gè)房間都有個(gè)矩形來說明它們的面積,房間分別是平方米、平方米和平方米。然而在復(fù)印件中,所有三個(gè)房間都被標(biāo)記成平方米?!?
劉玉琨聽過這個(gè)故事,露出神秘的微笑。
李睿和妲露拉卻覺得不可思議,復(fù)印機(jī)不就是應(yīng)該把原件原原本本的復(fù)印下來嗎,為什么復(fù)印件會(huì)和原件之間出現(xiàn)如此奇怪的差異呢?
如果不是內(nèi)部程序出了問題,就只能是復(fù)印機(jī)成精了?
特德姜繼續(xù)道:“那家公司對(duì)復(fù)印機(jī)進(jìn)行了全方位的檢查,沒有發(fā)現(xiàn)任何問題,最后只能求助于大衛(wèi)。大衛(wèi)去看了一下,發(fā)現(xiàn)這是一臺(tái)采用了數(shù)字掃描文檔然后打印生成圖像文件的現(xiàn)代復(fù)印機(jī),而在掃描和打印的過程之間,復(fù)印機(jī)內(nèi)部程序會(huì)把每個(gè)數(shù)字圖像文件進(jìn)行壓縮,問題就出現(xiàn)在壓縮環(huán)節(jié)中?!?
“我們都知道,壓縮分為兩種,一種是無損壓縮,另外一種是有損壓縮。無損壓縮恢復(fù)的文件和原始文件相同,而有損壓縮恢復(fù)的文件只是原始文件的近似值。這臺(tái)施樂復(fù)印機(jī)使用了一種被稱為jbig2的有損壓縮格式,是一種專為黑白圖像而設(shè)計(jì)的,非常節(jié)省空間的技術(shù)格式,復(fù)印機(jī)會(huì)識(shí)別圖像中看起來相似的區(qū)域,并將所有這類區(qū)域存儲(chǔ)成一份副本。當(dāng)文件被解壓時(shí),復(fù)印機(jī)會(huì)重復(fù)使用該副本來重建映像。結(jié)果就是,復(fù)印機(jī)判斷出指定房間面積的標(biāo)簽非常相似,所以它只需要存儲(chǔ)其中那個(gè)平方米的房間,并且在打印時(shí),對(duì)所有三個(gè)房間都重復(fù)使用這一個(gè)標(biāo)簽?!?
“原來如此。”李睿和妲露拉明白了。
看來不是復(fù)印機(jī)成精了,還是內(nèi)部程序的設(shè)計(jì)有問題。
看上去,一臺(tái)復(fù)印機(jī)疑似成精的故事和人工智能之間沒什么直接聯(lián)系,復(fù)印機(jī)內(nèi)部采用的壓縮技術(shù),才是這個(gè)故事的關(guān)鍵。
特德姜繼續(xù)道:“大衛(wèi)把這個(gè)問題指出來,并且聯(lián)系了施樂的工程師,想必他們很快就會(huì)通過補(bǔ)丁來解決這個(gè)BUG,而我則從這個(gè)故事中,發(fā)散想到了其他的問題。我們一直認(rèn)為復(fù)印機(jī)只是完整的復(fù)制原件,但在數(shù)字時(shí)代,它卻采用了一種微妙而模糊的方式來解決復(fù)制問題,它制造的副本看起來準(zhǔn)確,實(shí)際上并不準(zhǔn)確。我們正在研究的人工智能,是不是也可以采用類似的方式來發(fā)展呢?”
“發(fā)展不準(zhǔn)確的復(fù)制?”妲露拉驚訝的問道。
特德姜笑了:“當(dāng)然不是。”
他頓了頓解釋道:“據(jù)我所知,微軟谷歌還有其他一些公司正在研究語言模型,希望人類和機(jī)器能夠通過某種方式進(jìn)行溝通和對(duì)話,這就需要為機(jī)器準(zhǔn)備極為龐大的數(shù)據(jù)庫,最好是能夠把整個(gè)萬維網(wǎng)儲(chǔ)存下來供機(jī)器調(diào)用。”
“那是不可能的?!辨独瓝u頭道。
特德姜道:“確實(shí)不可能,但如果是采用壓縮技術(shù),尤其是有損壓縮的技術(shù),還是有可能的。這需要編寫一個(gè)有損算法來識(shí)別所有數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律,就可以把所有數(shù)據(jù)信息儲(chǔ)存下來,供機(jī)器學(xué)習(xí)和使用。唯一的問題是,由于數(shù)據(jù)被高度壓縮,機(jī)器無法通過搜索準(zhǔn)確的引用來查找信息,就無法得到一個(gè)精確的匹配,只能通過一些要點(diǎn)來進(jìn)行響應(yīng)?!?
“CHATGPT……不,應(yīng)該是問心義言……”李睿小聲咕噥著。
“你說什么?”特德姜問。
李睿搖頭道:“沒什么?!毙闹袇s翻滾著巨浪,原來這么早就有人提出了類CHATGPT的概念了。
特德姜繼續(xù)道:“我相信通過類似的技術(shù),人類會(huì)在不久的將來得到一種能夠?qū)υ挼娜斯ぶ悄?,它保留了萬維網(wǎng)上絕大部分的信息,但它無法精確的回答一個(gè)問題,而只能在數(shù)據(jù)庫中搜索到一個(gè)近似值,再用獨(dú)特的創(chuàng)建語法文本的技術(shù)來展現(xiàn)答案。這個(gè)答案會(huì)讓你覺得還不錯(cuò),但仔細(xì)思考的話,其實(shí)經(jīng)不起推敲,這就是人工智能會(huì)在壓縮、搜索、展現(xiàn)環(huán)節(jié)遇到的關(guān)鍵問題,誰能先解決這些問題,誰就有可能在這個(gè)領(lǐng)域先行一步?!?
十年后,當(dāng)最初的一批人工智能模型出現(xiàn)時(shí),有的技驚四座,比如CHATGPT,有的丟人現(xiàn)眼,比如問心義言。
前世李睿其實(shí)不清楚他們的差距到底在什么地方,現(xiàn)在聽了特德姜的講解,才大概有了一些了解。
問心義言那種亂七八糟的回答不知是哪個(gè)環(huán)節(jié)出現(xiàn)了問題,但CHATGPT確實(shí)在數(shù)據(jù)的采用和文本的創(chuàng)建上有獨(dú)特的技術(shù),也就難怪一問世就讓所有人目瞪口呆了。
劉玉琨一旁道:“我的想法是,人類永遠(yuǎn)都應(yīng)該更相信自己,而不是壓縮之后又復(fù)制的人工智能?!?
李睿點(diǎn)頭。
CHATGPT的確令人驚艷,但最初的幾個(gè)版本依然存在大量問題,很多問題看起來回答的十分精彩,可如果認(rèn)真搜集資料對(duì)比的話,會(huì)發(fā)現(xiàn)其中錯(cuò)漏百出。
有正常思考能力的人,只會(huì)把CHATGPT當(dāng)成一種輔助工具。
可會(huì)不會(huì)有人把它的錯(cuò)誤答案當(dāng)成正確答案呢?
就像我們讀到的歷史,其實(shí)也是一種經(jīng)過有損壓縮之后又重建的文本,或許是對(duì)的,或許是錯(cuò)的,或許是胡編亂造的,但許多年后也被奉為圭臬……至于真正的歷史是什么,在這個(gè)壓縮又重建的過程中我們損失了什么,誰又能知道呢?
和特德姜的談話讓李睿受益匪淺,他也真正體會(huì)到了科幻小說作家們的前瞻性。
仔細(xì)想想,特德姜現(xiàn)在對(duì)于人工智能的看法和預(yù)言,是不是很像當(dāng)年凡爾納對(duì)于潛艇、環(huán)游