特德姜講了一個堪比他寫的科幻小說般的故事。
“這個事情我是從一個計算機科學家朋友大衛·克里賽爾那里聽到的,他接到锝國一家建筑公司的求助,說他們公司的施樂復印機出現了一些奇怪的問題。當他們在復印一個房子的平面圖時,副本和原件之間總是會存在微小但無法忽視的差異。原件中,每棟房子的三個房間都有個矩形來說明它們的面積,房間分別是平方米、平方米和平方米。然而在復印件中,所有三個房間都被標記成平方米。”
劉玉琨聽過這個故事,露出神秘的微笑。
李睿和妲露拉卻覺得不可思議,復印機不就是應該把原件原原本本的復印下來嗎,為什么復印件會和原件之間出現如此奇怪的差異呢?
如果不是內部程序出了問題,就只能是復印機成精了?
特德姜繼續道:“那家公司對復印機進行了全方位的檢查,沒有發現任何問題,最后只能求助于大衛。大衛去看了一下,發現這是一臺采用了數字掃描文檔然后打印生成圖像文件的現代復印機,而在掃描和打印的過程之間,復印機內部程序會把每個數字圖像文件進行壓縮,問題就出現在壓縮環節中。”
“我們都知道,壓縮分為兩種,一種是無損壓縮,另外一種是有損壓縮。無損壓縮恢復的文件和原始文件相同,而有損壓縮恢復的文件只是原始文件的近似值。這臺施樂復印機使用了一種被稱為jbig2的有損壓縮格式,是一種專為黑白圖像而設計的,非常節省空間的技術格式,復印機會識別圖像中看起來相似的區域,并將所有這類區域存儲成一份副本。當文件被解壓時,復印機會重復使用該副本來重建映像。結果就是,復印機判斷出指定房間面積的標簽非常相似,所以它只需要存儲其中那個平方米的房間,并且在打印時,對所有三個房間都重復使用這一個標簽。”
“原來如此。”李睿和妲露拉明白了。
看來不是復印機成精了,還是內部程序的設計有問題。
看上去,一臺復印機疑似成精的故事和人工智能之間沒什么直接聯系,復印機內部采用的壓縮技術,才是這個故事的關鍵。
特德姜繼續道:“大衛把這個問題指出來,并且聯系了施樂的工程師,想必他們很快就會通過補丁來解決這個bug,而我則從這個故事中,發散想到了其他的問題。我們一直認為復印機只是完整的復制原件,但在數字時代,它卻采用了一種微妙而模糊的方式來解決復制問題,它制造的副本看起來準確,實際上并不準確。我們正在研究的人工智能,是不是也可以采用類似的方式來發展呢?”
“發展不準確的復制?”妲露拉驚訝的問道。
特德姜笑了:“當然不是。”
他頓了頓解釋道:“據我所知,微軟谷歌還有其他一些公司正在研究語模型,希望人類和機器能夠通過某種方式進行溝通和對話,這就需要為機器準備極為龐大的數據庫,最好是能夠把整個萬維網儲存下來供機器調用。”
“那是不可能的。”妲露拉搖頭道。
特德姜道:“確實不可能,但如果是采用壓縮技術,尤其是有損壓縮的技術,還是有可能的。這需要編寫一個有損算法來識別所有數據中的統計規律,就可以把所有數據信息儲存下來,供機器學習和使用。唯一的問題是,由于數據被高度壓縮,機器無法通過搜索準確的引用來查找信息,就無法得到一個精確的匹配,只能通過一些要點來進行響應。”