歐洲研究者設計出一種類似大腦的人工神經(jīng)網(wǎng)絡,該網(wǎng)絡能夠在沒有任何明確的訓練或預編程的前提下具備數(shù)字和空間認知,以及書面語言處理的能力。他們基于生成模型的機器學習方法的成果顯著推動了自我學習人工智能的發(fā)展,同時也加深了對人類認知的理解。
該研究由帕多瓦大學(University of Padova)的 Marco Zorzi 領導,并從一開始就得到了歐洲研究中心(ERC)的資助。這個名叫 GENMOD 的項目表明建立一個能夠基于感官數(shù)據(jù)觀察世界并生成世界的內(nèi)部表征的人工神經(jīng)網(wǎng)絡是可能的。比如說,該網(wǎng)絡可以依靠自己發(fā)展出近似的數(shù)感(number sense)——確定基本數(shù)字性質(zhì)的能力,比如更大或更小——而且還不需要實際理解這些數(shù)字本身,就像人類和嬰兒和一些動物一樣。
Zorzi 說「我們的研究顯示,在概率框架內(nèi)的生成學習可以成為開發(fā)人類認知的更合理的神經(jīng)網(wǎng)絡模型的關(guān)鍵步驟。」
視覺數(shù)量感(visual numerosity)的測試顯示了該網(wǎng)絡的能力,同時也為人類和動物在沒有任何預先存在的數(shù)字或算術(shù)知識的基礎上出現(xiàn)判斷一個集合中的物體數(shù)量的能力提供了見解。
Zorzi 及其同事向這個自修正網(wǎng)絡(self-revising network)輸入了數(shù)萬張圖像,其中每張圖像都包含了 2 到 32 個大小不同的隨機排布的物體;然后研究人員發(fā)現(xiàn)在這個遵循無監(jiān)督學習的深度神經(jīng)網(wǎng)絡中涌現(xiàn)出了對數(shù)量感(numerosity)的感知。在響應每一張圖像時,該網(wǎng)絡會強化或弱化神經(jīng)元之間的連接,以使其數(shù)字敏銳度(即精確度)可以根據(jù)其剛剛觀察到的模型進行精細調(diào)節(jié);這個過程獨立于物體的總體表面積,確保了其神經(jīng)元確實是在檢測數(shù)量。
實際上,該網(wǎng)絡開始為估計圖像中物體的數(shù)量生成自己的規(guī)則和學習過程,其所遵循的神經(jīng)元活動模式也曾在猴子的頂葉皮層中被觀察到過。頂葉皮層是大腦中涉及數(shù)字和算術(shù)知識的區(qū)域,這表明 GENMOD 模型可能近似反映了真實大腦的工作方式。
像一個孩子那樣學習數(shù)字敏銳能力
「一個六個月大的孩童有相對較弱的近似數(shù)感:比如說,他可以區(qū)分 8 個點和 16 個點之間的差異,但卻無法區(qū)分 8 個點和 12 個點之間的差異。辨別能力在整個童年都在提升。我們的網(wǎng)絡在數(shù)字敏銳度上表現(xiàn)出了相似的過程——其觀察的圖像越來越多,同時其確定物體數(shù)量的能力也隨時間逐漸提升?!箵?jù) Zorzi 說,他計劃在 7 月 26 日的歐洲科學開放論壇 2016(EuroScience Open Forum 2016)中的「Can we simulate the human brain?(我們能模擬人類大腦嗎?)」研討會上討論他的研究。
該項目在數(shù)字認知上的成果可能對神經(jīng)科學和教育有重要的意義,比如理解患有計算障礙(dyscalculia)的孩子數(shù)感受損的可能原因,年齡增長對數(shù)字技能的影響和增進由腦損傷引起的病理的研究。
憑借其在機器視覺、神經(jīng)信息學和人工智能方面的應用,GENMOD 在其它一些領域甚至還可能會有更為深遠的影響。
「之前利用人工神經(jīng)網(wǎng)絡建模人類認知的許多成果都基于監(jiān)督式學習算法。這樣的算法除了在生物學上不合理之外,還要求在每一個學習事件中都有外部的教育信號可用,并且表現(xiàn)出了一種值得懷疑的假設:學習在很大程度上是判別式的?!筞orzi 解釋說,「相反,生成模型在沒有任何監(jiān)督或獎勵的前提下學習感官數(shù)據(jù)的內(nèi)部表征。也就是說,物體的圖像等感官模式不需要進行標注來告訴網(wǎng)絡輸入中呈現(xiàn)了什么或它應該如何做出反應。」
人類感知建模中的突破
該 GENMOD 團隊還利用深度神經(jīng)網(wǎng)絡開發(fā)了第一個全面的、真實的字母感知(letter perception)計算模型,該模型以完全無監(jiān)督的方式從不同字體、樣式和大小的數(shù)千張字母圖像中進行了學習。通過預先輸入的自然場景的隨機圖像,該網(wǎng)絡學會了隨時間定義線條、形狀和圖案。當它隨后被用于觀察書面文本時,它應用了相同的過程來區(qū)分字母,并最終區(qū)分出了單詞。
「這支持了關(guān)于人類如何發(fā)展出書面語言的假設。大腦中沒有一部分是為閱讀而發(fā)展的,因此當我們需要識別對象時,使用的是相同的認知過程,」Zorizi 說。「這個生成模型方法是建立人類感知和認知模型的一個重大突破,這與神經(jīng)生物學理論強調(diào)大腦中混合自下而上和自上而下的相互作用相一致?!?/p>
無監(jiān)督學習神經(jīng)網(wǎng)絡也可能被用于各種各樣的應用中,這些應用中的數(shù)據(jù)都是未被分類且沒有標簽的。比如,該網(wǎng)絡可以用來在功能磁共振成像中識別人類大腦活動的特征,這對于其他技術(shù)或人類觀察者來說是不可能的。它甚至可以用來制造真正智能的智能手機,把像智能檢測,學習和決策克服日益嚴重的網(wǎng)絡過載問題這樣的認知能力灌輸?shù)揭苿釉O備中。
「我們的發(fā)現(xiàn)證明了生成模型代表了前進中關(guān)鍵的一步。我們希望我們的工作能影響更廣泛的認知建模社區(qū),激發(fā)其他研究者在未來的研究中去擁抱框架,」Zorzi 說。