21世紀經濟報道見習記者李強 北京報道
9月23日,由南方財經全媒體集團旗下《21世紀經濟報道》主辦的“2022年度21世紀科技峰會”正式召開。
人工智能經歷漫長的發展,到如今已經來到大數據驅動的深度神經網絡階段,人們期望基于深度學習解決所有問題,思爾實驗室主任、國際歐亞科學院院士、I SEE Fellow李世鵬指出,由于深度學習本身缺乏邏輯推理能力,大數據的前置收集準備成為限制人工智能發展普及的瓶頸。
“今天的AI還僅僅出在最初層次,它僅僅是解釋數據之間的關聯性,我們需要將建立數據相關性轉向探索數據之間的因果性,這就產生了數據之間的邏輯推理?!?/p>
對于如何突破深度學習瓶頸,李世鵬提出,更深一步是干預,在不清楚數據間相關性或者因果性的情況下,通過人為注入一些數據去觀察變化,而最高層次被稱為反事實,利用假想推理,即不需要注入數據,而進行的自動學習。
李世鵬簡要講述了人工智能的歷程,最早是基于符號邏輯進行推理證明,能夠做到證明數學原理定理,由此也引爆了外界對人工智能的熱情與想象,人們暢想能夠智能機器成為國際象棋冠軍、發明和證明有意義的數學定理以及譜寫優美的樂曲等等。
“但實際上這些在當時沒有實現,問題出在哪里?沒有解決智能機器如何把實際的問題抽象成符號的邏輯,所以它只能支持模擬推理少數特定規則下運行的場景?!崩钍砾i表示。
至上世紀七十年代末,人工智能進入第二個階段——基于人工規則的專家系統階段,核心是將邏輯推理上升為專家系統,知識工程神經網絡的BP算法解決了學習的收斂問題,專家可以手工構建規則,選取特征來解決一些小規模的特定問題和考核要求。
“這個時候問題又出現了,專家沒那么多時間,也沒有辦法窮盡所有的規則,這里面的經驗教訓就是那么知識不能僅僅靠專家手工來表達,要靠自動學習,于是到2007年前后,人工智能發展到了第三個階段,也就是大數據驅動的深度神經網絡這個階段?!崩钍砾i表示。
這個時期由算法、算力、大數據的發展共同發力,不再需要去手動的選取一些數據特征,或者是構建一些規則,深度學習能從標注的信息中自己習得出普世模型。這也推動了人工智能在語音識別、圖像識別以及語言處理等感知智能方面做出巨大成就,而且能夠實際解決一大類事業中的共性問題。
“它的成功之處在于開源的AI框架,只要有足夠多的標注數據,足夠強的計算資源,就可以渲染出一個非常有用的模型,而且擺脫了各種特征選擇對人的經驗和智力依賴?!崩钍砾i表示。
“最大的問題是對大規模數據標注的依賴越來越成為人工智能發展的瓶頸,沒有足夠的數據,就很難去創建足夠準確的模型,想要拓展到更多的應用場景,都需要同樣規模的標準大數據,因此人工智能的推廣就變得非常困難?!崩钍砾i表示。
而科學界也在探索各種方法,比如優化算法核心,減輕對數據依賴瓶頸,比如說對數據深度學習算法優化、效率提升、計算量降低等,在模型壓縮方面,也有連續學習小樣本學習、遷移學習等。
李世鵬還指出,需要多元、多模態的大數據,向孩子的認知過程學習?!叭祟悓W的學習過程從來不是只接觸一段語音、一個照片的單一內容,而是依靠多傳感、多模態數據,包括視聽嗅等聯合信息一起來學習,這其中的啟示就是多模態數據的重要性,多模態提供存在標注差異的不同模態數據,組成一個很好的學習框架?!?/p>
“認知科學的研究中我們看到,只要數據真實,合乎邏輯,特定的數據并不重要,重要的是數據量,只要正確的邏輯足夠多,總是可以訓練得到一個收斂的通用規則模型,從這一點上講,需要打破專家系統所預設的專家標準瓶頸,讓普通人來參與標注來生產大量的規則,這也是我們要擁抱的從大數據到大規則的變化?!崩钍砾i表示。