五月天激情在线麻豆|亚洲成a人片在线不卡|国内激情小视频在线免费观看|在线观看欧美精品二区

        X
        • 隴上孟河

        • 中電智媒IOS版

        • 中電智媒安卓版

        X
        您的位置 > 首頁 -> 中能觀察

        論壇 |“通用人工智能”正引發(fā)深刻變革

        來源:《能源評論》 時間:2023-09-06 16:49

          211日,斯坦福大學商學院的計算機科學家米哈爾·科辛斯基在預(yù)印本平臺arXiv提交了一篇論文《心智理論可能從大語言模型中自發(fā)涌現(xiàn)》。論文描述了他給GPT-3.5在內(nèi)的9GPT模型所做的兩個經(jīng)典測試。結(jié)果顯示,GPT-3.5ChatGPT的同源模型)可以完成93%的心智理論任務(wù)。換句話說,其心智水平已經(jīng)相當于一個9歲兒童。  

          心智,即一個人各項思維能力的總和,用以感受、觀察、理解、判斷、選擇、記憶、想象、假設(shè)、推理,并據(jù)此指導(dǎo)其行為。也有專家將其解釋為“一個人理解他人或自己心理狀態(tài)的能力,包括同理心、情緒、意圖等”。定義雖不同,但有一個觀點是公認的:心智是人類獨有的能力。  

          根據(jù)這項研究,心智已經(jīng)出現(xiàn)在ChatGPT等人工智能應(yīng)用上。這讓不少人質(zhì)疑,人工智能是否真正具有了人類的認知,將來能達到什么樣的水平?要弄清這些問題,我們需要了解“什么是認知”“認知和人工智能的相互關(guān)系”,進而才能闡明人工智能是否具有心智、能否和人進行心靈交流等問題。  

        “暴力計算”成就ChatGPT

          1956713日,美國計算機科學家、認知科學家約翰·麥卡錫在美國新罕布什爾的漢諾威市達特茅斯學院組織召開了一場會議(以下簡稱“達特茅斯會議”)。會議把“精確地描述人的學習能力和智慧,并利用機器將這種能力與智慧加以模擬”確認為人工智能的發(fā)展方向?!叭斯ぶ悄堋边@個概念自此誕生。  

          達特茅斯會議之后,人工智能研究者們逐漸形成了符號主義、聯(lián)結(jié)主義、行為主義等學派。其中的聯(lián)結(jié)主義學派強調(diào)以自下而上的方式,模仿人類的神經(jīng)元,希望用神經(jīng)網(wǎng)絡(luò)的連接機制實現(xiàn)人工智能。聯(lián)結(jié)主義人工智能經(jīng)過了60年的研究,在2006年終于提出了深度學習的概念,并從人類的視覺和自然語言智能的特性中獲得啟發(fā),設(shè)計了多種多樣的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)。其中的Transformer神經(jīng)網(wǎng)絡(luò)引入了類似人腦的自注意力機制,它出自谷歌2017年發(fā)表的論文《注意力是你所需要的》,使用了注意力機制來計算輸入序列和輸出序列之間的關(guān)系,被廣泛用于自然語言處理(NLP)領(lǐng)域。Transformer神經(jīng)網(wǎng)絡(luò)催生了預(yù)訓練大模型的發(fā)展,ChatGPT就是基于Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)而建立的。  

          人腦的自然神經(jīng)網(wǎng)絡(luò)是具有千億級別神經(jīng)元的超級復(fù)雜系統(tǒng),其核心具備關(guān)鍵性質(zhì)——涌現(xiàn)。涌現(xiàn)的概念出自諾貝爾獎得主、美國理論物理學家菲利普·安德森的文章《多者異也》。這種性質(zhì)的關(guān)鍵在于“物理系統(tǒng)在每一個復(fù)雜度上都會出現(xiàn)全新的性質(zhì)”。當下,以ChatGPT為代表的大型語言模型中也出現(xiàn)了“涌現(xiàn)”這種能力,即當模型大到超過特定的臨界值時,就會出現(xiàn)很多小模型根本不具備的能力。大規(guī)模語言模型一旦具備這種涌現(xiàn)性質(zhì),只需給這些模型提供語言提示,就實現(xiàn)小樣本和零樣本學習,迅速泛化和掌握新的語言能力,執(zhí)行相關(guān)語言認知任務(wù)。  

          ChatGPT出現(xiàn)涌現(xiàn)的基礎(chǔ)是“暴力計算”——通過海量的數(shù)據(jù)和不斷增加的模型的參數(shù)規(guī)模,耗費更多的算力來訓練,大大提高模型可以學習的信息量。據(jù)統(tǒng)計,從GPT、GPT-2GPT-3,其模型參數(shù)量從1.17億個快速增加到1750億個,預(yù)訓練數(shù)據(jù)量則從5吉字節(jié)增加到45萬億字節(jié)。據(jù)OpenAI團隊發(fā)表于2020年的論文,訓練一次1746億參數(shù)的GPT-3模型需要的算力約為3640 算力單位。  

          可以說,這種“暴力計算”模式成就了ChatGPT,但從本質(zhì)上看,這來自算力的提高和模型工程化方法的極致優(yōu)化。歸根到底,算力的提升ChatGPT這類大語言模型的規(guī)模超過閾值,其語言能力就有質(zhì)的飛躍,即實現(xiàn)了“相變”。但是由于深度學習基礎(chǔ)理論研究的滯后,使得人們對其背后的涌現(xiàn)機理仍然缺乏嚴格的理論分析。

          我們知道,人類自我意識等所有心理活動都是億萬個神經(jīng)元通過脈沖放電方式,進行復(fù)雜交互涌現(xiàn)的結(jié)果。這里面涉及微觀、觀和宏觀三個層面:“微觀”指從單個腦神經(jīng)元的運行模式,“宏觀”指整個大腦皮層各腦區(qū)及其協(xié)同的過程,而宏觀與微觀二者間的“”指皮層區(qū)域內(nèi)神經(jīng)元群體、網(wǎng)絡(luò)或功能柱中的動態(tài)活動。目前神經(jīng)科學、認知科學的研究對宏觀和微觀做得比較深入,但是對于大腦觀層面的研究,雖然也有很多研究進步,仍然還存在大量的未解之謎。

          像ChatGPT這樣的超大規(guī)模的人工神經(jīng)網(wǎng)絡(luò),其規(guī)模從某種意義上看已經(jīng)接近人腦的神經(jīng)元規(guī)模。雖然其內(nèi)在結(jié)構(gòu)和運行方式與大腦是完全不同的,但是微觀、觀和宏觀三個層面的分析方法仍然適用。在宏觀層面,通過模仿人的認知行為,人們構(gòu)造出可以做題、下棋、駕駛的深度神經(jīng)網(wǎng)絡(luò)模型;在微觀層面,人們會研究如何通過反向傳播,訓練更新神經(jīng)網(wǎng)絡(luò)模型的每個參數(shù);但是在觀層面,即對人工神經(jīng)網(wǎng)絡(luò)的每一層、每個功能區(qū)域,如何有效地揭示微觀的海量參數(shù),如何涌現(xiàn)宏觀能力的內(nèi)在機理,尚缺乏足夠的認識和研究。尤其是針對百億級別以上的預(yù)訓練語言模型,其內(nèi)部一定是形成了中間層表示結(jié)構(gòu),以刻畫語言遵循的語法規(guī)則、語義概念、上下文語境等,從而展現(xiàn)出一定的語言認知能力。

          需要指出的是,“暴力計算”雖然賦予ChatGPT相當驚艷的能力,甚至能夠通過情境學習,模擬出一些有心智的行為,但是它仍然存在先天的局限,產(chǎn)生的黑箱模型難以解釋,出現(xiàn)的邏輯錯誤難以及時糾正,更不可能讓ChatGPT等語言模型產(chǎn)生和人一樣的自我意識。只有對超大規(guī)模的介觀結(jié)構(gòu)和機理進行更深入的研究,才能進一步提升模型現(xiàn)有的認知能力和推理能力,實現(xiàn)更高層次的智能。

        突破需要雙重引導(dǎo)  

          “人模人樣但不是人”是一些人對ChatGPT的吐槽,盡管其生成的內(nèi)容條理清晰、概括全面,但其不具備嚴謹?shù)倪壿嬐评砟芰Γ瑹o論是在事實性問題的分析,還是解數(shù)學題等方面,還會時常出現(xiàn)各種錯誤,產(chǎn)生所謂認知錯覺(Hallucination)問題。要想提高人工智能產(chǎn)品的推理能力,減少或避免認知錯覺,需要從多方面進行引導(dǎo)。

          首先是理論方法層面的創(chuàng)新,可以探索將不同的Transformer架構(gòu)技術(shù)路線融入算法模型,從而提高其認知能力。目前Transformer架構(gòu)兩個比較常見的預(yù)訓練模型家族是GPTBERT。它們都遵循了預(yù)訓練和微調(diào)的過程,但是在訓練目標和模型結(jié)構(gòu)和使用上存在差異:GPT采用的是單向的Transformer,通過預(yù)測下一個詞來學習語言模型,類似對話中的“接龍”;而BERT采用的是雙向的Transformer,即通過預(yù)測句子中丟失的詞來學習語言模型,類似語文考試中的“完形填空”。GPT對于文本生成更為敏感,而BERT對于文本理解更為敏感。因此,一般而言基于GPT模型的ChatGPT更適合文本生成,而BERT模型家族更擅長語言理解。GPT模型家族在文本生成方面大放異彩,成為NLP領(lǐng)域最受矚目的模型。同時BERT模型也得到非常廣泛的應(yīng)用,產(chǎn)出了不少基于BERT的超大規(guī)模模型。或許在未來,我們可以看到BERT大模型的性能得到進一步的改進提升,從而實現(xiàn)更強大的語言理解能力。

          還有一條重要的理論途徑,就是把符號主義和聯(lián)結(jié)主義實現(xiàn)深度融合,使得大模型在文本生成的過程中,加入更嚴密的邏輯分析、反省、驗證、糾錯等步驟,提高模型的邏輯推理能力。人工智能的符號主義學派從創(chuàng)立肇始,就基于嚴格的數(shù)理邏輯理論框架之上,著名的美國人工智能專家司馬賀(Herbert Alexander Simon)開發(fā)了通用問題求解器,以實現(xiàn)自動化的數(shù)學定理證明。這些先驅(qū)式的研究工作,不但引出了后面的知識庫、專家系統(tǒng)和知識圖譜的成果,還對認知計算模型的創(chuàng)立有著深刻的影響??梢韵胍姡绻軌?qū)崿F(xiàn)符號與神經(jīng)網(wǎng)絡(luò)的緊密互動,就能從根本上構(gòu)建基于現(xiàn)有大模型的新型認知智能系統(tǒng),把具有相當隨機性文本生成與嚴格的長步驟邏輯推理結(jié)合起來,或為解決常識等挑戰(zhàn)問題開辟新的可行途徑。

          其次從模型工程的角度看,綜合現(xiàn)有MLOps的成熟技術(shù)手段,在大模型訓練和部署的生命周期中,進一步引導(dǎo)和聽說大模型涌現(xiàn)的語言認知行為。例如編寫提示語就是引導(dǎo)大模型的重要方式。在由海量語料自監(jiān)督訓練而成的GPT3.5后,人們需要以其為基礎(chǔ),編寫很多包含任務(wù)場景的提示語,以引導(dǎo)ChatGPT學會具體的任務(wù)技能。因而,人們輸入的提示語的品質(zhì),直接決定了激發(fā)生成性人工智能的潛力,即按照人們的需要輸出正確的結(jié)果。除此之外,人們可以對ChatGPT的輸出行為進行評分排序,以便更好地引導(dǎo)它輸出符合人類價值觀和社會規(guī)范的內(nèi)容。這種人類反饋強化學習模式,也可以和內(nèi)置的知識規(guī)則相結(jié)合,通過自我約束、自我過濾,讓模型輸出的結(jié)果更好,讓交互越來越自然。

        “大道至簡”與電力創(chuàng)新  

          有人把現(xiàn)階段深度神經(jīng)網(wǎng)絡(luò)的研究過程形象比作“煉丹”,其中,數(shù)據(jù)是金木水火土等自然元素,算法框架是用來“煉丹”的爐子,算力就是煉丹爐下的“三昧真火”。 深度神經(jīng)網(wǎng)絡(luò)的研究者就好比煉丹師,通過調(diào)參數(shù)、改數(shù)據(jù)煉出一個個新的模型。但這種比喻隱藏著另一層意思,即“煉丹”式的人工智能研究更適合于學術(shù)界的實驗室環(huán)境,但是這種煉丹作坊需要很高的成本,才能實現(xiàn)與業(yè)務(wù)場景的對接落地,非常不適用于大規(guī)模的工程應(yīng)用。  

          2006年,深度學習的概念被提出后,如何針對視覺、自然語言處理、自動駕駛等不同領(lǐng)域,設(shè)計各種最優(yōu)架構(gòu)的深度神經(jīng)網(wǎng)絡(luò),一直是當前人工智能領(lǐng)域的研究主流。在經(jīng)過多年“煉丹”探索之后,Transformer成為當下自然語言處理領(lǐng)域的主流模型,基于Transformer的預(yù)訓練大語言模型更是成為主導(dǎo)性的架構(gòu),并正在向視覺、自動駕駛等領(lǐng)域擴散。  

          隨著未來更成熟的大模型出現(xiàn),人工智能或?qū)⒏鼜V泛地應(yīng)用于工業(yè)化時代的各個領(lǐng)域,以Transformer為基礎(chǔ)模型架構(gòu)的新產(chǎn)業(yè)生態(tài),有可能徹底把“煉丹式”的人工智能研究變成一個工業(yè)化時代的AI應(yīng)用推廣。毫無疑問,我們站在了一個人工智能發(fā)展的十字路口上,正在從過去極盡復(fù)雜邁向“大道至簡”,也讓更多專用領(lǐng)域可以更容易地實現(xiàn)與人工智能的融合應(yīng)用。  

          電力就是其中之一。眾所周知,電力系統(tǒng)是一個復(fù)雜人工系統(tǒng),涉及很多系統(tǒng)交互的內(nèi)容。人工智能在電力系統(tǒng)應(yīng)用中,除了純粹的神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)驅(qū)動方法以外,還可以將物理方程有效地嵌入進來。當然,這需要電力專家參與到神經(jīng)網(wǎng)絡(luò)的模型設(shè)計當中,結(jié)合最新技術(shù)和實際數(shù)據(jù)進行研究,尋找混合型解決方案。  

          此外,還要探索創(chuàng)新性思路,讓人工智能利用自身強大的數(shù)據(jù)歸納和分析能力去學習電力系統(tǒng)的規(guī)律和原理,得出面向模型生態(tài)的新研究范式。比如,有了基座大模型以后,怎樣自動地根據(jù)領(lǐng)域需求派生出各種小的定制化的小模型?模型與模型間如何進行參數(shù)共享和遷移?再比如,在大模型預(yù)訓練方式上,不采取現(xiàn)在的絕對集中方式,而是走集中和分布相結(jié)合的路線,依靠不同行業(yè)的專業(yè)信息,將小模型自主聚合成大模型?如何確保大模型的安全性和可信度,避免可能存在的安全隱患和漏洞傳播到整個模型生態(tài)中?

          這些都是大模型時代智能模型生態(tài)構(gòu)建和產(chǎn)業(yè)落地的重要問題。我們應(yīng)該擁抱大模型帶來的全新機遇,加快國產(chǎn)自主可控大模型的研發(fā)進程,推動相關(guān)產(chǎn)業(yè)生態(tài)的發(fā)展,迎接新一輪人工智能熱潮的挑戰(zhàn)。(國家人工智能標準化總體組副組長、北京航空航天大學人工智能研究院教授 吳文峻

          責任編輯:楊娜

          校對:高慧君