近10年來,以深度學習為主要技術(shù)路線的人工智能(AI),從判別(如圖像、文字、語音識別等)到生成(如文本、圖像、視頻、程序等)接連取得突破,DeepSeek、ChatGPT、Sora等應用展示多種技術(shù)可能。作為革命性通用技術(shù),人工智能正加速融入人們的日常生活、生產(chǎn)工作和學習研究之中,推動人類經(jīng)濟社會信息化進程邁向智能化的新階段。
發(fā)展新階段:從判別到生成,從單模態(tài)到多模態(tài),從專用到通用
人工智能作為近年來科技領(lǐng)域最熱門的話題之一,其實并不是一項新技術(shù)。早在1956年,人工智能的概念就在美國達特茅斯學院召開的夏季研討會上被提出。此后經(jīng)歷半個多世紀發(fā)展,都未能實現(xiàn)真正的實用化。2012年,加拿大多倫多大學教授杰弗里·欣頓和他的學生基于機器學習提出的深度學習神經(jīng)網(wǎng)絡(luò)模型,在圖像識別挑戰(zhàn)賽上取得重大突破,激發(fā)AI領(lǐng)域的又一次發(fā)展熱潮,推動語音識別、圖像識別以及自然語言處理等多個領(lǐng)域快速進步。
AI技術(shù)不斷迭代升級。特別是2022年前后,生成式人工智能迎來全面爆發(fā)。2022年11月,美國OpenAI公司推出ChatGPT,以更大規(guī)模的模型實現(xiàn)了更強的內(nèi)容生成(AIGC)功能。2024年2月,OpenAI公司推出的文生視頻大模型Sora,推動生成式人工智能從只能理解單一形式信息(比如文字、圖片、音頻等)的單模態(tài),邁向可以同時理解多種形式信息(比如圖片和文字)的多模態(tài)。與此同時,全球的AI大模型競相超越又各有特長,國外谷歌的雙子座(Gemini)、安索皮克(Anthropic)的克勞德(Claude)、元公司(Meta)的Llama,中國的文心一言、智譜清言、豆包、書生·浦語、星火認知、360智腦、通義千問、混元、Kimi、零一萬物等,形成百花競放的局面。
2025年1月,我國人工智能企業(yè)深度求索(DeepSeek)推出新模型DeepSeek—R1,憑借技術(shù)創(chuàng)新和商業(yè)化潛力引發(fā)全球矚目。這不僅是因為該模型在自然語言處理方面表現(xiàn)卓越,更為重要的是其在訓練方法上實現(xiàn)了創(chuàng)新,成功降低了同類產(chǎn)品對算力資源的大量需求,顯著降低了使用成本。得益于此,用戶可將R1部署在個人本地設(shè)備,實現(xiàn)更為安全且個性化的服務。尤為重要的是,DeepSeek的開源模式為全球創(chuàng)新發(fā)展帶來新機遇,并有可能帶動全行業(yè)在未來形成以開源為主流的發(fā)展路線。
從判別到生成,從單模態(tài)到多模態(tài),從專用到通用,是智能化發(fā)展新階段的重要標志。人工智能以自然語言為基礎(chǔ)的表達方式,正從方方面面滲透進大眾生活。從手機應用、智能音箱等智能助手,到智能網(wǎng)聯(lián)車和智能機器人等具身智能,再到能提供個性化服務的智能體以及更多的AI原生產(chǎn)品和服務,正加速向我們走來。
核心驅(qū)動力:計算機能夠從數(shù)據(jù)中學習規(guī)律并做出預測或決策
機器學習是指通過數(shù)據(jù)訓練模型,使計算機能夠從數(shù)據(jù)中學習規(guī)律并做出預測或決策。作為當下AI發(fā)展的主流技術(shù)路線,這條路線讓機器通過學習而不是靠預設(shè)規(guī)則來獲得智能,體現(xiàn)了學習是智能形成和發(fā)展的本質(zhì)??梢哉f,生物智能也好、機器智能也好,都離不開學習,所有的成功和突破都源自學習。“生而知之”畢竟是極少數(shù)天才的特質(zhì),“學而知之”才適用于大多數(shù)人。人類在發(fā)展人工智能時也采用了學習的路線。
機器學習主要通過神經(jīng)網(wǎng)絡(luò)實現(xiàn)。神經(jīng)網(wǎng)絡(luò)作為機器學習的一種具體模型,就是通過模擬人腦的結(jié)構(gòu)和功能來處理數(shù)據(jù)。人類大腦是由神經(jīng)元和突觸構(gòu)成,神經(jīng)元通過突觸傳遞信號,實現(xiàn)信息處理、學習和記憶等功能。人工神經(jīng)網(wǎng)絡(luò)模擬這一結(jié)構(gòu),利用集成電路芯片組成的電子計算系統(tǒng),采用人工神經(jīng)元和連接(即模型參數(shù))代替生物神經(jīng)元和突觸,通過輸入數(shù)據(jù)、調(diào)整權(quán)重來學習和預測,構(gòu)成了AI的物質(zhì)底座。
正如人腦層數(shù)越多,處理復雜信息的能力就越強,神經(jīng)網(wǎng)絡(luò)也同樣需要更多的層數(shù),這就需要借助深度神經(jīng)網(wǎng)絡(luò)。以深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的深度學習系統(tǒng)即為AI“模型”,這類模型的參數(shù)越多,就意味著模型越大,性能越強。例如,GPT—3模型實現(xiàn)了千億量級參數(shù),GPT—4模型參數(shù)甚至達萬億量級。
簡而言之,機器學習是人工智能的核心驅(qū)動力,它通過從海量數(shù)據(jù)中提取有價值的信息,幫助人類做出預測、判斷和生成所需的內(nèi)容,從而提升任務處理效率,將人力從繁重、重復、低級和危險的勞動中解放出來。2024年的諾貝爾物理學獎頒給了約翰·霍普菲爾德和杰弗里·欣頓,以表彰他們通過人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)機器學習的基礎(chǔ)性發(fā)現(xiàn)和發(fā)明。展望未來,機器學習通過不斷發(fā)展,必將為人類社會帶來更大驚喜。
更廣泛運用:AI智能體可望成為今年發(fā)展應用亮點
2025年將是AI走向更廣和更深應用的關(guān)鍵之年,AI智能體(或稱AI代理)可望成為今年AI發(fā)展應用的亮點。AI智能體可以說是人工智能技術(shù)的集大成者,具備自主性、感知能力、決策能力和行動能力等顯著優(yōu)勢。它能夠通過理解交辦的任務、感知相應的執(zhí)行環(huán)境,進而自主調(diào)用相應的智能模型功能、采取相應的行動,可以廣泛應用于工業(yè)、醫(yī)療、交通、金融和家庭等領(lǐng)域。每個用戶可能有多個AI智能體幫助解決各種需求,它們有的像是秘書,有的像是工匠,有的像是醫(yī)護,有的像是采購員,有的像是清潔工。
例如,某公司計劃設(shè)計一個活動邀請系統(tǒng),在將活動時間、地點和主題等信息準確傳達后,AI可自動生成一個智能體“小組長”,負責整體規(guī)劃和調(diào)度。小組長可以召喚多個執(zhí)行不同具體任務的智能體,1號智能體負責活動邀請函的策劃,2號智能體負責設(shè)計邀請函中的圖像及文字,3號智能體負責代碼制作和部署網(wǎng)頁,4號智能體負責檢驗差錯,他們就像是一個“工作專班”,成為完成個性化工作的“群體智能”。
通過AI智能體,各種AI技術(shù)將會被更方便、更廣泛、更有效地應用起來,將在多個領(lǐng)域引發(fā)根本性變革。同時,快速發(fā)展的“科研智能”正在形成科學發(fā)展的新范式,為科技這一第一生產(chǎn)力的發(fā)展賦能,意義深刻而長遠。在這個日新月異的智能時代,學會應用AI技術(shù)也將成為多數(shù)人的必備技能,人們需要學會以有效而適當?shù)姆绞竭\用AI助益工作和生活。
“兩岸猿聲啼不住,輕舟已過萬重山。”隨著AI在生命科學、物質(zhì)科學、數(shù)學、工程技術(shù)等領(lǐng)域的應用日益廣泛和深入,可以預見,正如歷史上機械動力和電氣技術(shù)極大拓展了人類的體力勞動能力一樣,AI正在加速拓展人類的腦力勞動能力,推動生產(chǎn)力實現(xiàn)又一次質(zhì)的飛躍,并對人類社會的發(fā)展進步產(chǎn)生全面而深遠的影響。
在AI先進生產(chǎn)力驅(qū)動的社會智能化歷史進程面前,人類要把握和主導自身的命運,就必須提升自身的智能化能力,學會駕馭AI。各方應努力讓AI行駛在促進經(jīng)濟繁榮和環(huán)境保護、保護公共利益和個人隱私、遵守法律法規(guī)和倫理良俗、促進公平正義與包容和諧的軌道上,確保AI造福全人類的可持續(xù)發(fā)展。
(作者為中國新一代人工智能發(fā)展戰(zhàn)略研究院執(zhí)行院長)
鏈接
AI同學,請回答
網(wǎng)友問:什么是深度神經(jīng)網(wǎng)絡(luò)?可以通俗易懂地介紹一下嗎?
DeepSeek:
深度神經(jīng)網(wǎng)絡(luò)(DNN)是一種模仿人腦神經(jīng)結(jié)構(gòu)的機器學習技術(shù),專門處理復雜數(shù)據(jù)。你可以把它想象成一個“多層級加工廠”:比如識別貓的照片,第一層先看像素點,第二層組合成線條,第三層拼出貓耳、胡須等特征,最后一層綜合判斷這是貓。每層由大量“神經(jīng)元”(數(shù)學計算單元)組成,層與層之間通過可調(diào)節(jié)的“連接強度”傳遞信息。
它的核心能力在于自動學習特征。傳統(tǒng)算法需要人工設(shè)計規(guī)則(比如,先找邊緣、再識別形狀),而DNN能通過海量數(shù)據(jù)自己發(fā)現(xiàn)規(guī)律。訓練時就像教小孩認字:先猜結(jié)果,對比正確答案,再反向調(diào)整各層神經(jīng)元的計算參數(shù),經(jīng)過數(shù)萬次迭代后越來越精準。
這種結(jié)構(gòu)讓它在圖像識別、語音翻譯、自動駕駛等領(lǐng)域表現(xiàn)突出,尤其在處理非結(jié)構(gòu)化數(shù)據(jù)(圖片、文字)時遠超傳統(tǒng)編程。但前提條件是需要大量算力和數(shù)據(jù),模型內(nèi)部決策過程也像“黑箱”一樣,難以完全解釋。
專家點評:
深度神經(jīng)網(wǎng)絡(luò)的強大特征提取能力,與其網(wǎng)絡(luò)結(jié)構(gòu)與規(guī)模分不開。根據(jù)通用逼近定理,只要神經(jīng)元及其連接的數(shù)量足夠大,就可以逼近任意復雜的連續(xù)函數(shù)。而這些數(shù)量巨大的“參數(shù)”,是通過訓練(學習)來確定的。相信隨著網(wǎng)絡(luò)結(jié)構(gòu)和訓練方法的持續(xù)創(chuàng)新,深度神經(jīng)網(wǎng)絡(luò)的能力還可繼續(xù)提升。
網(wǎng)友問:我們應該如何理解大語言模型這個概念?別太復雜。
通義千問:
大語言模型可以理解為一個“超級聰明的文字助手”,它通過學習海量的文本數(shù)據(jù),掌握人類語言的規(guī)律和知識。你可以把它想象成一個讀過無數(shù)書籍、文章、網(wǎng)頁的“大腦”,它知道怎么回答問題、寫文章、講故事,甚至還能編程、翻譯、聊天。
它的核心能力是預測下一個詞。比如你輸入一句話的開頭,它會根據(jù)上下文猜測接下來最可能說什么。通過這種方式,它能生成連貫、自然的文字。而且,因為它學了很多知識,所以不僅能回答簡單問題,還能處理復雜的任務,比如分析邏輯、總結(jié)長文或者模仿某種寫作風格。
不過,大語言模型并不是真正“理解”文字,它更像是在模仿人類的語言模式。它沒有感情,也不會主動思考,只是根據(jù)輸入的內(nèi)容給出最合適的回應。所以,有時候它的答案可能看起來很合理,但其實是錯的,這就需要我們?nèi)ヅ袛嗪秃藢崱?/p>
專家點評:
大語言模型不僅網(wǎng)絡(luò)規(guī)模龐大,還采用一個重要的技術(shù)即“詞嵌入”技術(shù)。該技術(shù)將自然語言的“詞”嵌入到多維的語義空間,表達為“語義矢量”,從而可以對“詞”進行計算,由此可以跨越語言的形式(如英語、漢語,文本、圖像等),生成各方面內(nèi)容。大語言模型的突破推動了人工智能幾乎所有(應用語言)領(lǐng)域的應用,但也面臨生成偏差、算力消耗、倫理風險等挑戰(zhàn),需結(jié)合人類監(jiān)督與技術(shù)優(yōu)化以實現(xiàn)安全可控的發(fā)展。
(專家為中國新一代人工智能發(fā)展戰(zhàn)略研究院執(zhí)行院長 龔克)
