Hi,歡迎來到黃頁88網!
當前位置:首頁 > 人工智能 > 回顧往昔 看人工智能十年發展

回顧往昔 看人工智能十年發展

互聯網時間: 2023-06-09 15:00:15

過去十年對于人工智能(AI)領域來說是一段激動人心的多事之秋。對深度學習潛力的適度探索變成了一個領域的爆炸性擴散,現在包括從電子商務中的推薦系統到自動駕駛汽車的對象檢測以及可以創建從逼真的圖像到連貫文本的所有內容的生成模型。

在本文中,我們將沿著記憶之路漫步,并重新審視使我們走到今天這一步的一些關鍵突破。無論您是經驗豐富的AI從業者,還是只是對該領域的最新發展感興趣,本文都將為您提供有關使AI成為家喻戶曉的顯著進展的全面概述。

2013年:AlexNet和變分自動編碼器

2013年被廣泛認為是深度學習的“成年”,由計算機視覺的重大進步發起。根據Geoffrey Hinton最近的采訪,到2013年,“幾乎所有的計算機視覺研究都轉向了神經網絡”。這一繁榮主要是由一年前圖像識別方面相當令人驚訝的突破推動的。

2012 年 5 月,深度卷積神經網絡 (CNN) AlexNet 在 ImageNet 大規模視覺識別挑戰賽 (ILSVRC) 中取得了破紀錄的表現,展示了深度學習在圖像識別任務中的潛力。它實現了15.3%的前10名錯誤,比最接近的競爭對手低9.<>%。

這一成功背后的技術改進有助于人工智能的未來發展軌跡,并極大地改變了人們對深度學習的看法。

首先,作者應用了一個由五個卷積層和三個全連接線性層組成的深度CNN——這種架構設計在當時被許多人認為是不切實際的。此外,由于網絡深度產生的大量參數,訓練是在兩個圖形處理單元(GPU)上并行完成的,展示了顯著加速大型數據集訓練的能力。通過將傳統的激活函數(如 sigmoid 和 tanh)換成更高效的整流線性單元 (ReLU),進一步縮短了訓練時間。

這些共同導致了AlexNet成功的進步標志著人工智能歷史上的一個轉折點,并引發了學術界和技術界對深度學習的興趣激增。因此,2013年被許多人認為是深度學習真正開始起飛的拐點。

同樣發生在2013年的,盡管有點被AlexNet的噪音淹沒了,但變分自動編碼器(VAE)的發展 - 可以學習表示和生成圖像和聲音等數據的生成模型。它們通過在低維空間(稱為潛在空間)中學習輸入數據的壓縮表示來工作。這允許他們通過從這個學習到的潛在空間中采樣來生成新數據。后來,VAE為生成建模和數據生成開辟了新的途徑,在藝術、設計和游戲等領域都有應用。

2014年:生成對抗網絡

第二年,即2014年<>月,隨著Ian Goodfellow及其同事引入生成對抗網絡(GAN),深度學習領域見證了另一項重大進展。

GAN 是一種神經網絡,能夠生成類似于訓練集的新數據樣本。本質上,兩個網絡同時訓練:(1)生成器網絡生成假的或合成的樣本,(2)鑒別器網絡評估它們的真實性。這種訓練是在類似游戲的設置中進行的,生成器試圖創建欺騙鑒別器的樣本,而鑒別器試圖正確調用假樣本。

當時,GAN 代表了一種強大而新穎的數據生成工具,不僅用于生成圖像和視頻,還用于生成音樂和藝術。他們還通過展示在不依賴顯式標簽的情況下生成高質量數據樣本的可能性,為無監督學習的進步做出了貢獻,這個領域在很大程度上被認為是不發達和具有挑戰性的。

2015年:ResNets和NLP突破

2015年,人工智能領域在計算機視覺和自然語言處理(NLP)方面取得了相當大的進步。

Kaim He及其同事發表了一篇題為“圖像識別的深度殘差學習”的論文,其中他們介紹了殘差神經網絡或ResNets的概念 - 通過添加快捷方式使信息更容易地流經網絡的架構。與常規神經網絡不同,在常規神經網絡中,每一層都將前一層的輸出作為輸入,而在 ResNet 中,添加了額外的殘差連接,這些連接跳過一個或多個層并直接連接到網絡中的更深層。

結果,ResNets能夠解決梯度消失的問題,這使得訓練更深層次的神經網絡超出了當時的預期。這反過來又導致了圖像分類和對象識別任務的顯著改進。

大約在同一時間,研究人員在遞歸神經網絡(RNN)和長短期記憶(LSTM)模型的開發方面取得了相當大的進展。盡管這些模型自 1990 年代以來一直存在,但直到 2015 年左右才開始引起一些轟動,主要是由于以下因素:(1) 更大、更多樣化的數據集可用于訓練,(2) 計算能力和硬件的改進,這使得訓練更深入、更復雜的模型成為可能,以及 (3) 在此過程中進行的修改, 例如更復雜的門控機制。

因此,這些架構使語言模型能夠更好地理解文本的上下文和含義,從而在語言翻譯、文本生成和情感分析等任務方面取得了巨大的改進。當時RNN和LSTM的成功為我們今天看到的大型語言模型(LLM)的發展鋪平了道路。

2016: 阿爾法圍棋 (電影)

在1997年加里·卡斯帕羅夫(Garry Kasparov)被IBM的深藍(Deep Blue)擊敗后,另一場人與機器的戰斗在2016年給游戲界帶來了沖擊波:谷歌的AlphaGo擊敗了圍棋的世界冠軍李世石(Lee Sedol)。

世石的失敗標志著人工智能發展軌跡上的另一個重要里程碑:它表明,在一個曾經被認為過于復雜以至于計算機無法處理的游戲中,機器甚至可以勝過最熟練的人類玩家。AlphaGo結合了深度強化學習和蒙特卡洛樹搜索,分析了以前游戲中的數百萬個位置,并評估了最佳可能的行動——在這種情況下,這種策略遠遠超過了人類的決策。

2017年:轉換器體系結構和語言模型

可以說,2017年是最關鍵的一年,為我們今天目睹的生成AI的突破奠定了基礎。

2017年<>月,Vaswani及其同事發布了基礎論文“注意力就是你所需要的一切”,該論文介紹了利用自我注意的概念來處理順序輸入數據的轉換器架構。這允許更有效地處理遠程依賴關系,這在以前是傳統RNN架構的挑戰。

變壓器由兩個基本組件組成:編碼器和解碼器。編碼器負責對輸入數據進行編碼,例如,輸入數據可以是單詞序列。然后,它采用輸入序列并應用多層自我注意和前饋神經網絡來捕獲句子中的關系和特征,并學習有意義的表示。

從本質上講,自我注意允許模型理解句子中不同單詞之間的關系。與以固定順序處理單詞的傳統模型不同,轉換器實際上一次檢查所有單詞。他們根據每個單詞與句子中其他單詞的相關性為每個單詞分配稱為注意力分數的東西。

另一方面,解碼器從編碼器獲取編碼表示并生成輸出序列。在機器翻譯或文本生成等任務中,解碼器根據從編碼器接收的輸入生成翻譯后的序列。與編碼器類似,解碼器也由多層自我注意和前饋神經網絡組成。但是,它包括一個額外的注意力機制,使其能夠專注于編碼器的輸出。然后,這允許解碼器在生成輸出時考慮來自輸入序列的相關信息。

此后,轉換器架構已成為LLM開發的關鍵組件,并在整個NLP領域帶來了重大改進,例如機器翻譯,語言建模和問答。

2018年:GPT-1,BERT和圖形神經網絡

在Vaswani等人發表他們的基礎論文幾個月后,OpenAI于1年2018月推出了Generative P再訓練Transformer或GPT-1,它利用轉換器架構有效地捕獲文本中的長期依賴關系。GPT-<> 是最早證明無監督預訓練有效性的模型之一,然后對特定的 NLP 任務進行微調。

谷歌也利用了仍然相當新穎的變壓器架構,它在2018年底發布并開源了他們自己的預訓練方法,稱為Bidirectional Encoder R來自Transformers或BERT的演示。與以前以單向方式處理文本的模型(包括 GPT-1)不同,BERT 同時考慮每個單詞在兩個方向上的上下文。為了說明這一點,作者提供了一個非常直觀的示例:

    。在句子“我訪問了銀行賬戶”中,單向上下文模型將表示 基于“我訪問了”而不是“賬戶”的“銀行”。但是,BERT 使用其上一個和下一個上下文表示“銀行”——“我訪問了......帳戶“——從深度神經網絡的最底部開始,使其深度雙向。

雙向性的概念是如此強大,以至于它使BERT在各種基準任務上優于最先進的NLP系統。

除了GPT-1和BERT,圖神經網絡或GNNs在那一年也引起了一些轟動。它們屬于專門設計用于處理圖形數據的神經網絡類別。GNN 利用消息傳遞算法在圖形的節點和邊緣之間傳播信息。這使網絡能夠以更直觀的方式學習數據的結構和關系。

這項工作允許從數據中提取更深入的見解,從而擴大了深度學習可以應用于的問題范圍。有了GNN,在社交網絡分析、推薦系統和藥物發現等領域取得了重大進展。

2019 年:GPT-2 和改進的生成模型

2019 年標志著生成模型的幾項顯著進步,尤其是 GPT-2 的引入。該模型在許多NLP任務中實現了最先進的性能,并且能夠生成高度逼真的文本,事后看來,這確實使同行望而卻步。

該領域的其他改進包括DeepMind的BigGAN和NVIDIA的StyleGAN,它可以生成與真實圖像幾乎無法區分的高質量圖像,以及NVIDIA的StyleGAN,它可以更好地控制這些生成的圖像的外觀。

總的來說,現在被稱為生成人工智能的這些進步進一步推動了這一領域的界限,而且......

2020 年:GPT-3 和自監督學習

...不久之后,另一種模型誕生了,即使在技術社區之外,它也已成為家喻戶曉的名字:GPT-3。該模型代表了LLM的規模和能力的重大飛躍。為了將事情放在上下文中,GPT-1 具有可憐的 117.1 億個參數。GPT-5 的這一數字上升到 2 億,GPT-175 的這一數字上升到 3 億。

大量的參數空間使 GPT-3 能夠在各種提示和任務中生成非常連貫的文本。它還在各種NLP任務中表現出令人印象深刻的表現,例如文本完成,問答,甚至創意寫作。

此外,GPT-3 再次強調了使用自監督學習的潛力,它允許在大量未標記的數據上訓練模型。這樣做的好處是,這些模型可以獲得對語言的廣泛理解,而無需進行廣泛的特定于任務的訓練,這使得它更加經濟。

從蛋白質折疊到圖像生成和自動編碼輔助,2021 年是多事之秋,這要歸功于 AlphaFold 2、DALL·E和GitHub Copilot。

AlphaFold 2被譽為數十年來的蛋白質折疊問題的長期解決方案。DeepMind的研究人員擴展了變壓器架構,以創建evoformer塊 - 利用進化策略進行模型優化的架構 - 以構建能夠根據其3D氨基酸序列預測蛋白質1D結構的模型。這一突破具有巨大的潛力,可以徹底改變藥物發現、生物工程等領域,以及我們對生物系統的理解。

OpenAI今年也再次登上新聞,發布了DALL·E. 從本質上講,該模型結合了 GPT 樣式語言模型和圖像生成的概念,以便從文本描述中創建高質量的圖像。

為了說明這個模型有多強大,請考慮下面的圖像,它是在提示“飛行汽車的未來世界油畫”下生成的。

最后,GitHub發布了后來成為每個開發人員最好的朋友的東西:Copilot。這是與OpenAI合作實現的,OpenAI提供了底層語言模型Codex,該模型在大量公開可用的代碼語料庫上進行訓練,進而學會了理解和生成各種編程語言的代碼。開發人員只需提供代碼注釋即可使用Copilot,說明他們試圖解決的問題,然后模型將建議代碼來實現解決方案。其他功能包括用自然語言描述輸入代碼以及在編程語言之間翻譯代碼的能力。

2022 年:聊天GPT 和穩定擴散

人工智能在過去十年中的快速發展最終帶來了突破性的進步:OpenAI 的 ChatGPT,這是一款聊天機器人,于 2022 年 <> 月發布到野外。該工具代表了NLP領域的一項前沿成就,能夠對各種查詢和提示生成連貫且上下文相關的響應。此外,它可以參與對話,提供解釋,提供創造性建議,協助解決問題,編寫和解釋代碼,甚至模擬不同的個性或寫作風格。

人們可以與機器人交互的簡單直觀的界面也刺激了可用性的急劇上升。以前,主要是技術社區會玩弄最新的基于人工智能的發明。然而,如今,人工智能工具幾乎滲透到每個專業領域,從軟件工程師到作家、音樂家和廣告商。許多公司還使用該模型來自動化服務,例如客戶支持、語言翻譯或回答常見問題解答。事實上,我們看到的自動化浪潮重新引發了一些擔憂,并激發了關于哪些工作可能面臨自動化風險的討論。

盡管 ChatGPT 在 2022 年占據了大部分風頭,但在圖像生成方面也取得了重大進展。穩定擴散是一種潛在的文本到圖像擴散模型,能夠從文本描述中生成逼真的圖像,由Stability AI發布。

穩定擴散是傳統擴散模型的擴展,傳統擴散模型的工作原理是迭代地向圖像添加噪聲,然后逆轉恢復數據的過程。它旨在通過不直接在輸入圖像上操作,而是在它們的低維表示或潛在空間上操作來加速此過程。此外,通過將變壓器嵌入的文本提示從用戶添加到網絡來修改擴散過程,使其能夠在每次迭代中指導圖像生成過程。

總體而言,2022 年 ChatGPT 和穩定擴散的發布凸顯了多模式、生成式 AI 的潛力,并引發了該領域進一步發展和投資的巨大推動力。

2023年:法學碩士和機器人

毫無疑問,今年已成為LLM和聊天機器人的一年。越來越多的模型正在以快速增長的速度開發和發布。

例如,24 月 3 日,Meta AI 發布了 LLaMA——盡管參數數量要少得多,但在大多數基準測試中性能優于 GPT-14 的 LLM。不到一個月后,即 4 月 3 日,OpenAI 發布了 GPT-4——GPT-<> 的更大、功能更強大、多模式版本。雖然 GPT-<> 的確切參數數量未知,但據推測為數萬億。

15月21日,斯坦福大學的研究人員發布了Alpaca,這是一種輕量級語言模型,由LLaMA在教學演示中進行了微調。幾天后,在2月10日,谷歌推出了ChatGPT的競爭對手:巴德。谷歌也剛剛在本月<>月<>日早些時候發布了最新的LLM,PaLM-<>。隨著該領域無情的發展步伐,在您閱讀本文時,很可能已經出現了另一種模型。

我們也看到越來越多的公司將這些模型整合到他們的產品中。例如,Duolingo宣布了其GPT-4驅動的Duolingo Max,這是一個新的訂閱層,旨在為每個人提供量身定制的語言課程。Slack還推出了一個名為Slack GPT的人工智能助手,它可以做一些事情,比如起草回復或總結線程。此外,Shopify在公司的Shop應用程序中引入了一個由ChatGPT驅動的助手,該應用程序可以幫助客戶使用各種提示來識別所需的產品。

有趣的是,人工智能聊天機器人現在甚至被認為是人類治療師的替代品。例如,美國聊天機器人應用程序Replika為用戶提供了一個“關心的AI伴侶,總是在這里傾聽和交談,總是站在你身邊”。其創始人尤金妮婭·庫伊達(Eugenia Kuyda)表示,該應用程序擁有各種各樣的客戶,從自閉癥兒童,他們將其作為“在人類互動之前熱身”的一種方式,到孤獨的成年人,他們只是需要朋友。

在我們結束之前,我想強調一下過去十年人工智能發展的高潮:人們實際上正在使用Bing!今年早些時候,微軟推出了其GPT-4驅動的“網絡副駕駛”,該副駕駛已針對搜索進行了定制,并且首次在...永遠(?)已經成為谷歌在搜索業務中長期統治地位的有力競爭者。

回顧和展望

當我們回顧過去十年的人工智能發展時,很明顯,我們一直在見證一種轉變,這對我們的工作、業務和互動方式產生了深遠的影響。最近在生成模型,特別是LLM方面取得的大多數重大進展似乎都堅持“越大越好”的普遍信念,指的是模型的參數空間。這在 GPT 系列中尤其明顯,它從 117.1 億個參數 (GPT-4) 開始,在每個連續模型增加大約一個數量級后,最終產生具有潛在數萬億個參數的 GPT-<>。

然而,根據最近的一次采訪,OpenAI首席執行官Sam Altman認為,我們已經走到了“越大越好”時代的盡頭。展望未來,他仍然認為參數計數將呈上升趨勢,但未來模型改進的主要重點將是提高模型的能力、實用性和安全性。

后者特別重要??紤]到這些強大的人工智能工具現在掌握在公眾手中,不再局限于研究實驗室的受控環境,現在比以往任何時候都更加重要的是,我們要謹慎行事,確保這些工具是安全的,并符合人類的最佳利益。希望我們能看到人工智能安全方面的發展和投資,就像我們在其他領域看到的那樣。

本文標題: 回顧往昔 看人工智能十年發展

本文地址: http://www.yhjdp.com/brand/news-f5ua685e2.html

內容均來源于網絡,錯誤糾正或刪除請發郵件,收件郵箱kefu@huangye88.com

2009-2023 黃頁88版權所有 京ICP備2023012932號-1京公網安備 11010802023561號 京ICP證100626

內容均來源于網絡,錯誤糾正或刪除請發郵件,收件郵箱kefu@huangye88.com

欧美大涨