在人工智能蓬勃發(fā)展的今天,想了解它的原理似乎不是一件容易的事兒。其實(shí)它的核心問題仍然是數(shù)學(xué),而且并不復(fù)雜,會比你想象的簡單得多。如果你登過山(在山間迷路更佳),那么你就能理解它的底層策略。
撰文 | 喬丹·艾倫伯格(Jordan Ellenberg)
(相關(guān)資料圖)
翻譯 | 胡小銳、鐘毅
我的朋友梅瑞迪斯·布魯薩德(Meredith Broussard)是紐約大學(xué)的一位教授,她的專業(yè)研究領(lǐng)域是機(jī)器學(xué)習(xí)及其社會影響。不久前,她接受了一項(xiàng)任務(wù):用大約兩分鐘的時(shí)間在電視上向全美觀眾解釋人工智能的定義及其工作原理。
她向采訪她的主持人解釋說,人工智能不是殺手機(jī)器人,也不是智力讓人類相形見絀但沒有感情的人形機(jī)器人。她告訴主持人:“我們只需要記住一點(diǎn),它的基本原理就是數(shù)學(xué),沒什么可怕的!”
主持人痛苦的表情暗示了,他們寧愿談?wù)摎⑹謾C(jī)器人。
但梅瑞迪斯的回答一語中的。既然我不用遵守兩分鐘的時(shí)間限制,就讓我接過這項(xiàng)任務(wù),解釋一下機(jī)器學(xué)習(xí)的數(shù)學(xué)原理吧,因?yàn)檫@個(gè)“偉大的創(chuàng)意”比你想象的要簡單。
機(jī)器學(xué)習(xí)如登山
假設(shè)你不是一臺機(jī)器,而是一名登山者,正在努力地往山頂爬。但你沒帶地圖,四周又都是樹木和灌木叢,也沒有什么有利位置能讓你看到更廣闊的風(fēng)景。那么,你該如何登頂呢?
有一種策略是,評估你腳下的地面坡度。當(dāng)你往北走的時(shí)候,地面坡度可能會略微上升,當(dāng)你往南走的時(shí)候,地面坡度可能會略微下降。當(dāng)你轉(zhuǎn)向東北方時(shí),你發(fā)現(xiàn)那里有一個(gè)更陡峭的上坡。你在一個(gè)小圈里走來走去,勘察了你可能前往的所有方向,并發(fā)現(xiàn)其中一個(gè)方向的上坡是最陡峭的,于是你朝那個(gè)方向走了幾步。然后,你再畫一個(gè)圈,并從你可能前往的所有方向中選出最陡峭的上坡,以此類推。
現(xiàn)在,你知道機(jī)器學(xué)習(xí)的工作原理了吧!
好吧,也許還不止這些,但這個(gè)叫作“梯度下降法”(Gradient descent)的概念是機(jī)器學(xué)習(xí)的核心。它其實(shí)是一種試錯(cuò)法:你嘗試一堆可能的行動(dòng)方案,然后從中選出最有助于你擺脫困境的那個(gè)。與某個(gè)方向相關(guān)的“梯度”是一個(gè)數(shù)學(xué)概念,它是指“當(dāng)你朝那個(gè)方向走一小步時(shí),高度會發(fā)生多大的變化”,也就是你走的那條路的地面坡度。梯度下降法是一種算法,它利用數(shù)學(xué)語言制定了“一條明確的規(guī)則,告訴你在你可能遇到的各種情況下應(yīng)該怎么做”。
這條規(guī)則是:考慮你可以朝哪些方向走,找出其中梯度最大的那個(gè),并朝那個(gè)方向走幾步;重復(fù)上述步驟。
把你前往山頂?shù)穆肪€繪制到地形圖上,大致的樣子如圖1所示。
圖1 這又是一個(gè)很棒的幾何圖形。當(dāng)你利用梯度下降法來指引方向時(shí),你在地形圖上的路線必定與等高線垂直。
但它與機(jī)器學(xué)習(xí)又有什么關(guān)系呢?
假設(shè)我不是一名登山者,而是一臺嘗試學(xué)些東西的計(jì)算機(jī),例如阿爾法圍棋或GPT-3(能生成一長串看似合理且令人不安的英語文本的人工智能語言模型)。但一開始,先假設(shè)我是一臺嘗試學(xué)習(xí)貓是什么的計(jì)算機(jī)。
我該怎么做?答案是:采取類似于嬰兒的學(xué)習(xí)方法。在嬰兒生活的世界里,經(jīng)常有大人指著他們視野中的某個(gè)東西說“貓”。你也可以對計(jì)算機(jī)進(jìn)行這樣的訓(xùn)練:給它提供1000幅貓的圖片,這些貓的姿態(tài)、亮度和情緒各不相同。你告訴計(jì)算機(jī):“所有這些都是貓。”事實(shí)上,如果你真想讓這種方法行之有效,就要另外輸入1000幅非貓的圖片,并告訴計(jì)算機(jī)哪些是貓而哪些不是。
機(jī)器的任務(wù)是制定一個(gè)策略,使它能夠自行區(qū)分哪些是貓而哪些不是。它在所有可能的策略之間徘徊,試圖找到最好的那個(gè),即識別貓的準(zhǔn)確度達(dá)到最高。它是個(gè)準(zhǔn)登山者,所以它可以利用梯度下降法確定行進(jìn)路線。你選擇了某個(gè)策略,將自己置于對應(yīng)的環(huán)境中,然后在梯度下降規(guī)則的指引下前行。想一想你對當(dāng)前策略可以做出哪些小改變,找出能為你提供最大梯度的那個(gè),并付諸行動(dòng);重復(fù)上述步驟。
貪婪是相當(dāng)好的東西
這句話聽起來頗有道理,但隨后你會發(fā)現(xiàn)自己并不明白它的意思。例如,什么是策略?它必須是計(jì)算機(jī)可以執(zhí)行的東西,而這意味著它必須用數(shù)學(xué)語言來表達(dá)。對計(jì)算機(jī)而言,一幅圖片就是一長串?dāng)?shù)字。如果這幅圖片是600×600像素的網(wǎng)格,那么每個(gè)像素都有一個(gè)亮度,它們的值在 0(純黑)到 1(純白)之間。只要知道這 36 萬(600×600)個(gè)數(shù)字,就能知道這幅圖片是什么內(nèi)容了。(或者,至少知道它的黑白圖像是什么樣子。)
策略是一種將輸入計(jì)算機(jī)的 36 萬個(gè)數(shù)字轉(zhuǎn)變成“貓”或“非貓”(用計(jì)算機(jī)語言來說就是“1”或“0”)的方法。用數(shù)學(xué)術(shù)語來表達(dá)的話,策略就是一個(gè)函數(shù)。事實(shí)上,為了更貼近心理現(xiàn)實(shí),策略的輸出可能是一個(gè)介于 0 和 1 之間的數(shù),它代表了當(dāng)輸入是一幅模糊的猞猁或加菲貓枕頭圖片時(shí),機(jī)器可能想表達(dá)的不確定性。當(dāng)輸出是 0.8 時(shí),我們應(yīng)該將其解讀為“我?guī)缀蹩梢钥隙ㄟ@是一只貓,但仍心存疑慮”。
例如,你的策略可能是這樣一個(gè)函數(shù):“輸出你輸入的 36 萬個(gè)數(shù)字的平均值”。如果圖片是全白的,函數(shù)給出的結(jié)果就是 1 ;如果圖片是全黑的,函數(shù)給出的結(jié)果就是 0??偟膩碚f,這個(gè)函數(shù)可以測量計(jì)算機(jī)屏幕上圖片的總體平均亮度。這跟圖片是不是貓有什么關(guān)系?毫無關(guān)系,我可沒說它是一個(gè)好策略。
我們?nèi)绾魏饬恳粋€(gè)策略是否成功呢?最簡單的方法是,看看那臺已學(xué)習(xí)過2000幅貓和非貓圖片的計(jì)算機(jī)接下來的表現(xiàn)。對于每幅圖片,我們都可以給策略打一個(gè)“錯(cuò)誤分?jǐn)?shù)”【現(xiàn)實(shí)世界中的計(jì)算機(jī)科學(xué)家通常稱之為“損失”(error or loss)】。如果圖片是貓且策略的輸出是 1,那么錯(cuò)誤分?jǐn)?shù)為0,也就是說答案正確。如果圖片是貓而策略的輸出是0,那么錯(cuò)誤分?jǐn)?shù)為 1,這是最壞的一種可能。如果圖片是貓而策略的輸出是0.8,那么答案近似正確但帶有些許不確定性,錯(cuò)誤分?jǐn)?shù)為0.2。(衡量錯(cuò)誤程度的方法有很多種,這里說的并不是實(shí)踐中最常用的那種,但它更易于描述。)
把用于訓(xùn)練的所有2000幅圖片的錯(cuò)誤分?jǐn)?shù)加總,就會得到總錯(cuò)誤分?jǐn)?shù),它可以衡量你的策略是否成功。你的目標(biāo)是找到一個(gè)總錯(cuò)誤分?jǐn)?shù)盡可能低的策略,怎樣才能讓策略不出錯(cuò)呢?這就要用到梯度下降法了,因?yàn)楝F(xiàn)在你已經(jīng)知道策略隨著你的調(diào)整而變得更好或更差意味著什么。梯度測量的是,當(dāng)你對策略稍做改變時(shí)錯(cuò)誤分?jǐn)?shù)的變化幅度;在你能對策略做出的所有小改變中,選出可使錯(cuò)誤分?jǐn)?shù)下降幅度最大的那個(gè)。梯度下降法不僅適用于貓,只要你想讓機(jī)器從經(jīng)驗(yàn)中習(xí)得策略,它就通通適用。
在這里,我不想低估計(jì)算方面的挑戰(zhàn)。那臺學(xué)習(xí)識別貓的計(jì)算機(jī)更有可能用數(shù)百萬幅圖片來訓(xùn)練自己,而不只是2000幅。這樣一來,計(jì)算總錯(cuò)誤分?jǐn)?shù)時(shí)可能就需要加總100萬個(gè)錯(cuò)誤分?jǐn)?shù)。即使你擁有一臺強(qiáng)大的處理器,也需要花不少時(shí)間!所以在實(shí)踐中,我們經(jīng)常使用梯度下降法的變體之一——隨機(jī)梯度下降法(Stochastic gradient descent)。這種方法涉及數(shù)不清的微小變化和錯(cuò)誤分?jǐn)?shù),但它的基本理念是:第一步,你從大量的訓(xùn)練圖片中隨機(jī)選擇一幅(比如,一只安哥拉貓或一個(gè)魚缸的圖片),然后采取可使這幅圖片的錯(cuò)誤分?jǐn)?shù)降至最低的那個(gè)步驟,而不是把所有的錯(cuò)誤分?jǐn)?shù)加在一起。第二步,再隨機(jī)選擇一幅圖片,重復(fù)上述做法。隨著時(shí)間的推移(因?yàn)檫@個(gè)過程要進(jìn)行很多步),最終所有圖片可能都會被考慮到。
我喜歡隨機(jī)梯度下降法的原因在于,它聽上去很瘋狂。例如,想象一下,美國總統(tǒng)正在制定全球戰(zhàn)略,一群下屬圍在他身邊大喊大叫,建議總統(tǒng)以符合他們自身特殊利益的方式調(diào)整政策??偨y(tǒng)每天隨機(jī)選擇一個(gè)人,聽取他的建議,并對政策做出相應(yīng)的改變。用這種方法管理一個(gè)大國是極其荒謬的,但它在機(jī)器學(xué)習(xí)方面卻行之有效!
到目前為止,我們的描述缺失了一個(gè)重要因素:你如何知道何時(shí)該停止呢?你也許會說,很簡單啊,當(dāng)我們做出任何小改變都不能使錯(cuò)誤分?jǐn)?shù)降低時(shí),就可以停止了。但有一個(gè)大問題:你可能并未真正“登頂”!
如果你是圖2中那個(gè)快樂的登山者,向左走一步或向右走一步,你會看到這兩個(gè)方向都不是上坡。這就是你快樂的原因:你自認(rèn)為已經(jīng)登頂了!
圖2
但事實(shí)并非如此。真正的峰頂還很遙遠(yuǎn),而梯度下降法不能幫你到達(dá)那里。你掉進(jìn)了數(shù)學(xué)家所說的“局部最優(yōu)值”(local optimum,局部極大值或局部極小值,它取決于你的目標(biāo)是沖頂還是觸底。)陷阱,在這個(gè)位置上,任何小變化都不能產(chǎn)生改善效果,但它遠(yuǎn)非真正的最佳站位。
我喜歡把局部最優(yōu)值看作拖延癥的數(shù)學(xué)模型。假設(shè)你必須面對一項(xiàng)令人厭煩的任務(wù),例如,整理一大摞資料,其中大部分與你多年來一直想達(dá)成的目標(biāo)有關(guān),扔掉它們則代表你最終選擇妥協(xié),不打算繼續(xù)堅(jiān)持下去了。每一天,梯度下降法都會建議你采取某個(gè)小行動(dòng),從而最大程度地提升你當(dāng)天的幸福感。整理那一大摞資料會讓你感到快樂嗎?不,恰恰相反,它讓你感覺很糟糕。推遲一天完成這項(xiàng)任務(wù)是梯度下降法對你的要求,第二天、第三天、第四天……算法每天都會給你同樣的建議。就這樣,你掉進(jìn)了局部最優(yōu)值——低谷——的陷阱,要想登上更高的山峰,你必須咬牙穿過山谷,那也許是很長的一段路,而且你得先往下走再往上爬。梯度下降法也被稱為“貪婪的算法”,因?yàn)樗繒r(shí)每刻都會選擇能使短期利益最大化的步驟。貪婪是罪惡之樹上的主要果實(shí)之一,但有一個(gè)關(guān)于資本主義的流行說法稱“貪婪是好東西”(greed is good)。在機(jī)器學(xué)習(xí)領(lǐng)域,更準(zhǔn)確的說法是:“貪婪是相當(dāng)好的東西?!碧荻认陆捣赡軙?dǎo)致你陷入局部最優(yōu)值陷阱,但相較于理論層面,這種情況在實(shí)踐中發(fā)生的次數(shù)并不多。
想繞過局部最優(yōu)值,你需要做的就是暫時(shí)收起你的貪婪。所有好的規(guī)則都有例外。例如,在你登頂后,你可以不停下腳步,而是隨機(jī)選擇另一個(gè)地點(diǎn),重啟梯度下降法。如果每次的終點(diǎn)都是同一個(gè)地方,你就會更加確信它是最佳地點(diǎn)。在圖2 中,如果登山者從一個(gè)隨機(jī)地點(diǎn)開始使用梯度下降法,他就更有可能登上那座大山峰,而不是困在那座小山峰上。
在現(xiàn)實(shí)生活中,你很難將自己重置于一個(gè)完全隨機(jī)的人生位置上。更加切實(shí)可行的做法是,從你當(dāng)前的位置隨機(jī)邁出一大步,而不是貪婪地選擇一小步。這種做法通常足以把你推到一個(gè)全新的位置上,向著人生巔峰邁進(jìn)。
我是對還是錯(cuò)?
還有一個(gè)大問題。我們愉快地決定考慮所有可能的小改變,看看其中哪一個(gè)能帶來最優(yōu)梯度。如果你是一名登山者,擺在你面前的就是一個(gè)明確的問題:你在一個(gè)二維空間中選擇下一步的行動(dòng)方向,這相當(dāng)于在指南針上的一圈方向中擇其一,而你的目標(biāo)是找出具有最優(yōu)梯度的那個(gè)點(diǎn)。
但事實(shí)上,給貓圖片評分的所有可能策略構(gòu)成了一個(gè)十分巨大的無限維空間。沒有任何方法能將你的所有選擇考慮在內(nèi),如果你站在人的角度而不是機(jī)器的角度,就會發(fā)現(xiàn)這一點(diǎn)顯而易見。假設(shè)我正在寫一本關(guān)于梯度下降法的自助類書籍,并且告訴你:“想要改變你的人生,做法很簡單。仔細(xì)考慮有可能改變你人生的所有方法,然后從中選擇效果最好的那個(gè),這樣就可以了?!蹦憧赐赀@句話肯定會呆若木雞,因?yàn)樗锌赡芨淖兡闳松姆椒?gòu)成的空間太大了,根本無法窮盡搜索。
如果通過某種非凡的內(nèi)省法,你可以搜遍這個(gè)無限維空間呢?那樣的話,你還會碰到另一個(gè)問題,因?yàn)橄旅孢@個(gè)策略絕對可以使你的過往人生經(jīng)歷的錯(cuò)誤分?jǐn)?shù)降至最低。
策略:如果你將要做的決策和你以前做的某個(gè)決策完全相同,就把你現(xiàn)在考慮的這個(gè)決策視為正確的決定。否則的話,拋硬幣決定吧。
如果換成學(xué)習(xí)識別貓的那臺計(jì)算機(jī),上述策略就會變成:
策略:對于在訓(xùn)練中被識別為貓的圖片,輸出“貓”。對于被識別為非貓的圖片,輸出“非貓”。對于其他圖片,拋硬幣決定吧。
這個(gè)策略的錯(cuò)誤分?jǐn)?shù)為0!對于訓(xùn)練中使用的所有圖片,這臺計(jì)算機(jī)都會給出正確的答案。但如果我展示一幅它從未見過的貓圖片,它就會拋硬幣決定。如果有一幅圖片我展示過并告訴它那是貓,但在我把這幅圖片旋轉(zhuǎn) 0.01 度后,它也會拋硬幣決定。如果我向它展示一幅電冰箱的圖片,它還是會拋硬幣決定。它所能做的只是精確地辨識出我展示過的有限的貓和非貓圖片,這不是學(xué)習(xí),而是記憶。
我們已經(jīng)看到了策略失效的兩種方式,從某種意義上說它們是兩個(gè)極端。
1. 在你遇到過的許多情況下,這種策略都是錯(cuò)的。
2. 這種策略只適用于你遇到過的情況,但對于新情況它一無是處。
前一個(gè)問題叫作“欠擬合”(Underfitting),是指你在制定策略時(shí)沒有充分利用你的經(jīng)驗(yàn)。后一個(gè)問題叫作“過擬合”(Overfitting),是指你太過依賴自己的經(jīng)驗(yàn)。我們?nèi)绾卧谶@兩個(gè)無用的極端策略之間找到一個(gè)折中的策略呢?答案是:讓這個(gè)問題變得更像登山。登山者搜索的是一個(gè)非常有限的選擇空間,我們也可以這樣,前提條件是我們要對自己的選擇加以限制。
我們本能地知道這一點(diǎn)。在思考如何評估自己的人生策略時(shí),我們通常使用的比喻是在地球表面選擇方向,而不是在無限維空間中隨機(jī)游走。美國詩人羅伯特·弗羅斯特將其比作“兩條分岔路”。傳聲頭樂隊(duì)(Talking Heads)的歌曲《一生一次》(Once in a Lifetime)猶如弗羅斯特的詩《未選擇的路》(The Road Not Taken)的續(xù)作,你仔細(xì)品讀就會發(fā)現(xiàn),這首歌描繪的正是梯度下降法:
你可能會問自己
那條公路通向哪里?
你可能會問自己
我是對還是錯(cuò)?
你可能會對自己說
天?。∥业降鬃隽耸裁??
你不必把自己的選擇局限于一個(gè)旋鈕。
而線性回歸是選擇旋鈕的最常用方法之一。當(dāng)統(tǒng)計(jì)學(xué)家尋找可根據(jù)一個(gè)已知變量的值預(yù)測另一個(gè)變量的策略時(shí),線性回歸也是他們的首選工具。例如,一個(gè)吝嗇的棒球隊(duì)老板可能想知道,球隊(duì)的勝率對比賽門票的銷量會產(chǎn)生多大的影響。他不想在球場上投入太多的人力物力,除非它們能有效地轉(zhuǎn)化成上座率。
圖3 美國職業(yè)棒球大聯(lián)盟2019賽季的主場上座人數(shù) vs 球隊(duì)勝率
圖3上的每個(gè)點(diǎn)分別代表一支球隊(duì),縱坐標(biāo)表示這些球隊(duì)在 2019 賽季的勝率,橫坐標(biāo)表示這些球隊(duì)的主場上座人數(shù)。你的目標(biāo)是找到一個(gè)能根據(jù)球隊(duì)勝率預(yù)測主場上座人數(shù)的策略,你允許自己考慮的選擇空間很小,而且其中的策略都是線性的。
主場上座人數(shù) = 神秘?cái)?shù)字 1 × 球隊(duì)勝率 + 神秘?cái)?shù)字 2
任意一個(gè)類似的策略都對應(yīng)著圖中的一條直線,你希望這條線能盡可能地匹配你的數(shù)據(jù)點(diǎn)。兩個(gè)神秘?cái)?shù)字就是兩個(gè)旋鈕,你可以通過上下轉(zhuǎn)動(dòng)旋鈕實(shí)現(xiàn)梯度下降,直到你無法通過任何微調(diào)降低策略的總體錯(cuò)誤分?jǐn)?shù)。(在這里,效果最佳的錯(cuò)誤分?jǐn)?shù)是所有球隊(duì)的線性策略預(yù)測值與真實(shí)值之差的平方和,所以這個(gè)方法通常被稱為“最小二乘法”。最小二乘法歷史悠久,發(fā)展至今已十分完善,用它來尋找最優(yōu)直線的速度比梯度下降法快得多,但梯度下降法仍行之有效。)
最終,你會得到一條如圖4所示的直線。
圖4
你可能會注意到,即使是錯(cuò)誤分?jǐn)?shù)最低的直線,其誤差也不小。這是因?yàn)?,現(xiàn)實(shí)世界中的大多數(shù)關(guān)系都不是嚴(yán)格意義上的線性關(guān)系。我們可以試著納入更多的變量(比如,球隊(duì)體育場的大小應(yīng)該是一個(gè)相關(guān)變量)作為輸入來解決這個(gè)問題,但線性策略的最終效果仍然有限。例如,這個(gè)策略不能告訴你哪些圖片是貓。在這種情況下,你不得不冒險(xiǎn)進(jìn)入非線性的狂野世界。
深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)
在機(jī)器學(xué)習(xí)領(lǐng)域,正在研發(fā)的一種最重要的技術(shù)叫作“深度學(xué)習(xí)”。它有時(shí)以一種先知的姿態(tài)出現(xiàn)在人類面前,自動(dòng)地、大規(guī)模地提供非凡的洞見。這種技術(shù)還有一個(gè)名稱——“神經(jīng)網(wǎng)絡(luò)”,就好像這種方法能以某種方式自行捕獲人類大腦的運(yùn)行方式一樣。
但事實(shí)并非如此。正如梅瑞迪斯·布魯薩德所說,它的原理只是數(shù)學(xué),甚至不是最新的數(shù)學(xué)。這一基本概念早在20世紀(jì)50年代末就出現(xiàn)了,從我1985年收到的那堆成人禮的禮物中,你也能看到與神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類似的東西。除了支票、幾個(gè)圣杯和 20 多支高仕筆外,我還收到了父母送的也是我最想要的禮物——雅馬哈DX21 合成器,它至今還在我的家庭辦公室里。早在 1985 年就能擁有一臺合成器,而不是電子琴,這讓我感到非常自豪。你不僅能用DX21 合成器彈奏出鋼琴、小號和小提琴的音色,還可以用它制作你想要的音色,前提是你能掌握那本 70 頁說明書的晦澀內(nèi)容,其中包含了很多如圖5所示的圖片。
圖5
每個(gè)“OP”盒子代表一個(gè)合成器波,你可以通過轉(zhuǎn)動(dòng)盒子上的旋鈕,讓聲音變得更響亮、更柔和、隨時(shí)間淡出或淡入,等等。這些都稀松平常,而DX21 真正神奇的地方在于它和操作者之間的連接。圖 5 展示了一個(gè)魯布·戈德堡機(jī)械式的過程,從OP1 發(fā)出的合成器波不僅取決于這個(gè)盒子上你可以轉(zhuǎn)動(dòng)的那些旋鈕,還取決于OP2 的輸出。合成器波甚至可以自行調(diào)節(jié),附屬于OP4 的“反饋”箭頭代表的就是這種功能。通過轉(zhuǎn)動(dòng)每個(gè)盒子上的幾個(gè)旋鈕,你可以獲得范圍極其廣泛的輸出。這給了我嘗試的機(jī)會,自己動(dòng)手制作新的音色。
神經(jīng)網(wǎng)絡(luò)跟我的合成器很像,它是由幾個(gè)小盒子構(gòu)成的網(wǎng)絡(luò),如圖6所示。
圖6
所有盒子的功能都相同:如果輸入一個(gè)大于或等于 0.5 的數(shù)字,它們就會輸出1;否則,它們就會輸出 0。用這種盒子作為機(jī)器學(xué)習(xí)基本元素的想法,是在1957—1958 年由心理學(xué)家弗蘭克·羅森布拉特(Frank Rosenblatt)提出來的,他視其為神經(jīng)元工作原理的一個(gè)簡單模型。盒子靜靜地待在那里,一旦接收到的刺激超過某個(gè)閾值,它就會發(fā)射一個(gè)信號。羅森布拉特把這類機(jī)器稱作“感知機(jī)”(Perceptrons)。為了紀(jì)念這段歷史,我們?nèi)匀环Q這些假神經(jīng)元網(wǎng)絡(luò)為“神經(jīng)網(wǎng)絡(luò)”,盡管大多數(shù)人不再認(rèn)為它們是在模擬人類的大腦硬件。
數(shù)字一旦從盒子中輸出,就會沿著盒子右側(cè)的任意箭頭運(yùn)動(dòng)。每個(gè)箭頭上都有一個(gè)叫作“權(quán)重”的數(shù)字,當(dāng)輸出沿箭頭呼嘯而過時(shí),就會乘以相應(yīng)的權(quán)重。每個(gè)盒子把從其左側(cè)進(jìn)入的所有數(shù)字加總,并以此作為輸入。
每一列被稱為一層,圖6中的網(wǎng)絡(luò)有兩層,第一層有兩個(gè)盒子,第二層有一個(gè)盒子。你先向這個(gè)神經(jīng)網(wǎng)絡(luò)輸入兩個(gè)數(shù)字,分別對應(yīng)第一層的兩個(gè)盒子。以下是有可能發(fā)生的情況:
1. 兩個(gè)輸入都不小于 0.5。第一層的兩個(gè)盒子都輸出 1,當(dāng)這兩個(gè)數(shù)字沿著箭頭移動(dòng)時(shí),都變?yōu)?1/3,所以第二層的盒子接收到 2/3 作為輸入,并輸出 1。
2. 一個(gè)輸入不小于 0.5,另一個(gè)輸入小于 0.5。那么,兩個(gè)輸出分別是 1 和 0,所以第二層的盒子接收到 1/3 作為輸入,并輸出 0。
3. 兩個(gè)輸入都小于 0.5。那么,第一層的兩個(gè)盒子都輸出 0,第二層的盒子也輸出 0。
換句話說,這個(gè)神經(jīng)網(wǎng)絡(luò)是一臺機(jī)器,它接收到兩個(gè)數(shù)字作為輸入,并告訴你它們是否都大于0.5。
圖7是一個(gè)略顯復(fù)雜的神經(jīng)網(wǎng)絡(luò)。
圖7
該神經(jīng)網(wǎng)絡(luò)的第一層有51個(gè)盒子,它們都向第二層的那個(gè)盒子輸入數(shù)字。但箭頭上的權(quán)重不同,最小的權(quán)重為 3/538,最大的權(quán)重為55/538。這臺機(jī)器在做什么?它將51個(gè)不同的數(shù)字作為輸入,并激活每個(gè)輸入大于0.5的盒子。然后,它對這些盒子進(jìn)行加權(quán)計(jì)算,檢驗(yàn)它們的和是否大于0.5。如果是,就輸出1;如果不是,則輸出 0。
我們可以把它稱作“兩層羅森布拉特感知機(jī)”,但它還有一個(gè)更常用的名稱——“選舉人團(tuán)制度”。51個(gè)盒子代表美國的50 個(gè)州和華盛頓特區(qū),如果共和黨候選人在某個(gè)州獲勝,代表該州的盒子就會被激活。把所有這些州的選舉人票數(shù)加總后除以538,如果結(jié)果大于0.5,共和黨候選人就是贏家。
圖8是一個(gè)更現(xiàn)代的例子,它不像選舉人團(tuán)制度那樣易于用語言來描述,但它與驅(qū)動(dòng)機(jī)器學(xué)習(xí)不斷進(jìn)步的神經(jīng)網(wǎng)絡(luò)更加接近。
圖8
圖8中的盒子比羅森布拉特感知機(jī)的盒子更精致。盒子接收到一個(gè)數(shù)字作為輸入,并輸出該數(shù)字和0中較大的那個(gè)。換句話說,如果輸入是一個(gè)正數(shù),盒子就會原封不動(dòng)地輸出這個(gè)數(shù)字;但如果輸入是一個(gè)負(fù)數(shù),盒子就會輸出 0。
我們來試試這個(gè)裝置(見圖9)。假設(shè)我先向最左邊一層的兩個(gè)盒子分別輸入1和1。這兩個(gè)數(shù)字都是正數(shù),所以第一層的兩個(gè)盒子都會輸出 1。再來看第二層,第一個(gè)盒子接收到的數(shù)字是 1×1 = 1,第二個(gè)盒子接收到的數(shù)字是-1×1 = -1。同理,第二層的第三個(gè)盒子和第四個(gè)盒子接收到的數(shù)字分別是 1 和-1。1是正數(shù),所以第一個(gè)盒子輸出1。但第二個(gè)盒子接收到的輸入是一個(gè)負(fù)數(shù),未能被觸發(fā),所以它輸出 0。同樣地,第三個(gè)盒子輸出1,第四個(gè)盒子輸出 0。
圖9
接著看第三層,上面的盒子接收到的數(shù)字是1×1+3×0+2×1+1×0=3,下面的盒子接收到的數(shù)字是3×1?1×0?5×1?1×0=?2。所以,上面的盒子輸出3,下面的盒子未能被觸發(fā),輸出0。最后,第四層的那個(gè)盒子接收到的兩個(gè)輸入之和為1×3+1×0=3。
即使你未關(guān)注到這些細(xì)節(jié),也沒有關(guān)系。重要的是,神經(jīng)網(wǎng)絡(luò)是一個(gè)策略,它接收到兩個(gè)數(shù)字作為輸入,并返回一個(gè)數(shù)字作為輸出。如果你改變箭頭上的權(quán)重,也就是說,如果你轉(zhuǎn)動(dòng)14個(gè)旋鈕,就會改變這個(gè)策略。圖9為你提供了一個(gè)十四維空間,讓你根據(jù)既有的數(shù)據(jù)從中找出最適合的策略。如果你覺得很難想象出十四維空間的樣子,我建議你聽從現(xiàn)代神經(jīng)網(wǎng)絡(luò)理論的創(chuàng)始人之一杰弗里·辛頓(Geoffrey Hinton)的建議:“想象一個(gè)三維空間,并大聲對自己說‘這是十四維空間’。所有人應(yīng)該都能做到這一點(diǎn)?!毙令D來自一個(gè)高維空間愛好者家族,他的曾祖父查爾斯在1904年寫了一本關(guān)于如何想象四維立方體的書,并發(fā)明了“超立方體”(tesseract)一詞來描述它們。不知道你有沒有看過西班牙畫家薩爾瓦多·達(dá)利的油畫作品《受難》,其中就有一個(gè)辛頓的超立方體。
圖10中這個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)重已知,如果平面上的點(diǎn)(x, y)位于灰色形狀內(nèi)部,就賦予它一個(gè)等于或小于3的值。注意,當(dāng)點(diǎn)(1, 1)位于灰色形狀的邊界上時(shí),策略賦予它的值是3。
圖10
不同的權(quán)重會產(chǎn)生不同的形狀,雖然不是任意形狀。感知機(jī)的本質(zhì)意味著這個(gè)形狀永遠(yuǎn)是多邊形,即邊界由多條線段構(gòu)成的形狀。(前文中不是說這應(yīng)該是非線性的嗎?沒錯(cuò),但感知器是分段線性(piecewise linear)結(jié)構(gòu),這意味著它在空間的不同區(qū)域內(nèi)滿足不同的線性關(guān)系。更通用的神經(jīng)網(wǎng)絡(luò)可以產(chǎn)生更彎曲的結(jié)果。)
如圖11所示,假設(shè)我用X 標(biāo)記了平面上的一些點(diǎn),用O 標(biāo)記了其他一些點(diǎn)。我給機(jī)器設(shè)定的目標(biāo)是讓它習(xí)得一個(gè)策略:根據(jù)我標(biāo)記的那些點(diǎn),用X 或O為平面上其他未標(biāo)記的點(diǎn)賦值。也許(希望如此)我可以通過正確設(shè)置那 14 個(gè)旋鈕得到某個(gè)策略,將較大的值賦予所有標(biāo)記為X 的點(diǎn),而將較小的值賦予所有標(biāo)記為O 的點(diǎn),以便我對平面上尚未標(biāo)記的點(diǎn)做出有根據(jù)的猜測。如果真有這樣的策略,我希望可以通過梯度下降法來習(xí)得它:微微轉(zhuǎn)動(dòng)每個(gè)旋鈕,看看這個(gè)策略在給定例子中的錯(cuò)誤分?jǐn)?shù)會降低多少,從中找出效果最佳的那個(gè)操作,并付諸實(shí)施;重復(fù)上述步驟。深度學(xué)習(xí)中的“深度”僅指神經(jīng)網(wǎng)絡(luò)有很多層。每層的盒子個(gè)數(shù)被稱為“寬度”(width),在實(shí)踐中,這個(gè)量可能也很大。但相比“深度學(xué)習(xí)”,“寬度學(xué)習(xí)”少了一些專業(yè)術(shù)語的味道。
圖11
可以肯定的是,今天的深度學(xué)習(xí)網(wǎng)絡(luò)比上文中的那些示意圖要復(fù)雜得多,盒子里的函數(shù)也比我們討論過的簡單函數(shù)要復(fù)雜得多。遞歸神經(jīng)網(wǎng)絡(luò)中還包含反饋盒子,就像我的DX21 合成器上的“OP4”一樣,把自身的輸出作為輸入。而且,它們的速度明顯更快。正如我們所見,神經(jīng)網(wǎng)絡(luò)的概念已經(jīng)存在很長時(shí)間了,我記得就在不久前,人們還認(rèn)為這條路根本走不通。但事實(shí)證明,這是一個(gè)很好的想法,只不過硬件必須跟上概念的步伐。為快速渲染游戲畫面而設(shè)計(jì)的GPU芯片,后來被證明是快速訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)的理想工具,有助于實(shí)驗(yàn)人員提升神經(jīng)網(wǎng)絡(luò)的深度和寬度。有了現(xiàn)代處理器,你就不必再受限于 14 個(gè)旋鈕,而可以操控幾千、幾百萬乃至更多的旋鈕。GPT-3 生成的英語文本能以假亂真,它使用的神經(jīng)網(wǎng)絡(luò)有1750億個(gè)旋鈕。
有1750億個(gè)維度的空間聽起來的確很大,但和無窮大相比,這個(gè)數(shù)量又顯得微不足道。同樣地,與所有可能的策略構(gòu)成的空間相比,我們正在探索的只是其中很小的一部分。但在實(shí)踐中,這似乎足以生成看起來像人類創(chuàng)作的文本,就好比DX21 的小型網(wǎng)絡(luò)足以模擬出小號、大提琴和太空霹靂的音色。
這已經(jīng)非常令人驚訝了,但還有一個(gè)更深層次的謎。記住,梯度下降法的理念就是不斷轉(zhuǎn)動(dòng)旋鈕,直到神經(jīng)網(wǎng)絡(luò)能在訓(xùn)練過的數(shù)據(jù)點(diǎn)上取得盡可能好的效果。今天的神經(jīng)網(wǎng)絡(luò)有許許多多旋鈕,所以它們常能做到在訓(xùn)練集上表現(xiàn)完美,把 1000 幅貓圖片中的每一幅都識別為“貓”,而把1000 幅其他圖片全部識別為“非貓”。
事實(shí)上,有這么多的旋鈕可以轉(zhuǎn)動(dòng),讓訓(xùn)練數(shù)據(jù)百分之百正確的所有可能策略就會構(gòu)成一個(gè)巨大的空間。事實(shí)證明,當(dāng)神經(jīng)網(wǎng)絡(luò)面對它從未見過的圖片時(shí),這些策略中的大多數(shù)都表現(xiàn)得很糟糕。但是,蠢笨又貪婪的梯度下降過程出現(xiàn)在某些策略中的頻率通常高于其他策略,而在實(shí)踐中,梯度下降法偏愛的那些策略似乎更容易推廣到新的例子中。
為什么呢?是什么使得這種特殊形式的神經(jīng)網(wǎng)絡(luò)擅長應(yīng)對各種各樣的學(xué)習(xí)問題?我們在策略空間中搜索的這塊微不足道的區(qū)域,為什么恰恰就包含了一個(gè)好的策略呢?
據(jù)我所知,它是一個(gè)謎。坦白地說,關(guān)于它是不是一個(gè)謎的問題,還存在很多爭議。我向很多聲名顯赫的人工智能研究者提問過這個(gè)問題,他們回答起來個(gè)個(gè)口若懸河。其中一些人非常自信地解釋了其中的原因,但每個(gè)人的說法都不一樣。
作者簡介
喬丹·埃倫伯格(Jordan Stuart Ellenberg,1971 -),美國數(shù)學(xué)家,1998年獲哈佛大學(xué)博士學(xué)位,現(xiàn)任威斯康星大學(xué)麥迪遜分校John D. MacArthur教授;主要研究方向代數(shù)幾何和數(shù)論。曾獲多項(xiàng)科學(xué)傳播獎(jiǎng)項(xiàng),出版《魔鬼數(shù)學(xué)》(How Not to Be Wrong),《幾何學(xué)的力量》(Shape),小說The Grasshopper King等,作品常見于《華爾街日報(bào)》《紐約時(shí)報(bào)》,Slate, Wired等。
本文經(jīng)授權(quán)節(jié)選自《幾何學(xué)的力量》(中信出版社·鸚鵡螺,2023.3)第七章《機(jī)器學(xué)習(xí)如登山》,有刪減。
標(biāo)簽:
上一篇:睡眠幫手褪黑素,究竟是何物?_當(dāng)前簡訊
下一篇:最后一頁
凡本網(wǎng)注明“XXX(非現(xiàn)代青年網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。
原標(biāo)題:意大利舉辦國際手工藝展覽會中國手工藝受關(guān)注4月25日,在意大利佛羅倫薩舉辦的國際手工藝展覽會上
2023-04-28 16:43
原標(biāo)題:津味大戲凝聚天津人智慧與幽默(引題)?《俗世奇人》“省親”博得滿堂彩(主題)今晚報(bào)訊(記者高
2023-04-28 16:49
原標(biāo)題:全國十余種南戲泉州展演“好戲連臺”異彩紛呈中新網(wǎng)泉州4月28日電(吳冠標(biāo))27日晚,“首屆海絲泉州
2023-04-28 15:42
原標(biāo)題:莫奈作品在墨西哥展出4月26日,在墨西哥首都墨西哥城,觀眾參觀莫奈作品展。當(dāng)日,“莫奈,印象派
2023-04-28 15:35
原標(biāo)題:江西發(fā)現(xiàn)距今9000余萬年的泰坦巨龍化石新華社南昌4月27日電(記者袁慧晶)記者27日從江西省地質(zhì)局
2023-04-28 15:38
原標(biāo)題:全國戲曲(北方片)會演在石家莊開幕4月26日,演員在開幕式演出現(xiàn)場表演秦腔、晉劇、滇劇、河北梆
2023-04-28 15:44
原標(biāo)題:四川宣漢羅家壩遺址博物館開館這是羅家壩遺址博物館外景(4月26日攝,無人機(jī)照片)。4月27日,四川
2023-04-28 15:40
原標(biāo)題:在多彩音符中感受美麗中國人民日報(bào)記者吳君4月22日上午,湖北省武漢國際博覽中心,渾厚的《編鐘禮
2023-04-28 10:40
原標(biāo)題:“反詩歌”的帕拉,用反諷贏得快樂◎杜鵬在動(dòng)筆寫這篇書評之前,我本想以《我們可以從帕拉身上學(xué)到
2023-04-28 10:36
原標(biāo)題:歌劇《青春之歌》國家大劇院首演(引題)?高難音樂燃燒青春力量(主題)北京日報(bào)記者高倩幾十年來
2023-04-28 10:35
原標(biāo)題:莫曉松:觀到精微也放眼宇宙◎范范展覽:燦然逸韻——莫曉松作品展展期:2023年4月27日至5月8日地
2023-04-28 10:47
原標(biāo)題:深圳歡樂谷舉辦歡樂谷25周年紅人盛典工人日報(bào)—中工網(wǎng)記者劉友婷今年以來,旅游市場復(fù)蘇勢頭強(qiáng)勁。
2023-04-28 09:43
原標(biāo)題:《青年π計(jì)劃》樂壇新生代登場展現(xiàn)音樂新力量工人日報(bào)—中工網(wǎng)記者陳俊宇“音樂,無限不循環(huán),創(chuàng)造
2023-04-28 09:47
原標(biāo)題:當(dāng)“他”在職場中變成一組編號……◎裴雪如金惠珍今年4月最新出版的小說《9號的工作》,將目光聚焦
2023-04-28 09:33
原標(biāo)題:女性命運(yùn)的可能性,因?qū)懽鞅豢匆姟蛩ё罱@幾個(gè)月,讀了很多女性寫作的作品。這些作者天然地對女
2023-04-28 09:47
原標(biāo)題:翁貝托·埃科的文學(xué)生活◎陳英迷霧如果說在《玫瑰的名字》里,意大利作家??朴邪逊柺澜绾驼鎸?shí)世
2023-04-28 09:32
原標(biāo)題:豆瓣開分9 0《漫長的季節(jié)》魅力何來?中新網(wǎng)北京4月26日電(記者高凱)上線第4天,《漫長的季節(jié)》
2023-04-27 21:39
原標(biāo)題:“火鍋”跨界融合雜技舞臺劇《功夫火鍋》在重慶首演中新網(wǎng)重慶4月27日電(記者鐘旖)由中國雜技團(tuán)
2023-04-27 15:46
原標(biāo)題:雜技劇《天山雪》在大寧劇院試演(引題)譜一曲雜技人的民族團(tuán)結(jié)史詩(主題)文匯報(bào)記者黃啟哲歷時(shí)
2023-04-27 14:48
原標(biāo)題:舞臺劇《寄生蟲》五一假期廣州連演三場(引題)馬天宇舞臺劇首秀“我并沒有被舞臺吃掉”(主題)羊
2023-04-27 14:42
原標(biāo)題:【尋味中華丨名樓】云南大觀樓:觀萬里山水敞千秋懷抱中新社昆明4月27日電?作者熊佳欣“出大觀樓
2023-04-27 14:56
原標(biāo)題:甘肅敦煌:壁畫藝術(shù)進(jìn)校園4月26日,敦煌中學(xué)美術(shù)教師楊娜為學(xué)生講解敦煌壁畫藝術(shù)。近年來,甘肅省
2023-04-27 13:43
原標(biāo)題:雜技技藝碰撞“賽博朋克”重慶大型駐場雜技秀推出升級版中新網(wǎng)重慶4月27日電(記者鐘旖)627平方米
2023-04-27 13:54
原標(biāo)題:約20部電影扎堆,新片預(yù)售總票房已超過1 6億元(引題)今年五一檔“史上最擠”已定,“最強(qiáng)”或可
2023-04-27 13:41
原標(biāo)題:全國戲曲(北方片)會演開幕人民日報(bào)北京4月26日電(記者鄭海鷗)26日,由中宣部文藝局、文化和旅
2023-04-27 13:40