前一陣,馬斯克發(fā)推特宣布了特斯拉“AI?Day”將會在北美時間8月19日正式舉行。根據(jù)之前他的推特所說,發(fā)布會將會介紹特斯拉在人工智能領域的軟件和硬件進展,尤其在(神經(jīng)網(wǎng)絡)的訓練和預測推理方面;這次活動的主要目的是招攬相關人才。
這種做法非常的特斯拉,就像2019年的“Autonomous?Day”和2020年的“Battery?Day”一樣,估計“AI Day”整個發(fā)布會將會涉及大量的軟件、硬件的技術細節(jié),以此來向外界“秀肌肉”。
而這種技術“秀肌肉”正是特斯拉招攬頂尖人才的獨特方式。從某種程度上講,特斯拉在召開類似的發(fā)布會時,面向的群體更多的是行業(yè)領域的專業(yè)人士;用極具野心的規(guī)劃方向和顛覆行業(yè)的研發(fā)成果,去吸引那些因此感到心潮澎湃的人才。
特斯拉的AI硬件負責人Peter?Bannon曾在接受采訪時說:“你知道有很多人想要來特斯拉工作的根本原因,僅僅是因為他們想要從事于(FSD)的研發(fā)和相關工作。”事實上,美國近幾年在統(tǒng)計工程類專業(yè)學生最想去的公司排名中,特斯拉和SpaceX經(jīng)常交替排名第一,其實也佐證了Peter所說的這一現(xiàn)象。?
(圖/Universum)
?
盡管此次一如既往的并未泄露什么“AI?Day”的信息,但僅通過上面那一張預熱圖,就讓不少從事AI領域的人為止興奮不已。
神秘的Dojo計算機芯片
在“AI?Day”發(fā)布會的邀請函上,放著一張夸張的芯片圖。?
從圖上估測,該芯片才用了非常規(guī)的封裝形式,第一層和第五層銅質結構是水冷散熱模塊;紅色圈出的第二層結構由5*5陣列共25個芯片組成;第三層為25個陣列核心的BGA封裝基板;第四層和第七層應該只是物理承載結構附帶一些導熱屬性;藍色圈出的第六層應該是功率模塊,以及上面豎著的黑色長條,很可能是穿過散熱與芯片進行高速通信的互聯(lián)模塊;
從第二層結構的圓形邊角,以及擁有25個芯片結構來看,非常像Cerebras公司的WSE超大處理器,即才特斯拉可能采用了TSMC(臺積電)的InFO-SoW(集成扇出系統(tǒng))設計。
所謂InFo-SoW設計,簡單理解來說就是原本一個晶圓(Wafer)能夠“切割”出很多個芯片,做成很多個CPU/GPU等類型的芯片(根據(jù)設計不同,光刻時決定芯片類型),而InFo-SoW則是所有的芯片都來自于同一個晶圓,不但不進行切割,反而是直接講整個晶圓做成一個超大芯片,實現(xiàn)system?on?wafer的設計。
這么做的好處有三個:極低的通訊延遲和超大的通訊帶寬、能效的提升。?
簡單來說,由于C2C(芯片與芯片之間)的物理距離極短,加上通訊結構可以直接在晶圓上布置,使得所有內(nèi)核都能使用統(tǒng)一的2D網(wǎng)狀結構互連,實現(xiàn)了C2C通信的超低延遲和高帶寬;以及由于結構優(yōu)勢實現(xiàn)了較低的PDN阻抗,實現(xiàn)了能效的提升。此外,由于是陣列多個小芯片組成,可以通過冗余設計來避免“良品率”問題,以及實現(xiàn)小芯片處理的靈活性。
舉個形象的例子,特斯拉前一陣公布的超級電腦,一共用了5760個Nvida?A100 80GB的GPU,那么在這些芯片之間,需要海量的物理結構進行連接以實現(xiàn)通訊,不僅耗費大量成本,且由于連接結構的帶寬限制成為“木桶短板”,導致整體效率較低,并且還有分散的龐大散熱問題。?
這里拿Cerabraas的WSE-2作為參考對比,一個芯片的核心數(shù)是Nvdia?A100的123倍,芯片緩存為1000倍,緩存帶寬為12733倍,F(xiàn)abric結構帶寬則為45833倍。
這樣級別的性能怪獸其主要目的,就是為了AI的數(shù)據(jù)處理和訓練。其一代芯片WSE,已經(jīng)有多個重量級用戶在使用,比如美國阿貢國家實驗室、勞倫斯利弗莫爾國家實驗室、匹茲堡超級計算中心、愛丁堡大學的超級計算中心、葛蘭素史克、東京電子器件等。
全球制藥巨頭葛蘭素史克的高級副總裁Kim Branson稱贊到,WSE的超強性能將訓練時間減少到之前的1/80。而在美國最大的科學與工程研究室阿貢國家實驗室,WSE芯片被用于癌癥研究,將癌癥模型的實驗周轉時間減少到1/300還少。
所以不難推斷出,“AI?Day”邀請函上面放出的這張圖,應該就是馬斯克所謂的Dojo超級計算機的自研芯片。并且頗有意思的是,發(fā)布會的時間是2021年8月19日,而就在剛好一年前的2020年8月19日,馬斯克發(fā)了一條推特說:“Dojo?V1.0還未完成,估計還需要一年的時間。不僅僅是芯片本身的研發(fā)難度,能效和冷卻問題也非常的難。“
之所以說冷卻問題難,是因為根據(jù)標準晶圓一塊是300mm來看,那么特斯拉這塊Dojo芯片設計單個芯片應該與RTX?3090差不多,至少每個芯片有280億-320億個左右的晶體管,單個芯片功耗可達250-300w左右,整體功耗約在6250w-7500w左右;并且臺積電也曾說InFo-SoW設計的最高功耗約為7000w,同樣印證了這一點。
幾個月后,他又補充道:“Dojo采用我們自研的芯片和為神經(jīng)網(wǎng)絡訓練優(yōu)化的計算架構,而非GPU集群。盡管可能是不準確的,但是我認為Dojo將會是世界上最棒的超算?!辈⑶遥R斯克在2021年Q1財報時也曾說:Dojo是一臺為神經(jīng)網(wǎng)絡訓練優(yōu)化的超級計算機。我們認為以視頻數(shù)據(jù)處理速度而言,Dojo將會是全世界效率最高的?!?
其實馬斯克早在2019年“Autonomous?Day”就提到過Dojo,稱Dojo是能夠利用海量的視頻(級別)數(shù)據(jù),做“無人監(jiān)管”的標注和訓練的超級計算機。
并且如果認真了解過2019年“Autonomous?Day”發(fā)布會,就會發(fā)現(xiàn),特斯拉推出Dojo超算以及自研芯片,是必然且在規(guī)劃中的事,是特斯拉不得不去做的事。?
換句話說,不是特斯拉想要成為人工智能巨頭,而是被逼無奈只能如此。
為什么要做Dojo?
其實這個問題馬斯克曾在推特中回復過,大致意思為:“只有解決了真實世界的AI問題,才能解決自動駕駛問題……除非擁有很強的AI能力以及超強算力,否則根本沒辦法……自動駕駛行業(yè)大家都很清楚,無數(shù)的邊緣場景只能通過真實世界的視覺AI來解決,因為整個世界的道路就是按照人類的認知來建立的……一旦擁有了解決上述問題的AI芯片,其他的就只能算是錦上添花?!?/p>
其實馬斯克已經(jīng)講的很清楚了,這里來稍微補充一些知識便于理解。
自動駕駛目前需要解決的難題,其實最核心和最困難的就是“感知”,換句話說系統(tǒng)對周圍駕駛環(huán)境的感知能力越強,其自動駕駛的綜合能力就越強;也就是從這里,行業(yè)里分成了兩大流派,一個是以特斯拉和Mobileye(同時也有Lidar方案)為首的純視覺方案;另外是其他所有相關公司,想盡可能加入更多的傳感器融合方案。
這里暫且不去討論究竟哪條路徑是正確的,因為很有可能未來實現(xiàn)殊同同歸的結果。
但是,無論是哪條路徑,都需要對海量的數(shù)據(jù)進行深度學習,也就是對神經(jīng)網(wǎng)絡的訓練,才有可能實現(xiàn)所謂完全自動駕駛,而且這是唯一途徑。
原因很簡單,自動駕駛的問題,可以理解為處理可能遇到的各種駕駛場景以及做出的操作,那么這個基本是“無限”的;如果有有限的編程方式,那么永遠無法解決所有可能遇到的問題,或者說以人類的能力,根本無法覆蓋那么多種變化的情況。
早期的各種自動駕駛系統(tǒng),由于沒有別的途徑,只能用這樣的“死板”方式去研發(fā)軟件,所以其能力非常有限,只能應付相對穩(wěn)定和條件限制較多的場景。
而如果想要實現(xiàn)識別各類型的場景,那么就需要這個“軟件”不斷自我適應和“進化”,這就是利用神經(jīng)網(wǎng)絡進行深度學習的原因了。
神經(jīng)網(wǎng)絡可以簡單理解為通過“仿生學”模擬人類大腦皮層的神經(jīng)元“溝通學習”的方式進行處理數(shù)據(jù),用來實現(xiàn)“類人”的學習東西的方式。然而,概念很美好,現(xiàn)實很殘酷。
1943年Warren McCulloch和Walter Pitts曾寫過論文講述人工神經(jīng)網(wǎng)絡該如何工作,并且利用電路造了一個簡單的模型。后來經(jīng)過諸多人的努力和研究發(fā)展,直到1998年,斯坦福大學的Bernard?Widrow和Marcian?Hoff才打造出了第一套用于解決實際問題的人工神經(jīng)網(wǎng)絡。
1956年,達特茅斯夏季會議上各路大牛提出了AI定義,大大推動了AI和人工神經(jīng)網(wǎng)絡的發(fā)展,也被廣泛人為是AI元年。當時人們信心滿滿,認為不用20年就能打造出跟人腦差不多一樣的AI系統(tǒng)。結果在不斷研究中發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡的算法太過復雜,從而無從下手。于是放棄了當初“大而全”的目標形式,轉為以執(zhí)行單一目標為方向。
這其中除了因為對人類大腦的認識非常膚淺(到現(xiàn)在也沒有進步多少),以及人工神經(jīng)網(wǎng)絡架構的局限和軟件算法的局限之外,更多的就是算力問題,也就是受到半導體行業(yè)發(fā)展的限制。?
李開復博士在做他的語音識別功能博士論文時,哪怕在當時他所采用語音數(shù)據(jù)庫算非常大的,其實也不過僅有100MB,卻花費了他導師近10萬美刀,在1988年相當于兩套房子的價格。而如今動輒幾個PB的數(shù)據(jù)量,算力成為了限制很多AI發(fā)展的瓶頸。
這里補充一個知識:不同的處理器芯片所具備的能力各不相同。例如CPU更多的通用計算,可以理解為總指揮,負責邏輯上更線性的計算和判斷;而GPU則是專職于圖像處理的芯片,能夠同時吞吐較大的數(shù)據(jù)量和進行矩陣計算,加之已經(jīng)是成熟的量產(chǎn)產(chǎn)品,所以被大量應用于AI學習。
而NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡處理器)則是從設計層面就專職為神經(jīng)網(wǎng)絡學習優(yōu)化的,像谷歌的TPU和特斯拉的FSD芯片都屬于NPU序列,這類芯片扔掉了類似GPU中不需要的功能,僅為神經(jīng)網(wǎng)絡所需要的數(shù)據(jù)處理形式服務,其速度和能效要高很多。
但是,這里還需要區(qū)分ASIC(Application Specific Integrated Circuit,專用集成電路)芯片和FPGA(Field Programmable Gate Array,可編程邏輯門陣列)芯片,其中ASIC芯片就是生產(chǎn)后,其運行邏輯和功能就固定了,不能修改,為某項任務(軟件)而生,能效極高;而FPGA則是可以通過軟件改變其運行邏輯,為半定制的芯片,可以通過軟件對其進行修改,適合進行訓練和優(yōu)化所用,能效相比ASIC芯片低一些。像TPU和FSD都屬于ASIC芯片,而特斯拉此次發(fā)布的Dojo芯片就屬于FPGA序列。?
回過頭來,市場上既沒有符合需求的車載芯片可用,也沒有符合需求的超算來更好的利用這些數(shù)據(jù),特斯拉想要實現(xiàn)這一切,在當時只有自己去做軟件和硬件,當年特斯拉在2016年立項做FSD芯片時,谷歌的專屬AI芯片TPU才剛剛問世,而車載的AI芯片幾乎沒有能用的。
所以,當年很可能FSD和Dojo的立項時間不會差太遠,只是由于考慮到能耗和需求問題,Dojo等到7nm的技術相對成熟后,才開始逐步推進。
從另一個緯度上去理解Dojo的必然性,是從神經(jīng)網(wǎng)絡學習的計算量級上去理解。在2019年“Autonomous?Day”發(fā)布會上,特斯拉其實已經(jīng)明示了會去掉雷達,走向純視覺,且是視頻級別的數(shù)據(jù)進行直接處理。
舉個簡單的例子,一張1080p的圖像,以最簡單的神經(jīng)網(wǎng)絡結構,如果不利用激活函數(shù)(tanh、ReLU)進行數(shù)據(jù)“優(yōu)化”,其運算量大概需要4萬多億次;即便采用激活函數(shù)優(yōu)化的卷積神經(jīng)網(wǎng)絡處理,其運算量也將達到1.3億多次;而如果以視頻形式處理,一秒按24幀計算,也有24張圖像,綜合算下來其運算量是驚人的。
值得注意的是,自動駕駛收集的數(shù)據(jù)中95%左右都是無效數(shù)據(jù),也就是對神經(jīng)網(wǎng)絡訓練壓根沒用,簡單理解來說就是你每天做幾乎相同的卷子,是得不到任何提升的。所以即便特斯拉的車輛僅在特定觸發(fā)條件下才會收集部分數(shù)據(jù),但得到的數(shù)據(jù)量依然非常龐大,需要Dojo這樣為特斯拉自身軟件優(yōu)化過的定制超算,才能大大提高效率。
此外,前文提到過“無監(jiān)督訓練”也是Dojo的另一個核心目的,用于大幅度提高訓練效率。?
在神經(jīng)網(wǎng)絡訓練中,其實海量的研究人員都是“調(diào)參俠”,簡單理解也就是通過不斷調(diào)“權重”來讓神經(jīng)網(wǎng)絡判斷越來越準確,或者是通過人工標注各種“正確答案”,讓其學習。這就會導致“人”成為了效率的短板,從而致使整個過程的訓練速度大幅降低。而如果實現(xiàn)“無監(jiān)督訓練”,也就是系統(tǒng)自己通過海量數(shù)據(jù)和以前“學習”的結果進行自動標注和調(diào)整,那么其效率將會是量子級別的提升。
舉個簡單的例子,谷歌的Alpha?Go擊敗世界圍棋大師相信很多人都知道,也是一個人工智能在特定領域擊敗人類的標志事件。作為對比,Alpha?Go經(jīng)過人工參與調(diào)整和標注的訓練結果,經(jīng)歷了幾年時間擊敗了全球高手。而作為無監(jiān)督訓練的范例Alpha?Zero,僅用三天時間自己與自己對弈,就擊敗了Alpha?Go?Lee,在21天打到了Alpha?Master的水平,并在40天超越了所有的舊版本。?
總結起來,如果特斯拉完成了Dojo的打造,那么就能夠以驚人的效率用海量的數(shù)據(jù)進行訓練,解決各種“邊緣場景”的問題,加快自動駕駛系統(tǒng)的成熟和完善;更關鍵的是,特斯拉對其軟硬件的垂直整合度非常高,不僅不受制于別人,而且能夠以此作為服務,給外界提供深度學習的訓練業(yè)務。
馬斯克曾表示,一旦相對完善了Dojo,將會開放Dojo作為服務給外界提供訓練業(yè)務,并且Dojo能夠承接幾乎所有的機器學習任務。?
這也是為什么馬斯克敢說,未來特斯拉將會是最大的幾家人工智能公司之一。
會有One?More?Thing嗎?
此次特斯拉的“AI?Day”,不出意料的話會把Dojo芯片作為最重點的內(nèi)容進行軟硬件的介紹;當然也會覆蓋FSD?Beta相關的進展介紹,但就目前的信息來看,還極有可能會推出新的基于7nm技術的HW4.0硬件。
畢竟在2019年“Autonomous?Day”時,馬斯克就說過HW4.0的研發(fā)已經(jīng)進行了一半,所以此次發(fā)布會,也很有可能借此機會發(fā)布新的車載芯片硬件。
總之,此次特斯拉“AI?Day”發(fā)布會,很有可能再次在汽車行業(yè)甚至是AI領域掀起一波浪潮,至于到底會不會有更多的驚喜,那就到等那天才能揭曉了。
來源:蓋世汽車