云基礎設施處理器CIPU(Cloud infrastructure Processing Units ),是阿里云為新型云數據中心設計的專用處理器,用于加速和管控計算資源,將替代CPU成為云時代IDC的處理核心。在這個全新體系架構下,CIPU向下對數據中心的計算、存儲、網絡資源快速云化并進行硬件加速,向上接入飛天云操作系統(tǒng),管控阿里云全球上百萬臺服務器。
1、CIPU的三大特性:
- 網絡:對高帶寬物理網絡進行硬件加速,通過建設大規(guī)模的eRDMA分布式高性能網絡,實現RDMA技術的普惠化;
- 存儲:對存算分離架構的塊存儲接入進行硬件加速,提供超高性能的云盤;
- 計算:快速接入不同類型資源的神龍計算平臺,帶來算力的“0”損耗,以及硬件級安全的加固隔離。
2、為什么要有CIPU?
過去十多年,云計算技術發(fā)展經歷了兩個階段:
- 第一階段是分布式技術,推動互聯網企業(yè)從大機向分布式系統(tǒng)整個遷移;
- 第二階段誕生了資源池化技術,通過計算存儲分離的架構,對資源統(tǒng)一的調度編排,提高云計算的可靠性和可用性。
這兩個階段都是以CPU為中心的計算體系架構,解決了部分計算的需求。但云上客戶的需求發(fā)生了巨大的變化,就像內燃機發(fā)明之后,人類對載具速度的想象力從馬車時代進入了汽車時代。
隨著數據密集型計算越來越多,傳統(tǒng)以CPU為中心的計算體系架構無法適應這一趨勢:
第一,以CPU為中心的架構導致了計算和網絡傳輸的時延大;
第二,大數據應用增多,導致數據中心內部數據遷移量增多,以CPU為中心的架構無法提供高帶寬;
第三,管理的基礎設施規(guī)模越來越大,阿里云在全球27個國家和地區(qū)、84個可用區(qū)管理著超過上百萬臺服務器,基于CPU為中心的架構無法解決超大規(guī)模的復雜管理問題。
為了解決以上問題,需要對數據中心內部的云計算體系架構進行改革創(chuàng)新,從以CPU為中心的體系架構進入以飛天操作系統(tǒng)+CIPU為中心的體系架構。
3、CIPU帶來哪些改變?
基于CIPU和飛天操作系統(tǒng)的新一代云計算架構體系,無論是在分布式應用還是人工智能的場景測試中,都展現了優(yōu)越的性能。
存儲方面,通過全硬件虛擬化和轉發(fā)加速,存儲時延最低可至30us(PLX),IOPS高達300萬,存儲帶寬可達200 Gbps,全面超越市面上所有云產品,云端能提供比本地更安全可靠且高性能的存儲能力。
網絡方面,基礎帶寬從100G升級至200G,VPC的PPS轉發(fā)性能從2000萬提升至4000萬,網絡時延從22us降低至16us,RDMA協議下更可低至5.5us。應用上云之后,比自建物理機的集群吞吐量提升了30%,業(yè)務高峰期延遲下降了90%。
計算方面,單容器虛擬化消耗減少50%,虛擬化容器啟動速度快350%。主流通用計算場景下,Nginx性能提升了89%,Redis性能提升了68%、MySQL提升了60%。大數據和AI 場景下,AI深度學習場景訓練性能提升30%,Spark計算性能提升30%。同時,神龍計算平臺可以提前預測80%的硬件故障,并進行無感熱遷移規(guī)避,從而實現了業(yè)界領先的高可用SLA。
4、一圖看懂阿里云CIPU
附:阿里云的自研技術體系介紹
過去13年,阿里云自主研發(fā)了飛天云操作系統(tǒng),并構建出自研芯片、服務器、計算、存儲、網絡等軟硬一體的新型計算體系架構。
飛天是中國唯一自研云操作系統(tǒng),將遍布全球的上百萬臺服務器連接成一臺超級計算機,單集群可達10萬臺規(guī)模,千億級文件數,EB級別存儲空間。2018年,飛天獲得中國電子學會15年來第一個科技進步特等獎。
在2021年11月發(fā)布的Gartner IaaS + PaaS 綜合解決方案記分卡中,阿里云被認為是所有被評估的全球供應商中得分第三高的解決方案,在計算、存儲、網絡、安全等核心能力中,阿里云也均獲得最高分。
- 一云多芯,發(fā)布第一顆CPU芯片倚天710
傳統(tǒng)IT時代圍繞芯片建立IT生態(tài),但云計算從根本上改變了這一模式,云操作系統(tǒng)可以將服務器芯片、專用芯片等硬件封裝成標準算力,無論底層芯片是X86、ARM、RISC-V還是硬件加速,給客戶提供的都是標準的、高質量的云計算服務。
2021年9月,阿里云在云棲大會上發(fā)布了首款通用芯片倚天710。作為一款為云而生的芯片,倚天710針對云計算特點做了大量優(yōu)化,性能超過業(yè)界標桿20%,能效比提升50%以上。
架構層面,倚天710采用最新ARMv9架構,多達128核,主頻最高3.2GHz,可同時兼顧性能和功耗。同時,集成了業(yè)界最領先的DDR5、PCIE5.0等技術,能有效提升芯片的傳輸速率,并且可適配云的不同應用場景。
目前,倚天710已在阿里云數據中心內部規(guī)模化部署,并順利支撐2021年雙11等多個核心業(yè)務。今年4月,基于倚天710的公共云 ECS實例已上線邀測。
- 自研服務器&操作系統(tǒng)
阿里云在去年9月發(fā)布了自研的磐久服務器和龍蜥服務器操作系統(tǒng)。磐久服務器采用了最新型的模塊化設計,可實現計算存儲分離,包括了高性能計算系列、大容量存儲系列、高性能存儲系列等,擁有風冷、液冷等不同散熱模式,服務器交付效率提升50%。
針對云原生時代容器化、微服務、持續(xù)交付等特點,磐久系列采用軟硬件融合方式實現極致性能,結合自研的MOC、FIC、AliFPGA、神盾卡等,滿足云原生的創(chuàng)新開發(fā)對性能和穩(wěn)定性的機制要求。在多核技術加持下,磐久系列的計算性能、IO吞吐、能效比的表現都居于業(yè)界領先水平。
龍蜥定位于服務器端操作系統(tǒng),支持 X86、ARM、龍芯(LoongArch)等多種芯片架構和計算場景,性能和穩(wěn)定性經受住了歷年雙11的嚴苛考驗,為云上典型場景帶來40%的綜合性能提升,故障率降低50%,兼容CentOS生態(tài),支持一鍵遷移,并提供全棧國密能力。
- 計算層:神龍
為了解決服務器長久以來的虛擬化性能損耗的問題,阿里云自主研發(fā)了神龍架構。神龍與CIPU結合,可將虛擬化轉移到專用硬件中進行加速,可將物理機的高性能與虛擬機的靈活性融為一體,虛擬化損耗幾乎為零,性能比傳統(tǒng)物理機更強勁,還可隨時擴容,極大降低了客戶的成本。神龍不僅解決了云上虛擬化性能損耗的痛點,更讓云服務器的性能表現超越了傳統(tǒng)物理機。
基于神龍彈性計算集群,無論是在分布式應用還是人工智能的場景測試中,都展現了優(yōu)越的性能,例如Redis性能提升了68%、MySQL提升了60%。在應用上云之后,比自建物理機的集群吞吐量提升了30%,業(yè)務高峰期延遲下降了90%。高穩(wěn)定性是算力作為基礎服務設施的一個關鍵,在GPU服務器、CPU服務器和其他的異構服務器這些關鍵計算服務中,阿里云服務器的各項性能始終處于業(yè)界領先的水平。除此之外,神龍計算平臺可以提前預測80%的硬件故障,并進行無感熱遷移規(guī)避,從而實現了業(yè)界領先的高可用SLA。
- 存儲層:盤古
盤古是阿里云自研的分布式存儲系統(tǒng),是阿里云底層的統(tǒng)一存儲架構,采用了分布式系統(tǒng)先進的容錯架構和柔性平臺設計,具備彈性伸縮、自動負載均衡等能力,大幅提高了存儲系統(tǒng)的可靠性和安全性,可支持塊存儲、對象存儲、表格存儲、文件存儲、離線大數據處理等多種存儲模式。
在云存儲技術演進的過程中,盤古引領行業(yè)從毫秒級存儲向微秒存儲的時代演進,推動面向數據中心ZNSSSD國際標準的發(fā)展,與WD共同提出NVMeZNS國際技術標準(NVMe2.0),是目前云計算業(yè)內最為先進的軟硬一體深度融合的分布式存儲系統(tǒng)。目前已經圍繞盤古系統(tǒng)獲得發(fā)明專利超過190件。
今天,基于盤古系統(tǒng),阿里云已建起全球最豐富的云存儲產品家族,從公共云存儲到混合云存儲,從數據遷移到云上豐富的數據管理服務,為客戶提供99.9999999999%的數據可靠性。全球部署規(guī)模已超100EB,憑借多層次防護、跨區(qū)域容災等能力連續(xù)三年入選Gartner全球云存儲魔力象限,被列為全球領導者地位。9月26日,盤古還入選了2021烏鎮(zhèn)世界互聯網大會·世界互聯網領先科技成果。
- 網絡層:洛神
洛神云網絡是阿里云飛天云操作系統(tǒng)的核心技術平臺,支撐起百萬級的用戶業(yè)務部署,讓更多能夠人體驗到云計算帶來的高效便捷服務;秉承“讓網絡更簡單”的理念,提供了從萬物上云網絡、全球化網絡到數據中心組網、應用交付網絡覆蓋用戶云上網絡全場景的產品和服務。
洛神云網絡經歷12年的快速發(fā)展,從1.0時代發(fā)布國內首個VPC,再到2.0時代打造了全球領先的“三位一體“(軟硬一體,超強性能;伸縮一體,無限彈性;云網一體,極致服務)創(chuàng)新型云網絡架構。
2021云棲大會上,阿里云重磅推出洛神云網絡3.0新平臺架構,主要特點包括:讓中心云到本地云和邊緣云都有一致性的云網絡體驗;通過全新的物聯網云連接器和智能接入網關讓萬物都能上阿里云;全新升級的各類網元產品提升應用在云上的安全性和靈活性;全新發(fā)布的網絡智能服務,為用戶提供從規(guī)劃到使用的智能助手;同時洛神云網絡3.0也通過開放合作來賦能產業(yè)。
- 自研數據庫
阿里自研的數據庫起源于“去IOE”浪潮。2013年7月10日,淘寶核心系統(tǒng)中的最后一臺Oracle數據庫下線。這是“去IOE”非常重要的一個節(jié)點。經過三年的研發(fā),阿里云于2017年9月發(fā)布了自主研發(fā)的云原生數據庫PolarDB,并于2018年4月正式商用。
阿里云提供了國內最豐富的數據庫產品,除了智能化的企業(yè)級云數據服務RDS之外,阿里云自研了面向不同核心應用場景的云數據庫產品,形成了以PolarDB、AnalyticDB、Lindorm為核心的面向在線交易處理、分析與多模、HTAP、物聯網等不同場景的云數據庫產品矩陣,滿足客戶不同業(yè)務場景的需求。
作為阿里云自研數據庫的明星產品,2021年,自研數據庫PolarDB首次實現了內存與計算、存儲的解耦,內存進一步池化,形成三層池化,使得彈性能力有數量級的提升。同時PolarDB還首次實現了多主架構,進一步提升可用性、并發(fā)處理、彈性能力,高效應對“雙11”般的流量洪峰。
- 綠色數據中心
阿里云是國內最早實踐綠色數據中心的廠商之一,目前阿里云自建的數據中心都已達到國家綠色數據中心標準,全年平均PUE小于1.3。
從阿里巴巴自身減碳實踐看,近年來已經有一系列成果。2020年9月,阿里仁和數據中心落地杭州,成為國內首座綠色5A級液冷數據中心,同時也成為了全球規(guī)模最大的全浸沒式液冷數據中心。相比傳統(tǒng)數據中心,其PUE最低可以達到1.09,每年可省電7000萬度,足夠西湖周邊所有路燈連續(xù)點亮8年;而阿里巴巴張北數據中心則成為行業(yè)首個碳普惠試點項目,獲評“2020年國家綠色數據中心”。
?