ChatGPT的出現(xiàn)使通用人工智能演進迭代方向清晰,要讓大模型真正發(fā)揮生產(chǎn)力作用,接下來的關鍵是路徑設計
【資料圖】
文/謝麗容
7月6日,一個極其細分的行業(yè)大模型被外界關注。由中國商飛上海飛機設計研究院開發(fā)的三維超臨界機翼流體仿真大模型“東方·翼風”,可以提升大飛機三維翼型設計速度1000倍,大大縮短商用大飛機研發(fā)周期。
此時,普通人對于ChatGPT的好奇和新鮮感逐步褪去,中國人工智能領域的新一輪迭代剛剛開始。眾多涌入大模型賽道的團隊和公司,需要考慮的是如何讓大模型在產(chǎn)業(yè)和經(jīng)濟領域發(fā)揮真正的生產(chǎn)力作用。
仔細分層剖析商飛的“東方·翼風”大模型,它有兩個必備要素:其一,大模型技術底盤,這不是商飛擅長的,由華為提供;其二,流體領域專家經(jīng)驗、數(shù)據(jù),具體的設計思路,這是商飛擅長的。
科技公司和行業(yè)公司各司其職,技術演化成新生產(chǎn)力,推動產(chǎn)業(yè)和經(jīng)濟發(fā)展,這個邏輯在社會商業(yè)系統(tǒng)始終未變,人工智能領域,也將繼續(xù)遵循這個邏輯。
基于對AIGC大模型長期演進方向的篤定,中美大型科技公司均在今年早些時候相繼發(fā)布了各自的戰(zhàn)略目標和策略。華為的定位和路徑是什么?華為公司此前并未發(fā)布確定性定論。
華為輪值董事長胡厚崑7月6日在世界人工智能大會上給出了定論。他說,人工智能的發(fā)展,關鍵在于“走深向實”,華為的定位是賦能產(chǎn)業(yè)升級,服務好千行百業(yè)、服務好科學研究。
圍繞這個定位,華為有兩個路徑:其一,算力領域,打造強有力的算力底座。其二,大模型領域,從通用大模型到行業(yè)大模型,真正讓人工智能使能行業(yè),助力科研。
簡單理解,關鍵詞是“基礎”和“做實”,算力,定位是算力底座;大模型,目標是千行百業(yè)。
胡厚崑在這次演講中公布了一組數(shù)字:面向大模型的創(chuàng)新,華為提供了全流程的使能平臺,支撐科研機構和企業(yè)客戶,原生孵化了20多個基礎大模型,同時適配10多個業(yè)界主流的大模型,中國大模型中約一半由昇騰AI支撐。
這個成績很是亮眼,但技術的盡頭是商業(yè),大模型的價值,最終要在千行百業(yè)的生產(chǎn)力提升上顯現(xiàn)。今年3月,華為創(chuàng)始人任正非提到,人工智能軟件平臺公司對人類社會的直接貢獻可能不到2%,98%都是對工業(yè)社會、農(nóng)業(yè)社會的促進。因此,要關注應用,尤其是工業(yè)、農(nóng)業(yè)社會的應用,模型的應用有時比模型本身還有前途。
大模型究竟為行業(yè)做什么?
行業(yè)大模型究竟可以在哪些領域貢獻生產(chǎn)力,華為自研的盤古大模型兩年多來的實踐可供參考。
7月7日,華為常務董事、華為云CEO張平安在華為2023開發(fā)者大會上發(fā)布了盤古大模型3.0版本。盤古大模型2019年立項,第一代版本在2021年4月對外發(fā)布。
和ChatGPT通用大模型的屬性不同,盤古大模型從立項之初就為行業(yè)而生,早期版本包括CV大模型、NLP大模型、科學計算大模型等。
盤古大模型3.0版本包括“5+N+X”三層架構,即基礎模型、行業(yè)模型和場景模型,胡厚崑解釋,最底層的基礎模型,做好海量基礎知識的學習,相當于“讀萬卷書”,打好基礎;在此之上,針對不同的行業(yè)、不同的場景,進行專項知識和經(jīng)驗的訓練,打造好用、易用的行業(yè)模型和場景模型,相當于“行萬里路”。
盤古大模型現(xiàn)階段目標是工業(yè)領域。胡厚崑透露了一組數(shù)據(jù)信息:自2021年發(fā)布以來,盤古大模型已經(jīng)落地金融、制造、政務、煤礦、鐵路等10多個行業(yè),支撐400多個業(yè)務場景的AI應用落地。
工業(yè)不是一個泛指,科研和生產(chǎn)兩大領域均要全面布局。
在科研領域,華為目前已經(jīng)推出藥物分子、氣象和海浪等一系列大模型。胡厚崑尤其提到了盤古的氣象大模型。盤古氣象大模型1小時-7天的預測精度,超過歐美氣象中心的表現(xiàn),相關論文在國際期刊《Nature》雜志上發(fā)表。
氣象預測是科研領域的一個重難點。以臺風為例,全球每年大約會生成80個臺風,其中影響西北太平洋和南海的大約有25個,平均有7個會登陸中國。2022年臺風災害造成的直接經(jīng)濟損失54.2億元。
傳統(tǒng)的氣象預測采用HPC高性能計算機來計算,如果要預測一個臺風未來十天的路徑,需要在超級計算機上,利用超過3000個節(jié)點的超級計算機上花費數(shù)小時進行仿真。缺點是資源消耗大,預測耗時長,成本高。
盤古氣象大模型是首個精度超過傳統(tǒng)數(shù)值預報方法的AI氣象預測方法。
從預測的精準度角度來看,它是一種3D高分辨率AI氣象預報方法,空間分辨率上,水平精度是在0.25°×0.25°這樣的精度上,大概對應的物理范圍是28公里×28公里,高度上是將空間從海平面到高空分層13個等壓層,會使得預報更精準;
從資源消耗來說,只需要單機單卡,10秒內就可完成一次氣象預測;
從預測的頻來說,傳統(tǒng)預報是六個小時預測一次,盤古可以做到一個小時做一次預測。
去年8月,盤古氣象大模型預測臺風“馬鞍”的軌跡和登陸時間,準確率達90%,遠超行業(yè)平均水平。今年5月,華為盤古大模型提前五天預報出臺風“瑪娃”將在中國臺灣島東部海域轉向路徑。
盤古氣象大模型的訓練數(shù)據(jù)來源是過去40多年全球開放的氣象數(shù)據(jù),目前對外提供API接口,可提供天氣預測、海浪預測、臺風路徑預測、寒潮/高溫預報等多種氣象預測。
7月6日,華為云盤古氣象大模型研究成果在《Nature》正刊發(fā)表。這是中國科技公司十年來首篇作為唯一署名單位發(fā)表在《Nature》正刊上的論文。
在科研領域,盤古的藥物分子大模型也有所進展。新藥研發(fā)周期漫長眾所周知。一款新藥研發(fā)通常需要10年時間、花費10億美金;盤古藥物分子大模型的推進性表現(xiàn)在,可以將先導藥物研發(fā)周期縮短至1個月,研發(fā)成本降低70%。
今年5月,西安交通大學第一附屬醫(yī)院劉冰教授基于華為云盤古藥物分子大模型,研發(fā)出一款超級抗菌藥Drug X。據(jù)介紹,Drug X有望成為全球近40年來首個新靶點、新類別的抗生素,改變病人面對“超級耐藥菌”感染時無藥可用的局面。
在工業(yè)生產(chǎn)領域,盤古礦山大模型的落地有一定代表性。
煤礦生產(chǎn)是一項復雜、危險性較高的工作,中國采礦業(yè)現(xiàn)狀是,300米井下仍需大量人員現(xiàn)場作業(yè),通過人工智能來實現(xiàn)“少人無人”的安全高效作業(yè)是煤礦智能化追求的重要目標。不過,這件事并不好做,人工智能在煤礦行業(yè)落地存在著場景需求多、礦山間復制難、場景落地難等現(xiàn)實問題。
場景多、落地難,導致此前的人工智能解決方案,多是針對某個或某幾個特定的場景去特定解決。
通用基礎大模型的優(yōu)勢在于“通用”和“自學習”。盤古礦山大模型只需導入海量無標注的礦山場景數(shù)據(jù)進行預訓練,即可進行無監(jiān)督自主學習,一個大模型可以覆蓋煤礦的采、掘、機、運、通、洗選等業(yè)務流程下的1000多個細分場景的通用。
大模型的“通用”如何體現(xiàn)在煤礦場景里?可以用行業(yè)泛化性的特點來理解,比如,已經(jīng)開發(fā)訓練完成的場景算法模型應用到其他相似場景時,僅通過少量新場景數(shù)據(jù)加入訓練,即可實現(xiàn)新場景快速復制部署。
如何理解大模型在具體煤礦里的“自學習”特性?煤礦場景非常多,異常場景無法窮舉,盤古大模型會大量學習正常樣本特征,在日常AI監(jiān)控過程中自動識別異常樣本,發(fā)現(xiàn)并確認異常場景。另外,構建半自動化機制,邊端識別誤報/未知異常樣本,人工進行甄別后,樣本數(shù)據(jù)用于重新訓練升級模型,持續(xù)迭代,越用越好。
盤古礦山大模型目前在全國8個礦井規(guī)模使用。另一個新消息是,山東能源正在與華為云基于盤古大模型聯(lián)合創(chuàng)新,覆蓋7大業(yè)務系統(tǒng),正在開發(fā)和實施首批21個應用場景。
無論是科研還是生產(chǎn),大模型在千行百業(yè)中效率確定性和收益確定性正在被驗證。
過去十幾年,上一代AI算法已經(jīng)在各行各業(yè)(通過大數(shù)據(jù)或充分的訓練數(shù)據(jù))開啟生產(chǎn)力的變革,比如推薦算法和千人千面,工業(yè)領域的智能機械臂,交通領域的車輛自動巡航。
該階段的大部分算法開展方向更多傾向于小模型,通過在某一特定領域的固定場景特定數(shù)據(jù),訓練出以服務于指定場景操作的輔助模型,以提高在對應場景下的生產(chǎn)效率。
將通用大模型訓練的結果通過行業(yè)大模型的方式帶到產(chǎn)業(yè)的科研和生產(chǎn)流程中去,意味著發(fā)展了大半個世紀的人工智能領域步入了廣泛意義生產(chǎn)力提升的新時期。
做強算力底座
人工智能的發(fā)展,算力是基礎。但在中國當前的情況下,算力在可獲取性和成本方面,都面臨著不小的挑戰(zhàn)。胡厚崑在發(fā)言中提到,華為在人工智能領域的另一個重要目標,是做強算力底座,讓算力不再成為人工智能發(fā)展的瓶頸。
中國信通院《中國算力白皮書(2022)》按照服務器算力總量估算(年服務器出貨規(guī)?!廉斈攴掌髌骄懔Γ┓Q,全球算力規(guī)模美國占比34%,中國占比33%,歐洲占比14%,日本占比5%,其他國家或地區(qū)占比14%。
此外,硬件和軟件將仍然是人工智能市場上的主角,市場調研機構IDC在今年5月公布的數(shù)據(jù)預測,2026年中國人工智能市場規(guī)模將達到269億美元,其中硬件148.5億美元,軟件76.9億美元,服務38.9億美元。硬件、軟件、服務的年復合增長率分別為15.1%、 32.0%、28.5%。
面對如此之大的市場,華為需要根據(jù)自身的基因和優(yōu)勢來綜合排布。
在算力能力的建設方面,華為的關鍵詞是“自研”和“開放”。在相對底層的計算效率研究方面,華為的打法是架構創(chuàng)新。多年投資基礎研究,推出自主研發(fā)的達芬奇架構,用創(chuàng)新的處理器架構來匹配算力的增速。
最新的消息是,華為在計算節(jié)點層面推出了對等平構架構,突破傳統(tǒng)的以CPU為中心的異構計算帶來的性能瓶頸,從而提升整個計算的帶寬、降低時延,節(jié)點性能得到30%的提升。
在算力至關重要的芯片處理器領域,華為也有自己的打法。2018年,基于自研的達芬奇架構,華為推出昇騰處理器,昇騰處理器和華為此前推出的鯤鵬處理器有所不同。在架構上,鯤鵬芯片采用的是ARM架構,而昇騰芯片采用的是自研的達芬奇架構;鯤鵬芯片主要支持高性能計算和大數(shù)據(jù)處理,而昇騰芯片主要支持深度學習推理和訓練。
另外,鯤鵬芯片的性價比較高,適合大規(guī)模部署,而昇騰芯片的性能更高,可以滿足更復雜的需求。
換句話說,昇騰處理器是對標目前大模型部署中炙手可熱的英偉達A100的。兩家公司的官方理論數(shù)據(jù)顯示,理論值上,華為昇騰910芯片在理論性能和功耗上與英偉達主流的A100、H100可以基本相當,但在實際場景中,昇騰芯片相對稚嫩,還有不少可完善空間。
華為正在做的另一件事情是,圍繞昇騰芯片打造昇騰AI集群,結合華為的基因特點,發(fā)揮云、計算、存儲、網(wǎng)絡、能源的綜合優(yōu)勢??梢岳斫鉃榘袮I數(shù)據(jù)中心當成一臺超級計算機來設計,使昇騰AI集群性能更高、更可靠。
華為目前在國內建設的規(guī)模最大的AI計算集群在深圳鵬城云腦II期,目前算力是1000P的規(guī)模,按照規(guī)劃,到2024年三期的時候,規(guī)模會達到16000P的水平。
鵬城云腦II實現(xiàn)了全棧軟硬件的自主可控,蟬聯(lián)了多項全球AI性能榜單的冠軍?!谤i城云腦Ⅱ”搭載了4096顆華為昇騰AI芯片,每顆芯片的算力與英偉達的A100相當,整機算力達到每秒100億億次AI運算,能為大模型訓練提供強大的算力支持。目前,“鵬城云腦”約70%的機時對外開放服務,已支撐近千個國產(chǎn)AI大模型的訓練。
中國工程院院士高文是鵬城實驗室主任。高文在7月6日的世界人工智能大會上提到,美國的算力指數(shù)排名全球第一,比中國大概多了20%-30%的算力,GDP也比中國多20%-30%,“什么時候我們的算力超過了美國,GDP也有望超過美國。所以發(fā)展人工智能和經(jīng)濟沒有匹配的算力是不可能的?!?/strong>
在硬件方面,華為不直接對外銷售處理器,優(yōu)先支持合作伙伴發(fā)展整機。今年開始,華為在硬件方面進一步開放,推出了更多樣化的模組和板卡,30多家硬件合作伙伴基于昇騰AI,推出了上百款人工智能硬件產(chǎn)品,以滿足不同行業(yè)場景差異化的需求。
因此,可以理解華為的昇騰AI集群創(chuàng)新邏輯是,在各單點創(chuàng)新的基礎上,充分發(fā)揮云、計算、存儲、網(wǎng)絡、能源的綜合優(yōu)勢進行架構創(chuàng)新。據(jù)了解,目前,昇騰AI集群已支撐全國25個城市的人工智能計算中心建設,其中7個城市公共算力平臺入選首批國家“新一代人工智能公共算力開放創(chuàng)新平臺”。
7月6日,華為宣布昇騰AI集群全面升級,集群規(guī)模從最初的4000卡集群擴展至16000卡,是業(yè)界首個萬卡AI集群,擁有更快的訓練速度和30天以上的穩(wěn)定訓練周期,這是行業(yè)平均水平的10倍。
在中國,算力需求是多種多樣的,華為的策略是面向政府、大型企業(yè)、中小企業(yè)分別提供不同的算力解決方案。
在城市算力基礎設施方面,華為為各地政府打造人工智能計算中心,提供普惠的算力基礎設施服務。據(jù)統(tǒng)計,全國已有25個城市,如上海、武漢、西安等,基于昇騰AI建設了人工智能計算中心。
另一方面,針對有自建人工智能算力中心訴求的大型企業(yè),華為的打法是幫助它們構建獨立的算力中心。當前,中國移動、科大訊飛、南方電網(wǎng)等企業(yè)均在規(guī)劃和建設大規(guī)模的算力集群,華為是算力提供方之一。
中小企業(yè)對AI算力需求旺盛且分散。華為的策略是在華為云上提供AI算力服務,這些中小企業(yè)就可以快速敏捷地實現(xiàn)開發(fā)和應用AI,云上獲取,隨取隨用。
人工智能產(chǎn)業(yè)在中國走過十年道路,技術周期更迭,至今仍未形成模式化的穩(wěn)定格局。對于今天的華為來說,在人工智能領域,以大底盤的基礎布局來切入市場比單點應用要更有效率得多,規(guī)模效應有待后期釋放。始于2018年制裁,對華為整體布局打法的改變巨大,對中國人工智能產(chǎn)業(yè)的影響,或許比預期中的還要深遠。
關鍵詞: