(圖片來源:鈦媒體App編輯拍攝)
鈦媒體App獲悉,3月31日上午,騰訊、百度投資的國內(nèi)大模型領(lǐng)域AI Infra公司無問芯穹在上海發(fā)布無穹Infini-AI大模型開發(fā)與服務(wù)平臺(tái)。
無問芯穹表示,Infini-AI大模型開發(fā)與服務(wù)平臺(tái)包括一站式AI平臺(tái),以及兼容infini-megrez、Llama、ChatGLM等多個(gè)模型的大模型開發(fā)平臺(tái),利用GPU推理和加速技術(shù),提供大模型開發(fā)、訓(xùn)練、運(yùn)行、應(yīng)用的完整工具鏈。
清華大學(xué)電子工程系教授兼系主任,國家自然科學(xué)基金杰青、無問芯穹發(fā)起人汪玉教授早前表示,“現(xiàn)在大家都在做各種各樣的非常厲害的芯片,但是,但怎樣去把模型更好的部署在這些芯片上,讓做應(yīng)用開發(fā)等領(lǐng)域人員不會(huì)花費(fèi)額外的代價(jià),其實(shí)會(huì)極大推動(dòng)大模型研發(fā)。無問芯穹就是想要推動(dòng)大模型技術(shù)設(shè)施發(fā)展進(jìn)入各行各業(yè)?!?/p>
無問芯穹創(chuàng)始人、CEO夏立雪透露,大模型服務(wù)平臺(tái)于3月31日起開啟免費(fèi)公測(cè),給所有實(shí)名注冊(cè)的個(gè)人和企業(yè)用戶提供百億tokens免費(fèi)配額。一站式AI平臺(tái)于4月1日-4月30日限時(shí)免費(fèi)試用。
無問芯穹創(chuàng)始人、CEO夏立雪
據(jù)悉,無問芯穹(Infinigence AI)成立于2023年5月,是一家專注于為 AI 2.0時(shí)代提供完整解決方案的科技公司。
投融資層面,截至目前,無問芯穹并未公開融資,但工商信息顯示,騰訊、百度、紅杉中國、啟明創(chuàng)投、同歌創(chuàng)投、智譜AI、真格基金、光源資本、綠洲資本、經(jīng)緯創(chuàng)投、華控電科、北極光創(chuàng)投、金沙江創(chuàng)投、徐匯資本、南山資本等機(jī)構(gòu)均有投資入股無問芯穹。
無問芯穹創(chuàng)始團(tuán)隊(duì)來自清華大學(xué)電子工程系,致力于成為大模型落地過程中的\”M×N\”中間層,以打造大模型軟硬件一體化方案,鏈接上下游,建立AGI(通用人工智能)時(shí)代大模型基礎(chǔ)設(shè)施。
清華大學(xué)電子工程系教授兼系主任、無問芯穹發(fā)起人汪玉教授
無問芯穹發(fā)起人是汪玉教授。1982年出生的汪玉,本科、碩士、博士均在清華大學(xué),2007年汪玉選擇留校任教,是目前清華大學(xué)最年輕的系主任。同時(shí),清華大學(xué)電子工程系也是國內(nèi)半導(dǎo)體產(chǎn)業(yè)的“黃埔軍校”,包括燧原科技創(chuàng)始人兼CEO趙立東,前清華大學(xué)校長王希勤等人都畢業(yè)于該專業(yè)。
2016年1月,以汪玉教授為負(fù)責(zé)人的深度學(xué)習(xí)處理器項(xiàng)目,通過清華大學(xué)電子信息學(xué)院論證并獲得支持。隨后,項(xiàng)目團(tuán)隊(duì)以知識(shí)產(chǎn)權(quán)轉(zhuǎn)化入股、創(chuàng)立AI芯片公司深鑒科技,進(jìn)行產(chǎn)業(yè)化運(yùn)營。其學(xué)生姚頌、單羿是深鑒科技創(chuàng)始成員,投資方包括高榕資本、金沙江創(chuàng)投、三星風(fēng)投等機(jī)構(gòu)。2018年,深鑒科技被全球最大的FPGA廠商賽靈思收購,隨后賽靈思也被美國芯片巨頭AMD公司所收購。如今的無問芯穹,或?qū)儆谕粲竦摹岸蝿?chuàng)業(yè)”。
無問芯穹聯(lián)合創(chuàng)始人、CEO夏立雪博士則是汪玉的學(xué)生,于2018年在清華大學(xué)電子工程系獲得工學(xué)博士學(xué)位,于2013年在清華大學(xué)電子工程系獲得工學(xué)學(xué)士學(xué)位。此外,他還于2017年1月至6月赴杜克大學(xué)進(jìn)行為期半年的訪問學(xué)者。夏立雪的研究?jī)?nèi)容為深度學(xué)習(xí)算法的硬件設(shè)計(jì)優(yōu)化,關(guān)注層次主要包括算法層的模型壓縮、軟件層的算法編譯優(yōu)化、以及面向新興存儲(chǔ)計(jì)算元件RRAM的深度學(xué)習(xí)計(jì)算平臺(tái)體系結(jié)構(gòu)和容錯(cuò)方法研究等。
無問芯穹聯(lián)合創(chuàng)始人、CTO顏深根是中科院博士,北卡州立大學(xué)訪問學(xué)者,曾任商湯科技數(shù)據(jù)與計(jì)算平臺(tái)部執(zhí)行研究總監(jiān)、北京大學(xué)-商湯科技聯(lián)合實(shí)驗(yàn)室副主任,曾帶領(lǐng)上百人優(yōu)秀團(tuán)隊(duì)幫助商湯開發(fā)包括SenseParrots在內(nèi)的多個(gè)原創(chuàng)AI系統(tǒng),建立了接近2萬片GPU的超大規(guī)模高性能AI計(jì)算平臺(tái)。
無問芯穹聯(lián)合創(chuàng)始人兼首席科學(xué)家戴國浩,目前是上海交通大學(xué)長聘教軌副教授,CCC(清源研究院定制計(jì)算中心)Co-PI,DAI Group(人工智能設(shè)計(jì)自動(dòng)化創(chuàng)新實(shí)驗(yàn)室)負(fù)責(zé)人。戴國浩同為清華校友,分別于2014年和2019年取得清華電子工程系工學(xué)學(xué)士和博士學(xué)位。汪玉為其博士畢業(yè)論文指導(dǎo)老師。其主要研究方向是大規(guī)模稀疏圖計(jì)算、異構(gòu)硬件計(jì)算、新興硬件架構(gòu)等,畢業(yè)后,他曾為汪玉研究團(tuán)隊(duì)的助理研究員,后于2022年加入上海交大任副教授,方向?yàn)橄∈栌?jì)算、AI 電路與系統(tǒng)等。
2023年,以ChatGPT為代表的 AI 大模型風(fēng)靡全球,AI 2.0時(shí)代正在到來,而算力訓(xùn)練成本高、難以統(tǒng)一高效部署算力設(shè)施等,依然是大模型發(fā)展制約因素。
汪玉曾表示,大模型的涌現(xiàn)給 AI 、自動(dòng)駕駛、科學(xué)計(jì)算以及機(jī)器人等領(lǐng)域都帶來了顯著的促進(jìn)作用,但當(dāng)下,大模型落地面臨諸多挑戰(zhàn),算力供需平衡、大模型應(yīng)用降本需要軟硬一體協(xié)同優(yōu)化的AI生態(tài)。
“從個(gè)人的角度來看,當(dāng)前大模型主要面臨三個(gè)方面的挑戰(zhàn):第一,大模型面臨的算力限制;第二,當(dāng)前推理和包括訓(xùn)練在內(nèi)的成本相當(dāng)高,這是創(chuàng)業(yè)者和大公司普遍面臨的挑戰(zhàn);第三,面對(duì)獨(dú)特的算法和多元硬件的生態(tài),如何更有效地推動(dòng)這個(gè)生態(tài)的發(fā)展,也是當(dāng)前面臨的一個(gè)重要挑戰(zhàn)?!蓖粲癖硎?。
汪玉曾透露,訓(xùn)練GPT-4時(shí)需要使用到2.4萬張A100 GPU。而以不同類型的模型和用戶數(shù)來計(jì)算(推理階段),在自建算力集群的情況下,每天的費(fèi)用可能達(dá)到690萬。如果使用現(xiàn)有的API運(yùn)營,費(fèi)用可能更高。而假設(shè)GPT-4 Turbo每天要為10億活躍用戶提供服務(wù),每年的算力成本可能超過2000億元。
夏立雪博士曾表示,算力不足仍然是制約通用人工智能發(fā)展的重要因素。GPU Utils的一份數(shù)據(jù)顯示,全球目前 H100 等效算力的供給缺口達(dá)到 43 萬張。在解決算力不足的問題上,除了搶購和囤積英偉達(dá),更多的方案正在浮出水面。
去年7月的一場(chǎng)演講中,汪玉表示,無問芯穹是面向大模型的MxN軟硬件聯(lián)合優(yōu)化中間層的平臺(tái),利用其平臺(tái)設(shè)施,推理成本、微調(diào)成本、人力成本均有望降低10倍以上,同時(shí)文本長度也會(huì)增加10倍以上。
簡(jiǎn)單來說,無問芯穹做的任務(wù)屬于AI infra技術(shù),M層是大模型,N層是A100/H800等國內(nèi)外服務(wù)器硬件,通過算子優(yōu)化、自動(dòng)編譯、不同芯片耦合等技術(shù)一鍵部署模型。
“在芯片制造方面,我們面臨著算力密度的限制。目前大家正在討論的是1Tops/Watt的設(shè)計(jì),即每瓦特能夠提供1T次運(yùn)算(人腦的功耗大約為20瓦)。未來在某些任務(wù)上,我們需要硬件去達(dá)到每瓦特1000Tops/Watt的指標(biāo)。那么如何通過芯片實(shí)現(xiàn)1Tops/Watt,甚至幾百T或幾千Tops/Watt呢?過去幾年中,計(jì)算芯片通過尺寸微縮的紅利實(shí)現(xiàn)了各種各樣的專用處理器?,F(xiàn)在,我們開始關(guān)注近存儲(chǔ)計(jì)算和存內(nèi)計(jì)算,因?yàn)閿?shù)據(jù)搬運(yùn)相比數(shù)據(jù)計(jì)算更耗電,搬運(yùn)數(shù)據(jù)(帶寬)變得更加復(fù)雜。進(jìn)一步地,我們也在研究是否可以不使用硅基芯片、微電子,而是采用光電子來制造芯片,這是業(yè)內(nèi)關(guān)注的一系列研究方向。另一方面,大模型的發(fā)展需要極高的互聯(lián)帶寬,根據(jù)實(shí)驗(yàn)室理論計(jì)算,GPT-3所需的互聯(lián)帶寬為1380TB/s,而一張英偉達(dá)的卡自帶的600GB/s互聯(lián)帶寬與這一需求之間存在顯著差距。這也是為什么需要將許多這樣的卡連接在一起,才能完成對(duì)這一模型的訓(xùn)練。目前,計(jì)算性能的提升速度超過了帶寬的增速,尤其在多元互聯(lián)的應(yīng)用場(chǎng)景中,如何有效地將機(jī)器連接起來是一項(xiàng)相當(dāng)復(fù)雜的任務(wù)。我們也在思考,創(chuàng)建一種相對(duì)統(tǒng)一的中間層,以支持長文本、實(shí)現(xiàn)更高的性價(jià)比,同時(shí)實(shí)現(xiàn)一鍵部署。并且在這個(gè)中間層中,納入一些工具,以協(xié)助算法和應(yīng)用的開發(fā),比如整合算法壓縮、算子優(yōu)化以及自動(dòng)編譯等功能。通過這樣的中間層,有望更好地匹配M個(gè)大型模型和N個(gè)硬件,從而實(shí)現(xiàn)更加靈活的部署?!蓖粲裨硎?。
所謂AI Infra,是指構(gòu)建 AI 所需的基礎(chǔ)設(shè)施,涵蓋連接算力和應(yīng)用的 AI 中間層基礎(chǔ)設(shè)施,包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型部署和應(yīng)用整合等環(huán)節(jié)。它不僅與算力相關(guān),還包括大數(shù)據(jù)層面的優(yōu)化。AI Infra 包括 AI 基礎(chǔ)框架技術(shù),涉及大模型訓(xùn)練、部署領(lǐng)域的各種底層設(shè)施,以及基礎(chǔ)軟件棧等核心組成部分,主要目標(biāo)是優(yōu)化算力算法、促進(jìn)應(yīng)用落地。而AI Infra 在 AI 行業(yè)中扮演著連接硬件、軟件和應(yīng)用的關(guān)鍵角色,促進(jìn)了 AI 技術(shù)的發(fā)展和應(yīng)用。
2023年11月,無問芯穹聯(lián)合清華大學(xué)、上海交通大學(xué)團(tuán)隊(duì)在Arxiv上發(fā)表了一篇論文,提出了一種新方法 FlashDecoding ,通過異步方法實(shí)現(xiàn)注意力計(jì)算的真正并行,可以將GPU推理速度提高2倍-4倍(200%-400%),在英偉達(dá)A100顯卡上的推理平均加速37%,以及同時(shí)支持英偉達(dá)和 AMD 的GPU產(chǎn)品。
另外,無問芯穹還自主研發(fā)70億參數(shù)大語言模型“無問天權(quán)”——infini-megrez-7b,支持英偉達(dá)和AMD的GPU,以及無問芯穹自研高效推理引擎等。
據(jù)稱,目前無穹Infini-AI平臺(tái)已支持了Baichuan2、ChatGLM3、Llama2、Qwen系列等共20多個(gè)模型,以及AMD、壁仞、寒武紀(jì)、燧原、天數(shù)智芯、沐曦、摩爾線程、NVIDIA等10余種計(jì)算卡,支持多模型與多芯片之間的軟硬件聯(lián)合優(yōu)化和統(tǒng)一部署。
針對(duì)此次公布的一站式AI平臺(tái)和大模型服務(wù)平臺(tái),鈦媒體App也進(jìn)行了測(cè)試和體驗(yàn)。
我們觀察到,從推理側(cè)來說,大模型服務(wù)平臺(tái)的chat速度還是比較快的,同時(shí)也支持多個(gè)大模型、多款服務(wù)器同時(shí)進(jìn)行推理應(yīng)用。但截至目前,鈦媒體App測(cè)試的基于無穹Infini-AI平臺(tái)的infini-megrez-7b和ChatGLM3模型,均不能提供汪玉教授準(zhǔn)確的個(gè)人信息反饋,說明其知識(shí)體系無法實(shí)時(shí)更新,數(shù)據(jù)和模型能力仍需要加強(qiáng)。
鈦媒體App還獲悉,無問芯穹還宣布將與智譜 AI 合作構(gòu)建大模型訓(xùn)推萬卡集群,并且與摩爾線程就MTT S4000千卡集群達(dá)成協(xié)議。
戴國浩透露,其團(tuán)隊(duì)于今年1月初研發(fā)出全球首個(gè)基于FPGA(現(xiàn)場(chǎng)可編程邏輯門陣列)的大模型處理器,通過大模型高效壓縮的軟硬件協(xié)同優(yōu)化技術(shù),使得LLaMA2-7B模型的FPGA部署成本從4塊卡減少至1塊卡,并且性價(jià)比與能效比均高于同等工藝GPU,即展示“一張卡跑大模型”。戴國浩稱其為無穹LPU,預(yù)計(jì)將于2025年發(fā)布。(注:此前第四范式也公布了類似的FPGA的模型算力加速技術(shù))
圓桌會(huì)議上,鴻博股份副總裁、英博數(shù)科科技有限公司CEO周韡韡博士表示,“若算力不自由,則數(shù)據(jù)無意義。關(guān)于AGI,關(guān)于未來,我們有太多美好的憧憬,但眼下最實(shí)在的是先讓可滿足通用型LLM的同構(gòu)大型智算集群跑起來,再讓國內(nèi)團(tuán)隊(duì)在復(fù)現(xiàn)和追趕世界水平的同時(shí),兼顧繁榮國產(chǎn)自主可控AGI生態(tài)發(fā)展?!?/p>
(本文首發(fā)鈦媒體App,作者|林志佳)
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。