在算力緊缺的背景下,如何提升大模型訓(xùn)練和推理的效率,并降低成本,成為業(yè)界關(guān)注的焦點。
11月23日,騰訊披露,騰訊混元大模型背后的自研機(jī)器學(xué)習(xí)框架Angel再次升級,大模型訓(xùn)練效率提升至主流開源框架的2.6倍,千億級大模型訓(xùn)練可節(jié)省50%算力成本。升級后的Angel支持單任務(wù)萬卡級別超大規(guī)模訓(xùn)練,進(jìn)一步提升騰訊云HCC大模型專屬算力集群的性能和效率。
同時,Angel還提供了從模型研發(fā)到應(yīng)用落地的一站式平臺,支持用戶通過API接口或精調(diào)等方式快速調(diào)用騰訊混元大模型能力,加速大模型應(yīng)用構(gòu)建,騰訊會議、騰訊新聞、騰訊視頻等超過300個騰訊產(chǎn)品及場景均已接入騰訊混元內(nèi)測。
目前,相關(guān)能力已通過騰訊云對外開放?;谏壓蟮腁ngel機(jī)器學(xué)習(xí)框架,騰訊云TI平臺可提供更優(yōu)的訓(xùn)練和推理加速能力,并支持客戶用自己的數(shù)據(jù)一站式訓(xùn)練精調(diào),基于騰訊混元大模型打造專屬智能應(yīng)用。
自研機(jī)器學(xué)習(xí)框架升級,大模型訓(xùn)練推理效率再提升
隨著大模型時代到來,模型參數(shù)呈指數(shù)級增長,達(dá)到萬億級別。大模型逐漸從支持單一模態(tài)和任務(wù)發(fā)展為支持多種模態(tài)下的多種任務(wù)。在這種趨勢下,大模型訓(xùn)練所需算力巨大,遠(yuǎn)超單個芯片的處理速度,而多卡分布式訓(xùn)練通信損耗巨大。如何提高硬件資源利用率,成為影響國產(chǎn)大模型技術(shù)發(fā)展和實用性的重要前提。
面向大模型訓(xùn)練,騰訊自研了機(jī)器學(xué)習(xí)訓(xùn)練框架AngelPTM,針對預(yù)訓(xùn)練、模型精調(diào)和強(qiáng)化學(xué)習(xí)等全流程進(jìn)行加速和優(yōu)化。AngelPTM采用最新的FP8混合精度訓(xùn)練技術(shù),結(jié)合深度優(yōu)化后的4D并行和ZeROCache機(jī)制優(yōu)化存儲,可兼容適配多款國產(chǎn)化硬件,能夠以更少的資源和更快的速度訓(xùn)練更大的模型。
2023年4月,騰訊云面向大模型而生的新一代HCC高性能計算集群正式發(fā)布,性能較前代提升3倍。除了硬件的升級,針對大模型訓(xùn)練場景,HCC對網(wǎng)絡(luò)協(xié)議、通信策略、AI框架、模型編譯等進(jìn)行系統(tǒng)級優(yōu)化,大幅節(jié)約訓(xùn)練調(diào)優(yōu)和算力成本。此前AngelPTM就已經(jīng)通過HCC對外提供服務(wù),本次Angel機(jī)器學(xué)習(xí)框架升級,也將進(jìn)一步提升HCC大模型專屬算力集群的性能,助力企業(yè)加速大模型落地。
模型參數(shù)的增大不僅給訓(xùn)練帶來了挑戰(zhàn),還導(dǎo)致了推理成本的不斷上升。為解決這一問題,騰訊自研的大模型推理框架AngelHCF通過擴(kuò)展并行能力、采用多種Attention優(yōu)化策略等方式對性能進(jìn)行了提升。同時,框架還適配了多種壓縮算法,以提高吞吐能力,從而實現(xiàn)更快的推理性能和更低的成本,支持大型模型推理服務(wù)。
相較于業(yè)界主流框架,AngelHCF的推理速度提高了1.3倍。在騰訊混元大模型文生圖的應(yīng)用中,推理耗時從原本的10秒縮短至3至4秒。此外,AngelHCF還支持多種靈活的大模型壓縮和量化策略,支持自動壓縮。
一站式應(yīng)用構(gòu)建,讓大模型“開箱即用”
作為實用級大模型,騰訊混元大模型從研發(fā)之初就面向應(yīng)用場景而生,在實踐中解決大模型落地難點。騰訊產(chǎn)品及應(yīng)用種類多、流量大,讓模型真正“用起來”挑戰(zhàn)很大?;贏ngel,騰訊構(gòu)建了大模型接入和應(yīng)用開發(fā)的一站式平臺,包含數(shù)據(jù)處理、精調(diào)、模型評估、一鍵部署以及提示詞調(diào)優(yōu)等服務(wù),讓大模型的“開箱即用”成為可能。
模型接入層面,騰訊混元大模型提供千億、百億、十億多個尺寸的模型,充分適配各類應(yīng)用場景的需求,只需要經(jīng)過簡單微調(diào)就能達(dá)到滿足業(yè)務(wù)需求的效果,同時降低模型訓(xùn)練和推理服務(wù)的資源成本,在問答、內(nèi)容分類等常見應(yīng)用場景中具有更高的性價比。
應(yīng)用開發(fā)層面,騰訊內(nèi)部已有超過300項業(yè)務(wù)和應(yīng)用場景接入騰訊混元大模型內(nèi)測,相比上個月數(shù)量翻了一倍,覆蓋文本總結(jié)、摘要、創(chuàng)作、翻譯、代碼等多個領(lǐng)域。
2023年9月,騰訊自研的實用級大模型騰訊混元正式亮相并通過騰訊云開放。騰訊混元擁有超千億參數(shù)規(guī)模,預(yù)訓(xùn)練語料超 2 萬億 tokens,聚合了騰訊在預(yù)訓(xùn)練算法、機(jī)器學(xué)習(xí)平臺和底層算力資源多個層面的自研技術(shù)積累,并在應(yīng)用中持續(xù)迭代,不斷優(yōu)化大模型能力。目前,已有來自零售、教育、金融、醫(yī)療、傳媒、交通、政務(wù)等多個行業(yè)的客戶,通過騰訊云接入騰訊混元大模型。