據4月23日消息,一份百度文心一言技術團隊內部會議紀要流出。從紀要內容中看,在文心一言啟動邀測后一個多月期間,似乎用戶同時在線數的高速增長對文心一言的響應速度提出了挑戰,也對百度內部一直強調的人工智能四層框架“芯片層-框架層-模型層-應用層”中,模型層和框架層的聯合優化協同有了更高要求。
從紀要日期中看,內部飛槳技術團隊從發布開始截止至4月19日,35天里對于一言服務已完成4次迭代,最新已迭代至大模型推理服務3.5版本,平均保持著一星期左右完成1次迭代的速率。
關鍵數據一:單機QPS相對線上版本提升高達123%,模型推理效率提升10倍
“大模型推理服務3.5版本(業內首創支持動態插入的分布式推理引擎)已于04-19凌晨正式迭代,單機QPS相對線上版本提升123%。至此,3月以來,一言服務己完成4次迭代,相對之一版大模型推理服務,單機QPS已累計提升近10倍。“
從去年ChatGPT引爆全球生成式AI的浪潮后,國內千行百業紛紛積極擁抱新浪潮,但對于企業來講,“生成式AI+原業態”相結合的應用創新還處于早期階段,并未有成熟模式可直接遷移使用,因此長期的創新成本投入會使得眾多企業望而卻步。
而此次百度大模型推理服務3.5版本的QPS大幅提升,模型推理效率提升10倍。這將意味著模型推理成本降低為原來的1/10,或可為10倍數量的用戶提供服務,這一關鍵數據向市場釋放了大模型技術將更加普惠的信號,意味著大模型在各行業落地的成本將大幅降低,有望加速國內大模型的產業化進程,使得大模型技術“飛入尋常百姓家”。
QPS即表示服務器一秒內可以處理的并發數量,有分析人士解讀認為,“大模型就仿佛汽車的發動機,光賬面上的動力強,參數大是沒有用的,要壓榨出發動機瞬時更大爆發力(QPS)以及更優的性能表現。”
關鍵數據二:模型推理性能提升50%
“結合一言模型結構特色和量化技術,已經完成2個推理引擎優化版本儲備,預計推理性能再提升50%,模型效果評估中。”
目前對于全球大部分頭部公司來講,均需要基于TensorFlow和PyTorch等深度學習框架進行再開發,無法直接滿足大模型訓練需求。而百度文心一言及背后的大模型,均以自研的產業級深度學習框架飛漿做支撐,此次模型推理性能的提升,也證明自研深度學習框架飛漿對于文心一言快速學習能力的支撐作用功不可沒。分析人士解讀認為, “仍以汽車發動機舉例,深度學習框架就像是生產發動機和變速箱的,可以讓發動機整體部件組合更精密、動力更強。而百度全棧自研產品彼此適配度更高,協同會更高效,這可能是效率提升的最根本原因。”
關鍵數據三:模型算力利用率提升一倍
“基座模型訓練性能優化:結合飛槳分布式并行策略優化和訓練精度策略調整,基座模型訓練峰值FLOPS利用率可進一步提升一倍左右。”
數據、算法、算力作為人工智能三要素,雖然截止至2020年,芯片計算算性能已經提升了600倍,但隨著數據井噴,模型算力仍是行業需要共同面對挑戰。而此次基于飛槳分布式并行策略優化和訓練精度策略調整,將模型算力利用率提升一倍,可以說是百度人工智能四層架構實現端到端優化、形成反饋閉環的更佳體現。
隨著3月16日百度作為全球大廠中之一個發布類ChatGPT的生成式AI產品文心一言后,4月開始,商湯、阿里、華為、騰訊等互聯網大廠、頭部AI公司相繼進行大模型發布,生成式AI正式進入“諸神之戰”,但發布只是之一步,率先實現技術、場景落地與成本的完美平衡,或許才是國內大模型未來的更佳實踐路徑。