迎AI芯片升級 發掘另一大贏家

評論 2023/08/09

分享:

分享:

在談到人工智能(AI)芯片時,很多人通常第一時間會想到英偉達或是AMD的圖形處理器(GPU)芯片。誠然,GPU在當前的生成式AI浪潮中至關重要,亦是AI伺服器中佔最大成本份額的部件。然而,高帶寬內存記憶體(High Bandwidth Memory,HBM),實際上也是GPU的左膀右臂,幫助GPU處理大量的用戶請求。本文將會從HBM出發,討論整個內存行業為何會成為AI趨勢中的另一大贏家。

不論是要訓練一個AI模型,抑或是使用一個已經訓練好的模型,本質上都是要進行大量的乘積累加運算(Multiply Accumulate,MAC)。MAC的意思相當容易理解,就是先將兩個數字相乘(C = A x B),再將相乘後的結果與另一個數字相加(X = C + D),最後把相加的結果儲存起來,用於下一步的運算。這種簡單的四則運算會被不斷重複,因而需要大量的計算單元快速地做這類工作。在GPU中,則由CUDA核心及Tensor核心完成MAC運算。

如大牌檔加快傳菜 需高速記憶體

然而,不同類型的運算核心不能獨立地運作,因為他們只負責基於一堆數字計算出結果,但本身沒有足夠空間儲存大量的數據。此時,HBM的作用便會顯現。HBM的工作在於先把海量需要計算的數字以極高速度運入核心中作計算,待核心算出結果後,再馬不停蹄地把算好的結果取走,然後把其他有待處理的數據再運入核心中,周而復此。一個易理解的類比就是大牌檔。炒菜師傅就是運算核心,負責快速基於準備好的材料炒菜(算出結果);HBM則像打荷師傅,把待運算的數字準備好(「執碼」),交給炒菜師傅處理,再把師傅已炒好(已算好的結果)的菜拿走,以騰出空間炒下一碟菜。

大牌檔要在有限時間內炒出足夠多的菜,需要廚師及打荷高效合作,減少閒置時間,以及加快炒菜速度。套用到GPU及HBM的例子,就是要加大核心的使用率,以及使單核的處理速度變得更快。HBM比起傳統DDR或GDDR芯片的優勢,正在於其可以每次可以把更大量的數據,在GPU及HBM之間搬運(想像一個可以同時搬運20碟材料的師傅),以及搬運的速度亦足夠快(想像師傅可以同時拿着20碟材料或菜高速飛奔,往返於廚房和餐廳)。

要打造出性能強大的HBM芯片,需要仰賴先進的封裝技術。HBM本身的結構有點像千層麵,是由一層層相類似的麵皮(HBM裸晶)垂直堆疊而成。而為了達到高帶寬的要求,需要在麵皮之間刻出纖細但修長的通道(矽穿孔層,TSV),以讓儲存於不同層的數據可以暢通無阻地進出HBM芯片,再到達GPU。要修建這些精密的TSV通道,要利用一系列先進的半導體機器。

製作好HBM後,需要再次用到類似的機器以2.5D封裝的形式(即台積電的CoWoS工藝),令GPU和HBM芯片可以緊密地連接,才變成可以使用的AI芯片。隨着AI令計算量急增,亦將連帶令對以上機器的需求也相應增加,帶動整個半導體業界迎來新一波成長期。

內存行業勢受惠 盈利增長看俏

所謂「戴維斯雙擊」,是指當股票的每股盈利及市盈率都一起成長時,令股價急升的現象。套用到內存市場的話,由於內存產業周期性的特質,公司在產業高峰期往往可以謀取暴利,但在低谷時可能出現嚴重虧損。因此,通常這類型公司的市盈率都不會太高,作為其不穩定商業模式的風險補償。然而,如果目前基於Transformer架構的不同AI軟件得以大規模高速滲透到各行各業,將會令整個世界對HBM芯片的需求穩定地增長,減低內存企業的周期性。

同時,由於目前的AI推理任務大多都是在雲端伺服器進行,而非直接在電腦或手機等終端上進行,這部分亦可能為內存企業帶來新動力。視乎不同人對AI推理前景的判斷,有些公司(例如高通及英特爾)認為基於成本、時延、能耗等考慮,未來的推理任務將直接在電腦或手機等終端上完成,而非運到雲伺服器上完成。如此一來,或會令電腦及手機需要為了適配AI任務而要大幅升級內存芯片,變相拉動傳統的DDR及GDDR芯片的銷情。

事實上,HBM市場的增長率雖然十分驚人,但其目前對內存市場的產值貢獻仍只有低單位數百分比,大部分的產值仍是源於較傳統的DDR及GDDR芯片。因此,令這些真正主流的芯片亦迎來升級的話,將會有效推動內存企業的每股盈利增長。如此一來,便可能實現戴維斯雙擊,而我認為基於對AI科技成果的判斷,這種情況亦頗可能發生。

新型AI架構崛起 料帶來新挑戰

當然,要出現上述的樂觀情況,關鍵在於AI軟件會繼續沿用目前的Transformer架構。Transformer的一大特色正正在於其內存佔用(memory footprint)極大,以致需要大容量的HBM(由40至192GB不等)芯片。然而,若有新的架構崛起(一如2017年後,Transformer在很多領域取代舊有的CNN、RNN等模型架構)並取締Transformer,以上的種種前設便將化為泡影。

微軟幾周前便夥清華大學推出了RetNet(Retention Network)架構,聲稱這種新架構可以在具備Transformer的兩大優點(得以用平行運算形式作訓練,以及出色的推理表現)的同時,可以大幅減少對內存的佔用。假如上述替代屬實,無疑是對HBM產業投下一枚重磅炸彈。

撰文 : 王逸研 易方資本助理基金經理

欄名 : 評論