英特爾開發全世界最大的仿神經形態系統以實現更永續的AI

A digital owl image next to a transparent computer server with illuminated blue circuitry, showcasing Intels Hala Point, described as the worlds largest neuromorphic research system.

Hala Point is the world’s largest neuromorphic system, with neuron capacity roughly equivalent to that of an owl brain. (Credit: Intel Corporation)

Hala Point為第一個擁有11.5億個神經元的神經擬態系統,提升效率及延展性,為永續AI鋪路

英特爾宣布推出全球最大的仿神經形態系統(neuromorphic system),代號Hala Point,最初布署在桑迪亞國家實驗室,採用英特爾 Loihi 2 處理器,支援類人腦AI的最新研究,以因應當今AI面臨的效率和永續性等挑戰。Hala Point以英特爾第一代大規模研究系統 Pohoiki Springs為基礎,進行架構提升,神經元容量能增加10倍以上,效能提高12倍。

當今訓練和布署AI模型的成本增加速度過快,業界需要有翻轉現況的新作法這個產業需要能夠擴展的全新方法,因此英特爾實驗室開發出Hala Point,它結合深度學習效率、類人腦持續學習和最佳化功能。我們希望透過Hala Point,突破大規模AI的技術效率,並讓AI系統適應變化。

—英特爾實驗室神經形態運算總監Mike Davies

Hala Point是業界第一款可在主流AI工作負載中,展現卓越運算效率的大規模仿神經形態系統,經過測試驗證,能支援每秒高達20千兆次(20 petaops)的傳統深度神經網路運算,超過每瓦15兆次8位元運算(TOPS/W),此速度等同於甚至超越目前的GPU和CPU架構。Hala Point的獨特功能可望在未來AI應用的即時 連續學習 方面帶來突破,例如科學和工程的問題解決、物流、智慧城市基礎設施管理、大型語言模型(LLM)和AI代理。

目前桑迪亞國家實驗室已計劃使用Hala Point進行先進的大腦規模運算研究,用於解決元件物理學(device physics)、電腦結構、資訊工程和資訊學方面的科學運算問題。

桑迪亞國家實驗室Hala Point組長Craig Vineyard表示:「Hala Point協助桑迪亞團隊,在科學建模提供了強大助力,讓我們能隨著AI技術演進,在商業、國防、基礎科學同步發展,更深入研究運算、建模等領域。」

目前Hala Point仍處於原型階段,未來將可進一步應用於提升商業系統,英特爾預計這些經驗將帶來實際突破進展,例如提升大型語言模型(LLM)從新數據中持續學習的能力,進一步強化AI模型的訓練精準度,並大幅降低布署AI的訓練成本。

近期深度學習模型的參數規模已達數兆,不僅突顯AI領域嚴峻的永續性挑戰,同時強調針對最基礎硬體架構的創新必要性。仿神經型態運算是全新的運算機制,此機制借鑑神經科學,將記憶體、運算與高度細粒度的並行性相結合,將資料移動性最小化。在今年四月「聲學語音和訊號處理國際會議(ICASSP)」的 報告 中,英特爾發表Loihi 2 處理器在新興小規模邊緣工作負載的應用,結果顯示其效率、速度和適應性都有大幅提升1

下載所有圖片 (ZIP, 17 MB)

Hala Point是在前一代Pohoiki Springs的基礎上大量改善,將仿神經形態性能和效率提升的優勢,延伸至視訊、語音和無線通訊等即時工作負載的主流深度學習模型中,推出後廣獲業界矚目,在今年世界行動通訊大會中,愛立信研究中心透過Loihi 2改善 電信基礎設施效率的成果成為展會焦點。

Loihi 2神經形態處理器是Hala Point的核心基礎,此處理器應用非同步、基於事件的脈衝神經網路(Spiking Neural Network,SNN)、整合記憶和運算,以及關聯性推論類人腦運算原理;相較於目前需要定期使用不斷成長的數據集,重新訓練此類模型的方式,Loihi 2神經形態處理器不須透過記憶體,改以神經元直接相互溝通的作法,可有效降低整體功耗。

Hala Point將1,152個基於Intel 4製程的Loihi 2處理器封裝於六機架資料中心機殼內(相當於微波爐大小),該系統可支援高達11.5億個神經元和1280億個突觸分佈在 140,544 個神經形態處理核心,耗電最大2,600瓦。系統包含數量超過2,300個嵌入式x86處理器,主要用於執行輔助運算。

架構部分,Hala Point將處理、記憶及溝通管道整合於一個高度平行架構中,可提供共16 PB/s的記憶頻寬、3.5 PB/s的核間通訊頻寬及5 TB/s晶片間通訊頻寬。此系統每秒運算超過380兆次8位元突觸操作(TOPS)以及240兆次以上神經元操作。

應用於脈衝神經網路模型時,系統能以生物神經元的20倍速度,執行全部11.5億個神經元,而低負載時效率更提升將近200倍。儘管並非用於神經科學建模,但Hala Point的神經容量相當於貓頭鷹大腦或捲尾猴的大腦皮質。

以Loihi為基礎的Hala Point系統,能以高於傳統CPU或GPU 50倍速度、低於100倍能耗的優勢 1,執行推論並達成最佳化。透過高達10比1的稀疏連通性和事件驅動的活動測試,Hala Point的初步結果顯示,系統無需將資料收集到批次中,即可實現高達15 TOPS/W的深度神經網路效率2 此為常見的GPU最佳化方式,即因應顯著延遲處理即時傳輸的數據(例如攝影機所拍攝的影像)。目前Hala Point雖仍處於研究階段,但未來可持續學習的神經形態大型語言模型,將可不再倚靠需定期投入數量規模不斷成長的數據集重新訓練,達成節省數百萬度的耗電。

將Hala Point布署於桑迪亞國家實驗室,是英特爾首次計劃與研究合作夥伴共享新一代大規模仿神經形態研究系統,未來英特爾將使神經形態運算應用能克服功耗與延遲的限制,降低 AI在現實世界中即時布署的阻礙。

英特爾將持續致力推動類人腦AI,與領先的學術團體、國家級實驗室、研究機構及全球企業等超過200個英特爾神經形態研究社群(INRC)成員共同努力,將這項技術從研究原型推進為業界領先的商業產品。

更多資訊請見英特爾實驗室

The Small Print:

1 See “Efficient Video and Audio Processing with Loihi 2,” International Conference on Acoustics, Speech, and Signal Processing, April 2024, and “Advancing Neuromorphic Computing with Loihi: Survey of Results and Outlook,” Proceedings of the IEEE, 2021.

2 Characterization performed with a multi-layer perceptron (MLP) network with 14,784 layers, 2048 neurons per layer, 8-bit weights stimulated with random noise. The Hala Point implementation of the MLP network is pruned to 10:1 sparsity with sigma-delta neuron models providing 10 percent activation rates. Results as of testing in April 2024. Results may vary.