建物の火災に関する研究経験が生み出すAI技術の進化

Behind the Buildersシリーズ:ムーアの法則とますます大型化、高性能化する大型のAIチップの熱問題に挑むラジーブ・モンジアとインテルの熱対策チーム

「AIはすでに世界の電力システムに大混乱をもたらしている」と、昨年の夏にブルームバーグは大きく報道しました。そしてそのAIの勢いは衰える気配がありません。

国際エネルギー機関(IEA)の最近の報告書によると、AIにより「データセンターの電力消費量は2030年までに約945テラワット時(1時間に1兆ワットの電力消費がされる)へと倍増する見込み」とされています。これは今後5年間で中国の三峡ダム5基分に相当する発電量が新たに必要になることを意味します。

この電力は、強力なコンピューター・システムを稼働させるだけでなく、それらが過熱しないよう冷却するためにも使用されています。現在のAIデータセンターで使われるGPUやアクセラレーターは、それ1個のみで1キロワット以上の熱を発生させます。一般の家庭でそのような電力を使う機器は、ヒーターやヘアドライヤー、電子レンジや電気ケトルくらいでしょう。

そして、高性能なAIチップはこれからもますます大型化し、多くの熱を発するようになります。インテルのラジーブ・モンジアは、「2030年には1つのGPUに1兆個のトランジスタが搭載され、その消費電力は2~3キロワットに達します。この熱問題を解決することはとても面白い挑戦になるでしょう」と語ります。

AIチップを冷却することで、性能を向上させつつ消費電力を抑えるという、一見すると錬金術のような方法で、このエネルギーのジレンマを解決し、AIの未来の可能性を解き放つことができる、とモンジアは彼の「面白い挑戦」への答えとして語っています。

ムーアの法則を熱から守るための経験

モンジアはインテルの組立・試験技術開発部門(ATTD)で熱専門チーム「Thermal Core Competency Group」のシニア・プリンシパル・エンジニア 兼 リーダーを務めています。このチームの使命は「熱問題がムーアの法則の足かせにならないようにする」ことです。

つまり、ATTDはインテルとそのファウンドリー顧客のために、より多くのシリコンダイを高速かつ高性能なパッケージに搭載する方法を開発し、モンジアとそのチームはその結果生じる熱の管理を模索しています。

インテル入社前、モンジアはガスタービン(熱を電力に変換する装置)の研究や故障解析コンサルタント(火災・爆発を専門)として働き、2001年9月11日のワールドトレードセンタービルの崩壊調査にも関わりました。「死と破壊にはもううんざりだ。何かを創りたい」と思いインテルに入り、最初はノートパソコンの熱設計を担当しました。

以降22年間、ムーアの法則を守るための熱管理に取り組み、Intel RealSenseカメラの開発や2010年代中頃のメーカー市場への進出の支援にも関わりました。

モンジアは「インテルではほぼすべての主要な熱設計の役割を経験してきました」と言います。研究の対象を炎上する建物からチップの冷却へと変更したことは一見奇妙に思えますが、彼は「基本の方程式は同じで、境界条件が異なるだけです。流体力学、熱力学、熱伝導の世界です」と説明します。

熱管理は「簡単に解ける問題だと思っていたが、自分にとっては面白い課題で、どこかで違いを生み出したいと思っている」と話します。

次の熱問題:積層型マルチチップパッケージの冷却

AIの台頭と数個、あるいは数十個のシリコンダイを1つのデバイスに集積した大規模マルチチップパッケージの普及拡大により、熱問題は再び大きな課題となっています。

「電力消費に伴う熱の問題は、今や非常に複雑化しています。この分野で取り組むべき課題は多々あります」とモンジアは言います。

解決策の第一歩は、チップ設計プロジェクトの初期段階で熱問題を重視し、設計と熱管理の共同作業を強化することです。「ツールフローを刷新し、多くの協調設計作業をより早い段階で行えるようにしました。例えば、毎月約10万回の熱シミュレーションを行っています」とモンジアは説明します。

彼のチームは、積層化された高帯域幅メモリ(HBM)の熱特性を解析する業界標準モデルを開発し、現在では様々な種類のチップの積層にも同様のアプローチを適用しています。「複数の積層と高い電力が求められる場合、材料の熱特性を正確に把握することがこれまで以上に重要になります」。

最近の例として、熱が重要な要素となる顧客向けチップの設計の初期段階でチップが高温になり過ぎるという問題に直面しました。インテルの複数の部門からなるチームは2週間で数百もの異なる設計案をモデル化し、シリコンIPの配置やマルチチップ構成を大幅に見直し、最終的に仕様を上回る設計に仕上げました。

「シリコンからシステム全体に至るまで、あらゆる要素が相互に依存しており、その全体にわたる相互最適化が欠かせません」とモンジアは指摘します。逆説的ですが、「実際には、ある部品の電力を上げながら冷却を容易に行うことも可能なのです」。

金属蓋から液冷プレートへ、より“斬新”なソリューションへ

熱管理の技術には、冷却性能を直接的に向上させる数多くの技術があります。

例えば、パッケージに搭載されたシリコンチップを覆う標準的なヒートスプレッダーや金属製の蓋を、モンジアが呼ぶ「統合型コールドプレート」に置き換えることが挙げられます。これは基本的に、内部に数十個のフィンを備えた、液冷式の小型ラジエーターです。

初期のテストでは、一体型コールドプレートを搭載した大型GPUは、通常のコールドプレートを搭載したGPUと比較して、最大20%も冷却性能が向上し(そのため15%の高速化を達成)、これは大きな改善点であり、潜在的なファウンドリーの顧客から注目を集めている、とモンジアは話しました。

モンジアは、「その先はかなり特殊な領域に入ります。シリコン積層の内部に液体を入れる方法など、様々な可能性を模索しています」と話します。「蓋の中だけでなく、3Dシリコンスタックの内部で液体が渦巻く様子を想像してください。とても凄い可能性ですよね?」