COLUMN

コラム

富岳NEXTとは何か

  • コラム

富岳NEXT(開発コードネーム)は、スーパーコンピュータ「富岳」の次世代フラッグシップとして、2030年頃の稼働開始を目標に設計・開発が進む計算基盤である。

従来のシミュレーション性能の追求に加え、生成AIの普及で急増するAI計算需要を見据え、シミュレーションとAIが密に連携して処理できる「AI-HPCプラットフォーム」へ進化することが狙いとなる。

理研を中核に、富士通(CPU・システム化)とNVIDIA(GPU・エコシステム)を組み合わせ、ハードとソフトの協調設計、運用技術、国際連携も含めて総合的な競争力確保を目指す。

富岳NEXTに求められる役割

富岳NEXTは「速い計算機」を超え、AIとHPCの融合を軸に科学研究・産業競争力・国家的技術主権を支える基盤としての役割が期待されている。

富岳NEXTの役割は、単にピーク性能の数値を上げることではなく、現場の研究や開発で実際に役立つ「実アプリ性能」を最大化することにある。半導体の微細化だけでは以前のような性能向上が見込みにくい今、ハード更新に加えてソフトウェア、アルゴリズム、運用までを一体で変えないと、利用者の体感速度は上がらない。

最大の転換点は、シミュレーションとAIを同じ基盤で高効率に回すことだ。例えば、物理シミュレーションで得たデータからAIが近似モデルを学び、次の探索や最適化を加速する、といった循環を短い時間で回せるほど、研究のスピードは上がる。ここでは計算性能だけでなく、データ移動、学習と推論の切り替え、ワークフロー全体の自動化がボトルネックになる。

国家レベルでは、先端AIと計算基盤を自前で強化し、海外の特定企業や特定地域の供給制約・規制の影響を受けにくくする意味も大きい。さらに、開発成果を国内外の研究者・企業が使える形で広げ、エコシステムとして定着させることで、次の人材と技術が集まり、長期的な競争力につながる。

富岳NEXTの開発体制

開発主体は理研で、富士通・NVIDIAの強みを統合した三者連携を基本としつつ、ソフトウェア領域では国際的なオープン連携も取り込む体制で進められる。

富岳NEXTの体制は「作って終わり」ではなく、稼働前からソフトとアプリを育て、稼働後も改良が続くことを前提に組まれている。次世代機ではGPUを含む異種混在構成が中心になり、部品ごとの最適化だけでは性能が出にくい。そこで、全体を統括する主体が仕様をまとめ、ハードとソフトの設計判断を揃えることが重要になる。

また、AI-HPCは利用者層が広い。従来のHPC利用者に加え、AI研究者、企業のデータサイエンス部門、生成AIを業務に組み込みたい開発者も対象になるため、開発環境やライブラリ、運用支援の作り込みが成果の出方を左右する。体制面でも、アプリ開発コミュニティやOSSコミュニティとつながり、採用され続ける技術として育てる視点が欠かせない。

国際連携を取り込む狙いは、単に海外技術を使うことではない。世界標準に合う形で成果を公開し、検証や改良のサイクルを速めることで、結果として日本側の研究開発の打率を上げる。計算基盤は「誰が使い、何が動くか」で価値が決まるため、体制そのものが性能の一部になる。

国際連携(理研・富士通・NVIDIA)の位置づけ

三者連携の基本は、理研が全体を統括し、富士通がCPU・計算ノード・全体システムの基本設計を推進し、NVIDIAがGPU基盤設計を主導するという役割分担にある。重要なのは、単なる分業ではなく、アプリの要求から逆算して設計をすり合わせる協調設計を回せる関係になっている点だ。

日米連携を梃子にする意味は、最先端GPUとその周辺ソフトウェアの巨大なエコシステムを活かしつつ、日本側がCPUやシステム化、運用、アプリ高度化の強みを重ねて、全体として世界で戦える完成度を狙うことにある。GPUは単体性能以上に、コンパイラ、通信、数学・AIライブラリ、フレームワーク対応の速さが価値を決めるため、エコシステムを前提に設計できる利点は大きい。

同時に、世界標準の確立という観点では、成果を閉じた環境に留めず、OSSコミュニティや国際研究機関との連携で検証可能性と再利用性を高めることが鍵になる。富岳NEXTが「日本の中だけで強い」計算機に留まらず、世界の開発者が前提として扱うAI-HPC基盤になれば、ソフトの蓄積が加速し、長期的な競争力が生まれる。

富岳NEXTの開発方針

次世代計算基盤に関する各種報告書の成果と「富岳」の開発・運用で得た教訓を踏まえ、「Made with Japan」「技術革新」「持続性/継続性」を柱に方針が組み立てられている。

Made with Japanは、すべてを国内で完結させるという意味に限らず、日本が設計思想と価値の中核を握り、重要部分で主体性を保つという考え方に近い。計算基盤は研究と産業の共通インフラであり、供給や仕様の外部要因に振り回されるほど、研究開発の速度が落ちる。重要な技術選択を自分たちでできる状態を確保することが、結果的に利用者の安心につながる。

技術革新は、ハードの更新だけでなく、アルゴリズム・ソフト・運用の革新を含む。特に電力制約の中では、単純に演算器を増やすほど全体効率が下がりやすく、データ移動やI/O、通信、精度設計まで含めて無駄を削る必要がある。ここで効くのが、混合精度の活用、AIでの近似や代替、ワークフロー自動化など「計算のやり方」を変える発想だ。

持続性/継続性は、稼働開始後に価値が最大化するというスパコン特有の性質を踏まえた柱である。導入時点で最高でも、ソフトが追随せず、運用が重く、ユーザーが使いにくいと、成果は出ない。運用データを活かした改善、OSSとしての継続開発、アプリコミュニティの育成をセットで回し、次の世代へ知見が積み上がる設計が求められる。

研究開発テーマ

富岳NEXTの競争力はハード性能だけで決まらず、アーキテクチャ、ソフトウェア、アプリ、運用の各領域での研究開発を束ね、協調設計で“実アプリ性能”を最大化することが核となる。

研究開発テーマが複数領域に分かれているのは、ボトルネックが一箇所ではないからだ。CPUとGPUの計算能力が上がっても、メモリ帯域や相互接続、I/O、ソフトウェアスタックの成熟度が追いつかなければ、利用者が得る性能は伸びない。逆に言えば、弱点を先回りして潰し込めば、同じハードでも成果が大きく変わる。

次世代では、シミュレーションとAIを一体で回す「ワークフロー性能」が評価軸になる。学習・推論・シミュレーション・データ同化・可視化が混ざると、ジョブの形もデータの形も多様になり、従来の運用やアプリ設計の前提が崩れる。各テーマは、この変化に対して技術の積み木を揃える役割を持つ。

また、稼働前からテストベッドやクラウド的環境で成果を広げることが重要になる。利用者が早期に触れ、フィードバックが返るほど、最終的な完成度が上がる。研究開発テーマは、完成品を待つのではなく、途中成果を社会に接続し続けるための設計図でもある。

アーキテクチャ

アーキテクチャの中心は、CPUとGPUを組み合わせた計算ノードの設計と、その性能を電力制約の中で引き出すことにある。計算が速くても、メモリに届かない、CPU-GPU間の転送が詰まる、ノード間通信で待つ、といった要因で性能は簡単に頭打ちになるため、演算器だけでなく「データの通り道」を含めて設計する必要がある。

先進メモリやパッケージング、CPU-GPU接続、Scale-upとScale-outの相互接続は、AI-HPCの実効性能を決める重要要素だ。AI学習では巨大モデルの分散が前提になり、シミュレーションでは通信パターンが複雑になりやすい。用途ごとに最適解が違うため、汎用性と効率のバランスを取る設計判断が問われる。

さらに重要なのが性能モデリングと協調設計(コデザイン)である。アプリの計算・通信・メモリアクセスの特性をモデル化し、どこに投資すれば実アプリが伸びるかを見極めて設計に反映する。半導体の伸びが鈍い時代ほど、勘ではなくデータとモデルに基づく設計が競争力になる。

システムソフトウェア

システムソフトウェアは、ハードの潜在能力を利用者の成果へ変換する層であり、AI-HPCでは特に重要になる。OSやランタイムに加え、通信・I/O、数値計算ライブラリ、AI基盤を有機的に統合し、ワークフロー全体のスループットを上げることが目的だ。

利用者にとっての使いやすさは性能と同じくらい成果を左右する。環境構築に時間がかかる、ジョブ投入が難しい、デバッグができない、といった摩擦があると、計算資源があっても成果が出ない。開発環境の整備、プロファイリングや性能解析の道具、移植支援の仕組みまで含めて整えることで、コミュニティ全体の生産性が上がる。

また、成果のOSS公開と国際コミュニティ連携は、継続開発と品質向上に直結する。閉じた開発では、特定メンバーに依存し、保守が止まりやすい。HPC-AI融合スタックを標準的な形で公開し、外部からの検証と改善を受け取れる構造を作ることが、結果として富岳NEXTの価値を長く保つ。

アプリケーション開発

アプリケーション開発では、GPU移植と最適化支援が柱になる。次世代の性能を引き出すには、単に動かすだけでなく、計算の分割、通信の隠蔽、メモリアクセスの整理、混合精度の導入など、設計レベルの見直しが必要になる。ここを支援できるかどうかで、稼働初期から成果が出るかが決まる。

性能評価を継続できるベンチマークと仕組み作りも重要だ。最初に一度だけ測って終わるのではなく、ソフト更新やコンパイラ更新のたびに性能がどう変わるかを追い、劣化を早期に検知して直す仕組みが必要になる。自動ベンチ環境のような継続評価は、開発を「後戻りしない」プロセスに変える。

シミュレーションとAIの融合は、速度だけでなく研究手法そのものを変える。サロゲートモデルで探索を高速化したり、PINNで物理制約を取り込んだ学習を行ったり、混合精度で計算量を減らしつつ精度を保ったりすることで、同じ時間と電力で扱える問題の範囲が広がる。稼働前からテストベッドやクラウド環境を活用して成果を早期に展開し、利用者側の手法も同時に進化させる流れが鍵になる。

運用技術

運用技術の焦点は、データセンターとスパコンを一体で最適化し、限られた電力・冷却の中で安定して性能を出し続けることにある。ピーク性能を達成しても、故障や性能ばらつき、待ち時間の増大があれば利用者の生産性は落ちる。運用は「最後の性能チューニング」であり、設計段階からの織り込みが必要だ。

運用データ活用による自動化・高度運用は、規模が大きくなるほど効果が出る。障害予兆検知、ジョブ配置の最適化、I/O混雑の回避、利用傾向に応じたキュー設計などをデータで回すことで、同じ設備でも実効利用率が上がる。AIによる利用者支援を組み合わせれば、初心者がつまずくポイントを減らし、計算基盤を使える人を増やせる。

冷却技術や再エネ活用による低炭素化・省エネ化も、今後は性能要件の一部になる。電力上限がある中では、1ワットあたりの成果を上げることが最重要指標になるため、冷却や電源設計の工夫がそのまま計算可能領域の拡大につながる。信頼性・可用性の向上と省エネを両立する運用技術が、長期稼働の現実解になる。

運用方針と施設(新建屋)計画

2030年頃の稼働を見据え、理研神戸地区隣接地での新施設整備と、富岳からの移行期に計算資源の空白を極小化する運用設計が重要な検討対象となる。

施設計画は、計算機本体と同じくらい重要な要素だ。電力・冷却・床耐荷重・ネットワークといった基盤条件が不足すると、どれだけ優れたシステムでも想定性能や安定運用が実現できない。特にAI-HPCは高密度になりやすく、熱設計と電力供給の余裕が実効性能に直結する。

運用方針では、富岳から富岳NEXTへの移行期に計算資源の空白を作らないことが重要になる。研究や産業のプロジェクトは数年単位で動くため、使えない期間が生じると、計画そのものが破綻しうる。段階的な移行や、複数環境の併用、事前の移植支援を組み合わせ、利用者が途切れずに研究を続けられる設計が求められる。

また、新建屋は単に機械を置く場所ではなく、運用改善の起点になる。運用データ収集や自動化の仕組み、セキュリティ、外部連携回線などを最初から組み込み、稼働後の改善余地を確保しておくことで、長期にわたって性能と使いやすさを伸ばし続けられる。

富岳NEXTの課題と今後の予定

半導体の性能向上鈍化と電力制約の中で、ハード刷新だけでなくソフト・アルゴリズム革新、国際連携、エコシステム形成を同時に進める難度が高く、計画的なマイルストーン管理が鍵となる。

最大の課題は、性能向上の手段が「ハードを新しくする」だけでは足りないことだ。電力上限がある中で性能を伸ばすには、混合精度、近似、分散戦略、I/O削減など、計算のやり方を変える必要がある。しかしこれらは、アプリ側の改修コストが高く、成功パターンも分野ごとに異なるため、横展開の仕組みがないと進みにくい。

次に、GPUを含むAI-HPCではソフトウェアスタックの変化が速い点が難しい。フレームワークやライブラリが更新され続ける中で、互換性と性能の両立を保ち、利用者が迷わず使える環境を提供するには、継続的な統合・検証が欠かせない。ここでOSS化と国際コミュニティ連携が効くが、取り込みと品質管理の運用設計も同時に必要になる。

今後の予定としては、基本設計から詳細設計へ、そしてテストベッドを活用した事前検証へと段階的に進むことが重要になる。ハード、ソフト、アプリ、運用の各マイルストーンを揃え、どこが遅れても全体が止まる状況を避ける。稼働開始時点で成果が出るかどうかは、稼働前の準備の密度でほぼ決まる。

まとめ:富岳NEXTで何が変わるか

富岳NEXTは、HPCの延長ではなくAIとシミュレーションを同一基盤で高効率に回す「AI-HPCプラットフォーム」へ進化し、計算可能領域と研究開発の速度、産業応用の幅を同時に押し広げる存在になる。

富岳NEXTで変わるのは、計算速度だけではなく、研究開発の進め方そのものだ。シミュレーションで仮説を検証し、AIが探索や近似を行い、結果を次の計算に戻す循環が速く回るほど、同じ期間で試せるアイデアの数が増える。これは科学の生産性を押し上げ、成果が出るまでの時間を短くする。

また、AI計算の需要が爆発的に増える中で、HPCとAIを別々に用意するのではなく、一つの基盤で目的に応じて最適に回せることは、研究機関だけでなく企業にとっても大きな価値になる。設計、材料、創薬、防災など、シミュレーションとAIを組み合わせる領域ほど効果が大きい。

そして、国際連携とオープンなエコシステム形成を通じて、富岳NEXTの成果が世界に広がれば、ソフトウェアと人材が集まり、次の世代の開発がしやすくなる。富岳NEXTは一回限りのプロジェクトではなく、日本発のAI-HPC基盤を継続的に強くするための土台になる。