AIを舞台裏で支える、知られざるスタッフたち 中国内モンゴル自治区

【新華社フフホト4月24日】中国内モンゴル自治区フフホト市南郊に位置する和林格爾(ホリンゴル)データセンタークラスターは全国十大データセンタークラスターの一つで、約50カ所の大型データセンターが集結しており、演算能力の総規模は12万5千ペタフロップス(PFlops、1PFlops=1秒間に1千兆回の浮動小数点演算能力)を超える。立ち並ぶサーバーラックの背後では、演算能力の「マネジャー」とも呼ぶべきスタッフたちが昼夜を問わず常駐し、演算能力を水道や電気のように安定して使いやすいものにしている。
午後11時を過ぎた中国通信大手、中国移動通信(チャイナモバイル)フフホトデータセンターのサーバールームでは、インフラネットワーク運用保守エンジニアの侯暁雯(こう・ぎょうぶん)さんが、給配電や冷却、液冷設備のメンテナンスを行っていた。侯さんは「データセンターのインフラとデータ基盤の安全を支えている」と語り、ひとたび電力や冷却に問題が起きればIT業務全体に影響することから、24時間365日のモニタリングが常態化しており、携帯電話の電源を切ることもないと明かした。
侯さんがデータセンターの「心肺」を守っているとするならば、コンピューティングネットワーク運用保守エンジニアの趙一帆(ちょう・いつはん)さんは「頭脳」、すなわち大規模モデルの学習や人工知能(AI)の学習や推論を担うコンピューティングサーバーを管理している。大規模モデルの学習は連続性に関する条件が極めて高く、1度のダウンタイムでも甚大な損失を招く恐れがある。趙さんは「予防保守を軸に、隠れたリスクを可能な限り事前に排除している。業務の合間にメンテナンスを行うことで、損失を最小限に抑えている」と語った。

同センターの李程貴(り・ていき)副総経理は、専門の運用保守チームと先進技術によって、センターが1兆パラメータ級の大規模モデルの安定した学習を遂行でき、22日間連続で中断なしの学習記録を樹立したと紹介した。
取材対象者たちは「私たちの存在を知らないということは、全てが正常ということだ」と話した。まさに趙さんが語るように、誰も彼らの存在に思い至らないことがすなわちシステムの安定や、円滑な演算能力の証明となる。そして舞台を裏から支えているという自負こそが、彼らにとっての最大の価値であり、達成感につながっている。(記者/安路蒙)
