科技
GTA隐秘超级计算机Trillium:科研利器模拟海洋恒星
位于大多伦多地区的超级计算机Trillium,由多伦多大学运营,拥有超过24万个核心,是加拿大最强之一。它帮助全国学者处理海洋模拟、恒星建模等庞大计算任务,但安全原因地址保密。

在大多伦多地区(GTA)某栋不起眼的建筑里,藏着一台加拿大最强大的超级计算机之一。出于安全考虑,它的存在并未公开,BetaKit也被要求避免透露任何可能定位其具体位置的细节——因为这里装着价值近2亿加元的芯片和硬件。
这台超级计算机名为Trillium,由加拿大和安大略省政府资助、多伦多大学(U of T)所有,并由大学下的计算中心SciNet运营。它属于加拿大五个同类站点之一(其他四个在本拿比、维多利亚、基奇纳-滑铁卢和蒙特利尔)。SciNet首席技术官Daniel Gruner告诉BetaKit,GTA中心的任务是“处理真正的大任务”——帮助全国各地的学者攻克大规模研究分析、建模和人工智能难题,领域涵盖天体物理、航空航天、生物医学和气候科学。
超级计算机是设计用来处理海量数据集和复杂计算的高速系统,远超普通计算机的能力。Gruner说:“今天没有一个科学领域不需要计算,而且往往需要大量计算。”Trillium的用户从维多利亚大学到纽芬兰纪念大学不等。一个团队用它模拟整个海洋,另一个则用它建模恒星的内部动力学。Gruner指出,完成这类任务需要将许多计算机组合起来。
近年来,AI时代对计算能力和数据主权的担忧,使数据中心和专用计算系统成为热门话题。但尽管头条新闻不断,真正亲眼见过超级计算机的人很少。今年4月,Gruner带BetaKit参观了这座他参与建造、于2009年首次上线的设施。
场地本身并不光鲜。内部像普通的办公室或学校:灰色瓷砖、米色墙壁、白色天花板,没有装饰,只有实用。Gruner形容它像工厂。中心的“皇冠明珠”——耗电的服务器机架——在一条堆满纸箱的走廊尽头,经过一个18人团队的小控制室,窗户上用记号笔写着各种计算。
在设施中心附近一个嘈杂的房间里,矗立着一排排冰箱大小的黑色金属服务器机架,内部是密集的节点、芯片和彩色线缆。对普通人来说它们可能不起眼,但正是这些紧密互联的系统让奇迹发生。运算会产生大量热量,SciNet使用直接液体冷却保持适宜温度:机械系统将温水引导至芯片上方的铜板(温度可达90°C),再抽出热水。这些硬件放置在一小段台阶上——几年前一根水管爆裂淹没了建筑其他部分,这个位置被证明至关重要。
这台设备需要大量电力。该中心有4兆瓦的输入电源——足以同时为数百个家庭供电,是个人电脑用电量的巨大倍数。但这与超大规模数据中心的消耗相比仍是小巫见大巫。不过Gruner表示,它曾是加拿大最高效的数据中心。尽管供电不如理想中稳定和清洁,但作为研究型超级计算设施(而非服务医院、银行等),它可以承受少量停机维护,只要数据保存完好。
一台笔记本电脑可能有4到8个核心(计算单元),而SciNet的最新系统Trillium拥有超过24.1万个核心。一个当前研究团队因需要5万个核心而使用了它。
Trillium的计算能力是前代的3倍。它于去年8月上线,取代了老旧的Niagara和Mist集群。尽管计算能力翻了三倍,耗电量却与前代大致相同。Gruner出生在墨西哥,最初来加拿大在多伦多大学攻读理论化学物理博士学位。现在他和团队以帮助其他学术研究人员为荣。他的工作是让Trillium全天候满负荷运行。“我们始终全速运转。”BetaKit访问时,队列中约有1500个任务。AI研究机构向量研究所(Vector Institute)的大部分图形处理器(GPU)都安置在此。Gruner表示,当前对GPU(支持AI应用的芯片)需求极高,该中心正在进行一项联邦资助的升级以满足需求。
目前,加拿大在高性能计算方面不仅落后美国,也落后许多其他国家,是G7中唯一没有超级计算机跻身全球最强大系统前25名的国家。Trillium全球排名第142位,是加拿大第二快的学术超级计算机(仅次于西蒙菲莎大学的Fir,排名87),总排名第五。目前加拿大最快的超级计算机是Telus位于魁北克里穆斯基的Sovereign AI Factory,排名78。Gruner说:“芬兰的超级计算机比我们大得多。”芬兰人口近600万,经济体量远小于加拿大。“诚然,那是欧洲在计算方面的大投资,但我们也应该达到那个水平。”Grüner表示:“如果你因为资源不足而无法做研究,那很可悲。对一个富裕国家来说很可悲,对一个自称先进的国家来说很可悲。”
不过加拿大最近改变了态度,承诺投入数亿加元加强现有基础设施并建设新的加拿大自有公共超级计算机。“是时候了。”Gruner说。联邦政府希望通过这台超级计算机,为全国学术研究人员和创新企业提供更大规模的先进计算资源,减少对美国的依赖并确保敏感数据留在国内——这是在地缘政治紧张加剧下的两个驱动因素。建设并运营该超级计算机的提案申请已于本周一截止。Gruner希望这种投入热情能持续并转化为持续投资,他指出所有计算机最终都会老化,更快速、更大的替代品会出现。“你不仅要跟上,还要赋能更大的事情。”
雪鸮编辑认为,加拿大在超算上的投入终于开始认真了——但相比芬兰这种小国都落后一截,说明资源分配还有很大提升空间。对做科研的华人学者来说,Trillium升级和新建公共超算是好消息,至少不用全依赖美国算力;但申请门槛和排队时间会是实际挑战,建议有大规模计算需求的课题组提前关注联邦项目动态。


