气温上升,还有什么能比“工作没了”,更能让人一瞬间心里拔凉拔凉的呢?
这个“薪尽自然凉”的故事,就发生在数据中心。
前不久,某电商平台正在购物高峰期,结果IDC冷冻系统故障,机房设备温度快速升高,直接宕机了12个小时,据说损失高达一亿以上。
(资料图片仅供参考)
业务凉了,该企业的基础平台部负责人的职业生涯也凉了。当然,受伤的不止一个人,因为这次机房事故影响的还有微信、QQ等软件,腾讯内部的几个高管也遭到了降级、免职的处罚。
(事故公告)
AI热度狂飙,数字经济加速,作为计算的心脏最该保持凉爽的数据中心,也越来越难以冷静,所以液冷也成了除AI之外,计算厂商“群起而攻之”的概念,也是IT人不得不关注的技术。
2022年被认为是数据中心的“液冷元年”。
因为客户多了,双碳战略和东数西算的政策持续牵引,液冷从少数互联网巨头、公有云厂商、智算中心、HPC高性能计算中心等的选择,开始引发更多大众行业和企业的关注。
有需求就有供给,厂商动作也明显多了。众多服务器厂商、云计算和互联网企业争先研发数据中心液冷技术,甚至有厂商喊出了 “All in 液冷 ”的口号,许多新的液冷产品和解决方案被推向市场。
资本市场也愿意为液冷概念买单,今年以来,中科曙光、申菱环境、网宿科技、英维克等相关企业都出现过大涨。
多股力量之下,液冷的热度很难不高。
不过,数据中心的冷却技术发展了很多年,液冷对于数据中心来说并非新鲜事物,降本降PUE需求也不是一年两年了,为什么AI一来液冷就突然成了风口?这个热度是真实的吗?
这个炙热的夏天,我们不妨通过液冷的故事,来清凉一下。
时也:真的假的 “元年”?
元年,是个被用滥了的词,我们听过太多野心家嘴里的“元年”了。2014“智能家居元年”,买回家的蓝牙联网电器再也没有更新过;2015“VR元年”,没两年行业就骤然降温;2021“元宇宙元年”,一时沸腾,很快就被大家忘在脑后了……
数据中心的“液冷元年”,会不会也是昙花一现的概念炒作和噱头呢?
我们也可以换个角度,来看看那些公认靠谱的“元年”,液冷是不是有雷同的要素加持?
2019被称为5G商业应用元年,大量5G商用牌照发放,进入明显的加速进程——这是政策的强力牵引。
再看液冷,数据中心是能源密集型的,随着双碳政策的推进,数字经济加速,工信部提出,2022年全国新建大型数据中心PUE要达到1.4以下;“东数西算”文件进一步要求,东部地区集群数据中心的PUE要控制在1.25以内,西部地区在1.2以内。在此背景下,数据中心“节能减排”已经势在必行,风冷技术进步已经放缓,液冷开始得到重视,合理。
2022,被称为AIGC元年,AI作画爆火,能力开始为全球用户所接受,岁末年初的大语言模型又添一把火,AIGC进入产业化应用已成必然——这是技术的成果扎实。
目前,风冷在数据中心中仍占主导地位,液冷尚未得到更广泛的采用,但主流服务器制造商都在 2022 年陆续开始建设标准化规模生产冷板液冷服务器的产线,几乎所有的头部互联网公司都已对液冷技术密切跟踪。技术夯实,成本随产业化、标准化、规模化而大幅下降,液冷开始渗透,有戏。
往远一点,1956年被称为“人工智能元年”,是因为麦卡锡、闵斯基、香农等知名学者汇聚在达特茅斯会议,群星璀璨——这是高屋建瓴的洞察。
新一轮AI革命已经“做实”,当前 AI 正处于史上最长繁荣大周期,而AI计算等高性能应用的芯片架构,热功率密度急剧上升,CPU已从每个芯片的150瓦增加到300瓦以上,图形处理单元(GPU)已增加到每个芯片700瓦以上。功率越大,芯片就越热,冷却要求也就越高。这些高功率 CPU 和 GPU 被封装到服务器中,每个机架产生的热量就更多了。越来越多计算专家、科学家认同数据中心要供给高效绿色低碳的算力,Azure的首席架构师Marcus Fontoura指出,5到10年内,液冷的数据中心将成为主流,而不仅仅在超算和比特币挖矿领域。液冷+DC的长期前景,看好。
从这个几个判断依据来看,“液冷”和数字经济之间的联系密切,成为这一年来数据中心行业的关键词,“元年”这个词不是行业炒作的噱头,是有真材实料的支撑。
命也:打铁还需自身硬
或许有人会说:到底还是政策导向,双碳降PUE的需求,只要机房里空调够给力,增加的热气一样会被冷却,IT设备照样好好地很可靠。
确实,只要服务器入口能保持在17-27摄氏度(64.4° F 和 80.6° F )之间,那管你什么冷却技术,能抓住老鼠的都是好猫,能降温就行。液冷能被选中,还是在于自身的技术先进性。
传统冷却方式,气流对流冷却,可以简单统称为“风冷”。因为都是通过冷空气与服务器的发热元器件(CPU、图像处理器、存储等)进行热交换,来达到制冷的效果,通常会有机房空调(CRAC)或机房空气处理器(CRAH)单元,就类似于大家在家里吹空调,大热天里凉风习习,想想就美滋滋。所以,数据中心有80-90%都是风冷。
(架空地板将冷空气送入设备入口)
吹空调已经很爽了,为什么还要冲“冷水澡”?
液体冷却,就是通过液体冷媒,将发热源的热量传递到远处,再进行冷却。
这就是液冷技术的“天生命好”——技术更先进。
液体冷媒比空气的比热容大,所以液冷的制冷效率和散热速度,远远高于风冷。相当于室温太高,空调得吹个十几分钟才舒适,而冲凉水一下子就能从头凉到脚,哪台高速运转的服务器能拒绝这种快乐呢?达到同样的冷却效果,液冷的电源消耗更小,PUE(电源使用效率)也更低,很多浸没式液冷数据中心的PUE值甚至可以达到1.03~1.05,IT打工人降PUE的绩效稳了。
液冷元件比风扇的声音小,所以整个液冷系统的噪声,也比风冷CRAH单元小,基本可以达到“静音”效果。想象一下,如果没有单独的机房,又要在办公室里放一台服务器,谁坐在嗡嗡嗡的机器旁边还能安心办公啊,所以哪怕稍微贵一点,也愿意选液冷。
液冷系统比空气更可控。风冷“看天吃饭”,外部气温变化都可能影响到制冷效果,导致意想不到的故障,液冷就可控多了,只要冷媒不断不漏,能持续稳定地发挥冷却作用。这意味着,像新闻里那样因为设备过热中断宕机而丢工作的IT倒霉蛋,会少很多。
空调可乐冰西瓜,是普通人眼里美妙的夏天,而紧紧巴巴挤在机柜服务器的处理器们,“冲凉”才是最惬意的享受。
运也:液冷来到临界点Tipping Point
既然液冷这么好用,为什么风冷还是数据中心的主流,为什么微软还要把数据中心搬去海底,为什么谷歌不早点向液冷转型?
答案就是,液冷技术刚刚才来到“临界点Tipping Point”。
液冷在数据中心的应用并非新鲜事物,已经存在了一段时间。上世纪60年代,IBM大型主机就通过液冷来解决固态设备的散热难题。发展到本世纪,浸没式液冷也应用在超算、高性能计算场景中,是当之无愧的黑科技。
而普通的数据中心机房,开始趋势性地采用液冷,是近两年才开始到达“临界点”。
所谓“Tipping Point”,也被翻译成转折点、引爆点,指的是某个事物发展到一定程度,会产生重大且通常不可阻挡的变化,向野火一样蔓延的神奇时刻。
根据格拉德威尔的说法,临界点到来的一个重要因素是“粘性”,即一个事物是不是能够“粘”在公众的脑海中,并影响他们的决策行为。
而我们观察到,近年来液冷行业的一些变化:
首先,产业需求的粘性很强。
以往液冷技术主要应用于高性能计算领域,数据中心又是一个较为传统的行业,液冷的部署环境与传统的机房有较大的差异,改造成本是很高的——除非它值得。
而AI和数字化的普及,让液冷的需求粘性变得跟502一样黏着。
以谷歌为例,一开始并不愿意采用液冷方案。谷歌数据中心副总裁卡瓦曾说:“想象一下,有一排又一排,一排又一排的机架,装满了我们的服务器。我们的硬件运营团队每天都在那里,升级、维修、部署......如果所有这些服务器浸泡在数十万加仑的矿物油中,日常操作将变得更加复杂。”
他本人承认,“液冷是非常好的东西,但对于谷歌的大规模部署,却不是必需的”。结果我们都知道,谷歌变了,2018年开始向液冷转型,原因是AI。自从谷歌的AI芯片TPU问世之后,它的并行计算能力强大,也十分耗电,以至于到了TPU 3.0,传统的空气冷却完全不行了。所以,自从 TPU 3.0 在内部推出以来,谷歌数据中心的工程师就急忙改造基础设施以适应芯片级液冷,即使这样会增加成本。
AI所带来的先进生产力和竞争力,让风冷转液冷的麻烦和投入,变得非常值得。
其次,技术的粘性在变强。
每一种新兴技术的规模应用,都需要经过长期的实验和迭代,来保证技术的实用性、稳定性。
近年来我们看到,液冷的技术也有了非常大的飞跃,使其能够走向产业化应用。
技术变化一,芯片级冷却的突破。
芯片级冷却,可以直接对发热量较大的CPU、GPU,进行针对性地冷却,这样制冷更精确,冷却效果当然也就更出色,可以支持更强大的芯片。而做到芯片冷却,是非常考验设计能力和制造工艺的。目前这方面已经有非常多的产品问世,比如阿里云“麒麟”是国内第一个尝试芯片级液态制冷的产品,将带有芯片的集成电路板直接浸入液体,有效提升散热效果。
技术变化二,冷板式液冷的可靠性加强。
应用最为广泛的冷板式液冷技术,也有非常大的提升。对于冷板式来说,用户最担心的就是漏液风险。冷却液仍存在极小的安全性泄漏隐患,一旦发生可能引发严重的生产停运事故。
我们看到,头部厂商已经通过提升管路焊接工艺、增加智能漏液监测装置、使用相变等新技术、液环式真空CDU系统等,来多角度、全方位防范漏液风险,提升冷板式液冷的可靠性、安全性。
技术变化三,浸没式液冷的下沉。
液冷有三种主流方式:冷板式、浸没式、喷淋式。其中,冷板式最大众,是应用最早的液冷技术,曙光、浪潮、百度、华为等都开始在数据中心应用冷板式液冷技术;喷淋式最没存在感,公开的应用很少;浸没式,长期以来是创新性极强的“黑科技”,节能性强,也是最为昂贵的“高岭之花”。近年来,浸没式液冷也开始从超算飞入寻常数据中心,有了“技术下沉”的趋势。
比如2021 年,微软研发了一种非常先进的两相浸入式液冷方案,将电子元件浸入一桶液体中,这种液体的沸点很低,50°C(122°F)就会沸腾蒸发,吸走设备运行时产生的热量,这一技术已经在位于华盛顿州昆西的数据中心运行,也让微软成为第一家在生产环境中运行两相浸入式液冷的云厂商。
国內,中科曙光此前也已经在超算系统中应用了浸没式液体相变的冷却方式,积累了相应的技术和实践,并开始将其带到数据中心,阿里也推出了单相变液冷产品。
(微软Azure数据中心在测试两相液浸式冷却技术)
另一个粘性,体现在成本的显著下降。
前期的建设成本。目前国内外厂商都开始推出模块化设计的冷板式液冷解决方案,各个模块(外冷设备、CDU模块、集群环网模块等)独立设计、独立安装,大大提升了数据中心的建设效率,可以快速部署,省掉很多工时和流程,从而间接降低用户成本。
后期的维护成本。近年来有实力的头部厂商开始推出“交钥匙工程”,提供液冷数据中心全生命周期整体解决方案,全线布局、加强服务,来降低绿色数据中心的后续成本。
折中的部署成本。一些传统的风冷数据中心,不能新建机房,改造成本又比较高,难道就只能望洋兴叹了吗?液冷产业还真想出办法了,有厂商的液冷产品支持风液混布,风冷和液冷分别处于不同的子机房,互相之间独立无干扰,一样可以达到降PUE的效果,同时无需改造风冷机房,避免了楼梯改造、空间重布的麻烦。
需求强劲、技术可用、成本下降,液冷近年来的创新确实是踩在了时代的韵脚,黏住了数据中心,也黏住了基础设施厂商。曙光、华为、联想、阿里云、浪潮、宁畅等知名厂商纷纷发力,热度看来还能再持续一阵。
能也:命运掌握在谁手里?
有句老话,时也命也运也,非吾所能也。成功有时候靠的是天命和运势等,超出了个人的掌控能力。表现在科技领域,就是那些站在新技术浪潮之巅的企业,往往能随着时代巨浪向前发展。
这是不是说,只要抓住“液冷”这个概念,就能吃到数据中心行业接下来的红利呢?
归根结底,要站上时代之巅确实有运势一说,不全看真本事,但不能没有真本事。
2022年以来,厂商都在将液冷列入战略规划,加大投入力度,我们能隔三岔五听到液冷的产品与解决方案发布,隐隐有着全行业开花的趋势。
然而必须承认的是,大众对液冷的关注,很大一部分来自双碳政策的压力,追求数据中心节能的“政策正确”,企业必须在压力下去更新IT基础设施是“液冷”逻辑成立的前提。
而商业逻辑之外,我们更应该看到,液冷技术大规模商用的瓶颈,才能更好判断,哪些企业是真的能交付成熟的产品,哪些企业是将“液冷”作为一种趋势在对客户宣讲。
第一个门槛,就是长时间投入的定力。
液冷数据中心是典型的技术密集型产业,需要参与者有多年的研发经验,来积累和掌握前沿技术,较高的研发费用决定了这只可能是少数头部厂商的游戏,还是要跟进微软、谷歌、华为、阿里、浪潮、曙光、联想等头部厂商的动态。尤其液冷数据中心的落地部署都是近年来才完成,缺乏长周期、大规模的验证,比如浸没式液冷还有很多技术规范是空缺状态,这些企业的发展布局较早,使用过程中的可靠性更有保障。
第二个门槛,是标准化和定制化的平衡。
没有标准化、规范化的产品设计和制造能力,产品和解决方案的成本很难被摊薄,后续的扩展和适配也可能存在隐患。与此同时,数据中心的规模不同、承载的业务负载也不同,比如用来进行AI大模型训练的企业级数据中心,和小型数据中心,对液冷服务器产品的需求截然不同,电力系统、能源条件、能效目标等指标也各不相同,这又要求企业能够针对性地定制产品和解决方案,满足多元化的需求,非标产品也能做到成本可控,这非常考验厂商的精益生产。
第三个瓶颈,是软实力的充分完善。
数据中心采用液冷技术和产品涉及到复杂的规划、改造、运维等工作,基础设施厂商不仅要能提供过硬的硬件产品,软实力也必须过关。一方面,是足够全面,通过全生命周期从规划到运维的服务,为客户解决全系统环节可能出现的问题,充分保障液冷数据中心的可靠运行。另一个是足够高效,通过人工智能等技术提高服务器利用效率,能耗治理不是“引入液冷,万事大吉”,还要通过电力网、算力网和热力网的协同优化,构建最优能耗体系。谷歌使用DeepMind AI产品在40个月内将冷却能耗减少了18%。此外,足够多的朋友。液冷是非常需要产业链协作的,从上游的冷却液、芯片供应商到部件生产商、下游的ISV经销伙伴,拥有一个友好开放的朋友圈,确保供应链的韧性和最终交付效果也是“软实力”的体现。
从长远来看,面向算力时代,液冷本身的前景远大是真实的,不过短时间内,产业条件和应用性还有待加强,必定是先经过一个个示范案例落地的逐步验证和经验积累,最终一步步过渡到全液冷、全绿色的产业革命。
液冷来到临界点,后面必然是巨大变化的开始。数据中心和一个凉爽的夏天,距离已经不远了。