探访百度阳泉云计算中心,百度AI的底气从何而来?
2018年底,百度宣布技术体系架构整合ABC智能云事业部升级为智能云事业群组(ACG),同时承载人工智能toB业务和云业务;搜索公司及各BG的运维、基础架构和集团级共享平台整合至基础技术体系(TG)。
百度创始人、董事长李彦宏称此次组织架构调整将强化集中资源“打大仗、打硬仗”的能力,帮助百度客户完成智能化转型、早日迈入AI时代。“百度将打造AI时代最领先的技术平台,实现前端业务和技术平台的资源高效统筹及组织全面协同。”
而数据中心作为上述一切业务的基础,是百度发力AI的根基。
目前,百度在阳泉、顺义、南京等地区都已部署数据中心。本周,钛媒体探访了百度阳泉云计算中心,该中心是百度自建的第一个超大规模数据中心,也是亚洲规模最大的数据中心。
如图所示,阳泉云计算中心分为八个模组楼,而每一个区域则通过一条环状长廊连接在一起,在发生紧急状况时工作人员能够灵活调度。
就在刚刚过去的2019年春节,百度抗住了春晚红包互动活动的数据流冲击,阳泉云计算数据中心功不可没。
“春晚的数据流可以用惊涛骇浪来形容。全球观众互动次数达到208亿次,春晚数据流量预计每秒峰值5000万次,每分钟峰值10亿次。”百度系统部总监张炳华说道。
靠近用户的阳泉云计算中心
目前,百度在阳泉、顺义、南京等多个地区都已部署数据中心。其中,阳泉中心是百度自建的第一个超大规模数据中心,从2011年9月选址到2018年9月一期整体交付,历时7年,直至今日,阳泉云计算中心仍在不停的建设、扩展中。
百度阳泉云计算中心规划建筑面积超过20万平米,按照T3+标准设计,服务器装机能力超过28万台。一期已建成投产建筑面积约12万平方米,建设涵盖8个高标准模组楼,机房满载可提供约6000个40A机柜、承载16万多台服务器。为百度智能云、百度App、百度地图、智能城市、小度、Apollo等百度内外部的产品和厂商提供强劲的计算能力。
选址
张炳华表示,百度在东、南、西北各大区都有数据中心选址布局,和大部分公司一样,具体选到哪可能有各种因素考量,从技术上看,主要考察以下6个方面的因素,最后综合平衡选择。
第一,就是环境地理条件。远离地震、海啸、台风等自然灾害地区的,除此之外,还要考虑气候条件,气候适宜有利于降低成本;第二,政策支持力度 ;第三,电力、水力的丰富度,丰富的电力和水源供应,是建设数据中心的必备条件;而且,电价也是要重点考量因素,电力成本占运营成本的60、70%;第四,网络技术条件,地方很好,政策也好,网络接入能力好不好,能不能接入运营商骨干网,也是选址需要重点考虑的点;第五,交通环境;第六,人才条件。而选择在阳泉,则是考虑百度的业务类型,以及靠近用户,提升用户体验。
据介绍,目前百度阳泉云计算中心使用百度自主研发高性能交换机,提供超大规模的网络吞吐能力,支持10G、25G的通用计算网络接入和100G的AI高速无损网络互联技术。
在数据中心外部,百度网络构建了三个时延圈:从数据中心覆盖用户时延不超过30ms,从POP点覆盖用户的时延不超过10ms,从CDN覆盖用户的时延不超过2ms,确保全国用户的全面覆盖和就近接入。在数据中心内部,百度通过大带宽、低时延、无损网络,把数据中心数十万台服务器连接成为一个超级计算机。
优化
数据中心建设周期长,在规划过程中必须具备前瞻性。在这几年陆续建设过程中,各种先进技术都在逐渐被运用到阳泉云计算中心。其中,数据中心模块化技术、整机柜服务器技术成为了数据中心国家技术标准。其他不断成熟应用的领先技术包括AHU风扇墙、市电直供+HVDC、OCU等等。
目前,该中心已上线服务器超过15万台、年均PUE 低至1.09、超过300万个CPU核、存储容量超过了6EB。
图为“天蝎”整机柜服务器。2012年开始规划设计时,决定取消架空地板的设计,全部按照整机柜交付模式设计,从卸货平台、走廊、电梯到机房全程实现无障碍交付设计,阳泉云计算中心的服务器,全部是以整机柜服务器方式设计制造和交付的。
张炳华介绍到,PUE (Power Usage Effectiveness,电力使用效率),是国际上通行的衡量数据中心能源效率的指标,PUE值是指数据中心总能耗(供电、制冷、照明、IT)与IT能耗之比。PUE值越接近于1,表示效率越高。
“数据中心成本中,电力成本占了60%-70%,降低PUE,可以直接降低数据中心的运营成本,提高产品的竞争能力。通过技术创新,提高数据中心能效,对行业有极大的示范作用和带动作用,同时,可以减少能源消耗,减少CO2排放。”
百度阳泉云计算中心监控中心,如屏幕所示,实际当天的PUE为1.06,还要低于1.09这一数值。
除了PUE以外,数据中心的机架规模、功率密度、运行稳定性、运营成本等,都是数据中心的核心指标。
对标国际巨头,百度阳泉云计算中心数据中心单体规模、算力、存储容量方面上非常强大,比如:采用“天蝎”整机柜服务器、“冰山”冷存储系统、“X-MAN” AI超级计算平台等;在数据中心基础设施架构非常领先,比如:高效供电、免费冷却、智能控制,并与服务器、网络设备间的协同创新,达到最佳匹配效果。
安全
业务安全及用户体验对于任何一个数据中心来说都是至关紧要的。百度智能云产业智能化业务负责人李硕介绍到,百度采用分层机制,基本能够做到N+1的服务模式,即一个用户可以通过多个入口来访问百度的服务,若访问数据时物理服务器出现故障,会通过智慧调度系统实现分层处理。
“对于相对比较冷的数据,比如阳泉和青岛各有备份,在网盘中就不会有对应的数据,但即使该数据在10年内没有被用到,我们当前在使用时也能很快访问到,这个是和底层完全剥离的。如果是非常火的数据,会在多个系统中增加备份,这样南方的用户可以在广州访问,北方的用户可以在阳泉或青岛访问。”
李硕表示:“随机关掉百度的任何一个数据中心,我们访问依旧没有任何问题,到今天为止依然是这样,这是上层服务设计需要做到的。”
在管理上,阳泉数据中心与北京总部实时联动。阳泉数据中心团队主要负责数据中心7*24时值班,负责现场运营管理、故障处理和维护保养,业务层面的部署和调度由总部统一调度。
为百度AI提供超强算力
2018年底,百度刚刚发布自主研发的超级AI计算平台X-MAN3.0。该平台专为AI深度学习场景优化设计,每秒完成2000万亿次深度神经网络计算,极大的加快了AI深度学习模型的训练速度。
就在阳泉云计算中心,钛媒体看到了“传说中”的AI计算集群。“冷板式液冷技术已经在百度X-MAN 2.0上规模应用了。”据张炳华介绍,2017年上线的X-MAN 2.0,是国内首个采用液体冷却技术的GPU解决方案,实现了超高的散热效率,规模应用后,可以去除制冷机组,全面实现无冷机运行。
AI计算集群
目前,阳泉云计算中心是由CPU通用计算+GPU异构计算+XPU新一代AI处理架构所组成的强大算力平台。不仅仅是百度搜索、度秘、智能云、基础技术、新兴业务的基础,更是百度发力人工智能、自动驾驶、AI的重要基石。
张炳华对钛媒体说道,这些算力平台定义了AI时代的基础设施标准,并为百度AI技术多年积累和业务实践的集大成——百度大脑提供了强大的算力平台。而算力平台之上的百度大脑,则为百度的AI业务提供了强有力的算法和数据支持。
“我们都希望通过开源和开放,把中国的数据中心产业生态做好,缩小与国际先进水平的差距,大家一起想办法把蛋糕做大,把规模效益做起来,这样的话,每个参与者都是受益者。ODCC每年发布的几十项成果,这些成果都是由各个会员单位贡献的,这些个成果都是开放的。随着这个生态的规模越来越大,产业链越来越成熟,也越来越得到行业的认可。”(本文首发钛媒体,作者/赵宇航)