欢迎访问 中国系统集成行业协会 官网!
当前位置:首页>>资讯中心

人工智能助力数据中心实现高效与脱碳转型

发布时间:2024-06-20 10:24:24

数据中心作为云计算业务的核心,其能源消耗与碳排放量正逐渐引起全球关注。目前,它们约占全球用电量的1%,其中冷却服务器群所消耗的电力尤其显著。据统计,大约50%的用电量直接关联于基本运营成本,而冷却成本更是占据了高达40%的比例。

       为应对这一挑战,数据中心正积极探索各种创新解决方案。从加大可再生能源的利用,到将数据中心置于海底以减少冷却需求,这些努力旨在降低能耗,减少碳排放,实现绿色、高效的运营。

       一些最节省和实用的解决方案涉及实施人工智能来定位和纠正效率低下的问题。Gartner的一份报告估计,未来两年,人工智能将在一半的数据中心投入使用。IDC 2019年的一份报告显示,这种情况可能已经发生。工作量将同比增长20%,因此这是一个紧迫的问题。
      Hitachi Vantara 数据平台产品营销总监 Ian Clatworthy 和 DataBank 工程副总裁 Eric Swartz 谈到了数据中心人工智能解决方案的可能性和局限性。
       收集适当的数据

       为了创建和校准有用的 AI 仪器,数据中心必须收集和输入适当的数据。事实证明,这很有挑战性,因为某些类型的数据在日常运营中过去没有用处,因此被忽略了。有些数据可能被收集但未被使用。有些数据根本没有被收集,这意味着操作员必须从头开始或从现有数据中推断。
       必要的硬件数据包括:可用存储空间、访问便利性、特定时间运行的机器数量以及在任何特定情况下流量被导向的机器。与机器供电和冷却所消耗的能量相关的数据也是必不可少的,与中心内外环境条件相关的数据也是必不可少的。
      “为了能够构建一个合适的机器学习人工智能系统,你需要所有这些来真正提高效率。所有这些都很重要,”Swartz 说。“每一个数据点都可能相互影响。”
       事实上,人工智能在收集这些信息方面是有用的。在得到正确的指令后,数据挖掘可以提取隐藏在看似不相关的统计数据中的有用数据。根据 Clatworthy 的说法,当正确的数据排列好后,它可以“以一种有意义的方式呈现信息”。
       如何利用人工智能提高效率
       服务器的用电量是人工智能干预的主要目标。未使用的服务器处于运行状态,传入流量在可用设备之间分配效率低下。调度控制引擎可以使用深度学习来适当引导流量。它可以以最佳方式分布在可用的机器上,以充分利用其功能,但不会使其过载。然后,可以关闭未使用的机器,直到需要它们为止。更好的是,Clatworthy 说,“我们可以关闭 CPU。通过关闭,你可以减少电力消耗。”他认为,打开和关闭机器的电源也是低效的。可以预测流量模式,从而更节约地使用设备。因此,电源使用效率 (PUE) 得到改善。随着工作负载的增加,人工智能可以帮助扩展这些流程。
       通过预测性维护可以提高效率。“通过了解组件问题或维护计划的历史数据,并将其与预算分配联系起来,组织可以使用人工智能来提供预测模型,”Clatworthy 说。
       通过利用数据确定何时可能发生停电,可以更轻松地建立适当的备份。修补和升级既繁重又费力,但也可以在一定程度上实现自动化。故障机器可以在造成服务中断之前进行更换或维修。
       电源管理本身也可以从人工智能中受益。通过确定可再生能源何时最可用(风力发电在刮风的日子,太阳能发电在晴天),数据中心可以确定何时从这些能源获取电力,何时转向不太理想的化石燃料电力。废热可以重新定向,在数据中心内部或周围设施内使用。
       “你不能总是使用可再生能源,”Swartz 声称。“通过使用人工智能来确定何时是使用它的最佳时间,你可以两全其美。”
这也可以节省成本。“即使 1% [的用电量] 也可能意味着数十万美元的能源,”他补充道。“将其调到最有效的运行参数将非常有益。”
冷却系统是人工智能效率计划的另一个目标。与电力一样,它们在过去也是恒定的。也就是说,它们不会根据不断变化的参数进行调整,而是以模糊的需求估计确定的稳定速率运行。
       冷却非常昂贵——无论是在财务上还是在碳排放方面——即使对冷却系统进行微小的调整也可以节省大量成本。热管理必须考虑环境温度、天气、任何给定时间运行机器产生的热量、建筑物建造的材料以及现有的 HVAC 系统等因素。
       人工智能可以将冷却活动引导到需要它的系统——直到特定的机器机架——并在不需要它的区域关闭它们。它甚至可以考虑滞后时间,预测某些区域何时恢复供电并提前将冷却引导到它们。
       数字孪生如何优化数据中心系统
       创建数字孪生或数据中心物理环境的虚拟表示有助于模拟其各个组件如何相互作用,而不会对系统本身造成中断风险。通过输入有关能源、温度、交通需求和天气等因素的数据,AI 架构师可以为数据中心设计最佳条件——至少在理论上是这样。
“我们可以模拟不同的冷却配置,”Clatworthy 举例说。“无论是在新加坡、墨尔本、欧洲还是在雨中——我们都可以根据设备的位置确定最有效的冷却布局。”
       缺失数据——总是有缺失数据——当然会扭曲这些数字模型。但即使是合理数量的历史数据也可以创建数据中心实际运行和使用能源的现实模型。然而,数字孪生并不是自我维持的。它们需要人类观察员的调整,他们可以标记超出物理世界中可能出现的参数。因此,模型会随着时间的推移而完善。
       数据中心部署 AI 面临的挑战
       数据稀缺是数据中心实施 AI 面临的最棘手的挑战。虽然有些数据是为了其他目的而收集的,因此可以输入到 AI 系统中,但一些对优化 AI 性能至关重要的数据迄今为止一直漂浮在数字以太中。有些数据可以从其他来源追溯收集。但其他类型的数据需要新的方法——这意味着没有历史记录。数据中心必须从头开始。
       例如,数据中心可以使用制造商指定的开箱即用机器的功耗。但随着机器老化和性能下降,机器的功耗可能无法收集——因此无法用于 AI 解决方案。对正在使用的每台设备的功能和漏洞的深入了解是必不可少的——而且通常很难获得。
       正如 Swartz 所指出的,多租户数据中心在收集数据方面面临着另一个困难,因为他们必须遵守与客户达成的隐私协议。“我们有不同类型的客户,他们有不同的需求和不同的风险水平,”他表示。 “当你试图适应所有这些时,你通常无法成为生活在边缘的人。”
人工智能还需要新的复杂系统和设备来支持其实施——即所谓的人工智能税。虽然前期成本不低,但后期成本节省似乎是可靠的。尽管如此,启动和运行系统并非易事——必须收集、处理、输入数据,然后重新分析。
       确保数据中心能够以可持续的方式相互通信是另一个挑战。“我们正在研究如何使用人工智能软件将数据从数据中心转移,而不会对客户产生任何影响,”Clatworthy 说。当考虑到可再生能源时,这会带来许多障碍。“太阳在这里落山了。这意味着我们不会使用可再生能源来移动这个数据集。”
       即使人工智能系统越来越复杂,并且它们能够做出这样的决定,但在某些情况下,它们仍然无法与人类推理相提并论。

      “人工智能还没有能力及时做出复杂的战略决策,”Clatworthy 观察到。“我希望它告诉我我的长期能力会是多少,告诉我需要升级什么。我将让我的团队专注于不可预见的异常情况。”

       随着人工智能在数据中心运营中扮演的角色日益重要,相关的人工处理人员也需适时调整其职责,以更好地与这一技术趋势协同工作。


       声明:本站所使用的图片文字等素材均来源于互联网共享平台,并不代表本站观点及立场,如有侵权或异议请及时联系我们删除。