在大流行中,由于数据中心的现场人员缩减,远程监控已变得越来越重要。
COVID-19的爆发促进了数据中心的运营变化,几乎所有行业都是如此。随着州和联邦当局继续要求保持物理距离,将现场IT支持保持在最低限度是一个更重要的优先事项。这使得数据中心更加依赖于对IT基础设施的远程管理和监视,同时寻求在集中式和边缘应用程序中自动化更关键的过程的方法。即使一些州的当局开始放松限制,经济在新的感染浪潮中应对重新开放的不确定性,对偏远工作环境的需求也不太可能很快改变。
以前做单片机和其他SOC时处理器上电很简单,给粮给电芯片就能跑起来。初次给龙芯2K1000上电时序 足足调试1星期,甚至3个月后才稍微摸透它的细节。为什么这么底气,还不是写手册的人太抬举开发者, 省略几万字,能否初次调通全靠运气。
在本文中,百老汇4001线路将探讨COVID-19时代远程电源监控的优势,并为那些预计在适应新常态时对远程监控有更大需求的数据中心提供注意事项。
动态变化
尽管当前的大流行可能会加速边缘基础架构的采用,但随着许多数据中心开始超越传统的集中式IT框架,需求已经在增加。这种向边缘基础设施的转变创造了一种环境,在这种环境中,大量基础设施必须在没有专职的现场支持人员的情况下运行。因此,识别潜在问题和提供维护的能力也得到了提高,以确保这些系统能够继续运行。根据Gartner的分析,在这个新的IT世界中,基础设施需要成为“支持工具,而不是服务交付的控制点”。“信息技术的作用应该转变为以正确的速度、从正确的供应商那里以正确的价格提供正确的服务——本质上成为服务的中介和管理者。”
为什么有复杂的上电时序,那是因为龙芯内部有个叫ACPI的电源管理单元。
拥抱数字模型的决定很容易,但是实现需要仔细考虑。随着数据中心和IT经理开始考虑他们的电源管理基础架构在COVID-19时代的样子,值得牢记一些因素。以下是远程电源监视服务的一些主要注意事项,因为它们在这种动态环境中变得越来越重要。
读书少,起初龙芯手册上几个名称简写S3、S4、S5不知道什么意思,它们体现着ACPI所处的状态。在启用ACPI功能时,上电后首先启动的是ACPI单元,CPU运行与否受ACPI控制,起到低功耗的作用。
通过实时数据主动降低风险:数据中心可能有大量的信息可供使用,但这并不意味着他们可以处理的所有数据都是可操作的。其中一些可能是历史数据,可以很好地了解产品历史,但可能不会提醒用户更多紧迫的问题。先进的远程监控服务使IT人员能够实时访问系统数据,从而超越了手动/被动策略。实时远程监控服务可以帮助数据中心减轻与电力设备组件相关的停机风险,并在故障发生前主动更换它们,从而延长投资寿命并在潜在问题发生之前解决它们。对于经营多个数据中心或边缘位置的企业,实时远程监视工具提供了一个中心枢纽,以帮助获得可见性并控制整个基础架构。技术人员可以使用这些解决方案来有效地解决问题,并在整个网络中保持业务连续性,即使现场人员非常多或面临潜在的旅行限制。
1. ACPI 工作模式
ACPI(Advanced Configuration and Power Interface)定义了7种系统级状态。S0属于正常工作状态;S0ix、S1、S2、S3、S4属于休眠状态;S5属于软掉电状态。
数字越大功耗越低,恢复到工作状态耗时越久, 处理器不一定完整的ACPI支持。龙芯实现S0、S3、S4、S5。
易于访问的洞察力,可以快速做出决策:电源监控软件和服务的能力不断发展,提供了易于消化,一目了然的报告,可提供对产品历史的洞察力并突出了潜在的即将发生的问题。这可以通过仪表板来实现,该仪表板可以提供对系统状态的重要见解,并可以轻松访问设备级别的详细信息。应该可以从移动或平板设备上轻松访问实时数据、趋势、事件、服务历史记录和警报的见解,并具有快速传达设备或位置执行情况的能力。如此细致的细节使潜在的电源问题在协助决策过程中更容易检查、报告和修复。例如,当管理员可以跟踪电池日期代码和服务历史记录等数据时,他们可以更好地计划未来的维护需求。
1.1. S0(Full On)
正常工作状态。处理器和所有外设全打开。功耗管理取决于外设各自的电源管理。
1.2. S0ix
低功耗的S0模式,最初叫Connected Standby,现更名叫InstantGo或Modern Standby。最初在Windows 8是Microsoft和Intel联合制定的规范,将智能手机的电源管理引入PC平台,实现500ms 以内的待机响应。
1.3. S1(Power On suspend)
带电待机,最浅的睡眠状态,处理器所有寄存器、Cache被刷新,非0号CPU被 关闭,0号CPU不再执行指令,处于空闲等待状态。何为CPU号,CPU有几个核心就给CPU编几个号,各个核心 有自己的寄存器。CPU和内存的电源维持着,S1是最浅的睡眠状态,恢复到S0状态约1-3秒。
用于主动功率监控的预测功能:随着预测分析的出现,功率监控开始从被动模型转变为更加主动的模型。预测功能使数据中心可以更好地预测电力设备中的组件故障(发生前几天甚至几周),从而有助于避免停机。由于与计划外停机有关的高昂成本,这对数据中心而言是一项重要优势。这也有助于减少除非绝对必要的情况,否则无需派遣技术人员到现场,从而通过减少数据中心人员与外部人员互动的需要来提高安全性。随着预测技术的不断发展,诊断数据、捕获和分析、工作流以及领域专业知识将继续变得更加先进,从而为将来的维护和维修过程提供可扩展的平台。
1.4. S2(Deeper Suspend)
再S1的基础上关闭CPU供电。
忘记这个状态吧,基本没哪个架构支持它。
1.5. S3(STR,Suspend to RAM)
通常称为挂起到内存(Suspend to RAM),在Windows/Linux中称为“待机(Standby)”。除了内存保持刷新模式 外,CPU在休眠前把所有操作系统、应用程序打开的文件等状态都保存在内存,其余CPU、Cache、芯片组内容均丢失。
CPU唤醒后,直接从内存中恢复之前的工作状态。其优点是恢复速度特别快,而且保留上下文工作状态。此时系统的 耗电量大约是S0的1%,恢复时间约5-8秒。
1.6. S4(STD,Suspend to Disk)
Windows/Linux中叫“休眠(Hibernation)”,内存的数据保存在非易失存储器上,如硬盘,内存可以掉电。STD和STR原理类似,CPU唤醒后从硬盘恢复状态,由于硬盘速度没有内存快,恢复时间约20秒以上。好处是不用恢复 上下文存储在硬盘,不用担心停电。
1.7. S5(Soft Off)
关机,所有设备全部关闭,操作系统也不维护任何内容,需要一个完整的启动过程来“唤醒”系统。唤醒过程即“按下开机键”。开机键对应龙芯的ACPI_PWRBTN。
SaaS与本地投资:有机会通过订阅软件即服务(SaaS)平台,将资本支出转换为运营支出并利用即付即用模型。这种方法消除了与授权、安装和布线内部监视基础结构或与第三方进行此过程相关的成本和精力,从而使他们可以通过在线支持自助安装。
有了合适的远程电源监控服务,即使在不确定的时期,数据中心和IT经理也可以更安全地前进。随着数据中心网络的不断发展和互联程度的提高,对这类系统的需求只会不断增长,同时更加重视支撑电力基础设施,以支持IT系统的发展并保持运营平稳运行。在任何情况下,将正确的监控功能定位为集成电源管理系统的一部分可以帮助提供正常运行时间,并为任务关键型基础设施提供更高的安全性。 |