IT基础设施高可用性:挑战与应对策略
1. 高可用性的重要性与发展历程
高可用性并非互联网或电子商务时代的产物,其概念已存在数千年。古代希腊的战舰和商船航行时,船长会携带备用船帆和船桨,若主帆损坏,船员会立即换上备用帆继续航行并修理损坏的帆。随着电子传感器的出现,工业系统中的备用部件无需人工干预即可自动启动。20世纪初,发电站能自动检测主发电机的问题,并切换到热备用机组。
近年来,互联网的迅猛发展和人们对信息系统的依赖,使高可用性有了新的意义和重要性。企业和消费者通过互联网购买商品和服务,人们期望在任何时间都能顺利使用网站,若网站速度慢或不可用,他们会转向竞争对手的网站。此外,互联网带来的商业全球化增加了复杂性,不同时区和地区的客户使得网站需要随时保持可用。
2. 高可用性需求现状
随着计算机性能提升和成本降低,它们被用于越来越多需要24×7不间断运行的关键任务。医院、航空公司、网上银行等服务行业实时处理客户相关数据,在线数据量预计未来几年每年增长超过75%。员工和合作伙伴依赖数据随时可用,工作时间不再局限于传统的朝九晚五,企业内部的服务器必须始终保持运行。
系统停机对企业造成的损失巨大。一项对450家财富100强公司的调查显示,美国企业每年因系统或网络停机损失约40亿美元。例如,ERP系统每分钟停机可能使零售商损失1万至1.5万美元。停机不仅导致收入损失,还会降低客户服务质量和客户忠诚度,使员工闲置。
3. 常见的停机事件案例
- AT&T:1998年4月,AT&T的帧中继网络中断26小时,影响了多个商业客户;1999年12月