`

服务器集群从微软到IBM的实现原理

 
阅读更多

适用机型:
     所有服务器
     文档内容:
     IBM xSeries 服务器集群解决方案综述
     第一章、计算机集群技术概述
     随着计算机技术的发展和越来越广泛的应用,越来越多的依赖于计算机技术的应用系统走进了我们的工作和生活。在给我们带来方便和效率的同时,也使得各行各业对于计算机技术的依赖程度越来越高。尽管随着计算机技术以日新月异的速度发展,单台计算机的性能和可靠性越来越好,但还是有许多现实的要求是单台计算机难以达到的。看看下面的例子:
     *某银行需要一台服务器来储存财务数据。他要求这台计算机即使是在机房坍塌的情况下也能够被各个业务网点访问。
     在这些情况下,往往需要将多台计算机组织起来进行协同工作来模拟一台功能更强大解决问题。这种技术称为集群技术。目前应用最为广泛的集群计算技术可以分为三大类:高可用性集群技术、高性能计算集群技术和高可扩展性集群技术。下面我们将主要介绍高可用性群集系统。
     (一)、高可用性集群概述
     高可用性集群,英文原文为High Availability Cluster 简称HA Cluster,是指以减少服务中断(宕机)时间为目的的服务器集群技术。
     随着全球经济的增长,世界各地各种各样的组织对IT系统的依赖都在不断增加,电子贸易使得商务一周七天24小时不间断的进行成为了可能。新的强大的应用程序使得商业和社会机构对日常操作的计算机化要求达到了空前的程度,趋势非常明显,我们无时无刻不依赖于稳定的计算机系统。
     这种需求极速的增长,使得对系统可用性的要求变得非常重要,许多公司和组织的业务在很大程度上都依赖于计算机系统,任何的宕机都会造成严重的损失,关键IT系统的故障可能很快造成整个商业运作的瘫痪,每一分钟的宕机都意味着收入、生产和利润的损失,甚至于市场地位的削弱。
     Industry Business Operation Average Cost per Hour of Downtime
     Financial Brokerage operations $6.5 million
     Financial Credit card/sales authorization $2.6 million
     Media Pay-per-view television $1.1 million
     Retail Home Shopping (TV) $113.0 thousand
     Retail Home catalog sales $90.0 thousand
     Transportation Airline reservation $89.5 thousand
     根据1998年Garter Group的统计我们可以看出,我们需要可以不间断使用的计算机系统,并且这种对高可用性系统和技术的需求还会不断的增长。
     可用性是指一个系统保持在线并且可供访问,有很多因素会造成系统宕机,包括为了维护而有计划的宕机以及意外故障等,高可用性方案的目标就是使宕机时间以及故障恢复时间最小化,可以容忍的宕机时间明确的说明方案的全面性、复杂性和成本。
     Percent Available downtime/Year Classification
     99. 5 3.7 days Conventional
     99. 9 8.8 hours Available
     99. 99 52.6 minutes Highly Available
     99. 999 5.3 minutes Fault Resilient
     99. 9999 32 seconds Fault Tolerant
     为了提高整个系统的可用性,除了提高计算机各个部件的可靠性以外,一般情况下都会采用集群的方案。
     所谓集群,就是共同为客户机提供网络资源的一组计算机系统。而其中的每一台提供服务的计算机,我们称之为节点。当一个节点不可用或者不能处理客户的请求时,该请求将会转到另外的可用节点来处理,而这些对于客户端来说,它根本不必关心这些要使用的资源的具体位置,集群系统会自动完成。
     集群中节点可以以不同的方式来运行,这要看它们是如何设置的。在一个理想的两个节点的集群中,两个服务器都同时处于活动状态,也就是在两个节点上同时运行应用程序,当一个节点出现故障时,运行在出故障的节点上的应用程序就会转移到另外的没有出现故障的服务器上,这样一来,由于两个节点的工作现在由一个服务器来承担,自然会影响服务器的性能。
     针对这种情况的解决方案是,在正常操作时,另一个节点处于备用状态,只有当活动的节点出现故障时该备用节点才会接管工作,但这并不是一个很经济的方案,因为你不得不买两个服务器来做一个服务器的工作。虽然当出现故障时不会对性能产生任何影响,但是在正常运行时的性能价格比并不太好。
     从上面的工作方式出发,我们可以把集群分为下面几种(特别是两节点的集群)
     主/主 (Active/active)
     这是最常用的集群模型,它提供了高可用性,并且在只有一个节点在线时提供可以接受的性能,该模型允许最大程度的利用硬件资源。每个节点都通过网络对客户机提供资源,每个节点的容量被定义好,使得性能达到最优,并且每个节点都可以在故障转移时临时接管另一个节点的工作。所有的服务在故障转移后仍保持可用,但是性能通常都会下降。
     主/从(Active/passive)
     为了提供最大的可用性,以及对性能最小的影响,Active/passive模型需要一个在正常工作时处于备用状态,主节点处理客户机的请求,而备用节点处于空闲状态,当主节点出现故障时,备用节点会接管主节点的工作,继续为客户机提供服务,并且不会有任何性能上影响。
     混合型(Hybrid)
     混合是上面两种模型的结合,只针对关键应用进行故障转移,这样可以对这些应用实现可用性的同时让非关键的应用在正常运作时也可以在服务器上运行。当出现故障时,出现故障的服务器上的不太关键的应用就不可用了,但是那些关键应用会转移到另一个可用的节点上,从而达到性能和容错两方面的平衡。
     (二)、高可用性集群工作原理
     下面针对高可用性集群,介绍一下它的工作原理。
     在微软的MSCS(Microsoft Cluster Server)术语中,所有的应用程序、数据文件、磁盘、网络IP地址等都被称为资源,一些资源可以组成一个资源组,一个资源组存在于一个节点上,但同时只能在一个节点上,它是MSCS可以进行故障切换(FailOver)的最小单元。
     在MSCS中,所有的资源都处于资源监视器的监视之下,资源监视器通过资源动态链接库文件与资源进行通信,这些资源动态链接库会侦测对应资源的状态,并通知资源监视器,之后,监视器再把信息提供给集群服务(Cluster Service),缺省情况下,集群服务会启动一个资源监视器来监视节点中的全部资源。
     MSCS用依赖性来定义不同资源彼此之间的关系,MSCS会根据资源间的相互依赖关系来决定把这些资源变为在线或者是离线的顺序。举一个WEB服务器文件共享的例子,文件共享的资源需要硬盘驱动器来存储数据,把这些有关系的资源一起放在MSCS组中,要实现共享,就必须先把硬盘准备好。同时,为了完成文件共享,我们还需要准备好网络名称以及IP地址。
     从上图可以看出,文件共享资源依赖于硬盘资源,网络名称资源依赖于IP地址资源,而对应的WEB服务刚依赖于文件共享和网络名称。
     资源的存在可以分为五种状态
     1、Offline,资源不能被别的资源或者客户机使用
     2、Offline Pending,资源正处于Offline的过程中
     3、Online,资源处于可用的状态
     4、Online Pending,资源正处于Online的过程中
     5、Failed,资源出现了MSCS无法解决的问题
     前面已经提到,MSCS可以从一个节点故障切换到另一个节点的最小单元是资源组。被定义好的相关的资源放在同一个组中,并建立对应的依赖关系。以下图为例,如果节点A中的资源组1要移到节点B上的话,资源组1中的资源(资源A,资源B,资源C)也必须从节点A移到节点B才行。
     在MSCS的资源中,有一个非常重要的资源,Quorum,它是一个可以被两个节点访问的物理硬盘,用来保存集群的信息。这些信息是用来维护集群的完整性以及使节点保持同步,特别是当节点不能与另一个节点通信的时候。Quorum盘在某一时刻只能被一个节点所拥有,并用来决定由哪个节点来拥有集群的所有资源。Quorum必须位于共享的磁盘子系统中,一般都是使用外接的磁盘柜。一般情况下,不建议把应用程序和数据保存到包含Quorum的硬盘上。
     故障切换(Failover)是指把出现故障的节点上的资源重新定位到另一个可用的节点上。负责监视资源的资源监视器一旦发现资源出现故障,它就会通知集群服务,集群服务会根据事前定义好的策略触发对应的事件。虽然发现的是个别资源的故障,但是,集群还是会把整个资源组进行故障切换。
     故障切换会在三种不同的情况下发生,人工(一般是因为管理员的请求),自动,或者在特定的时间(由集群管理软件设定)。自动故障切换又包含了三个阶段:1、故障发现。2、资源重新定位。3、重新启动应用程序(一般是故障切换过程中最耗费时间的)。当达到资源组的故障切换阀值时,自动的故障切换才会发生,阀值是可以设定的,一般由管理员来设定。
     故障恢复(Failback)是一种故障切换的特例,是指发生故障切换之后,把部分或者全部资源组移回它们首选的节点的过程。首选的节点,就是指集群中指定的运行资源组的道选的节点,如果是多个节点的高可用性方案,就会有多个首选的节点。当首选的节点出现故障后,对应的资源组就切换到另外的可用节点上,当出现故障的节点恢复正常后,资源组可以自动的切换回首选节点。如果没有定义首选节点,资源组就不会自动切换回来。
     要检查资源是不是可用,资源监视器会向对应的动态链接库发送状态信息的请求,一般会有两种级别的检查,LooksAlive和IsAlive。LooksAlive级别的检查相对比较简单,每隔一段时间(相对比较短的时间,缺省是5秒),资源监视器会进行一次LooksAlive级别的检查,如果资源没有响应,监视器会向集群服务报告。IsAlive级别的检查是非常完整的检查,它会彻底检查资源是不是工作正常,IsAlive检查的时间间隔比LooksAlive要长,缺省是1分钟。
     结合上面提到的各个要素,高可用性就是通过下面的过程来实现的:
     首先,资源监视器根据设定的时间间隔对资源进行LookAlive和IsAlive两种级别的检查,一旦发现某一个资源不可用,就会试图重新启动该资源。根据阀值的设定,如果在某一时间段内,资源不可用的情况达到了设定的阀值时,就会发生故障切换。经过故障切换的过程,对应的资源组在另外一个节点上重新启动了,继续为客户机提供服务,对客户来说,工作没有影响,这就完成了一次故障切换。当出现故障的节点恢复正常以后,如果事先对该资源组设定了首选节点,就会把该资源组移回该首选节点。
     经过前面的介绍,我们已经对高可用性的原理有了一些了解,下面,我们具体阐述一下IBM xSeries 服务器集群解决方案
     第二章、IBM xSeries 服务器群集解决方案
     (一)、体系结构
     如今,计算机解决方案与性能高低之间已经互为代名词.高性能的软件是以硬件平台的能力大小为基础的.而能力的大小可以从两方面进行扩展,垂直的(在一个系统内部)和水平(多系统互连).实现垂直方向上的性能扩展的关键在于整个系统的均衡设计,包括可扩展的处理器,内存,存储器和输入输出设备等各子系统.为满足日益增长的要求,许多商家已将单处理器系统升级为具有对称多处理器(SMP)的可垂直扩展的大系统.
     当运算需求或有效性需求超出SMP系统的能力范围时,许多公司将目光转向群集,以满足商务活动中所要求的有效性,可扩展和可管理性等各项指标.群集被认为是可将原有的系统扩展为更大型系统的行之有效的解决办法.IBM曾推出两组大型处理系统系列:Scalable POWERparallel (SP)和zSeries(S390) Parallel Sysplex系统.这两组基于群集技术原理的服务器系列,性能可靠,并具有几乎可升级至无限计算能力的扩展性.IBM服务器家族的另一成员iSeries(AS/400),不仅提供了性能可靠的中等规模的服务器平台,而且综合了业界领先的各种解决方案.基于同样的设计原理,以及我们在大型系统方面的经验,IBM 正在xSeries服务器上发展新的群集体系结构.
     决定整个系统最终性能的关键步骤之一是如何设计系统的体系结构.SMP系统具有集中式的存贮器,这样不仅限制了处理器的扩展能力,而且因为仅有一个操作系统镜像,系统崩溃带来的危险非常巨大.因此,SMP系统很难满足有效性和扩展性两方面的要求.而群集构建于分布式模型的基础之上,不仅提高了整个系统的有效性,而且允许将系统中处理器的数目扩展到上百个之多.IBM的集群技术解决方案着重于三个方面:有效性、可靠性和可管理性。
     持续的可靠性
     推动集群技术发展的一个主要动力因素在于人们试图寻找一个具有持续的有效性的技术解决方案。实现这个目标需要按照以下3个步骤进行:
     1. 减少故障发生的可能性
     2. 尽可能减轻故障所引起的负面影响
     3. 在无需系统停止运行的前提下有计划地修复和升级
     提高系统各组成部件的可靠性可以降低故障发生的概率,IBM xSeries服务器在产品设计开发过程中投入了大量的人力及资金,研发出很多的先进技术,以提高服务器整体的可靠性。
     为了实现系统不间断运行的目标,IBM 提供了大量专门设计的新工具以极大的降低计划与非计划系统宕机时间。技术包括:光通路诊断技术有助于迅速定位并替换失效组件;Active PCI 技术允许您无需关闭系统即可添加或替换适配器。IBM 采用增强的内存子系统,在企业级X架构技术模型中扩展了系统高可用性功能。IBM 对子系统的升级使之更加坚固,给您提供更高级别的系统可用性并保证用户可以24×7不间断的进行系统访问。将以前仅在硬盘驱动器中使用的数据保护技术应用到内存子系统后,使用企业级X-架构技术构建的xSeries 服务器提供更高的系统可用性。
     n Active Memory——提供内存热插拔和热添加技术特性。如果需要替换任何内存或需
     要增加更多内存容量,则无需关闭服务器系统即可实现。
     n ChipKill 内存——现在,作为第三代行业标准计算机系统, ChipKill 内存提供全新
     级别的系统可靠性。ChipKill 内存可以修正在一个芯片组或多个芯片
     组的内存DIMM 模块的多位错误。
     n Memory ProteXion——使用与硬盘驱动器热备份技术类似的冗余数据通道,在出现
     DIMM 模块芯片组失效时自动重新进行数据路由以保证服务器系统平稳运行。Memory ProteXion 在修正内存错误方面比ECC 内存更有效。专门设计集成Memory ProteXion 和ChipKill 内存就可以修正服务器系统运行所遇到的几乎任何错误。
     n 内存镜像——如果有时候服务器运行时出现的内存数据错误太多导致Memory
     ProteXion和ChipKill内存无法完全正确修复所有数据时, 则内存镜像技术就可以保证系统无差错运行。内存镜像技术的工作原理与RAID-1磁盘镜像类似:数据同时写到两个独立的内存卡上,但是从标记为“活动”的内存卡中仅能进行数据读取。
     目前以有很多的方案试图减轻故障带来的负面影响。这些方案通常是利用冗余部件来代替出错部件进行工作,直到故障被修复。IBM集群解决方案所采用的设计方案着重于避免整个系统的瘫痪,系统在尽量提高单个节点的可靠性的同时可以容忍单个节点的故障,当某个节点上发生故障时,系统将故障局限于这个节点范围内以避免其负面影响继续扩大。IBM集群系统允许在修复某个节点时,该节点被单独断电并切断与系统其它部分的连接,还允许在整个系统保持运行的状态下替换某个节点或开启节点电源,类似的,当整个系统的某个节点或某一部分的软硬件需要检修或升级时,不需要整个系统停止运行。
     近似线形的可扩展性
     尽管SMP系统的垂直扩展能够满足某些性能需求,但由于集群所带来的水平扩展会使系统性能具有更强大的可扩展性。尽管IBM已在企业级的大型集群服务器设计中成功的解决了垂直扩展中的问题,但水平扩展所面临的问题和挑战远不同于垂直扩展所要面对的问题。延迟短而有高速可靠的通信、共享I/O设备的访问以及最优工作量平衡是实现水平扩展要解决的3个关键技术问题。
     当您的业务随着增长而变得日益复杂的时候,您的系统也会变得复杂。扩展意味着在现有的硬件基础上利用集群件和优化了的应用程序扩大容量,提高性能,上图说明了在增加节点时,集群的处理能力按近似线形的速度增长。
     可管理性
     尽管集群可以提供非常出色的可扩展性和可靠性,但是否能够高效地管理多个节点仍然是衡量集群功能的重要指标。管理集群的目的是能够在一个控制点连续监视整个系统的运行情况,并且在故障发生时,能够自动地采取相应措施。促使联合多个服务器的动机之一就是要提高服务器的可管理性和使用价值,从而降低总体拥有成本。将服务器和数据集中到一个地点可以极大地提高效率,这在很大程度上要归功于由集中而带来的更出色的管理手段。
     随着集群的规模越来越大,并且要包含越来越复杂的资源,IBM致力于运用多年积累的关于集群的经验和技术来提高单点管理的能力。其中IBM的优势领域包括以下几个方面:
     l 性能监视和调整
     l 处理能力规划
     l 负载均衡和规划
     l 报警及管理能力
     同时IBM Director 系统管理软件工具包,在大多数xSeries 服务器中免费提供,用于扩展支持客户管理、客户服务器群集系统和处理功能并减少系统瓶颈。IBM 还不断扩展该软件包以提供广泛的,包括高级系统管理功能的服务器解决方案。自我管理、自我修复技术是IBM Project eLiza(电子蜥蜴) 新工具的特征,该工具可以使服务器进行主动的自我管理、无需或很少人工干预。创新的技术例如Memory ProteXion和软件复原技术,以及IBM Director 工具功能的不断增强,都保证了真正的系统可靠性,这也反过来降低技术人员对系统维护所耗费的精力、时间和金钱。IBM 智能化工具帮助您越来越靠近不间断地数据中心运作。
     (二)、构建一个群集系统
     为了能够从群集技术中获取最大的收益,所有组成模块都应集成化并且标准到位.这些模块包括:
     服务器节点
     可扩展I/O
     企业级存储器
     强健的中间件
     群集管理
     一个群集解决方案应赋予您管理和监督群集的能力,并在您做决定,安装及运行的时候提供相应的服务和帮助.解决方案还应当能完成一般的功能,比如数据库,协同计算,网络服务,服务器联合等.
     为了能够在这些活动中给您提供帮助,IBM在全球范围有7个ServerProven解决方案中心.这意味这无论您在世界的哪个角落,您都可以通过家中的电话,从规模较大的独立软件供应商(ISV)那里获得最好的解决方案.
     IBM xSeries 服务器企业级X--体系结构中的IBM xSeries群集结构部分涵盖了上文中提到的所有构成模块.IBM着眼于以服务器节点,可扩展I/O,群集中间部件和群集管理为技术核心的客户解决方案,并在其间实现有关检修,系统主要应用程序和数据管理的内容.
     服务节点
     作为IBM xSeries群集结构的组成部分,服务器节点通过高速交换机互相连接成为一个计算机.我们的策略是及时引入新的硬件特性,尽可能同步或超前于其它业界同行.基于IBM 对客户的承诺:提供创新性的技术、灵活的应用程序和新工具,IBM 发布了针对Intel 架构服务器平台的新一代的创新技术。该技术称为企业级X-架构技术,IBM 利用在大型机与超级计算机实验室所采用的技术,极大的提高IBM xSeries 服务器的I/O、内存和系统性能。新型IBM 服务器同时建立了一种“按照服务器处理能力增长付费”的方式,以引导客户购买Intel 体系架构的32位或64位高端xSeries 服务器系统。这就意味着为客户提供了顶级的系统可用性、系统的灵活性和高性能,并且可以迅速、方便、低成本的进行系统扩展。所有这些服务器技术上的优势将继续推动群集在性能上的进一步发展和完善.
     可扩展I/O
     可扩展系统,无论是在一个系统内部的垂直扩展,还是在群集服务期间的水平扩展,都需要可扩展的I/O,IBM 企业级X-架构技术还通过远程I/O 功能提供了您初始投资的几乎是无限的扩展能力。远程I/O 技术特性通过使用并已证明的、高速交互网络连接和高达12 个PCI 与
     PCI-X 适配卡插槽,在单一系统中三倍提高系统的I/O 处理能力。甚至,两个服务器可以共享一个远程I/O设计结构。并且,如果服务器组成群集系统,远程I/O 特性能够提供更佳的冗余保护和灾难恢复功能,还技术还作为未来InfiniBand技术的实现桥梁作用。
     今天IBM的xSeries服务器由于在IBM光纤通道RAID控制器单元,ServerRAID适配器及串行存贮结构(SSA)PCI RAID适配器中使用了智能I/O处理器,所以能够支持可扩展I/O. 设计I/O处理器的目的在于要通过它们来完成I/O频繁的任务从而减轻主处理器的工作负担. IBM RAID适配器由高性能的RISC处理器来驱动.IBM将继续努力提高RAID适配器的吞吐速度,并将采用新出现的各种符合工业标准的新技术,如I2O设备驱动支持,更快速的I/O处理器以及性能更强大的PCI的版本.
     对那些需要极宽的带宽,较大的布线距离及高有效性的解决方案,IBM光纤通道子系统能够扩展至数百TB的存储量,2Gbps的读写速率,它还支持服务器于存储盘之间最远10公里,这一点更是对数据的安全性提供了额外的保证.最新的IBM xSeries服务器由于实施工业标准,提高了PCI总线的能力使整个系统具有更高水准的性能.其中对64位PCI的支持已在ServerRAID-6和IBM光纤通道子系统中使用,大大提高了数据传输率.
     企业级存储器
     群集技术的发展对存储子系统的有效性和容量提出越来越高的要求.企业级存储器是一个工业标准术语,30多年来,IBM在发展大型企业计算系统的过程中始终处于企业级存储技术的领先地位.在信息技术的投资增加或信息存储平台联合时,企业级存储器可以满足各种业务的需求.企业级存储器可以将商务活动中所需要的信息汇总在一个地方并共享给其它所有的计算平台,它同时还是提供一种安全有效的管理信息的手段.如果您已经按照传统的方法规划了网络中的小型服务器,企业级存储器可以将分布于各服务器硬盘中的数据存储方式转变为统一存储和管理数据的方式.
     创新精神曾使IBM 的存储系统部门在硬盘存储和RAID技术方面处于领先地位.如今,这种精神在开发自适应RAID算法的过程中得到了充分体现.自适应RAID算法能在不同的工作负载及系统配置之下,实现智能优化吞吐速率的功能.到目前为止, RAID 子系统的固件可以配置 RAID阵列,并且在工作负载发生变化时,自动调节参数和算法以优化系统性能.
     IBM将继续保持在存储器及存储管理环境方面的领导地位.另外,某些IBM处于领先地位的技术创新,如硬盘驱动器,风扇,电源,硬盘及内存等的预测故障分析(PFA)技术,使IBM xSeries服务器在有效性及可检修方面处于同类产品的领导地位.
     强健的中间件
     中间件有两个关键要素.首先,中间件要为群集提供基本的服务,如拓扑,事件和组服务等.IBM在DB2通用数据库和Oracle并行服务器的解决方案中,从屡获殊荣的RS/6000S产品系列借鉴了群集技术.IBM xSeries服务器在技术上的兼收并蓄使它提供的扩展能力既能适用于企业界要求而又能经受工业届测试.IBM全力支持目前广泛使用的基于Windows和Linux的群集解决方案,并将与其后继产品继续合作.
     其次,所有重要的中间件产品应支持群集结构.这些中间件产品包括数据库-IBM DB2,Web服务器-IBM Websphere,通讯服务器,交易处理软件及报文排队软件等.IBM除了支持基于Windows和Linux的全线标准中间件外,还与Oracle这样的软件供应商合作,以保证IBM xSeries群集服务器能够完全支持他们的产品.我们在为企业提供解决方案时积累丰富的经验,而上述合作方式则将这些经验应用到了基于Intel处理器的服务器市场
     群集管理
     随着群集系统复杂性的增加,群集管理成为用户日益关注的焦点问题.pSeries (RS/600)SP 的单点控制采用了透视技术,IBM准备借鉴此经验以增加xSeries群集的可管理性.这种技术可以通过一般的图形用户界面(GUI)完成对群集内部所有节点的普通系统管理任务,并在每一节点之间平衡高级系统管理处理器的远程控制能力.而这一点会随着群集和服务器联合规模的日益复杂化而显得愈发至关重要,尤其是在不远的将来,当xSeries和pSeries系统变得更加一体化,并可通过同一控制工作站实现监管的时候.
     群集管理和中间件技术是群集水平扩展时两个极其重要的制约因素,IBM xSeries服务器提供了基于Windows 和Linux群集系统的管理解决方案,“IBM群集系统管理程序”和IBM CSM Linux 群集管理程序.“IBM群集系统管理程序”,它在Windows版服务器的Microsoft群集服务器(MSCS)的顶上又构建了管理和控制的功能.“IBM群集系统管理”赋予MSCS管理者更加强化的控制群集化安装的权力.IBM能够对多个群集及相应资源实现单点监控,从而简化了群集管理.另外,通过和IBM Director系统管理软件的整合,可进一步增强其管理控制功能.
     (三)、集群解决方案
     综合以上所讨论的集群技术的各个方面,IBM xSeries服务器集群方案将让您充分享受具有高度有效性和(或)可扩展性的应用集群技术的优势。除了能够支持MSCS,IBM xSeries服务器为Lotus Domino,IBM DB2,IBM WebSphere 防火墙及调度器,还可以针对Oracle并行服务器,以及Linux集群提供了解决方案。
     这些解决方案为处理系统在集群应用环境下的节点、硬盘或网络接口故障而设计,它们的目标就是保证停机时间为零或接近于零。
     DB2通用数据库企业级增强版。
     为了能够满足复杂决策支持及满足数据仓库型应用程序的要求,IBM将DB2大型数据库企业级增强版所具有的丰富特性扩展到了Windows和Linux平台上。它的非共享体系结构,可以完成节点间数据传输量最小的并行查询。在此情形下,节点数目的多少对节点间数据流量影响极小。所以,增加xSeries服务器的数目对系统性能的提高将呈几何线性的关系。一个唯一的节点映射表将使得DB2能够管理数据的分配及再分配。
     Lotus Domino。
     在Domino应用程序和报文传输环境下,IBM xSeries服务器和Lotus Domino提供了几种具有高度有效性和扩展性的选择。IBM xSeries服务器支持所有这些解决方案。您可以利用Domino企业服务器而使应用集群包括多至6个节点。
     早在Lotus Domino 4.6.1版本中,您就可以在微软Windows 服务器上同时安装和Lotus Domino和MSCS。这使得在主动、被动环境下,只要是连接到同一台Domino服务器上,无论是Lotus Notes客户还是浏览器客户,都可以得到故障保护支持。Domino企业版服务器甚至可以加入到MSCS的应用集群中。如果在一台通过了MSCS认证的IBM xSeries服务器上Domino企业版服务器的话,您可以获得业界最好的主动—主动模式的配置。在生产环境及所有的3种配置条件下,Domino企业版服务器最多可以带动6个服务器,而它们具有故障更正、负载均衡的能力。在已推出的Lotus Domino R5中可支持协同工作日程安排及规划中的故障更正,Web浏览器客户端的负载均衡和故障更正,以及邮件代理等功能。
     WebSphere集群方案。
     IBM xSeries 服务器支持IBM 的可扩展Web服务器解决方案—WebSphere。该方案能够提供带宽管理、缓存、文件管理与复制,以及卓越的负载均衡功能及强有效性。这些特性能够使多个服务器象一个服务器一样的工作,从而可大大增加访问频繁的网站的容量。而系统性能的增强有望进一步提高向终端用户发送信息的速度。该方案的安全性有IBM电子网络防火墙保证。两者之间强有力的联合可使单个或分布的网站在降低带宽资源占用、提高安全性的同时,保证强有效性和终端用户响应的质量以及站点规模的持续增长。
     瘦客户/服务器解决方案。
     IBM xSeries服务器可运行Winframe和Wincenter。另外,Citrix Metaframe的制造商已证明:IBM xSeries服务器支持这一运行于Windows终端上的软件。所有这些操作系统都提供了连接瘦客户机的功能,其中包括IBM网络工作站。这些操作系统中还包含了一个平衡服务器负载的可选授权软件包。IBM xSeries服务器被认证可以支持这个可选软件包。这意味着如果您在多服务器环境下的IBM xSeries服务器上运行这些操作系统,您可以平衡服务器间的工作负载。用户可以登陆到某台服务器或特定的一部分应用程序上,而系统管理员可以一直监视服务器的运行情况,并根据当时的服务器负载分配或回收资源。这些操作是通过察看服务器的性能监视记录以及调整服务器而完成的。
     Oracle并行服务器。
     IBM xSeries服务器能够支持Oracle的并行服务器(OPS),IBM是第一个成功为OPS提供光纤通道存储方案的硬件提供商。因为OPS依赖于共享硬盘技术的发展,所以可以说光纤通道技术最能满足多节点OPS方案的要求。在为Oracle关系数据库管理技术提供的基于Windows的6节点的配置方案中,IBM也处于业界领先的地位。在数据仓库以及企业资源规划(ERP)等应用程序中,工作负载共享及6个节点的规模会使用户受益无穷。与Oracle之间的合作使我们能够在将来推出具有更多节点和更大规模的方案。
     IBM Datacenter Solution Program
     目前,各个公司的服务器产品都提供了高可用性方案,而IBM,针对微软新推出的Windows 2000 Datacenter Server,也提供了全面的解决方案。
     Microsoft Windows 2000 Datacenter Server 操作系统是为了那些将高度可靠的高端硬件和软件用于其大型通讯计算机网络组件的企业而设计的。它是Microsoft有史以来提供的最强大和有效的服务器操作系统。它支持最大32个对称多处理器(SMP)和最多64GB的物理内存。作为标准功能,它同时提供4节点群集和负载平衡服务。它也提供Windows 2000所有版本的丰富Internet和网络操作系统(NOS)服务。它是为大型数据存储、经济分析、科学和工程中的大型模拟、在线事务处理(OLTP)和服务的合并作过优化的。目前,Windows 2000 Datacenter Server 只提供给原始设备制造商,由原始设备制造商向客户提供相应的解决方案。
     IBM 通过对硬件和软件部件进行不断的严格测试,为客户提供经过 Windows 2000 Datacenter Server 认证的解决方案,这种认证可以确保方案只包含通过测试的硬件、设备驱动程序以及经过确认的核心级应用程序。IBM 通过 ServerProven 和 ClusterProven 来完成这些全面的测试。
     IBM 拥有支持企业级用户的丰富经验,IBM Datacenter Solution Program 提供了基于 Microsoft Datacenter 操作系统的全套方案,包括经过认证的硬件配置,经过认证的核心级应用程序以及标准的和可选的服务,IBM也与其它的方案开发商以及硬件开发商合作,使他们的部件在IBM的Datacenter方案中可用。
     IBM Datacenter Solution Program 是以 Microsoft Datacenter 操作系统为中心,它可以支持比 Windows 2000 Advanced Server 和 Windows 2000 Server 更大的内存、处理器以及节点,同时,IBM 还通过独有的企业级X架构技术,提供杰出的扩展性,系统管理性以及适用性。IBM Datacenter Solution Program 是设计用来提供关键业务所需要的服务和支持级别的。为了实现一个高可用性方案,您需要一个稳定的配置,它具有可控制的更改以及更好的支持和服务。IBM Global Services(IGS)拥有足够的经验来提供适合的服务。
     目前,IBM xSeries 445 是 Datacenter 方案的基本组成部分,由于采用了为关键业务设计的企业级X架构技术,x445提供了更高的可用性,支持8路、16路处理器,可选配置包括2.5GHz 1MB L3 Cache 或者 2.8GHz 2MB L3 Cache 的Intel Xeon MP 处理器,64GB ECC SDRAM 内存,两个内置硬盘,外接的光纤通道存储设备以及多种网络连接设备等,而高性能的I/O子系统和高可用性使x445成为Datacenter Server的最佳选择。除了预装Windows 2000 Datacenter Server以外,方案中还包括IBM Director 和 APC UPS 的相关软件。
     DataCenter 的认证必须经过严格的测试过程,这其中还包括相应的软件产品,以确保其不会对操作系统有任何的影响,除此之外,IBM还致力于与业界著名的软件开发商合作,来确保他们的应用程序可以在 Datacenter 可能遇到的高负荷下正常工作。同时,IBM还对 Datacenter 系统提供的系统管理,存储管理以及数据库进行全面的测试来满足客户的需求。另外,位于微软总部旁边的IBM Center for Microsoft Technologies,拥有130资深的专业技术人员,与微软合作开发最佳的解决方案。
     在IBM Datacenter Solution Program中,IBM Global Services(IGS)提供了一系列标准的和可选的服务,包括硬件集成和操作系统的安装,System Assurance Review,7天24小时当天的硬件服务。通过提供硬件集成和操作系统的安装,IBM可以对硬件配置的可行性进行完全的测试。
     要了解更多Datacenter的相关信息,可以访问下面的网址
     http://www.pc.ibm.com/ww/eserver/xseries/windows/datacenter.html
     结论
     IBM在群集技术方面有着多年的经验,更重要的是:IBM了解客户的环境及其关键业务的需求.我们知道:仅仅掌握全球领先的技术并不能保证一定成功,我们还要在提供软件时于他人共享异种环境系统管理的知识,我们还要与其它厂商发展合作关系,提供完整的群集解决方案.完整的群集解决方案在高可靠性,可扩展性,易管理性等诸多方面都有数不尽数的优点.这些优点将转换成客户的高生产率以及低拥有成本.
     IBM以继续增强xSeries 服务器的性能,可扩展性,控制及服务为己任,IBM在涉及计算的各个领域都有精深的背景,这就是IBM为什么能够为您降低拥有成本的原因.
     IBM的xSeries服务器群集解决方案是IBM的 企业级X--体系结构策略的重要组成部分.这一策略将工业标准的计算引入新一代的水平.企业级 X--体系结构以IBM的系列工具,中间件,及系统管理特性为依托,组合了业界最新的标准计算硬件及操作系统单元.所有这些,都是为了赋予您最高水平的性能,扩展性,控制及服务,也是为了我们能提高xSeries服务器的能力,从而为您的关键业务提供更高水平的计算服务.IBM 对企业级计算能力的延承,xSeries产品及相关服务将使您信心百倍地面向今天及未来的关键义务的挑战.

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics