您可以使用几种方式轻松搜索整个Intel.com网站。
您也可以尝试使用以下快速链接查看最受欢迎搜索的结果。
不建议将您正在使用的浏览器版本用于此网站。请考虑点击以下链接之一升级到该浏览器的最新版本。
作者
执行概要
本参考架构将涵盖以下问题:
由于“云计算”一词现在经常与虚拟机和容器化的使用联系在一起,本参考架构对其多种应用进行了说明,包括主流的基于虚拟机的数据库解决方案,如Oracle和MicrosoftSQL,以及基于容器的数据分析和人工智能(AI)工作负载。这些用例突出了解决方案的灵活性和整体性能。
本参考架构的目标受众包括系统管理员和系统架构师。我们假设受众对虚拟化技术、网络(VMwareNSX-T)和Kubernetes有一定经验,对机器学习和人工智能的核心概念也有一定的了解。
简介:为什么要为您的混合云选择VMwareCloudFoundation?
混合云基础设施兼具本地部署基础设施的优势和公有云的灵活性以及即时可用性。随着企业不断调整其现有计算资源以适应不断变化的需求和市场需要,该方法越来越受到欢迎。虽然有许多适用于公有云的服务,但有些工作负载还是更适合本地部署(例如机器学习模型需要使用敏感数据时)。因此企业越来越希望能有混合云解决方案可供选择(如图1所示),以实现灵活性和业务敏捷性。随着人工智能和机器学习工作负载的日益普及,混合云变得尤为重要。
利用英特尔和VMware提供的端到端解决方案,企业可快速启动数据库处理和人工智能,并对工作负载进行扩展以适应未来的需求。本参考架构中提出的统一的云解决方案(见下页图2)可运行位于本地数据中心以及公有云(如AmazonWebServices,AWS)的容器化应用和传统虚拟机。该解决方案的混合云性质使企业能够扩展可用资源,并轻松地在本地和云端之间来回迁移工作负载。
图1.MwarevSphere、vRealizeSuite、vSAN和NSX上构建的云解决方案,通过VMwareSDDCManager进行管理
图2.VMware混合云平台参考架构构建模块
解决方案概述
本参考架构提供了构建混合云所需的详细配置信息。整体上,参考架构包含了优化后的英特尔?硬件和VMware软件组合。
硬件概述
该解决方案的硬件堆栈建立在英特尔?服务器主板S2600WF0R平台上。这些平台包括新一代英特尔?至强?金牌处理器和英特尔?至强?铂金处理器。为了实现高性能、全闪存的软件定义存储,参考架构包含英特尔?傲腾?固态盘DCP4800X系列、基于NVMExpress(NVMe)的英特尔?固态盘DCP4510系列和英特尔?傲腾?持久内存。英特尔?傲腾?持久内存引入了创新的内存技术,提供大容量的系统内存和持久性。为实现更高速的软件定义网络(SDN),该平台使用25Gb/s英特尔?以太网融合网络适配器X710-DA2。
软件概述
软件方面,该解决方案由VMwareCloudFoundation组成,包括VMwarevSphere、VMwarevSAN、VMwarevRealizeSuite、VMwareNSX-TDataCenter和VMware软件定义数据中心管理器(SDDCManager),以提供基础设施即服务(IaaS)功能。此外,基于Kubernetes的容器解决方案采用了TanzuKubernetesGridIntegrated(TKGi)。
说明:TKGi原名为VMwareEnterprisePKS。虽然本文在正文中使用了TKGi这个名字,但我们在整个文档中也会提及PKS文档,因为此次更名发生在参考架构完成之后。
VMwareCloudonAWS是该混合架构的最终目的地。VMware混合云扩展平台(HCX)可在本地和云端之间实现虚拟机迁移、工作负载重新均衡和保护。除了业务持续性,它还为多层应用提供了网络扩展,并且无需改变虚拟机属性。
技术介绍
本节将介绍参考架构各层中的构建模块,包括硬件、云基础设施、数据库构建模块和数据分析/人工智能构建模块。在整个堆栈中使用英特尔?傲腾?技术(如图3所示)为平台带来了诸多益处。
英特尔?硬件
英特尔?傲腾?持久内存
英特尔?傲腾?持久内存是一种全新的内存和存储技术,旨在通过提供大量具有低时延访问特性的持久内存来提高服务器的整体性能。英特尔?傲腾?持久内存模组兼容DDR4插槽,并提供一般DDR4DRAM产品所不具备的容量选择:每个模组有128GB、256GB和512GB三种选择。默认的基础配置不使用持久内存,但可通过升级基础配置来使用持久内存模组,无需额外进行硬件变更,即可获得显著的性能提升1。
面向常规DDR4DRAM扩展的内存模式
该工作模式非常适合扩展可用内存容量,从而在虚拟桌面基础设施(VDI)部署中支持更多或更大的虚拟机。这种模式还可支持更多的“热”数据,用于处理内存数据库、数据分析和其他严苛的工作负载。该模式下,企业可以将更多数据放到更靠近处理器的位置,并保持近乎DRAM的一致性能。持久内存作为易失性内存对所有应用(包括操作系统)可见,就像普通的DRAM一样。当系统关闭时,其内容会丢失。硬件方面,该模式结合了持久内存模组和标准DRAM。DRAM用作频繁被访问数据的缓存,而持久内存用于提供容量。通常情况下,DRAM与持久内存的比例为1:4至1:8。只有持久内存模组的大小是可见的,并可供应用和操作系统使用。由于CPU内存控制器负责处理所有调用并管理用作缓存的DRAM,操作系统或应用使用内存模式无需满足额外要求。它们并不需要识别安装了两种类型的内存。这种设置提供了更高的内存容量且成本更低。但是,在随机访问工作负载方面,这种配置可能比具有相同水平纯DRAM内存的系统要慢。不过纯DRAM内存的系统也要贵得多。
面向低时延持久内存的AppDirect模式
第二代英特尔?至强?可扩展处理器
当前,现代企业的数据处理量在不断增加。他们需要能够满足数据分析、人工智能和内存数据库工作负载“以数据为中心”要求的计算能力。第二代英特尔?至强?可扩展处理器针对这些类型的应用进行了工作负载优化,每CPU可达56个内核,每路可达12条DDR4内存通道。另外,这些处理器均支持英特尔?傲腾?持久内存,可实现经济的系统内存扩展。
本参考架构提供“基础”和“增强”两种配置。基础配置使用英特尔?至强?金牌6248处理器,性价比高,适合主流工作负载。增强配置使用英特尔?至强?铂金8268处理器,可有效处理高密度部署和数据密集型、时延敏感型的工作负载。需要更高性能的企业可将任一配置中的默认CPU替换为更高型号的SKU。
本参考架构在基础配置中采用英特尔?至强?金牌处理器;在增强配置中采用英特尔?至强?铂金处理器
英特尔?固态盘数据中心家族:英特尔?傲腾?固态盘和英特尔?3DNAND固态盘
为了使VMwarevSAN发挥更出色的性能,建议缓存层使用高性能英特尔?傲腾?固态盘,容量层使用基于NVMe的大容量3DNAND固态盘。
英特尔?傲腾?固态盘的独特设计提供了低时延以及每日整盘写入次数至少30次的耐用性3。这些特点使得它们成为大写入量缓存功能的理想选择4。缓存更快意味着企业能够经济高效地处理更大规模的数据集,进而挖掘重要的商业洞察。
英特尔?固态盘DCP4510系列具备大容量,并采用了英特尔的64层TLC3DNAND技术,与上一代的英特尔?固态盘DCP4500系列相比,可用容量增加了一倍。这一密度提升是支持读取密集型操作的关键。此固态盘还提供了高可靠性和性能一致性。
面向NVMe驱动程序的英特尔?VMD技术
英特尔?以太网连接和适配器
为了提升VMware混合云平台的性能,本参考架构采用了英特尔?以太网700系列。该系列的英特尔?以太网产品提供经过验证的性能,可满足企业在数据弹性、服务可靠性和易配置性方面的要求5678。
在物理网络层,本参考架构建议在数据平面使用两个交换机,在管理平面使用一个交换机。数据平面交换机应支持VLAN和巨型帧。此外,还需要一个企业级路由器解决方案来为VMwareCloudFoundation所要求的多个VLAN提供路由功能。
数据平面开发套件(DPDK)
由英特尔开发的数据平面开发套件(DPDK)是一组面向英特尔?架构优化的库和驱动程序,可用于加速数据包的处理,并且无需昂贵的定制交换机和路由器就能创建数据包转发器。它使应用开发人员通过软件和通用的英特尔?处理器就能解决数据平面的处理需求。DPDK能够:
采用并受益于DPDK的VMware基础设施组件包括VMXNET3半虚拟化vNIC、VDS和直接分配功能(DirectPathI/O或SR-IOV)。VMwareCloudonAWS也支持DPDK。
云基础设施
VMwareCloudFoundation
VMwareCloudFoundation通过一个私有云和公有云环境均适用的集成软件平台,提供了一条通往混合云的捷径。该平台为计算、存储、网络和安全提供全套软件定义服务,并具有以应用为核心的云管理能力,因此可在本地和“即服务”型的公有云环境中构建一个支持安全功能的简单、敏捷的云基础设施。
VMwarevRealizeSuite
VMwarevRealizeSuite是一个面向多云的云管理解决方案,为IT组织提供了一个现代化平台,用于实现基础设施自动化、一致运行以及基于DevOps和机器学习原则的治理。
VMwareSDDCManager
软件定义数据中心管理器(SDDCManager)可管理VMwareCloudFoundation系统的启动,创建和管理工作负载域,并执行生命周期管理,确保软件组件始终为新版本。SDDCManager还可监控VMwareCloudFoundation的逻辑资源和物理资源。
VMwarevSphere
VMwarevSphere可将虚拟化扩展至存储和网络服务,并增加了基于策略的自动化配置和管理功能。vSphere是构建SDDC平台的起点。使用Kubernetes的VMwarevSphere7可简化所有企业应用的开发,提高应用敏捷性,并加快应用创新。
VMwareNSX-TDataCenter
NSX-TDataCenter(原NSX-T)是网络虚拟化平台,可通过软件定义的方式启用虚拟云网络。它的工作方式类似网络虚拟机管理程序,可在软件中重现从L2到L7的全套网络服务,包括路由、交换、访问控制、防火墙、服务质量(QoS)以及动态主机配置协议(DHCP)。以上所有组件可以随意组合使用,根据需求创建独立的虚拟网络。随后,这些服务可以扩展至云中和云间的各种端点。
TanzuKubernetesGridIntegrated(TKGi)
TanzuKubernetesGridIntegratedEdition(TKGi)原名为VMwareEnterprisePKS。这是一个基于Kubernetes的容器解决方案,具有先进的网络、私有容器注册表和生命周期管理等功能。TKGi简化了Kubernetes集群的部署和运行,使您可以在私有云和公有云上大规模运行和管理容器。在TKGi上,您可以使用TKGi控制面板来置备、运行和管理Kubernetes集群。
VMwareCloudonAWS
VMwareCloudonAWS是一个混合云解决方案,可轻松实现应用的扩展、迁移和现代化,并在公有云中保护应用。该基础设施由本地使用的基于vSphere的同一个SDDC堆栈提供。VMwareCloudonAWS包括vSphere和vCenter、vSAN、vRealize、NSX-TDataCenter、HCX以及VMware站点恢复管理器(SRM),可实现混合连接和容灾即服务(DRaaS)。一切功能都以“即服务”的形式提供给客户,方便客户快速在基于现代Nitro系统的AmazonEC2弹性裸机基础设施上部署基础设施。该解决方案利用现有的工具、流程和常见的VMware技术,并与AWS本机服务集成,因此易于采用,大幅减少了关键服务迁移到云过程中的服务中断,并且不需要再重构环境以适应公有云基础设施。
VMwareHCX
VMwareHCX是一个应用程序移动平台,旨在简化各种数据中心和云端之间的应用迁移、工作负载重新均衡并保障业务持续性。依托该平台,客户可在公有云和数据中心之间迁移工作负载,无需修改应用或配置虚拟机。该平台完全兼容VMware软件堆栈,使迁移更加简单、安全、可扩展。
HCX多站点服务网格为在两个相连的VMwareHCX站点之间迁移、扩展和保护虚拟机提供了一条安全管道(参见图6)。在两个站点之间的迁移过程中,它可以用于扩展VLAN,保留IP和MAC地址,并保持现有的网络策略。在跨多个物理站点针对越来越多的复杂工作负载进行规划时,该服务网格还能够提供灵活性。
数据仓库构建模块
图7.VMwareCloudFoundation平台可用于各种数据分析、人工智能和机器学习工作负载
整个平台在vSAN上运行,在数据冗余方面提供了额外的存储策略配置选项(可提供多种冗余级别)。平台管理员和最终用户都可以使用vSAN(如同在Kubernetes部署中处理持久卷请求时那样),使整个平台存储系统尽可能得到充分利用。
数据分析和人工智能构建模块
为了保持竞争力,企业需要高性能的数据分析和人工智能。它们需要既能运行传统数据分析应用,又能运行人工智能应用的灵活解决方案。VMware混合云平台在VMware基础设施中采用了多种面向英特尔?硬件经过性能优化的组件。英特尔支持在解决方案堆栈中的多层开发机器学习工作负载。这些构建模块已经针对英特尔?架构进行了优化,并经过了多次生产部署的验证,能够帮助企业快速实现数据分析、人工智能和机器学习工作负载的业务化。因此,企业可以即刻开始使用这些构建模块。
本参考架构展示了如何训练机器学习模型,以及如何将模型部署到混合云集群上。
英特尔?分发版Python
Python是一种通用编程语言,句法简单,容易掌握。Python还包括一个广泛的库生态系统(涵盖科学、数据转换和机器学习)。依靠这些特性,Python既可以用于创建解决方案原型(将想法转变成可执行的代码),也能运行生产级的算法。Python在数据科学和机器学习用例(特别是深度学习)中十分主流。英特尔提供了一款以性能为导向的分发版Python,以加速Python应用。利用英特尔?分发版Python,企业将能够:
英特尔?MKL
英特尔?DAAL
英特尔?分发版OpenVINO?工具包
英特尔?分发版OpenVINO?工具包可在各英特尔?处理器上为开发人员提供出色的神经网络性能。该工具包有助于实现具备成本效益的实时视觉应用,可跨多个基于英特尔?架构的平台实现深度学习推理,还可助力轻松实现异构执行。借助通用API,该工具包可提供从云架构到边缘设备,以及跨各类计算机视觉加速器的实施。其可涵盖的加速器类型包括CPU、集成GPU、英特尔?Movidius?神经计算棒和英特尔?现场可编程门阵列(英特尔?FPGA)。OpenVINO?工具包的功能和预优化内核有助于加快上市速度。
深度学习参考堆栈
深度学习参考堆栈(参见图8)是一个集成的高性能开源堆栈,已针对英特尔?至强?可扩展处理器进行优化。该堆栈旨在帮助人工智能开发人员基于英特尔?架构提供出色的体验。它不仅可降低深度学习软件组件中常见的复杂性,为定制化解决方案提供灵活性,还能够使企业快速创建深度学习工作负载的原型并加以部署。
新版本的深度学习参考堆栈(截至本文发布时为DLRSV5.X)支持以下功能:
本参考架构演示了如何使用深度学习参考堆栈,并展示了使用面向英特尔?架构优化的TensorFlow版本后所取得的性能提升。
DataRobot
本解决方案展示了DataRobot,一个充分利用了面向英特尔?架构优化的主流自动化机器学习平台11。全球的企业和机构都在广泛地使用DataRobot来赋能其团队快速构建和部署机器学习模型并创建先进的人工智能应用。DataRobot平台的算法库集合了数百个强大的开源机器学习算法,拥有众多最佳实践,在加速和扩展数据科学功能的同时也能够提高透明度、准确性并改善协作。
图8.深度学习参考堆栈加速人工智能部署
自助应用目录
本参考架构可实现快速轻松的应用部署。解决方案基于VMwarevSphere、TKGi和Docker等技术。事实上,这些技术本身就代表了行业标准,已被各个社区和企业广泛采纳。因此,这一解决方案才能进一步利用开源工具和框架。解决方案包含一个叫做BitnamiKubeapps的自助应用商店。这是一个Web应用,主要用于部署和管理Kubernetes集群中的应用(参见图9)。
图9.BitnamiKubeapps应用目录
关于如何使用Kubeapps的更多信息,请参阅附录A:解决方案功能验证和基准测试中的“Kubeapps的使用”一节。
经平台验证的数据仓库工作负载性能
本节将讨论使用选定数据库解决方案时,数据仓库可能存在的平台使用情况、功能和基准测试结果。
Linux上的MicrosoftSQLServer容器
微软官方提供了面向Linux上的MicrosoftSQLServer的容器映像,让用户可以使用Docker引擎或Kubernetes部署MicrosoftSQLServer,进而快速轻松地进行应用部署。基于Linux的容器在Ubuntu16.04基础映像之上使用MicrosoftSQLServer2017开发人员版本。BitnamiKubeapps自助应用商店中提供了用于自动化部署的Helm图表以及现成可用的MicrosoftSQL应用。
有了能够在容器上运行的MicrosoftSQLServer,加上自动化的TKGi集群和BitnamiKubeapp,管理员、开发人员和最终用户便有了一个强大的平台,任何人都可以借助该平台根据需求轻松部署应用和环境。
独立虚拟机上的MicrosoftSQLServer-概述
为了提供一个数据仓库的示例,我们分别在基础配置和增强配置下对MicrosoftSQLServer进行了测试。我们还使用了一个单独集群上的多个HammerDB实例来生成负载。
MicrosoftSQLServer是一个使用Transact-SQL(T-SQL)作为查询语言的数据库管理系统。T-SQL是SQL语言的一种扩展,允许使用基本的编程结构,如变量、循环和条件指令等。出于测试目的,我们使用了MicrosoftSQLServer2019。
HammerDB是一个开源工具,使用特殊生成的表和虚拟用户来衡量和测试数据库的负载。该工具可以连接到不同类型的数据库引擎。虽然可以直接在MicrosoftSQLServer上运行HammerDB实例,但我们建议单独创建一个MicrosoftWindowsServer实例并对MicrosoftSQLServer数据库进行远程测试。
AppDirect模式下的MicrosoftSQLServer-配置和基准测试结果
AppDirect模式下的持久内存可在电源循环中保留存储在其中的内容,即使意外断电或系统崩溃导致系统电力中断时也是如此。AppDirect模式有两种使用方法:
这两种模式下,持久内存都可以用作数据仓库的存储,用于实现系统的低时延和高速读写。如果需要更高性能,应当尽可能使用DAX模式,而不是块访问模式。另一方面,如果需要较高的存储性能,但是应用却不支持DAX模式,则块访问模式就会因其应用兼容性而成为理想选择。尽管已经有越来越多的应用直接支持DAX模式的持久内存,但与传统解决方案相比,块访问模式还是具有灵活、易用和高性能的优势。
本参考架构测试示例使用的工作负载基于两种主要的测试场景:
需要注意以下几点:
如上所述,DAX模式是一种高速机制,并受到MicrosoftSQLServer的支持。然而,并不是所有文件类型都支持DAX模式。数据库应拆分为多个文件。数据库文件存放在配置为DAX模式的持久内存上,日志文件存放在配置为块访问模式的持久内存上。
在开始MicrosoftSQLServer基准测试前,您必须进行适当的存储配置。为了获得理想的结果,我们建议将MicrosoftSQLServer数据库分布到八个磁盘,具体如下所示(注:在本例中,“磁盘”指的是持久内存上的独立卷。):
上述建议的磁盘大小适合750个仓库的测试场景。您可遵循本文后续“为英特尔?傲腾?持久内存准备虚拟机”一节中的建议来为虚拟机部署持久内存模组(NVDIMM)。创建完成后,每个数据磁盘会格式化为NTFS并配置为支持DAX模式,而日志磁盘则格式化为NTFS并配置为支持块访问模式。有关NVDIMM驱动器使用的详细列表,请参阅附录B:Windows系统上MicrosoftSQL基准测试配置。
测试方法
我们按照上述配置在虚拟机上进行了基准测试。对于每个MicrosoftSQLServer虚拟机,都有一个安装了HammerDB的单独虚拟机,用于生成负载。我们将HammerDB安排到了另一个集群上,避免对MicrosoftSQLServer的资源使用造成干扰。我们通过增加集群中此类虚拟机的数量来进行扩展,从而增加集群中存储和负荷的数据仓库总数。
在两个集群中,虚拟机都配备8个虚拟CPU(vCPU)和44GB的DRAM。对于基础集群,我们先在单个ESXi节点上部署五个虚拟机,然后在集群的第二个节点上再部署五个虚拟机,依次迭代,直到所有四个节点上共部署20个虚拟机。MicrosoftSQLServer虚拟机绑定到特定主机,其他非MicrosoftSQLServer的虚拟机均启用分布式资源调度程序(DRS)。在选择vCPU数量、DRAM大小和虚拟机数量时,原则是尽可能地提高解决方案的可扩展性和稳定性。集群内的其他服务(包括vSAN、NSX-TEdge虚拟机和TGKi)共享DRAM和CPU资源。过度分配DRAM或CPU资源会对vSAN性能产生负面影响,增加读写时延,进而影响所有其他服务的性能。
增强配置拥有额外的CPU资源和持久内存,因此可以在每个ESXi节点上部署更多MicrosoftSQLServer虚拟机实例——每个节点部署了八个实例。因此,大部分数据以AppDirect模式存储在ESXi主机本地,减轻了vSAN的负载。为了确保整体内存使用率低于90%,我们必须减少每个虚拟机的DRAM大小。这保证了操作系统、vSAN和NSX-T服务不间断运行。
基础和增强集群的基准测试结果
即使容量增加,增强集群的性能仍优于基础集群:与基础集群所取得的最优结果相比,增强集群的每分钟事务处理量(TPM)高达前者的3.34倍(参见图11)12。
图11.增强集群的TPM高达基础集群的3.34倍,且具有高度可扩展性
AppDirect模式总结
基准测试结果表明,在增强集群上,我们不仅能够在每个ESXi节点上运行更多MicrosoftSQLServer实例和数据仓库,密度提升高达1.6倍,而且整体平台性能也更出色,TPM提升高达3.34倍。同时,基础集群通过充分利用VMwareCloud基础设施也可以提供灵活性、高可用性和容灾能力。本参考架构最初发布时,这些功能还不能与持久内存模组一起使用。鉴于此限制,配置了AppDirect模式的虚拟机也无法实现实时迁移。因此,增强集群在虚拟环境中使用持久内存的AppDirect模式所获得的高性能只有在本地才能实现。
图12.在增加虚拟机的过程中,增强集群能够持续满足SLA值的要求,而基础集群无法满足要求
内存模式下的MicrosoftSQLServer
物联网(IoT)、机器学习和人工智能技术通常需要快速访问大型数据集。在扩展内存数据库部署时,常规DRAM的大小限制可能成为瓶颈。此时,可以通过与集群共享存储来作为替代方案,但是这样会增加总成本,并导致一定程度的性能损失,使管理变得更加复杂。英特尔?傲腾?持久内存在内存模式下可通过整合来提高硬件的使用效率,从而提供高内存密度。在该模式下可以对现有环境进行纵向扩展而不是横向扩展。当单服务器节点有了更多可用内存,企业和机构就可以将较小的纯DRAMMicrosoftSQLServer虚拟机整合到配备DRAM和持久内存的更少节点中。随着数据库的增长,他们可以使用更大的内存升级这些服务器。每路持久内存的大小可高达4.5TB,配备512GB持久内存模组的双路系统可以在一个双路服务器上配置6TB内存。内存密度提升能够实现以接近DRAM的速度存储和访问更多数据,最终以低时延访问更大量的数据。
由于启用DAX的AppDirect模式能够显著提升MicrosoftSQLServer的性能,因此本参考架构没有对MicrosoftSQLServer进行内存模式下的基准测试。相比之下,内存模式能为大规模工作负载提供更大容量和密度,实现近似DRAM的性能14。但需要记住的是,使用内存模式时,您还可以构建仅使用DRAM的设置无法复制的硬件配置。
使用配置英特尔?傲腾?持久内存的Oracle数据库构建数据仓库
Oracle为企业提供了业内出众的数据库平台。许多大型企业和机构使用Oracle数据库作为信息管理平台的基础。许多客户已经使用VMwareESXi和vSphere对资源密集型工作负载进行充分虚拟化,从而成功部署了基于Oracle的数据仓库。本参考架构描述了VMware上的Oracle设置示例,以此说明在vSphere上运行Oracle的优势以及它在管理大型数据集方面的高效。
简便的可管理性
虚拟化的Oracle环境通过以下方式提高可管理性:
在内存中处理大型数据集
随着越来越多的数据存储到现代数据仓库中,企业和机构需要能进行相应扩展的解决方案。一种常见的扩展方法是构建集群并将数据分布到系统各处,然而,这种方法无论是在性能上还是总成本上都不尽如人意。
Oracle数据库可以配置为使用内存模式或AppDirect模式的英特尔?傲腾?持久内存。内存模式下,Oracle数据库可以访问1.5TB、3TB甚至6TB的内存来执行内存操作,例如内存连接、内存聚合和内存列格式数据存储等。AppDirect模式下,Oracle数据库可以将持久内存用作快速磁盘驱动来存储+DATA和+REDO文件。
经平台验证的数据分析/人工智能工作负载性能
以下部分将讨论深度学习推理和机器学习模型训练工作负载。
深度学习推理
我们进行了两次实验,第一次使用胖虚拟机,第二次使用包含多个工作虚拟机的TKGi实例作为较小的虚拟机。两次实验都使用通过VMware软件提供的整个物理节点。基础配置的胖虚拟机配备80个vCPU,而增强配置则配备96个vCPU。基础配置和增强配置的Kubernetes集群均使用6个工作虚拟机,每工作虚拟机配备16个vCPU。
胖虚拟机的测试结果
在胖虚拟机实验中,我们对比了深度学习参考堆栈容器的吞吐量和标准TensorFlow容器的吞吐量。在基础配置中,以fp32精度对ResNet50v1.5拓扑进行基准测试,结果发现使用深度学习参考堆栈容器时的性能相较于标准TensorFlow容器提升2.2倍;在增强配置中,性能提升2.5倍(参见图13)15。同样以fp32精度对Inceptionv3拓扑进行基准测试,结果发现在基础配置中,使用深度学习参考堆栈时的性能相较于标准TensorFlow提升2.4倍;在增强配置中,性能提升3倍(参见图14)16。这些结果表明使用面向英特尔?架构优化的软件具有显著效果。
这些数字说明,使用深度学习参考堆栈容器时,ResNet50v1.5和Inceptionv3拓扑的吞吐量均有大幅提升。该测试证实了深度学习参考堆栈容器的优化在提高英特尔?处理器利用率方面的有效性。
图13.使用深度学习参考堆栈版本的TensorFlow后,ResNet50v1.5拓扑在基础配置和增强配置上的吞吐量均达到了原来的两倍以上
图14.使用深度学习参考堆栈版本的TensorFlow后,Inceptionv3拓扑在基础配置上的吞吐量达到了原来的两倍以上,而在增强配置中达到三倍
Kubernetes测试结果
在由TKGi配置的Kubernetes集群中,我们对1到6个并行的工作虚拟机的深度学习工作负载进行基准测试,以此测量深度学习参考堆栈容器的吞吐量扩展。结果发现当有更多作业并行运行时,吞吐量提升效果十分显著,证明了ESXi调度程序的有效性。在多节点系统中,运行工作负载的虚拟机扩展后,Inceptionv3拓扑的整体吞吐量也会随之高效扩展17。图15显示了增强配置中扩展效率的显著提升。
图15.增强配置中使用深度学习参考堆栈容器并行运行1至6个工作虚拟机,以fp32精度对Inceptionv3拓扑进行测试得到的吞吐量扩展
机器学习模型训练
本节工作负载示例的主要目标是展示如何快速便捷地训练多种简单模型,从而对重要结果做出预测。DataRobot这样的先进工具能较过去大大简化这一过程。
1.上传数据:DataRobot允许选择JDBC源,或者从URL、ApacheHadoop分布式文件系统(HDFS)或本地存储的文件上传数据。该工具可以处理.csv、.tsv、.dsv、.xls、.xlsx、.sas7bdat、.parquet、.avro、.bz2、.gz、.zip、.tar和.tgz格式的文件。广泛的选择可提供更好的用户体验。本演示所选的数据集为航班数据,具体可参见此处。
2.浏览人工智能目录:上传的数据集将显示在“人工智能目录”中。这里,您可以看到基本数据分析和数据集摘要,以及基本信息和特征列表。
3.浏览并可视化数据:方便的数据可视化是为了让用户更好地理解数据,便于用户选择重要特征数据用于训练。DataRobot会自动浏览数据集并识别变量类型和统计数值,例如均值、中位数和标准差等。单击特征名称即可查看详细信息。
4.创建新项目:创建一个新项目,开始数据处理。DataRobot会自动分析数据并添加建议。例如,DataRobot可以根据现有特征创建新字段。
5.开始训练流程:输入名称,选择目标特征。系统会根据字段类型(例如,分类或回归)自动识别问题。单击"Start"按钮;Autopilot会让DataRobot选择要检查的训练算法(蓝图)。
6.优化模型:DataRobot的算法会再次分析数据并检查数据冗余,或者排除可能导致目标泄漏风险的一个或多个特征,以及排除对建模作用极小或无效的特征。该平台还会决定哪些特征对结果最重要。这些过程的进度显示在右栏中。
8.部署模型:所有模型均可下载和手动部署。用户还可选择自动部署模型,这样可以快速启动预测。部署完成后,用户界面上可以找到使用该模型所需的所有数据。
9.开始预测:DataRobot提供可用于推理的RESTAPI。用户可以利用该RESTAPI,通过多种编程语言使用模型。此外,用户还可以利用自动生成的Python脚本,而不必直接调用API。这些代码可在用户界面上找到,并按需进行调整。代码可以复制并用来构建更大的系统,也可以原封不动地使用。
10.监控模型健康:用户可以在用户界面上观察模型行为,追踪模型做出的预测数量、请求、数据错误率和模式,也可以追踪数据漂移。
一次构建,多处运行
本文档中描述的机器学习用例包含以下元素:
上一节“机器学习模型训练”中已经介绍了模型训练的过程。完成此步骤后,就可以得到Python或Java运行时的模型二进制文件(评分器)。
包含这些二进制文件的Docker映像会自动构建并发布到容器注册表——本示例使用的是Harbor注册表。作为云原生计算基金会孵化的项目,Harbor具有较好的合规性、性能和互操作性,能够帮助企业跨云原生计算平台(如Kubernetes和Docker)统一安全地管理映像。由于评分器(或任何其他应用)可以在该注册表中访问,因此用户可以自选部署环境,本地集群、私有云或公有云均可。
将评分器发布到Kubeapps等应用目录有助于改善企业用户和平台操作员的用户体验,因为这样一来,他们只需点击几下鼠标即可在Web用户界面上轻松快速地部署评分器。此外,目录可以与容器注册表集成,并使用Webhook自动检测注册表中是否出现了新版本应用。这种情况下,目录会用新版本应用替换当前版本,无缝地重新部署应用。
DataRobotv6.0.0中的预测服务器功能简化了预测模型部署。通过此功能,用户可以在用户界面部署预测服务(训练完成后,用户可以选择部署所选模型)。然后,用户就可以通过HTTP调用或使用Python18或R19客户端来获取预测服务。
物料清单
硬件
本参考架构可以从8个服务器的单机架扩展到15个域(一个管理域和14个工作负载域),最多可包含400个ESXi服务器。参考架构在单机架上使用12台英特尔?服务器、两台架顶式Arista交换机和一台云达科技管理交换机,需要时也可以添加额外的机架。
生成初始软件映像需要一台额外的运行虚拟化软件的服务器或笔记本电脑和一台私有交换机。这些组件不是参考架构的组成部分,在完成VMwareCloudFoundation映像生成和启动过程后也不再需要这些组件。
在本参考架构中,每台机架由两个架顶式交换机和一个带外管理交换机组成。在多机架部署中,建议再增加一组脊交换机(通常安装在第二个机架)。随着VMwareCloudFoundation3.0和BringYourOwnNetwork(BYON)项目的面世,VMware不再认证交换机与VMwareCloudFoundation的兼容性。对于网络组件,本参考架构使用了两种型号的网络交换机:数据平面使用两台AristaDCS-7060CX2-32S-R交换机,管理平面使用一台AristaDCS-7010T-48-R交换机。您也可以改用任何其他性能相似的网络硬件。
表1列出了本参考架构的硬件组件。
管理集群4个节点
基础工作负载域4个节点
增强工作负载域4个节点
部件描述
数量(每节点)
基础SKU
英特尔服务器系统VRN2208WFAF82R
1
英特尔服务器系统VRN2208WFAF83R
主板
英特尔服务器主板S2600WF0R
CPU
英特尔至强金牌6230处理器(20核,2.1GHz)
2
英特尔至强金牌6248处理器(20核,2.5GHz)
英特尔至强铂金8268处理器(24核,2.9GHz)
内存
32GBRDIMMDDR4-2933
12
32GBRDIMMDDR4-2666
128GB英特尔傲腾持久内存模组
缓存层
375GB英特尔傲腾固态盘DCP4800X系列(PCIex4U.2)
容量层
2TB英特尔固态盘DCP4510系列(2.5"NVMeU.2)
4
6
引导设备
480GB英特尔固态盘DCS4510系列(M.2,80mm)
网卡
英特尔以太网融合网络适配器X710-DA2
软件
组件
版本
内部版本
VMwareCloudFoundation捆绑安装包
3.9
14866160
CloudBuilder虚拟机
2.2.0.0
VMwareESXi虚拟机管理程序
ESXi6.7Update3
15160138
VMwarevSAN
6.7Update3
14263135
VMwareNSXDataCenterforvSphere
6.4.5
13282012
2.5
14663974
VMwarevCenterServer设备
vCenterServer6.7Update3
14367737
VMwarevRealizeSuiteLifecycleManager
2.1Patch2
14062628
1.5
14878150
Kubeapps
1.10.0
TensorFlow映像
tensorflow/tensorflow:1.15.0-py3
深度学习参考堆栈分发版TensorFlow映像
clearlinux/stacks-dlrs-mkl:v0.5.0
Oracle数据库
19.3
6.0.0
MicrosoftSQLServer2019
15.0.2070.41
MicrosoftWindowsServer2019Datacenter
17763.rs4.180914-1434
WindowsHammerDB
3.3
注:
BIOS和固件组件
表4从硬件角度列出了本解决方案使用的固件和驱动程序版本。
固件/驱动程序名称
BIOS
02.01.0010
BMC
2.37
ME
04.01.04.339
SDR
1.98
NIC固件
6.800x8003d051.2007.0
NIC版本
1.9.5
英特尔傲腾固态盘DCP4800X
E2010435
英特尔固态盘DCP4510
VDV10170
英特尔傲腾持久内存固件
01.02.00.5417
CPU微代码
基础:0x0500002c增强:0x0500002c管理:0x0400002c
部署模块
部署VMwareCloudFoundation、NSX-T、TKGi和vSAN等解决方案是为了将传统数据中心改造成软件定义数据中心(SDDC),让管理员能够根据最终用户的实际需求来定义、部署和管理集群和资源。其中涉及的每个组件都是独立的产品,可以单独使用。
VMwareCloudFoundation是一个集成软件平台,可在标准化的超融合架构上自动进行完整的SDDC部署和生命周期管理。VMwareCloudFoundation由以下核心组件组成(参见图16):
VMwareCloudFoundation使企业和机构能够构建企业直接可用的面向私有云和公有云的云基础设施。
VMwareCloudFoundation的标准架构模型包括一个用于所有管理组件的专用管理域(每实例一个),以及多达14个由最终用户创建的虚拟基础设施工作负载域。
图16.VMwareCloudFoundation环境
管理域
管理域是一个特殊用途的工作负载域,用于托管实例化、管理和监控VMwareCloudFoundation基础设施所需的基础设施组件。管理域是在VMwareCloudFoundation系统启动期间使用第一个机架上的CloudBuilder自动创建的。管理域包含SDDCManager、vCenterServer、NSX-T管理集群和vRealizeLogInsight等管理组件。管理域使用vSAN作为主存储,至少需要四个节点才能正常工作。当系统中添加更多机架时,管理域会自动集成附加组件。
工作负载域
VMwarevSAN是与VMwarevSphere完全集成的存储虚拟化软件,可将vSphere集群中的所有存储设备集成到一个共享数据池(参见图17)。使用vSAN后就不再需要外部的共享存储。
vSAN集群有两种可能的配置:
图17.VMwarevSAN概览
VMwareNSX
VMwareNSX是一个网络虚拟化解决方案,用于在虚拟化的数据中心创建软件定义网络。正如虚拟机是从物理服务器硬件中抽象出来的,虚拟网络(包括交换机、端口、路由器和防火墙等)也是在虚拟空间中构建的。虚拟网络的配置和管理独立于底层硬件。
VMware提供两种NSX平台类型:NSX-V和NSX-T。NSX-V仅适用于vSphere部署。它就是原始的NSX平台,已面世多年,并且始终绑定在单个VMwarevCenterServer实例上。NSX-T则面向众多虚拟化平台和多虚拟机管理程序环境,例如,KVM、Docker、Kubernetes、OpenStack以及AWS原生工作负载等。NSX-T部署不要求使用vCenterServer,并且已经针对异构计算系统进行调整。NSX-T包含NSX-T容器网络接口(CNI)插件,可用于为容器应用配置网络连接。
NSX组件
VMwareNSX的主要组件包括NSXManager、NSXController和NSXEdge网关:
这两个传输区域定义了NSXEdge上逻辑网络分布的限制。
-覆盖网络传输区域:任何加入NSX-TDataCenter域的虚拟机的流量都可能需要能够访问外部设备或网络。通常这类流量被称为外部南北向流量。NSXEdge节点负责解封从计算节点收到的覆盖网络流量,以及封装发送到计算节点的流量。-VLAN传输区域:除了封装或解封流量功能外,NSXEdge节点还需要使用VLAN传输区域以提供连接到物理基础设施的上行链路连接。
NSX-V要求使用vSphereVDS,就像在vSphere中一样。NSX-V不能使用标准虚拟交换机。NSX-T假定您已经部署NSX-T分布式虚拟交换机(N-VDS)。KVM主机使用OpenvSwitch(OVS),而ESXi主机使用VMwarevSwitch。
N-VDS是执行流量传输的传输节点上的软件NSX组件,是传输节点数据平面的主要组件,用于转发流量,并拥有至少一个物理网卡。不同传输节点的每个N-VDS彼此独立,但是可以通过相同的命名把它们分成一组,从而实现集中管理。
NSX-V和NSX-T均有可用的传输区域。传输区域定义了逻辑网络分布的限制。每个传输区域都与其N-VDS相连。NSX-T的传输区域不与集群相连。由于采用GENEVE封装,VMwareNSX-T有两种类型的传输区域:覆盖网络和VLAN。而对于VMwareNSX-V,传输区域仅定义VxLAN的分布限制。
TanzuKubernetesGridIntegrated
集成TKGi、VMwareCloudFoundation、NSX-T和vSAN
VMwareCloudFoundation整合了计算、存储、网络、安全和云管理服务,为运行企业工作负载和容器化应用创建了一个理想的平台。vSAN可以按需灵活定义策略,轻松简化容器的存储管理。开发人员可以将底层存储基础设施的复杂性抽象出来,从而以代码形式使用存储。借助NSX-T,最终用户不再需要了解底层网络架构。NSX-T可以自动创建TKGi使用的负载均衡器、路由器和交换机(参见图20)。
基于面向Kubernetes集群中容器的VMwareCloudFoundation网络紧密集成TKGi、NSX-T和vSAN(参见图21),不仅有助于轻松管理临时和持久存储,还能获得vSAN的可用性和数据服务功能。此外,vSphere高可用性和VMwarevSphere容错机制也可以保护虚拟机免受物理服务器故障的影响。这些技术的结合将TKGionVMwareCloudFoundation打造成了一个完整的解决方案,非常适合Kubernetes管理员和开发人员使用。
VMwareCloudonAWS是一个完整的公有云上的VMware解决方案(参见图22)。它以服务的形式出售和运营,包含与本地环境相同的组件:vSphere、vSAN、NSX-T和vCenterServer。它能够快速地将一般的VMware环境直接扩展并迁移到AWS公有云、提供保护并且无缝集成Kubernetes部署。借助额外的工具和插件(例如HCX和混合链接模式),它能够提供虚拟机上云/下云的方法。服务本身具有两个不同的预配置区域:一个用于管理,另一个供客户使用。VMware负责管理部分,客户控制操作部分。用户对管理资源和设置的访问权限相当有限,但可以对计算资源池中的工作负载进行管理。
环境配置和部署
在VMwareESXi上安装和配置英特尔?傲腾?持久内存模组
为英特尔?傲腾?持久内存准备虚拟机
重要:如果您想使用DAX模式,虚拟机上的客户机操作系统必须支持持久内存。如果客户机操作系统不支持DAX,您仍可以在虚拟机上使用AppDirect模式,但只能用作普通文件系统;不过,您仍将获得性能提升。如果您使用内存模式,则无需额外的步骤来配置虚拟机。虚拟机会将英特尔?傲腾?持久内存用作一般的DRAM模组。
环境置备
如“解决方案概述”一节所述,完整的环境包含三个主要产品:VMwareCloudFoundation、VMwareNSX-T和TKGi。下面为您介绍如何置备这些组件。
软硬件要求
重要:使用GENEVE封装时,巨型帧的最大传输单元(MTU)值必须至少为1,700字节。这是因为GENEVE报头有一个额外的长度可变的元数据字段。如果不满足此要求,覆盖网络将无法正常工作。
VMwareCloudFoundation管理域部署
VMwareCloudFoundation部署过程包含多个步骤。但在部署之前,您需要先获得所有必要的硬件组件,将它们安装到机架中,准备好电力和散热设施,并建立连接到数据中心基础设施的上行链路。接着,您就可以开始部署流程。首先部署CloudBuilder虚拟机,用于管理初始的管理域配置过程。如果您尚未安装ESXi操作系统,CloudBuilder虚拟机也可用于在节点上安装ESXi操作系统,但这一步由用户自行选择。然后您需要下载并填写部署参数表,最后开始VMwareCloudFoundation启动流程。
第1步:部署CloudBuilder虚拟机
第2步:在VMwareCloudFoundation服务器上安装ESXi软件
使用CloudBuilder虚拟机创建ESXi服务器映像(通过VIA完成)为可选步骤。如果您的服务器已安装受支持的ESXi版本,则您无需使用VIA。您也可以在每台机器上手动安装ESXi。使用VIA的优势在于它不仅可以安装ESXi,还可以部署额外的vSphere捆绑安装包(VIB),并在所有机器上配置标准密码。
此外,请务必安装您的服务器要求的VIB或服务器所需的自定义VIB。大多数情况下,这些VIB会用作网卡或固态盘的特定驱动程序。如果您决定使用VIA,可以通过“BundleModifyVIBs”的菜单操作添加任何所需的VIB,这样VIB就会随ESXi一起自动进行预安装。如果您不使用VIA,则需要手动安装VIB。在本参考架构中,我们添加了以下VIB:
第3步:下载并填写VMwareCloudFoundation部署参数表
该参数表是一个电子表格文件,用于收集所有环境信息。您需要从vmware.com下载这个独立文件。完成所有必填字段(包括VLAN列表、网络地址、上行链路、密码和许可证)后,您可在VMwareCloudFoundation启动过程中导入此文件。
重要:请确保您的密码满足参数表中的密码复杂度条件。如果密码不符合规则,部署将会失败。
第4步:启动VMwareCloudFoundation
如果您已在所有管理节点上安装了ESXi,添加了所需的自定义VIB并完成了部署参数表的填写,您就可以启动VMwareCloudFoundation了。
启动过程中会部署SDDCManager、用于管理域的vCenterServer、NSXManager和Controller、平台服务控制器(PSC)、vSAN和vRealizeLogInsight(即,VMwareCloudFoundation的完整管理域)。这个过程大约需要两个小时。
启动过程完成后,您会看到一条通知,其中包含新SDDCManager的Web界面链接。您可以通过标准Web浏览器访问SDDCManager界面。
至此,管理工作负载域已经创建完成,其中包含管理基础设施所需的所有组件。请不要在此管理集群中部署用户应用。相反,您可以创建一个或多个工作负载域,在其中部署已预安装和配置了vSAN和NSX的一个或多个独立vSphere集群,并为每个工作负载域创建额外的专用vCenterServer实例。vCenterServer实例(每个工作负载域一个实例)和NSX-T管理集群将在后续步骤中部署到管理域。
VMwareCloudFoundation工作负载域部署
第1步:用NSX-T部署工作负载域的前提条件
由于本参考架构使用NSX-T(而非NSX-V)进行网络连接,因此必须将NSX-T捆绑安装包下载到SDDCManager:
1.如需浏览并将捆绑安装包下载到SDDCManager,您可选择“AdministrationRepositorySettings”,然后输入您的VMware帐户凭证信息。
2.搜索NSX-TManager捆绑安装包(本解决方案使用的安装包名称为NSX_T_MANAGER2.5.0.0.0-14663974),您可在“RepositoryBundles”中下载捆绑安装包。
SDDCManager上的NSX-TManager捆绑安装包是必需组件,因为您创建第一个使用NSX-T的工作负载域时,SDDCManager会在管理集群中部署一系列额外的虚拟机,包括一组三个的NSX-TManager虚拟机。所有后续NSX-T工作负载域都将共享此NSX-TManager集群。只有在还没有其他NSX-T工作负载域时,您才需要执行此步骤。
为了进一步部署Edge虚拟机,您还需要为EdgeVTEP准备额外的VLAN,并为上行链路再准备两个VLAN。主机VTEP和EdgeVTEP的VLAN之间必须能够进行路由。
第2步:创建工作负载域
SDDCManager会控制和编排VMwareCloudFoundation上工作负载域的创建,并负责安装和配置所有必需组件(包括vCenterServer、vSAN和NSX-T)。最终用户必须使用VI配置向导来部署新的工作负载域。如果这是环境中第一个使用NSX-T的工作负载域,向导将要求提供其他信息(例如NSX-TManager虚拟机的DNS名称),因为除了常规工作负载域外,还要创建一个NSX-T底板。
此外,由于整个流程均为自动化实施,手动安装中常见的配置错误风险也可大大降低。这种配置错误可能会导致基础设施配置出现严重问题或更多延迟。
VI配置向导运行完成后,将生成一个具有以下配置和网络结构的新集群:
重要:请勿编辑或删除上述任何配置。
在新创建的工作负载域中添加NSX-TEdge主机
工作负载域部署完成后,接着就要创建和配置NSX-TEdge虚拟机。为了实现南北流量传输,需要使用NSXEdge主机来启用覆盖网络虚拟基础设施和公共网络。工作负载域创建过程中不会自动部署NSXEdge主机。
分段名称
传输区域
VLAN
类型
nvds01-uplink01
sfo01-esxi-vlan
0-4094
Trunk
nvds01-uplink02
sfo01-w-uplink01
1647
Access
sfo01-w-uplink02
1648
sfo01-w-overlay
您可以通过以下两种方式之一部署Edge设备:您可参照文档的指导,使用开放虚拟化格式(OVF)模板进行部署,或者在NSX-TManager的Web用户界面上进行部署。如果使用Web用户界面,您就无法通过向导将正确的分段与虚拟机接口相连-因为您只能看到管理域中的网络。您只需保持默认布局不变,等待虚拟机出现在vCenter中,就可以通过编辑虚拟机设置看到所有必要的分段并对网络进行更改了。
TanzuKubernetesGridIntegrated部署
现在您已拥有一个由NSX-T和NSX-TEdge主机组成的工作负载域,接下来就可以开始安装TanzuKubernetesGridIntegrated(TKGi)。
您可以为每个工作负载域部署一个TKGi实例,在工作负载域内部署TKGi并不会限制域本身,只要集群上的资源可用,它仍可用作普通的工作负载域。
VMwareCloudonAWS配置
本节将介绍启动VMwareCloudonAWS并将其连接到本地环境所需的组件和步骤。
创建SDDCManager
VPN配置
要从本地服务安全地访问SDDC,需要建立专用连接。为此,您可建立VPN连接或使用AWS直接连接(DX)。在本参考架构中,我们配置了站点到站点IPsecVPN。如果从SDDC端进行配置,这一过程相对比较容易,但本地端往往需要详细的规划和预配置。每个环境都是独特的,需要额外的配置来准备隧道端点、路由和防火墙规则。本地隧道端点类型定义了建立隧道所需的确切设置,而且隧道两端的设置必须一致。本例使用了基于策略的VPN,但您可以根据自身需求和环境改用基于路由的VPN和边界网关协议(BGP)。最终用户也可以不通过VPN连接到VMwareCloudonAWS,但在使用部分混合云的先进功能时,这样做的安全性不如使用VPN或DX。
HCX部署
VMwareHCX为混合云环境提供了额外的特性和功能,包括站点互连,vMotion和批量虚拟机迁移支持、网络扩展(L2相邻分段)、业务持续性和容灾保护、虚拟机复制和WAN优化等。VMwareHCX是一种站点到站点架构,其源环境和目标环境有显著区别(两者有各自的特定安装程序)。通常,HCXCloud由云服务提供商部署在公有云中,HCXConnector则安装在本地。无论哪种类型,HCX总是靠近vCenterServer部署在管理区域。生成的HCXManager用于管理VMwareHCX(作为新图标和菜单选项添加到vCenterServer中)。
启用混合链接模式
重要:配置混合链接模式之前必须先配置VPN,因为云端vCenter只能通过内部(非公共)云IP地址访问,因此要求必须配置VPN。
总结
在日益数字化的世界,对高性能数据分析和人工智能的需求与日俱增,企业寻求能够在本地或公有云中运行传统数据分析以及人工智能应用的灵活解决方案。VMware混合云平台将出色的英特尔?硬件(包括英特尔?傲腾?持久内存)和VMware虚拟化软件相结合。借助这一可随时部署的端到端解决方案,企业既能运行传统的数据分析工作负载,又能运行面向未来的人工智能和机器学习工作负载。
同时,您要了解到,数据仓库是时延和I/O敏感型工作负载,而数据分析则是CPU和内存密集型工作负载。本参考架构已经过验证,在要求严苛的客户工作负载场景中能够达到预期关键性能指标。具体结果如下:
数据仓库
数据分析和人工智能
了解更多信息
以下资源可能对您有所帮助:
附录A:解决方案功能验证和基准测试
本节介绍如何重现功能验证实验,包括一些必需组件和软件的安装步骤、配置说明和基准测试执行脚本。
配置Oracle19c以在内存模式下使用英特尔?傲腾?持久内存
要在Oracle数据库中使用内存模式下的英特尔?傲腾?持久内存,您需要把VMware物理服务器上的持久内存配置为使用内存模式。然后,在为Oracle数据库创建虚拟机时,您可以为虚拟机选择比从前更大的可用内存量。您可以为虚拟机分配1.5TB、3TB甚至高达6TB的内存(取决于CPU型号)。
配置Oracle19c以在AppDirect模式下使用英特尔?傲腾?持久内存
1、根据以下代码,在您的系统上准备磁盘。
[root@oracledb~]#parted/dev/pmem0GNUParted3.2Using/dev/pmem0WelcometoGNUParted!Type‘help’toviewalistofcommands.(parted)printError:/dev/pmem0:unrecogniseddisklabelModel:NVDIMMDevice(pmem)Disk/dev/pmem0:889GBSectorsize(logical/physical):512B/4096BPartitionTable:unknownDiskFlags:(parted)mklabelgpt(parted)mkpartprimary2048s100%(parted)align-checkopt11aligned(parted)printModel:NVDIMMDevice(pmem)Disk/dev/pmem0:889GBSectorsize(logical/physical):512B/4096BPartitionTable:gptDiskFlags:NumberStartEndSizeFilesystemNameFlags11049kB889GB889GBprimary(parted)quitInformation:Youmayneedtoupdate/etc/fstab.
[root@oracledb~]#parted/dev/pmem1GNUParted3.2Using/dev/pmem1WelcometoGNUParted!Type‘help’toviewalistofcommands.(parted)printError:/dev/pmem1:unrecogniseddisklabelModel:NVDIMMDevice(pmem)Disk/dev/pmem1:889GBSectorsize(logical/physical):512B/4096BPartitionTable:unknownDiskFlags:(parted)mklabelgpt(parted)mkpartprimary2048s100%(parted)align-checkopt11aligned(parted)printModel:NVDIMMDevice(pmem)Disk/dev/pmem1:889GBSectorsize(logical/physical):512B/4096BPartitionTable:gptDiskFlags:NumberStartEndSizeFilesystemNameFlags11049kB889GB889GBprimary(parted)quitInformation:Youmayneedtoupdate/etc/fstab.
2、准备好磁盘后,运行以下命令将这些磁盘的所有权更改为您的Oracle帐户和群组:
chownoracle:dba/dev/pmem0chownoracle:dba/dev/pmem1
4、运行以下命令安装OracleGrid,从而使用自动存储管理(ASM)来管理硬盘:
su-gridcd/u01/app/grid/product/19.3/grid/unzip-q/tmp/LINUX.X64_193000_grid_home.zipsu-rootcd/u01/app/grid/product/19.3/grid/cv/rpmCVUQDISK_GRP=dba;exportCVUQDISK_GRPrpm-ivcvuqdisk-1.0.10-1.rpmsu-gridcd/u01/app/grid/product/19.3/grid/./gridSetup.sh
5、在OracleGrid的安装窗口中,选择“ConfigureOracleGridInfrastructureforStandaloneServer”,单击“Next”,并按以下步骤操作:
a.在下一个窗口中,选择您准备好的一个硬盘,然后将“Redundancy”更改为“External”。这样会禁用冗余功能,但能提高数据写入效率。请注意,此方法安全性较低,只能用于测试,一般不建议使用。b.单击“Next”,然后在下一个窗口中输入帐户密码。DBA用户组选择“OracleASMOperatorGroup”。“安装位置(InstallationLocation)”和“创建库存(CreateInventory)”步骤将读取ENV。c.单击“Next”,按照配置向导的指导操作,然后单击“Install”。d.OracleGrid成功安装完成后,运行以下命令检查配置(您应能看到DATA磁盘组):
[grid@server~]$asmcmdASMCMD>lsDATA/ASMCMD>quit
6、创建一个REDO磁盘组。运行以下命令启动配置向导:
[grid@hammer-server~]$asmca
7、在配置向导中:
a.双击“DiskGroups”打开磁盘组列表。在窗口底部,单击“Create”以添加一个REDO磁盘组。b.选择您准备好的磁盘,将“Redundancy”设置为“External”。这样会禁用冗余功能,但能提高数据写入效率。请注意,此方法安全性较低,只能用于测试,一般不建议使用。c.单击“OK”接受更改。您会看到两个磁盘组:DATA和REDO。
使用深度学习参考堆栈容器运行TensorFlow基准测试(再现推理基准测试)
首先,您需要使用安全外壳协议(SSH)连接到您VMware环境中的一个节点或虚拟机。然后按照以下步骤操作:
2.Docker就绪后,准备一个包含以下内容的Docker文件(dlrs.Dockerfile):
3.运行以下命令构建Docker映像,并将其推送到Docker注册表(请根据您的环境调整值):
dockerbuild-fdlrs.Dockerfile-tstacks-dlrs-mkl:v0.5.0.dockerlogin-u“${DOCKER_REPO_USER}”-p“${DOCKER_REPO_PASS}”“${DOCKER_REPO}”dockertagstacks-dlrs-mkl:v0.5.0${DOCKER_REPO_PROJECT}/stacks-dlrs-mkl:v0.5.0dockerpush${DOCKER_REPO_PROJECT/stacks-dlrs-mkl:v0.5.0
4.Helm3就绪后,运行helmcreatedlrs-benchmark命令创建一个Helm3图表,以便使用深度学习参考堆栈容器部署TensorFlow基准测试。
5.在dlrs-benchmark目录中,编辑以下文件,复制/黏贴以下内容:
values.yaml:
image:repository:${DOCKER_REPO_PROJECT/stacks-dlrs-mkltag:v0.5.0#HowmanyjobsruninparallelonK8sjobs:5#HowmanyresourcesapplytopodinGuaranteedQoSclass(requests==limits)resources:cpu:?16?memory:?8Gi?
Chart.yaml:
apiVersion:v2name:dlrs-benchmarkdescription:AHelmchartforKubernetestype:applicationversion:0.1.0appVersion:1.0.0
templates/job.yaml:
apiVersion:batch/v1kind:Jobmetadata:labels:role:dlrs-benchmarkname:dlrs-benchmarkspec:completions:{{.Values.jobs}}parallelism:{{.Values.jobs}}template:metadata:labels:role:dlrs-benchmarkname:dlrs-benchmarkspec:containers:-name:dlrs-benchmarkimage:{{.Values.image.repository}}:{{.Values.image.tag}}imagePullPolicy:Alwaysresources:requests:cpu:{{.Values.resources.cpu}}memory:{{.Values.resources.memory}}limits:cpu:{{.Values.resources.cpu}}memory:{{.Values.resources.memory}}command:-?bash?args:-?/usr/local/bin/job.sh?volumeMounts:-name:usr-local-binmountPath:?/usr/local/bin/job.sh?subPath:job.shrestartPolicy:Nevervolumes:-name:usr-local-binconfigMap:name:dlrs-benchmark-job
templates/configmap.yaml:
6.准备好dlrs-benchmarkHelm图表后,在Kubernetes集群中通过以下命令运行该图表:
helminstall--namespacedefault--nametf-benchmarktf-benchmark
7.该命令完成后,集群中将生成Kubernetes作业。运行以下命令获取基准测试结果:
kubectlgetpods-ljob-name=dlrs-benchmark-oname|xargs-n1kubectllogs
VMware环境中的DataRobot配置
虚拟机名称
数量
vCPU内核数量
RAM
存储
应用和数据
8
64GB
500GB
建模服务
48
384GB
预测服务器
32GB
模型管理
16GB
人工智能目录
Kubeapps的使用
附录B:Windows系统上MicrosoftSQL基准测试配置
基础配置中的MicrosoftSQL虚拟机
vCPU:8RAM:44GB网卡:VMXNET3虚拟机:每个ESXi节点最多五台虚拟机,总共20台虚拟机存储:vSAN
增强配置中的MicrosoftSQL虚拟机
vCPU:8RAM:44GB网卡:VMXNET3虚拟机:每个ESXi节点最多八台虚拟机,总共32台虚拟机存储:vSAN数据库存储:英特尔?傲腾?持久内存
磁盘布局
图B1是MicrosoftSQL的磁盘布局:
英特尔?傲腾?持久内存上的数据磁盘应格式化为NTFS并配置为DAX(直接访问)模式。英特尔?傲腾?持久内存上的日志磁盘应格式化为NTFS并配置为块访问模式。
图B1.MicrosoftSQL虚拟机测试机的磁盘命名、布局和大小示例MicrosoftSQL数据库配置
数据库数据拆分为16个文件,分布在四个磁盘上(每个磁盘四个文件)。
T-SQL(Transact-SQL)的其他选项:
MicrosoftSQL配置
作为TSQL:sp_configure‘showadvancedoptions’,1;GORECONFIGUREWITHOVERRIDE;GOsp_configure‘maxservermemory’,50000;GORECONFIGUREWITHOVERRIDE;GOsp_configure‘minservermemory’,40000;GORECONFIGUREWITHOVERRIDE;GOsp_configure‘maxworkerthreads’,3000;GORECONFIGUREWITHOVERRIDE;GOsp_configure‘recoveryinterval’,32767;GORECONFIGUREWITHOVERRIDE;GOsp_configure‘lightweightpooling’,1;GORECONFIGUREWITHOVERRIDE;GOsp_configure‘priorityboost’,1;GORECONFIGUREWITHOVERRIDE;GOEXECsys.sp_configureN’networkpacketsize(B)’,N’8192’GORECONFIGUREWITHOVERRIDEGOALTERSERVERCONFIGURATIONSETMEMORY_OPTIMIZEDHYBRID_BUFFER_POOL=ON;GOALTERDATABASE[benchmarkedDB]SETMEMORY_OPTIMIZED=ON;GO
用于负载生成的HammerDB配置
英特尔技术特性和优势取决于系统配置,并可能需要启用硬件、软件或激活服务。更多信息请从原始设备制造商或零售商处获得,或请见intel.cn。
没有任何产品或组件是绝对安全的。
性能测试中使用的软件和工作负荷可能仅在英特尔微处理器上进行了性能优化。诸如SYSmark和MobileMark等测试均系基于特定计算机系统、硬件、软件、操作系统及功能。上述任何要素的变动都有可能导致测试结果的变化。请参考其他信息及性能测试(包括结合其他产品使用时的运行性能)以对目标产品进行全面评估。更多信息,详见www.intel.cn/benchmarks。
英特尔编译器针对英特尔微处理器的优化程度可能与针对非英特尔微处理器的优化程度不同。这些优化包括SSE2、SSE3和SSSE3指令集和其他优化。对于非英特尔微处理器上的任何优化是否存在、其功能或效力,英特尔不做任何保证。本产品中取决于微处理器的优化是针对英特尔微处理器。不具体针对英特尔微架构的特定优化为英特尔微处理器保留。
描述的成本降低情景均旨在在特定情况和配置中举例说明特定英特尔产品如何影响未来成本并提供成本节约。情况均不同。英特尔不保证任何成本或成本降低。
英特尔是BenchmarkXPRT开发社区的赞助商和成员,并且曾是XPRT基准测试系列的主要开发商。PrincipledTechnologies是XPRT基准测试系列的出版商。请参阅其他信息和性能测试以对预期购买产品进行全面评估。
英特尔、英特尔标识以及其他英特尔商标是英特尔公司在美国和/或其他国家的商标。