菲达娱乐新闻
菲达娱乐新闻
当前位置:主页 > 菲达娱乐新闻 >

网络存储的“相关性”: NVMe对结构性能的对抗—

来源:admin 编辑:织梦58 时间:2019-03-24 09:35

周二( 12月5日),在北京朝阳油塘皇冠假日酒店举行的2017年中国存储峰会上,张广斌和曾志强代表企业记录技术服务部发表了题为“相对论”的演讲,分享了测试高性能存储和网络的一些最新实践。。 以下是演讲的记录。

连续几年,我都是在存储峰会的技术论坛上开始的,我之前说过的话更具概念性和时尚性。。 今天的主要话题不是关于概念,而是我们最近对一些新技术的探索和实践。当时,Aliyun还处于起步阶段,其网络是千兆以太网 这一幕将由我和我的同事曾志强共同完成说到Ariyun,事实上,在大型云计算环境中,超收敛架构的问题之一是计算和存储资源的紧密耦合不够灵活 我会先谈谈前一部分计算资源可能很快就会售罄,但仍有许多存储资源剩余AWS有许多类型的EC2实例

我们的商业记录服务公司主要致力于新技术和产品的市场教育,通常通过分析和测试请注意,存储的访问路径已经与网络区域分离,因此EBS存储、C4实例的性能和QoS得到了保证为什么我们有磁盘阵列 在分析方面,曾志强和我几年前写了一份技术分析报告“数据中心2013”一台服务器有超过10到20个硬盘或SSD(SSD+HDD或全闪存) 我们率先提出了“硬件重新配置+软件定义”的概念,并开始相应地分析尖端技术该行业已经开始解决网络问题,例如基于结构的NVMe 近年来,该行业确实朝着这个方向前进。 我们也在这个方向上实践这个概念,特别是指导我们的测试工作例如,企业数据中心中最常用的光纤通道( FC ),或者更常用的以太网,甚至其他高速网络。 以下是企业记录与业内几家知名企业合作的联合实验室列表顶部是Oracle数据库服务器,配备了英特尔双插槽至强白金8180处理器,这是英特尔下一代( SkyLake )处理器的顶级型号,拥有256GB内存 这个NVMeoF测试主要在与青云合作的混合云实验室进行Oracle数据库服务器通过两个交换机连接到最低存储服务器让我们来看看测试

当然,这种“相对论”只具有(爱因斯坦)相对论的字面意义单个SSD可以提供大约51 网络和存储的概念在某种程度上是相对的,可以相互替代对于10GbE iSCSI,带宽约为1100GbE可以有效地发挥NVMe固态硬盘的IOPS和带宽,那么延迟呢 十多年前,华中科技大学的谢长生教授做了一个比喻——信息传输可以在空间维度和时间维度上进行:例如,烽火台通过烽火台将敌人入侵的信号传输到遥远的地方,这就是空间维度上的传输;另一种在时间维度上的传播方式,比如雕刻一块平板,几百年甚至几千年后,平板没有被损坏,你仍然可以看到记录的信息为了确保DRAM中的数据能够在突然断电的情况下写入NAND闪存,P4500中有两个电容器来防止数据丢失 前者是网络,后者是存储。 我认为这很有启发性

两者的结合是网络存储? 当然,我们也可以更抽象地思考。例如,1968年上映的科幻电影《2001 :太空漫游》就代表了宇宙的高度智慧结晶——黑石。一些人已经计算出黑石可以存储多少数据,它也可以自由移动,穿越时空,并且兼具网络和存储的特点。

十多年前的网络存储与现在不同。它拥有专有的存储硬件体系结构和专有的存储通道。然而,从使用的角度来看,通过网络访问实际上与访问本地硬盘没有什么不同。现在我们来谈谈软件定义存储( SDS )和超收敛( HCI )。软件定义存储的主流是分布式的。在公共服务器上,它被分配给多个节点运行,服务器集群用于提供服务。在存储和计算分离的情况下,两个集群之间的网络明显可见,在使用和部署时可以明显感觉到。超级融合将计算和存储结合在一起。计算看起来像是访问本地存储资源,但实际上也可以通过网络跨节点访问。它的网络并不明显,但事实上,只有通过网络,每个节点才成为一个整体。

超融合是近年来企业市场上的一个热门话题。在去年的存储峰会上,我还谈到了超融合架构的“逆流”。? (存储峰会发言记录)。超级集成有许多优势,当然,最大的优势是简单的部署,这适用于大型企业以及中小型企业。然而,超融合架构更适合中小型部署。具体的例子包括微软的Azure Stack,微软混合云蓝图的私有云部分,以及思科、华为、联想、戴尔和HPE的服务器硬件,它们集成到软件和硬件集成解决方案交付中。一个集群至少有4个节点,最多12个节点,下一步有16个节点,这是典型的超融合部署。

超融合部署的另一个优势是,通过利用计算集成。公共云也有类似的例子。例如,Aliyun的第一代数据块存储是在2010年制造的。

它使用超融合部署来减少网络性能的负面影响。。。我们稍后还会提到,随着低延迟存储的出现,现在出现了高速存储,如NVMe和3D XPoint,在存储性能大幅提高后,如果网络性能跟不上,可以使用类似的数据本地化方法,如微软的S2D(Storage Spaces Direct )或VMware vSAN,所有这些都计划增加数据本地化功能。。。

例如,阿里云已经启动了一个集群。

这是一种非常不经济的方法。因此,Ariyun从第二代数据块存储技术开始,并采用了计算和存储分离的方法,包括现在部署到第三代的分离。。。另一个例子是AWS的电子制动系统。EBS主要服务于EC2计算实例。

c 。从计算优化实例开始。最近,推出了最新一代C5实例。AWS起步相对较早,其虚拟化使用Xen,但最新一代C5已经转向KVM。在上周的re:Invent 2017会议上,AWS回顾了前几代实例的计算和存储体系结构,以引入C5。这是C3实例的体系结构图。左边是硬件架构,右边是软件架构,绘制了相应的映射关系。许多IaaS公共云实例可以选择本地存储。

本地存储的问题在于,它与实例(通常是虚拟机)位于同一物理主机上。如果云主机重新启动或迁移,本地存储的数据将丢失。因此,尽管本地存储速度很快,但它不被视为永久存储。持久块存储是AWS中的EBS (弹性块存储),黄色虚线框中的EBS是通过网络访问的共享存储。从图中的体系结构可以看出,存储是通过网络访问的,就像网络一样。这显示了C3实例的存储体系结构问题:存储流量和网络流量之间没有有效的分离,因此存储性能可能得不到保证。。。从2013年底到2015年初,一年多后,AWS升级到C4实例。黄色虚线框也是EBS。

这也说明了网络和存储之间的一些连接:有时存储中的变化实际上是网络中的变化。。。这是我画的图,横轴是时间线,纵轴是SSD或HDD (硬盘)的大致数量。可以看出,这是一条发展曲线,发生的事情在左下角。

由于硬盘的性能太差,许多硬盘应该堆叠在一起,形成一个磁盘阵列,以提供更高的性能(有时容量更大)。随着SSD的逐渐发展,SSD刚刚被用作硬盘的缓存,服务器的内部存储被使用,SSD和HDD形成缓存或分层方案,也可以是纯SSD (全闪存),可以满足应用需求。。? 由于SSD的添加提高了存储性能,服务器本地的存储可以满足托管应用程序的存储性能要求,因此我们可以制定超融合方案。黄色圆圈表示从前几年到未来几年,在这个时区,服务器的内置存储可以使用超级集成方案。

然而,随着NVMe SSD的逐渐普及以及服务器本身支持的SSD数量的进一步增加,它可能会向另一个方向改变:在服务器充满SSD之后,本地计算能力(运行的应用程序负载)不再能充分发挥SSD的全部性能,因此有必要将SSD放入一个单独的设备中,将存储分开供多台主机访问,并具有更高的灵活性。因此,例如,如果我们走到右上角,数百个闪存将被放在一起,甚至数千个闪存也可能被放在一起。如何解决这一挑战,在下一部分,让我们邀请负责测试的合作伙伴曾志强来谈谈这一情况。

。。大家好,我是曾志强。我主要负责评估和验证企业记录中的(新)技术、产品和解决方案。闪存的出现确实增加了对存储网络的挑战。

我们也在NVMeoF上做了一些探索和尝试,并取得了一些成果。今天,我想和大家分享一些企业记录在NVMe中通过织物获得的实践经验。

说到结构上的NVMe,这是结构上的NVMe的总体架构图。NVMe实际上是一个寄存器级逻辑接口,专门为非易失性存储(如SSD )开发。数据传输通常通过PCIe进行。所以在nvmeover fabripas 1中。在0规范中,NVMe固态硬盘与PCIe上的NVMe进行了比较。既然它在PCIe上已经结束,它还能在其他网络上结束吗。

例如无限频带( 1b )。InfiniBand和下一代以太网具有非常好的功能,即RDMA (远程直接内存访问),这可以有效地减少软件层造成的延迟。InfiniBand一直拥有高带宽(超过40Gbps ),现在以太网拥有高带宽,例如下一代25GbE和100GbE,并且还支持RDMA功能,例如RoCE (融合以太网RDMA )或IWAP (互联网广域网RDMA协议)。这不仅大大减少了延迟,而且有助于增加带宽。中间红色部分是支持RDMA的软件堆栈,包括InfiniBand和以太网,最右边的粉红色部分实际上是光纤通道。通过PCIe或NVMe固态硬盘访问NVMe的规则由NVMe规范定义? NVMeoF实际上是基于NVMe 1? 2规范,扩展协议层。这个数字是NVMeoF的架构。可以看出,NVMe协议中的NVME传输已经扩展到支持InfiniBand、以太网、光纤通道等。。。

从规格来看,织物上的NVMe实际上有两种模式。第一种是内存模式,所有NVMe固态硬盘都使用这种模式。

另一种是消息模式,通过重新封装NVMe命令来实现在其他网络上的传输。如果在光纤通道上传输,则使用消息模式。此外,RDMA例外,它支持InfiniBand和以太网,而以太网有RoE和iWARP。支持基于结构的NVMe,并且内存模式和消息可以在RDMA上使用。

菲达娱乐主管

从逻辑架构的角度来看,通过PCIe的NVMe和通过RDMA的NVMe的软件开销的增加非常小,并且可以大致认为跨网络访问和本地访问的延迟几乎相同。因此,如果使用RDMA,尽管它通过网络,但它的延迟可能非常接近本地水平。 为了验证织物上的NVMe,我们在企业记录和青云联盟的混合云实验室中设计了一个测试方案。。。该图是基于测试部署体系结构围绕数据库应用程序构建的典型应用程序场景。选择数据库应用程序的原因是数据库对延迟有更高的要求,Oracle数据库也可以被视为最关键的企业应用程序之一。

这台服务器上插有3张网卡,其中一张是Mellanox的CX5网卡,这是一张100Gb/s的网卡。另外两张是Mellanox的CX3网卡,速度为10Gb/s。所有三张网卡都支持RDMA功能,即RoCE。

这是右侧的100Gb/s开关,即SN2100由梅兰诺斯提供。左边是Mellanox SX1024开关,这是一个10Gb/s的开关。底部是存储服务器,它使用英特尔双插槽至强6154处理器,这是一款适用于驱动高性能NVMe SSD的高频处理器。作为存储服务器,它还配备了256GB的内存。 像Oracle数据库服务器一样,还有一张100Gb/s和两张10Gb / s Mellanox网卡。在存储方面,使用了4个美国。

英特尔DC P4500固态硬盘具有2个接口,每个固态硬盘的容量为2TB。与此同时,还使用了750GB英特尔DC P4800X,这就是传奇的Optane。 它使用了3D XPoint技术,一种新的媒体固态硬盘。。。在此,我要感谢海天创业公司的技术支持。海天起点是一家专门提供数据库服务的公司,在Oracle数据库操作、优化和故障排除方面拥有丰富的经验。如前所述,我们的测试是用Oracle数据库应用程序构建的。我们与海地起点合作的原因是,我们需要他们的经验来验证NVMeoF下Oracle数据库的性能。与此同时,他们也非常关心NVMeoF,希望和我们一起探索,所以我们一拍即合,做了这个测试。。。

此图显示了不同接口的大致带宽,例如SATA、10GbE、25GbE、NVMe和100GbE,我们可以看到带宽基本上成倍增加。。其中之一是主流NVMe SSD的带宽,它使用PCIe x4通道,实际可实现的带宽约为3。大约2GB /秒。然而,100GbE的带宽约为10GB/s,这几乎是3个nvme固态硬盘的组合带宽,因此在此测试中,我们使用了4个nvme固态硬盘来确保总存储带宽超过网络,如下表所示。此表是英特尔DC P4500固态硬盘的性能参数。

50,000 IOPS,这是一个稳定值。我们得到的是一个全新的固态硬盘,所以在测试过程中出现了一些错误。单个SSD的随机读取性能约为540,000 IOPS,两块P4500平板的性能约为100万,四块平板的性能约为1。8500万。单片P4500的带宽为3。

2GB/s,随着SSD数量的增加,其带宽基本上线性增加。让我们看看实际的测试。对于10GbE iSCSI,其随机读写性能约为60,000 IOPS和50,000 IOPS。应该注意的是,我们这里使用的测试是Oracle数据库的典型8KB数据块。然后打开RDMA,即在使用NVMeoF后,10GbE的随机读写性能几乎可以翻倍,超过13.50,000 IOPS。从图中可以看出,随机写入的性能类似于随机读取的性能,这与我们的常识相反——基于NAND Flash的SSD比读取的SSD更弱。这是因为10GbE的带宽已经是瓶颈,甚至P4500的性能极限也无法达到,所以读写性能几乎相同。

。。最后是100GbE NVMeoF以下的性能,随机读写性能为1。200万IOPS和600,000 IOPS,分别是10GbE iSCSI以下的20倍和12倍。可以看出,100GbE的优势非常明显,这可以有效提高NVMe固态硬盘的性能。。。其次是带宽方面的性能表现。我们使用64KB数据块进行顺序读写。

2GB/s,在NVMeoF下,其带宽大致相同,均为1。大约2GB/s,10GbE带宽已经成为瓶颈。然而,在100GbE NVMeoF以下,其顺序读取带宽增加了近10倍,达到11Gb / s;写入带宽也增加了五倍,接近6GB/s,接近4 P4500 SSD的极限性能。

现在我们有另一个测试。首先,看看各种存储介质的延迟性能: DRAM是最小的,在纳秒( ns )级;然后是SCM (存储器级存储器),延迟增加了一个数量级。然后是固态硬盘,延迟以微秒(μs )为单位,比DRAM高三个数量级。最后,HDD的延迟在毫秒( ms )级别,与SSD相比,延迟增加了3个数量级。这些存储介质延迟差是指数级的。对于延迟测试,我们使用英特尔DC P4800 XD固态硬盘。

这款SSD使用3D XPoint技术,通常被称为Optane,最引人注目的是延迟非常低? 英特尔正式宣布的延迟指数约为10微秒。我们测量了NVMeoF中的读写延迟分别为34微秒和35微秒。 与官方数据相比,有一定的增长,但仍在同一数量级。 NVMeoF的延迟性能非常出色。。。

然后是P4500延迟,这是局部测量的。读写延迟分别为101微秒和31微秒。还可以看出,RDMA的延迟非常低,即使在整个网络中,其延迟也与本地SSD的延迟相似。一些人可能已经注意到SSD的写性能不如读性能好。为什么P4500的写入延迟远远低于读取延迟,甚至低于P4800倍。这里应该注意的是,英特尔DC P4500 SSD有一个DRAM,闪存控制器独立使用该DRAM作为写缓存,以加快SSD的写操作,因此写延迟低于读延迟。

Optane具有非常高的写入特性,数据的直接“下降盘”性能不比读取性能差,因此DRAM和电容保护自然不需要。。。此图显示了P4500在企业记录测试框架下的延迟性能。可以看出,由于增加了32个队列深度,10GbE iSCSI模式下的延迟相对较高,读和写延迟分别为9毫秒和10毫秒? 然而,在使用NVMeoF,甚至10GbE后,其延迟降至3

7毫秒。它仍然受到10GbE带宽瓶颈的限制,因此读写延迟几乎相同。然而,在100GbE NVMeoF的情况下,延迟已经回落到微秒级,这比10GbE iSCSI模式低一个数量级。

由于时间限制,企业记录实验室的这项测试尚未完成,因为我们的最终目标是评估NVMeoF在Oracle数据库应用场景中的性能。然而,我们的测试正在进行中,没有进一步的结果,所以我们今天的分享就此结束。然而,即便如此,我们也看到了NVMeoF的巨大潜力,它可以真正充分利用NVMe SSD的高性能,并支持跨网络存储访问,以实现类似于访问本地存储的性能。我们相信,随着NVMeoF技术的不断发展和成熟,这肯定是未来的方向。。。。

。。。。

在线客服
  • 在线客服