大数据中心是什么?如何提升大数据计算能力?
处理大数据需提供更快、更大的解决方案。不但数据在增长,而且物联网和数据丰富流(例如由零售商店流量模式监视生成的数据流)的出现正在加速移动数据的需求和对数据进行快速分析的需求。
IT行业正在做出回应。
在短短的一两年内,混合内存多维数据集(HMC)内存将以类似的容量到达,但带宽要大很多,到达每秒TB级。这类类型的存储器将适用于高性能计算(HPC)和大数据利用程序,并将与核数非常高的CPU绑定。还计划使用HMC为GPU群集提供更多的计算能力。
随着引擎功率的飞速发展,确切存在存储和网络系统落后的风险,这在某种程度上使我们回到了几年前的状态。LAN和存储网络都需要大幅发展。
首先,有局域网速度。以太网LAN是系统的主要馈入机制。例如,物联网就是在那儿传递传感器数据的。数据可能终止在大数据服务器中,还是终究被暂存到快速存储中。不管哪一种方式,这些都是繁琐的工作流,并且局域网速度一定要高于今天的性能标准。
真正需要的关键是内存中数据的流失率。这可能很高,例如在零售跟踪系统或监视系统中,还是可能很低,例如在基因组数据处理中。在前一种情况下,单个400GbE可能不会削减它,而40GbE可能与例如基因组发掘一起工作。
请注意,这些方案基于单个服务器节点。通过将服务器部署在群集中,网络骨干网将需要它们能够取得的所有速度,这表明需要两到三年的时间来使用具有多个100GbE或400GbE链路的骨干网。
存储增加了复杂的画面。如果数据不是完全瞬态的,则一定要将其存储在某个位置。例如监控录相和零售中的原始传感器数据。大多数大型大容量存储阵列可实现大约100Gb/秒的总磁盘带宽。但这是硬盘驱动器。如果使用SSD,则数量增加到约500Gb/秒。有人可能会说固态硬盘在这类情况下不太可能,但是价格降落了很多,性能可能决定固态硬盘或全闪存阵列是正确的选择。
综上所述,对存储在400Gb/sec范围内的链接的需求正在迅速增长。我们将在2017年之前看到需求浪潮的领先优势。届时,应当会生产100Gb/秒的单光纤链路,并且多个通道组合在一起以取得更高的带宽。它不会低价,但是如果我们关注球,我们应当具有网络来跟上。