MPP架构与批处理架构有何异同？

2021-03-25 09:10

园陌

关注

面试官：说下你知道的MPP架构的计算引擎？

这个问题不少小伙伴在面试时都遇到过，因为对MPP这个概念了解较少，不少人都卡壳了，但是我们常用的大数据计算引擎有很多都是MPP架构的，像我们熟悉的Impala、ClickHouse、Druid、Doris等都是MPP架构。

采用MPP架构的很多OLAP引擎号称：亿级秒开。

本文分为三部分讲解，第一部分详解MPP架构，第二部分剖析MPP架构与批处理架构的异同点，第三部分是采用MPP架构的OLAP引擎介绍。

一、MPP架构

MPP是系统架构角度的一种服务器分类方法。

目前商用的服务器分类大体有三种：

SMP（对称多处理器结构）NUMA（非一致存储访问结构）MPP（大规模并行处理结构）

我们今天的主角是 MPP，因为随着分布式、并行化技术成熟应用，MPP引擎逐渐表现出强大的高吞吐、低时延计算能力，有很多采用MPP架构的引擎都能达到“亿级秒开”。

先了解下这三种结构：

1． SMP

即对称多处理器结构，就是指服务器的多个CPU对称工作，无主次或从属关系。SMP服务器的主要特征是共享，系统中的所有资源（如CPU、内存、I／O等）都是共享的。也正是由于这种特征，导致了SMP服务器的主要问题，即扩展能力非常有限。

2． NUMA

即非一致存储访问结构。这种结构就是为了解决SMP扩展能力不足的问题，利用NUMA技术，可以把几十个CPU组合在一台服务器内。NUMA的基本特征是拥有多个CPU模块，节点之间可以通过互联模块进行连接和信息交互，所以，每个CPU可以访问整个系统的内存（这是与MPP系统的重要区别）。但是访问的速度是不一样的，因为CPU访问本地内存的速度远远高于系统内其他节点的内存速度，这也是非一致存储访问NUMA的由来。

这种结构也有一定的缺陷，由于访问异地内存的时延远远超过访问本地内存，因此，当CPU数量增加时，系统性能无法线性增加。

3． MPP

即大规模并行处理结构。MPP的系统扩展和NUMA不同，MPP是由多台SMP服务器通过一定的节点互联网络进行连接，协同工作，完成相同的任务，从用户的角度来看是一个服务器系统。每个节点只访问自己的资源，所以是一种完全无共享（Share Nothing）结构。

MPP结构扩展能力最强，理论可以无限扩展。由于MPP是多台SPM服务器连接的，每个节点的CPU不能访问另一个节点内存，所以也不存在异地访问的问题。

MPP架构图：

MPP架构

每个节点内的CPU不能访问另一个节点的内存，节点之间的信息交互是通过节点互联网络实现的，这个过程称为数据重分配。

但是MPP服务器需要一种复杂的机制来调度和平衡各个节点的负载和并行处理过程。目前，一些基于MPP技术的服务器往往通过系统级软件（如数据库）来屏蔽这种复杂性。举个例子，Teradata就是基于MPP技术的一个关系数据库软件（这是最早采用MPP架构的数据库），基于此数据库来开发应用时，不管后台服务器由多少节点组成，开发人员面对的都是同一个数据库系统，而无需考虑如何调度其中某几个节点的负载。

MPP架构特征：

任务并行执行；数据分布式存储（本地化）；分布式计算；高并发，单个节点并发能力大于300用户；横向扩展，支持集群节点的扩容；Shared Nothing（完全无共享）架构。

NUMA和MPP区别：

二者有许多相似之处，首先NUMA和MPP都是由多个节点组成的；其次每个节点都有自己的CPU，内存，I／O等；都可以都过节点互联机制进行信息交互。

那它们的区别是什么呢，首先是节点互联机制不同，NUMA的节点互联是在同一台物理服务器内部实现的，MPP的节点互联是在不同的SMP服务器外部通过I／O实现的。

其次是内存访问机制不同，在NUMA服务器内部，任何一个CPU都可以访问整个系统的内存，但异地内存访问的性能远远低于本地内存访问，因此，在开发应用程序时应该尽量避免异地内存访问。而在MPP服务器中，每个节点只访问本地内存，不存在异地内存访问问题。

1 2 下一页>