在单机条件下，MPI4PY与纯Python多进程代码来比较是否有性能优势？？？-eolink官网

在单机条件下，MPI4PY与纯Python多进程代码来比较是否有性能优势？？？

如题：

最近在看MPI4PY的代码，但是发现这东西除了编写简洁外（少量代码实现复杂的多进程通信，包括单机和多机），好像也没有别的太多功能，当然MPI本身在多机通信广播、规约上做的很成熟，但是假设我们只是在一个单机上来运行Python多进程代码，那么使用MPI4PY除了代码简洁上以外在运行性能上是否会有区别呢？？？

本文探讨的主题就是如果我不使用分布式运行代码，而只是使用单机运行多进程代码，那么除了编码简洁外，MPI编程是否会有性能上的优势。

本文采用几个代码来探讨这个问题：本文代码为多子进程操作父进程中的一段内存，每次操作都将该内存中数据自加一。

给出第一个代码，纯Python实现，不使用MPI的情况下在单机运行多进程：

import ctypesimport timeimport multiprocessingimport numpy as np#NUM_PROCESS = multiprocessing.cpu_count()NUM_PROCESS = 4size = 1000000def worker(index): main_nparray = np.frombuffer(shared_array_base[index], dtype=ctypes.c_double) for i in range(10000): main_nparray[:] = index + i return indexif __name__ == "__main__": shared_array_base = [] for _ in range(NUM_PROCESS): shared_array_base.append(multiprocessing.Array("d", size, lock=False)) pool = multiprocessing.Pool(processes=NUM_PROCESS) a = time.time() result = pool.map(worker, range(NUM_PROCESS)) b = time.time() print(b-a) #print(result) for i in range(NUM_PROCESS): main_nparray = np.frombuffer(shared_array_base[i], dtype=ctypes.c_double) print(main_nparray) print(type(main_nparray)) print(main_nparray.shape)

第二个代码，使用MPI4PY，多非root进程每一次操作都进行同步，root进程与非root进程通信采用分发和收集操作。

第三个代码，同样使用MPI4PY，多非root进程每一次操作都不进行同步，root进程与非root进程通信采用点对点方式，并且root进程与非root进程同样使用异步操作。

from mpi4py import MPIimport numpy as npimport timecomm = MPI.COMM_WORLDrank = comm.Get_rank()size = comm.Get_size()recv_data = np.zeros(1000000, dtype=np.double)send_data = Noneif rank == 0: send_data = np.zeros((size-1, 1000000), dtype=np.double) send_data[0]+=0 send_data[1]+=1 send_data[2]+=2 send_data[3]+=3if rank == 0: a, b, c, d = 10000, 10000, 10000, 10000 a_one_finish = True b_one_finish = True c_one_finish = True d_one_finish = True a_time = time.time() while True: if a != 0: if a_one_finish == True: a_one_finish == False a_req = comm.Isend(send_data[0], dest=1) a_req2 = comm.Irecv(send_data[0], source=1) a_one_finish = a_req2.test()[0] if a_one_finish==True: a -= 1 else: a_one_finish = a_req2.test()[0] if a_one_finish==True: a -= 1 if b != 0: if b_one_finish == True: b_one_finish == False b_req = comm.Isend(send_data[1], dest=2) b_req2 = comm.Irecv(send_data[1], source=2) b_one_finish = b_req2.test()[0] if b_one_finish==True: b -= 1 else: b_one_finish = b_req2.test()[0] if b_one_finish==True: b -= 1 if c != 0: if c_one_finish == True: c_one_finish == False c_req = comm.Isend(send_data[2], dest=3) c_req2 = comm.Irecv(send_data[2], source=3) c_one_finish = c_req2.test()[0] if c_one_finish==True: c -= 1 else: c_one_finish = c_req2.test()[0] if c_one_finish==True: c -= 1 if d != 0: if d_one_finish == True: d_one_finish == False d_req = comm.Isend(send_data[3], dest=4) d_req2 = comm.Irecv(send_data[3], source=4) d_one_finish = d_req2.test()[0] if d_one_finish==True: d -= 1 else: d_one_finish = d_req2.test()[0] if d_one_finish==True: d -= 1 if a+b+c+d ==0: break b_time = time.time() print(b_time-a_time) print(send_data)if rank != 0: for _ in range(10000): comm.Recv(recv_data, source=0) recv_data += 1 comm.Send(recv_data, dest=0) #print(recv_data)

注意：由于采用了点对点异步通信的方式，因此代码3中将总共运行的进程数些死了，只能运行5个进程，其中非root进程为4个。

==================================================

测试平台1：Xeon CPU: 24物理核心，48逻辑核心

代码1：运行时间：4.73 秒

代码2：运行时间：144.68 秒

代码3：运行时间：140.43 秒

测试平台2：i7 8代台式机CPU: 6物理核心，12逻辑核心

代码1：运行时间：16.05 秒

代码2：运行时间：80.61 秒

代码3：运行时间：84.24 秒

特别说明：

从上面的结果我们可以看到代码2的性能会比代码3的性能好一些，不过考虑到运行的误差性，我们可以把代码2与代码3的运行时间看做相当（几乎相同）。

其中，

代码2的运行命令为：mpirun -np 4 python x2.py

代码3的运行命令为：mpirun -np 5 python x3.py

在平台1上之所以代码1性能最好主要是因为在消息传递不是主要影响性能的因素时计算性能主要受向量计算能力所影响，而平台1的向量计算能力要优于平台2，因此平台1上代码1的性能最好。

平台1上之所以代码2，代码3的性能最差是因为当消息传统为性能主要影响因素时平台1的内存数据的传递速度要慢于平台2。

补充：共享内存的方式时多进程间消息传递几乎是不损耗时间的，几乎如在自身进程的内存空间中操作一样。

===================================================

从上面的计算结果可以推断出即使在单机情况下MPI编码的多进程通信也并不是采用共享内存的方式，而是进程间内存拷贝的方式，所以我们可以知道在单机情况下MPI编程的代码在消息传递方面并不占优势，只能说性能适合，其性能还是比不上手动编写的共享内存通信方式的性能。

呼应开篇之说，

本文探讨的主题就是如果我不使用分布式运行代码，而只是使用单机运行多进程代码，那么除了编码简洁外，MPI编程是否会有性能上的优势。

答案就是：

只使用单机运行多进程代码，那么除了编码简洁外（快速编程外），MPI编程并不会有性能上的优势。

总结一下：

MPI的优势：

使用MPI可以便捷的编写多进程代码，编写较为容易的将单进程代码改写为多进程代码。

或者说，MPI的优势是可以快速的在多机的分布式平台环境下运行，具有较好的扩充性，比较典型的应用场景就是在超算中心的超算平台上计算流体动力学这样的数值计算任务。比较MPI的代码可以很好的在上百台服务构成的计算环境中运行，而这种计算场景我们如果不使用MPI编程而是手动去编写代码去实现消息通信，那不仅工作量巨大，而且性能难以保证，甚至可能是一个不太可能实现的工作。

因此，如果你打算要你的代码（数值计算任务）以后在多机环境下（众多服务器环境，不太指那种两台，三台服务器环境）分布式运行那么MPI是你很好的选择，或者说是你唯一的选择，但是如果你就一台服务器，而且未来也不太可能有大集群服务器运行的可能，那么mpi编程并没有什么优势，或者说至少不是第一选择，也不是第二选择，或者说你不会别的并行通信方式的编码而只会mpi那么你选mpi编程完全OK。

参考：

https://materials.jeremybejarano.com/MPIwithPython/#

管理接口平台，提高工作效率的关键解决方案

414 2022-09-03

在单机条件下，MPI4PY与纯Python多进程代码来比较是否有性能优势？？？

多平台统一管理软件接口，如何实现多平台统一管理软件接口

多平台统一管理系统接口，提高效率与自动化的关键

管理接口平台，提高工作效率的关键解决方案

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路