python中pool+map+arcgis's py module的并行问题
学习了
《一行 Python 实现并行化 -- 日常多线程操作的新思路》
http://blog.segmentfault.com/caspar/1190000000414339
原作者 Chris
https://medium.com/building-things-on-the-internet/40e9b2b36148#66bf-f06f781cb52b
后,
我在用
Pool多进程
执行并行计算,主要是调用arcgis的py模块,发现一个问题:
我的代码:
files=['E:/select/r0_51x47.txt',
'E:/select/r0_79x77.txt',
'E:/select/r0_89x65.txt',
'e:/select/r0_101x109.txt',
'e:/select/r0_104x88.txt',
'e:/select/r0_127x80.txt',
'e:/select/r0_139x136.txt',
'e:/select/r0_204x209.txt']
print ('')
print ('###################################')
pool_costtime_start= datetime.datetime.now()
pool = Pool()#len(files)
pool.map(ExtractRidge, files)
pool.close()
pool.join()
print ('Pool Cost time: '+\
str((datetime.datetime.now() - pool_costtime_start).seconds)+\
' seconds')
len(files)>CPU数
(我的是win7+i5),执行过程中
某个进程执行到arcgis提供的函数时,会无限期等待着
,如下图:
我的解决方法是: 直接设置Pool的大小 ,即
pool=Pool(len(files))
这样就不会出现之前的情况了,这是成功的结果
同样的,我还测试了用
pool=ThreadPool() 或者
pool=ThreadPool(len(files))
实现
多线程
的并行计算。这个就更糟糕了,提示:
提示的函数,
z_limit
是第三个参数,默认值为“”
arcpy.gp.Fill_sa(dem, fill, "")
但是,在 指定进程数 的情况下确没问题。我的问题是:
1. 对于CPU密集型的计算来说,进程数是否需要严格指定? 例如我的第一个情况下,需要指定进程数才能运算成功,默认由计算机CPU个数来决定的情况就会down机;
2. 是否多线程对于CPU密集型的计算容易出错? 因为我用的arcgis模块计算量都很大;
**请路过的大神多多指教!**
Answers
先回答问题:
-
是的,但不是因为会 down 机。对 CPU 密集型运算来说,太多的进程意味着过多的 上下文切换 会浪费本可以用作计算的 CPU 资源,太少的进程 可能 不足以充分发挥多 CPU 的潜力。
-
单纯从多线程技术上来说,CPU 密集型运算并不能对多线程模型的正确性产生任何影响;但是对于 设计 来说,多线程模型是一个要求很高的部分,对于线程同步资源抢占等问题的不当处理很容易造成多线程程序设计中致命的性能问题,甚至影响正确性。
回到您的问题。您在使用
multiprocessing
的时候碰到的问题——由于没有您完整的代码——我推测可能有以下两点原因:
-
共享的资源——也就是说您在执行
pool.map()
之前创建了一些进程间共享的资源,也许您自己都没有意识到;这些资源在最终多进程执行的过程中由于某种冲突而造成了超出预期的结果。我遇到类似的例子是在os.fork()
之前创建了一个老版本的 Twisted 的 eventloop 且注册了文件描述符,结果因为底层资源的冲突而影响了整个程序的执行速度。 -
没有干净的结束。
multiprocessing
会把创建的进程放在一个池子里,对于不同的任务有可能会前后使用池子里的同一些进程。这里怀疑问题可能是前一个任务在进程的内存里留下了一些可能会对下一个任务有致命影响的信息。
对于您的多线程测试,对问题原因的猜测就更多了,比如代码中有一些非线程安全的全局变量,等等等等,需要根据具体任务代码来看。