基于CPU-GPU 異構機群的FDTD 并行算法加速研究（三）

出處：電子愛好者博客發(fā)布于：2013-05-14 11:43:01

相關資料：

　　3 測試結果與分析

　　實驗平臺包括 HD5870 GPU、Tesla C2050 GPU 和IntelXeon X5650 處理器機群，其主要的處理器體系結構參數(shù)如表3 所示。實驗中所使用的數(shù)據集與第二節(jié)分析程序中的數(shù)據一致，如表1 所示。

　　為了實驗的對比分析，我們實現(xiàn)了4 個版本的FDTD程序：CPU 上執(zhí)行的FDTD-serial 串行程序、多核CPU 上執(zhí)行的FDTD-MPI 并行程序、ATI GPU 上執(zhí)行的FDTDOpenCL加速程序和NVIDIA GPU 上執(zhí)行的FDTD-CUDA加速程序。目前而言，單計算可以滿足所測試FDTD實驗場景的需求，所以不開啟OpenCL 的雙浮點運算支持。評價總體性能的標準為GPU 版相對CPU 版的加速比，計算公式為CPU 執(zhí)行時間/GPU 執(zhí)行時間。

　　3.1 GPU 加速分析

　　圖 7 顯示FDTD 在SMALL 數(shù)據集下，在1 個CPU 核、4 個CPU 核、8 個CPU 核、Tesla C2050 GPU 和HD5870 GPU下計算時間對比。多CPU 核使用MPI 調度數(shù)據，GPU 加速代碼為OpenCL.由圖可見，在SMALL 數(shù)據集下，使用HD5870,OpenCL 加速相對CPU 加速比可達到8.11,且性能比8 個CPU 的MPI 加速性能還要好。

　　圖8 顯示的是SMALL 數(shù)據集下各個GPU 優(yōu)化的函數(shù)和CPU 版程序中對應函數(shù)的執(zhí)行時間對比，單位為ms.圖8 的數(shù)據表明，update_H_PML 和SAR_EH_CPX 的計算密度較高，加速比也較大，達到了40 多倍加速。

　　3.2 擴展性分析

　　3.2.1 數(shù)據規(guī)模的擴展性能

　　我們在 Nvidia Tesla C2050 GPU 集群上對MEDIUM 和LARGE 數(shù)據集進行了測試，兩個數(shù)據集的計算時間相對CPU 的計算時間加速比如圖9 所示。

　　由圖 9 可見，對于MEDIUM 數(shù)據集，CUDA 的實現(xiàn)則獲得21.41 倍的加速。從NVIDIA Fermi 卡上的OpenCL和CUDA 性能接近來推斷：如果擴大實驗中所使用AMDGPU 內存使得可以運行同樣大的問題規(guī)模，AMD GPU 上的OpenCL 程序也能獲得更高的加速比。

　　圖10 顯示對MEDIUM 數(shù)據集幾個內核函數(shù)在上述環(huán)境下相對單CPU 函數(shù)運行時間的加速比，在一個GPU 卡上運行，OpenCL 與CUDA 性能相差不多，對于計算密度較高的SAR_EH_CPX Kernel 函數(shù)，OpenCL 相對CUDA執(zhí)行性能更高。

　　3.2.2 多GPU 的擴展性能

　　對 270*140*830 的LARGE 數(shù)據集，單GPU 無法運行，實現(xiàn)的FDTD 的MPI+CUDA 版代碼，通過MPI 劃分、調度數(shù)據，使用多個GPU 核實現(xiàn)FDTD 的加速。圖9 和10分別展示了在4 個GPU 核以及8 個GPU 核上，整體運行時間和函數(shù)相對CPU 的加速比。

　　綜上所述，當問題規(guī)模較小時，SIMD 單元性能沒有得到充分發(fā)揮，而數(shù)據集的增大使得并發(fā)的線程數(shù)進一步增加，對掩蓋訪存延遲，提高整體效率有利。因此，對于未來性能更高的硬件平臺、更大的數(shù) 據集，在GPU 上進行并行計算的優(yōu)勢還可進一步擴大。對于FDTD 這樣的具有高強度計算量并且計算數(shù)據流只有有限的或沒有數(shù)據相關性的高性能的計算系統(tǒng)，GPU 的使用具有較好的前途。在通常情況下，如果模型空間非常大以至于導致流處理器總是處于忙碌狀態(tài)，那么GPU 程序也比CPU 程序快幾倍。

　　如果FDTD模型空間足夠大，就可以更好地發(fā)揮GPU效能。

　　4 相關工作

　　近年來，由于GPU 在浮點密集型應用上加速優(yōu)勢，針對FDTD 的GPU 移植和優(yōu)化也開展了相應的研究。邵楨等人GeForce 7 系列圖形卡上用OpenGL 編程環(huán)境對FDTD實現(xiàn)了GPU 并行程序，相對Intel P4 處理器獲得了12 倍左右的加速。GPGPU 技術的發(fā)展使得GPU 體系結構和編程環(huán)境都發(fā)生重大的變革，如單指令多線程（SIMT）和CUDA編程導致算法的優(yōu)化和實現(xiàn)有很大的變化，本論文工作重點研究了結合新一代 NVIDIA GPGPU 體系結構的特點如共享存儲器和線程分組重新設計了并行FDTD 算法，包括優(yōu)化全局存儲訪問的并行規(guī)約算法?；贑UDA 結構，杜劉革等和胡媛等先后對FDTD 進行了加速研究，并相對當時的CPU 獲得了約20-70 倍不等的加速效果，但這些工作都是基于G80 和GT200 上一代GPU 結構上開展的。本研究工作在新的Fermi 架構上做了進一步優(yōu)化，相對目前主流CPU 對一下函數(shù)獲得了超過100 倍的加速比。改算法也成功并擴展到了OpenCL編程模型和ATI GPGPU結構上，此外，本文描述了和體系結構相關的優(yōu)化系統(tǒng)如存儲器優(yōu)化、寄存器選擇和線程映射等。相對以前的其他工作，本研究不僅僅關注基于GPU 結構的FDTD 算法的優(yōu)化，還實現(xiàn)了基于CPU-GPU 異構機群的大規(guī)模并行FDTD 程序，基于MPI+CUDA 的實現(xiàn)證明FDTD 并行程序能夠適應目前流行的異構超級計算機系統(tǒng)?？傊?，本研究首次對FDTD 并行程序優(yōu)化涵蓋了CUDA、OpenCL 和MPI主流高性能計算編程模型，并在NVIDIA 和ATI 的主流的GPU 進行了實踐，在GPU 機群系統(tǒng)上進行了全面的實驗對比。

　　5 結論

　　本文研究了時域有限差分方法 FDTD 在主流NVIDIA和ATI GPU上加速計算，在異構集群上實現(xiàn)了MPI+CUDA/OpenCL 的并行程序，加速的并行FDTD 程序相對CPU 串行程序和8 個CPU 核的MPI 并行程序，分別獲得了超過8倍和1.5 倍的加速，并在多個GPU 卡上獲得了接近線性加速的擴展性能。

關鍵詞：基于CPU-GPU 異構機群的FDTD 并行算法加速研究（三）CPUGPUFDTD

上一篇：基于CPU-GPU 異構機群的FDTD 并行算法加速研究（二）

下一篇：基于MSP430x09x MCU的電動剃須刀系統(tǒng)設計