音影先锋亚洲天堂网|电影世界尽头的爱完整版播放|国产 熟女 91|高清无码免费观看欧美日韩|韩国一区二区三区黄色录像|美女亚洲加勒比在线|亚洲综合网 开心五月|7x成人在线入口|成人网站免费日韩毛片区|国产黄片?一级?二级?三级

基于CPU-GPU 異構機群的FDTD 并行算法加速研究(三)

出處:電子愛好者博客 發(fā)布于:2013-05-14 11:43:01

相關資料:

基于CPU-GPU 異構機群的FDTD 并行算法加速研究(一)

基于CPU-GPU 異構機群的FDTD 并行算法加速研究(二)

 

 

  3 測試結果與分析

  實驗平臺包括 HD5870 GPU、Tesla C2050 GPU 和IntelXeon X5650 處理器機群,其主要的處理器體系結構參數(shù)如表3 所示。實驗中所使用的數(shù)據集與第二節(jié)分析程序中的數(shù)據一致,如表1 所示。

  為了實驗的對比分析,我們實現(xiàn)了4 個版本的FDTD程序:CPU 上執(zhí)行的FDTD-serial 串行程序、多核CPU 上執(zhí)行的FDTD-MPI 并行程序、ATI GPU 上執(zhí)行的FDTDOpenCL加速程序和NVIDIA GPU 上執(zhí)行的FDTD-CUDA加速程序。目前而言,單計算可以滿足所測試FDTD實驗場景的需求,所以不開啟OpenCL 的雙浮點運算支持。評價總體性能的標準為GPU 版相對CPU 版的加速比,計算公式為CPU 執(zhí)行時間/GPU 執(zhí)行時間。

  3.1 GPU 加速分析

  圖 7 顯示FDTD 在SMALL 數(shù)據集下,在1 個CPU 核、4 個CPU 核、8 個CPU 核、Tesla C2050 GPU 和HD5870 GPU下計算時間對比。多CPU 核使用MPI 調度數(shù)據,GPU 加速代碼為OpenCL.由圖可見,在SMALL 數(shù)據集下,使用HD5870,OpenCL 加速相對CPU 加速比可達到8.11,且性能比8 個CPU 的MPI 加速性能還要好。

  圖8 顯示的是SMALL 數(shù)據集下各個GPU 優(yōu)化的函數(shù)和CPU 版程序中對應函數(shù)的執(zhí)行時間對比,單位為ms.圖8 的數(shù)據表明,update_H_PML 和SAR_EH_CPX 的計算密度較高,加速比也較大,達到了40 多倍加速。

  3.2 擴展性分析

  3.2.1 數(shù)據規(guī)模的擴展性能

  我們在 Nvidia Tesla C2050 GPU 集群上對MEDIUM 和LARGE 數(shù)據集進行了測試,兩個數(shù)據集的計算時間相對CPU 的計算時間加速比如圖9 所示。

  由圖 9 可見,對于MEDIUM 數(shù)據集,CUDA 的實現(xiàn)則獲得21.41 倍的加速。從NVIDIA Fermi 卡上的OpenCL和CUDA 性能接近來推斷:如果擴大實驗中所使用AMDGPU 內存使得可以運行同樣大的問題規(guī)模,AMD GPU 上的OpenCL 程序也能獲得更高的加速比。

  圖10 顯示對MEDIUM 數(shù)據集幾個內核函數(shù)在上述環(huán)境下相對單CPU 函數(shù)運行時間的加速比,在一個GPU 卡上運行,OpenCL 與CUDA 性能相差不多,對于計算密度較高的SAR_EH_CPX Kernel 函數(shù),OpenCL 相對CUDA執(zhí)行性能更高。

  3.2.2 多GPU 的擴展性能

  對 270*140*830 的LARGE 數(shù)據集,單GPU 無法運行,實現(xiàn)的FDTD 的MPI+CUDA 版代碼,通過MPI 劃分、調度數(shù)據,使用多個GPU 核實現(xiàn)FDTD 的加速。圖9 和10分別展示了在4 個GPU 核以及8 個GPU 核上,整體運行時間和函數(shù)相對CPU 的加速比。

  綜上所述,當問題規(guī)模較小時,SIMD 單元性能沒有得到充分發(fā)揮,而數(shù)據集的增大使得并發(fā)的線程數(shù)進一步增加,對掩蓋訪存延遲,提高整體效率有利。因此,對于未來性能更高的硬件平臺、更大的數(shù) 據集,在GPU 上進行并行計算的優(yōu)勢還可進一步擴大。對于FDTD 這樣的具有高強度計算量并且計算數(shù)據流只有有限的或沒有數(shù)據相關性的高性能的計算系統(tǒng),GPU 的使用具有較好的前途。在通常情況下,如果模型空間非常大以至于導致流處理器總是處于忙碌狀態(tài),那么GPU 程序也比CPU 程序快幾倍。

  如果FDTD模型空間足夠大,就可以更好地發(fā)揮GPU效能。

  4 相關工作

  近年來,由于GPU 在浮點密集型應用上加速優(yōu)勢,針對FDTD 的GPU 移植和優(yōu)化也開展了相應的研究。邵楨等人GeForce 7 系列圖形卡上用OpenGL 編程環(huán)境對FDTD實現(xiàn)了GPU 并行程序,相對Intel P4 處理器獲得了12 倍左右的加速。GPGPU 技術的發(fā)展使得GPU 體系結構和編程環(huán)境都發(fā)生重大的變革,如單指令多線程(SIMT)和CUDA編程導致算法的優(yōu)化和實現(xiàn)有很大的變化,本論文工作重點研究了結合新一代 NVIDIA GPGPU 體系結構的特點如共享存儲器和線程分組重新設計了并行FDTD 算法,包括優(yōu)化全局存儲訪問的并行規(guī)約算法?;贑UDA 結構,杜劉革等和胡媛等先后對FDTD 進行了加速研究,并相對當時的CPU 獲得了約20-70 倍不等的加速效果,但這些工作都是基于G80 和GT200 上一代GPU 結構上開展的。本研究工作在新的Fermi 架構上做了進一步優(yōu)化,相對目前主流CPU 對一下函數(shù)獲得了超過100 倍的加速比。改算法也成功并擴展到了OpenCL編程模型和ATI GPGPU結構上,此外,本文描述了和體系結構相關的優(yōu)化系統(tǒng)如存儲器優(yōu)化、寄存器選擇和線程映射等。相對以前的其他工作,本研究不僅僅關注基于GPU 結構的FDTD 算法的優(yōu)化,還實現(xiàn)了基于CPU-GPU 異構機群的大規(guī)模并行FDTD 程序,基于MPI+CUDA 的實現(xiàn)證明FDTD 并行程序能夠適應目前流行的異構超級計算機系統(tǒng)??傊?,本研究首次對FDTD 并行程序優(yōu)化涵蓋了CUDA、OpenCL 和MPI主流高性能計算編程模型,并在NVIDIA 和ATI 的主流的GPU 進行了實踐,在GPU 機群系統(tǒng)上進行了全面的實驗對比。

  5 結論

  本文研究了時域有限差分方法 FDTD 在主流NVIDIA和ATI GPU上加速計算,在異構集群上實現(xiàn)了MPI+CUDA/OpenCL 的并行程序,加速的并行FDTD 程序相對CPU 串行程序和8 個CPU 核的MPI 并行程序,分別獲得了超過8倍和1.5 倍的加速,并在多個GPU 卡上獲得了接近線性加速的擴展性能。

關鍵詞:基于CPU-GPU 異構機群的FDTD 并行算法加速研究(三)CPUGPUFDTD

版權與免責聲明

凡本網注明“出處:維庫電子市場網”的所有作品,版權均屬于維庫電子市場網,轉載請必須注明維庫電子市場網,http://m.58mhw.cn,違反者本網將追究相關法律責任。

本網轉載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點或證實其內容的真實性,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品出處,并自負版權等法律責任。

如涉及作品內容、版權等問題,請在作品發(fā)表之日起一周內與本網聯(lián)系,否則視為放棄相關權利。

OEM清單文件: OEM清單文件
*公司名:
*聯(lián)系人:
*手機號碼:
QQ:
有效期:

掃碼下載APP,
一鍵連接廣大的電子世界。

在線人工客服

買家服務:
賣家服務:
技術客服:

0571-85317607

網站技術支持

13606545031

客服在線時間周一至周五
9:00-17:30

關注官方微信號,
第一時間獲取資訊。

建議反饋

聯(lián)系人:

聯(lián)系方式:

按住滑塊,拖拽到最右邊
>>
感謝您向阿庫提出的寶貴意見,您的參與是維庫提升服務的動力!意見一經采納,將有感恩紅包奉上哦!