淺談網(wǎng)格數(shù)據(jù)傳輸和服務
出處:維庫電子市場網(wǎng) 發(fā)布于:2023-06-30 14:01:10
網(wǎng)格數(shù)據(jù)是計算機中以柵格結(jié)構(gòu)存貯的內(nèi)部數(shù)據(jù)。是掃描式數(shù)字化儀的直接產(chǎn)物,適用于屏幕顯示和行式打印輸出。在網(wǎng)格數(shù)據(jù)中,把研究范圍分成大小均勻的格網(wǎng)矩陣。存貯的信息可以是點、線、面實體,也可以是指向該單元有關(guān)屬性的指針。格網(wǎng)越小,越高, 但存貯量越大。因格網(wǎng)是有規(guī)則排列的,故實體的坐標位置可隱含在格網(wǎng)的存儲地址中。網(wǎng)格數(shù)據(jù)便于數(shù)據(jù)處理、區(qū)域綜合分析和評價。與矢量數(shù)據(jù)相比,其軟件設計較簡單,缺點是數(shù)據(jù)存儲量大,特別是稀疏的空間數(shù)據(jù),要浪費許多存儲單元。適用于數(shù)字地形模型,遙感圖像等信息的存儲。
數(shù)據(jù)管理的重要地位,不僅在處理海量數(shù)據(jù)的數(shù)據(jù)網(wǎng)格,在數(shù)據(jù)管理尤其是數(shù)據(jù)傳輸更是占據(jù)著不可撼動的位置,而且它在計算網(wǎng)格和服務網(wǎng)格等領(lǐng)域也是至關(guān)重要的,數(shù)據(jù)以高效、可靠、方便地移動和復制關(guān)系到整個系統(tǒng)的效率。
數(shù)據(jù)管理的主要功能包括:數(shù)據(jù)的訪問和控制,數(shù)據(jù)的拷貝和管理,以及與計算、網(wǎng)絡和存儲的協(xié)同調(diào)度。這些軟件或服務相輔相成,構(gòu)成了網(wǎng)格中不可或缺的數(shù)據(jù)管理部分。
2 數(shù)據(jù)傳輸——GridFTP協(xié)議
數(shù)據(jù)傳輸(data transmission)就是依照適當?shù)囊?guī)程,經(jīng)過一條或多條鏈路,在數(shù)據(jù)源和數(shù)據(jù)宿之間傳送數(shù)據(jù)的過程。也表示借助信道上的信號將數(shù)據(jù)從一處送往另一處的操作。
在模擬和傳感器技術(shù)發(fā)展的推動下,數(shù)據(jù)集規(guī)模已經(jīng)增長到TB數(shù)量級,而且PB級的數(shù)據(jù)量將很快問世。位于日內(nèi)瓦的歐洲粒子研究中心(CERN),目前正負電子對撞機(LEP)每年的數(shù)據(jù)是0.2~0.3TB,而幾年內(nèi)建成的緊湊μ介子螺線管(CMS)每年所產(chǎn)生的數(shù)據(jù)就將達到幾個PB。網(wǎng)格中現(xiàn)有的存儲系統(tǒng)如數(shù)量存儲系統(tǒng)、高性能存儲系統(tǒng)(DPSS、HPSS等)側(cè)重于實現(xiàn)快速傳送存儲設備和并行機或群聚計算機之間的龐大文件;而分布式文件系統(tǒng)(DFS)則側(cè)重于支持海量存儲與負載平衡,而這些系統(tǒng)間并不兼容。
訪問、分析和處理分布在不同邏輯位置、存儲系統(tǒng)上的數(shù)據(jù),應用程序要么選擇只支持某些存儲系統(tǒng),要么使用多種方法來獲取不同存儲系統(tǒng)上的數(shù)據(jù)。若能提供一種在異構(gòu)系統(tǒng)上的公共互用層將對存儲和用戶雙方都非常有利,因此一個普通的、但擴展性強的數(shù)據(jù)傳輸協(xié)議呼之欲出。這樣的機制比建立一個分層的客戶端或網(wǎng)關(guān)要好得多,可以避免性能上的損失和過大的復雜性。
Globus提出了GridFTP協(xié)議,該協(xié)議不僅擁有現(xiàn)今使用的數(shù)據(jù)傳輸協(xié)議的特點,還易于擴展,支持更多的存儲系統(tǒng)。GridFTP基于FTP協(xié)議(因為FTP是為廣泛和實用的IETF標準協(xié)議),又有多個RFC標準定義了FTP及其擴展,而且其中一些在網(wǎng)格環(huán)境中特別適用。下面將討論并比較當前Internet和網(wǎng)格中依然存在的各種數(shù)據(jù)傳輸協(xié)議,并介紹Globus中GridFTP協(xié)議的實現(xiàn)和編程接口。
2.1 協(xié)議比較
(1)FTP 是File Transfer Protocol(文件傳輸協(xié)議)的英文簡稱,而中文簡稱為“文傳協(xié)議”。用于Internet上的控制文件的雙向傳輸。同時,它也是一個應用程序(Application)。用戶可以通過它把自己的PC機與世界各地所有運行FTP協(xié)議的服務器相連,訪問服務器上的大量程序和信息。FTP的主要作用,就是讓用戶連接上一個遠程計算機(這些計算機上運行著FTP服務器程序)察看遠程計算機有哪些文件,然后把文件從遠程計算機上拷到本地計算機,或把本地計算機的文件送到遠程計算機去。
(2)超文本傳輸協(xié)議(HTTP,HyperText Transfer Protocol)是互聯(lián)網(wǎng)上應用為廣泛的一種網(wǎng)絡協(xié)議。所有的WWW文件都必須遵守這個標準。設計HTTP初的目的是為了提供一種發(fā)布和接收HTML頁面的方法。HTTP是一個客戶端和服務器端請求和應答的標準(TCP)。客戶端是終端用戶,服務器端是網(wǎng)站。通過使用Web瀏覽器、網(wǎng)絡爬蟲或者其它的工具,客戶端發(fā)起一個到服務器上指定端口(默認端口為80)的HTTP請求。(我們稱這個客戶端)叫用戶代理(user agent)。應答的服務器上存儲著(一些)資源,比如HTML文件和圖像。(我們稱)這個應答服務器為源服務器(origin server)。在用戶代理和源服務器中間可能存在多個中間層,比如代理,網(wǎng)關(guān),或者隧道(tunnels)。盡管TCP/IP協(xié)議是互聯(lián)網(wǎng)上的應用,HTTP協(xié)議并沒有規(guī)定必須使用它和(基于)它支持的層。 事實上,HTTP可以在任何其他互聯(lián)網(wǎng)協(xié)議上,或者在其他網(wǎng)絡上實現(xiàn)。HTTP只假定(其下層協(xié)議提供)可靠的傳輸,任何能夠提供這種保證的協(xié)議都可以被其使用。
(3)BBFTP是一個傳輸大型文件的FTP軟件,同時它也是基于FTP協(xié)議的一種新的數(shù)據(jù)傳輸協(xié)議。它能在高性能終端個人電腦之間可靠地傳輸和存儲數(shù)據(jù),尤其用來優(yōu)化傳輸大型文件(超過2GB),因為BBFTP實現(xiàn)了RFC1323(TCP高性能擴展)中定義的“大窗口”,使之更適合傳輸大文件,而不適合用來傳輸小文件。
以上協(xié)議或軟件部分重要特征的對比。
下面就從表1中的對比說明GridFTP協(xié)議適應網(wǎng)格環(huán)境多樣性的特點。
(1)網(wǎng)格大都運行在廣域網(wǎng)環(huán)境中,這就需要更高的帶寬。使用多個TCP流(即并行傳輸)可以更充分地利用并提高傳輸帶寬。而GridFTP中修改了RETR指令以使它可以指定TCP流的數(shù)目,同時引入了EBLOCK(Extended Block)模式(包括8位標志符、64位長度、64位偏移量和數(shù)據(jù)),以支持并行傳輸、部分傳輸和帶狀傳輸。
(2)窗口大小是TCP/IP中獲取帶寬的關(guān)鍵參數(shù),針對不同的網(wǎng)格環(huán)境、文件大小和文件集類型應該設置不同的值。使用的TCP緩沖區(qū)/窗口大小可以有效地提高數(shù)據(jù)傳輸性能。GridFTP增加的新指令SBUF和ABUF,就是分別用來手工指定和使用某種算法自動調(diào)整TCP緩沖區(qū)/窗口大小。
(3)安全是網(wǎng)格計算的重點和難點。Globus中GSI(Grid Security Infrastructure)使用PKI、X.25和SSL作為整個安全系統(tǒng)的基礎,分為授權(quán)、雙重、私有通信、安全私鑰、代理和單一系統(tǒng)登錄部分,建立了非集中管理的、包括多個不同組織的安全系統(tǒng)。而GridFTP支持GSI和Kerberos,以滿足用戶控制不同層次上的數(shù)據(jù)完整性及保密性設定的要求。
(4)大規(guī)模的分布系統(tǒng)擁有大量的數(shù)據(jù)集,在存儲服務器間進行第三方控制的傳輸是很有必要的。用戶可以啟動和監(jiān)控2臺服務器間的數(shù)據(jù)傳輸,為使用多點資源提供了保障,而且無需進行數(shù)據(jù)中轉(zhuǎn)。GridFTP在原有FTP標準第三方傳輸?shù)墓δ苌咸砑恿薌SSAPI(Generic Security Service API)安全機制。
許多時候網(wǎng)格計算只需要文件中的部分數(shù)據(jù)或者一個數(shù)據(jù)子集,F(xiàn)TP和HTTP協(xié)議只支持從某一偏移量開始到整個文件末的傳輸,而GridFTP使用ERET、ESTO等命令可支持部分文件傳輸。同時網(wǎng)格的特殊性也使得連接狀況較難預測,因此傳輸中斷后的恢復必不可少,而GridFTP保留了FTP協(xié)議中的斷點續(xù)傳功能。
GridFTP除了具有以上在普通數(shù)據(jù)傳輸機制上的性能和功能改進外,還有如下特性:
帶狀(Striped)傳輸使用多個TCP流來傳輸分布在多個服務器上的數(shù)據(jù),因為在網(wǎng)格中數(shù)據(jù)往往會分布在多存儲點上,這樣就可以大大增加客戶端傳輸帶寬,提高速率。GridFTP使用擴展的RETR指令,并有分區(qū)和分塊2種策略來進行帶狀傳輸,SPAS、SPOR命令可分別用來設置被動和主動模式。
2.2 實現(xiàn)、性能及編程接口
(1)實現(xiàn)。Globus項目在GridFTP協(xié)議基礎上實現(xiàn)了GridFTP服務器端、GridFTP客戶端、API函數(shù)庫以及一系列的相關(guān)工具。的GT4中GridFTP服務器已不再基于wuftpd,而是重寫了代碼,實現(xiàn)了控制通道和數(shù)據(jù)通道完全分離。一個控制通道后面可以有多個數(shù)據(jù)通道(這就是帶狀傳輸服務器的實現(xiàn)方式)。
(2)性能。根據(jù)實驗,在千兆網(wǎng)絡環(huán)境下的單服務器對單客戶端傳輸性能:當TCP流增多時傳輸帶寬有明顯的增大(達到200Mbps)。總的來看,GridFTP的性能可達到Iperf(一種網(wǎng)絡帶寬和性能測試工具)的78%;在萬兆網(wǎng)絡(30G)環(huán)境下的帶狀服務器對單客戶端傳輸性能:當進行內(nèi)存到內(nèi)存?zhèn)鬏敃r,隨著帶狀數(shù)的增加,傳輸帶寬幾乎呈線性增長(斜率接近1),32個數(shù)據(jù)節(jié)點時可以達到27Gbps的帶寬,近90%的利用率;當進行磁盤到磁盤傳輸時,由于受到存儲系統(tǒng)的限制,但仍然達到了17.5Gbps的帶寬。帶狀傳輸性能測試。
(3)編程接口。除了GT自帶的用于通道控制和實現(xiàn)客戶端的2個API庫ftp_control_library和fip_client_library外,還有CoG(Commodity Grid)工具集。它是提供給網(wǎng)格用戶、管理者,特別是開發(fā)人員使用的框架,為開發(fā)網(wǎng)格應用程序提供了更快速簡易的通道。目前CoG工具集有Java CoG、Python CoG等,它不僅是集成網(wǎng)格服務的工具,還是提供統(tǒng)一分布計算技術(shù)訪問接口的中間件[3]。CoG可用于GT中(正在開發(fā)的CoG 4.0將兼容的GT4),Java CoG為Globus開發(fā)了jglobus包,其中包括AXIS、數(shù)據(jù)傳輸、GASS、GRAM、MDS和安全等組件。
3 可靠文件傳輸——RFT服務
GridFTP客戶端要求一直保持開啟,連接直到傳輸完成為止。而一旦失去與服務器的連接則需要人工參與重啟傳輸。為了傳輸任務的可靠性,一個基于無用戶的、提交傳輸任務后即可釋放的服務是十分必要的。
可靠文件傳輸(Reliable File Transfer,RFT)是基于WSRF(Web Services Resource Framework)的一個網(wǎng)格服務,提供一個、易調(diào)用、可靠的文件傳輸服務。它支持GridFTP的第三方數(shù)據(jù)傳輸和部分文件管理功能(如批量刪除文件等),可以監(jiān)測傳輸動態(tài)及性能,自動恢復傳輸?shù)裙δ堋?/p>
可靠文件傳輸服務接收來自客戶端GUI的傳輸請求,該請求可存放在數(shù)據(jù)庫中(Globus一般采用PostgreSQL),然后調(diào)用傳輸客戶端啟動第三方傳輸。通過調(diào)用數(shù)據(jù)庫保存的傳輸任務和狀態(tài)來實現(xiàn)出錯恢復這一重要機制。用戶可以從各種GUI界面查詢不同信息。
4 數(shù)據(jù)副本管理——RLS和DRS服務
網(wǎng)格是一個整體環(huán)境。為了降低訪問延遲,改善數(shù)據(jù)局部性,保證分布式應用的質(zhì)量,提高執(zhí)行效率和性能,往往需要建立數(shù)據(jù)的遠程只讀副本。同時可以根據(jù)需要,在完成數(shù)據(jù)傳輸復制后把它標識為副本,以便其他客戶端使用。
副本定位服務(Replica Location Service,RLS)維護并提供數(shù)據(jù)項邏輯名和數(shù)據(jù)項的一個或多個副本所在位置之間的映射。RLS框架基于LRC本地狀態(tài)、RLI集體狀態(tài)、RLI軟狀態(tài)維護等幾種機制。它實現(xiàn)成一種分布式服務,允許用戶在一致性、空間開銷、可靠性、更新代價和查詢代價之間做出權(quán)衡。
5 總結(jié)及未來的工作
GridFTP雖然已成為網(wǎng)格中的標準數(shù)據(jù)傳輸協(xié)議,但還有一些問題尚待解決:GridFTP需要發(fā)送方進行TCP連接,這不利于穿越防火墻;即使不同服務器上擁有數(shù)據(jù)的多個復本,帶狀傳輸也只支持使用并行文件系統(tǒng)的服務器。在帶狀傳輸時,應該用一個負載平衡代理服務器來協(xié)調(diào)單控制通道及多數(shù)據(jù)通道的工作,以處理單點故障等,使高效傳輸能順利完成。
版權(quán)與免責聲明
凡本網(wǎng)注明“出處:維庫電子市場網(wǎng)”的所有作品,版權(quán)均屬于維庫電子市場網(wǎng),轉(zhuǎn)載請必須注明維庫電子市場網(wǎng),http://m.58mhw.cn,違反者本網(wǎng)將追究相關(guān)法律責任。
本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性,不承擔此類作品侵權(quán)行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品出處,并自負版權(quán)等法律責任。
如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
- 工業(yè)5G技術(shù)在智能制造中的應用與實踐解析2025/12/31 10:57:21
- 工業(yè)以太網(wǎng)交換機選型與現(xiàn)場應用技術(shù)指南2025/12/18 10:48:14
- 無線傳輸電路基礎,射頻前端設計、天線匹配與鏈路預算計算2025/10/27 13:55:50
- ASK 解調(diào)的核心要點與實現(xiàn)方式2025/9/5 16:46:17
- 雙偶極子天線:結(jié)構(gòu)、特性與應用全解析2025/9/3 10:29:21









