分布式計算是一種計算方法,和集中式計算是相對的。
隨著計算技術的發展,有些應用需要非常巨大的計算能力才能完成,如果采用集中式計算,需要耗費相當長的時間來完成。
分布式計算將該應用分解成許多小的部分,分配給多臺計算機進行處理。這樣可以節約整體計算時間,大大提高計算效率。
基本定義
孟目的定義
研究如何把一個需要非常巨大的計算能力才能解決的問題分成許多小的部分,然后把這些部分分配給許多計算機進行處理,最后把這些計算結果綜合起來得到最終的結果。
最近的分布式計算項目已經被用于使用世界各地成千上萬位志愿者的計算機的閑置計算能力,通過因特網,可以分析來自外層空間的電訊號,尋找隱蔽的黑洞,并探索可能存在的外星智慧生命;可以尋找超過1000萬位數字的梅森質數;也可以尋找并發現對抗艾滋病的更為有效的藥物。這些項目都很龐大,需要驚人的計算量,僅僅由單個的電腦或是個人在一個能讓人接受的時間內計算完成是決不可能的。
中國科學院的定義
在兩個或多個軟件互相共享信息,這些軟件既可以在同一臺計算機上運行,也可以在通過網絡連接起來的多臺計算機上運行。分布式計算比起其它算法具有以下幾個優點:
1、稀有資源可以共享。
2、通過分布式計算可以在多臺計算機上平衡計算負載。
3、可以把程序放在最適合運行它的計算機上。
其中,共享稀有資源和平衡負載是計算機分布式計算的核心思想之一。
網格計算
網格計算就是分布式計算的一種。如果某項工作是分布式的,那么,參與這項工作的一定不只是一臺計算機,而是一個計算機網絡,這種“螞蟻搬山”的方式將具有很強的數據處理能力。
網格計算的實質就是組合與共享資源并確保系統安全。
工作原理
分布式計算是利用互聯網上的計算機的中央處理器的閑置處理能力來解決大型計算問題的一種計算科學。下面,我們看看它是怎么工作的:
首先,要發現一個需要非常巨大的計算能力才能解決的問題。這類問題一般是跨學科的、極富挑戰性的、人類急待解決的科研課題。其中較為著名的是:
解決較為復雜的數學問題,例如:GIMPS(尋找最大的梅森素數)。
研究尋找最為安全的密碼系統,例如:RC-72(密碼破解)。
生物病理研究,例如:Folding@home(研究蛋白質折疊,誤解,聚合及由此引起的相關疾病)。
各種各樣疾病的藥物研究,例如:United Devices(尋找對抗癌癥的有效的藥物)。
信號處理,例如:SETI@Home(在家尋找地外文明)。
1.解決較為復雜的數學問題,例如:GIMPS(尋找最大的梅森素數)。
2.研究尋找最為安全的密碼系統,例如:RC-72(密碼破解)。
3.生物病理研究,例如:Folding@home(研究蛋白質折疊,誤解,聚合及由此引起的相關疾病)。
4.各種各樣疾病的藥物研究,例如:United Devices(尋找對抗癌癥的有效的藥物)。
5.信號處理,例如:SETI@Home(在家尋找地外文明)。
在以前,這些問題都應該由超級計算機來解決。但是, 超級計算機的造價和維護非常的昂貴,這不是一個普通的科研組織所能承受的。隨著科學的發展,一種廉價的、高效的、維護方便的計算方法應運而生——分布式計算!
隨著計算機的普及,個人電腦開始進入千家萬戶。與之伴隨產生的是電腦的利用問題。越來越多的電腦處于閑置狀態,即使在開機狀態下中央處理器的潛力也遠遠不能被完全利用。我們可以想象,一臺家用的計算機將大多數的時間花費在“等待”上面。即便是使用者實際使用他們的計算機時,處理器依然是寂靜的消費,依然是不計其數的等待(等待輸入,但實際上并沒有做什么)?;ヂ摼W的出現, 使得連接調用所有這些擁有限制計算資源的計算機系統成為了現實。
那么,一些本身非常復雜的但是卻很適合于劃分為大量的更小的計算片斷的問題被提出來,然后由某個研究機構通過大量艱辛的工作開發出計算用服務端和客戶端。服務端負責將計算問題分成許多小的計算部分,然后把這些部分分配給許多聯網參與計算的計算機進行并行處理,最后將這些計算結果綜合起來得到最終的結果。
當然,這看起來也似乎很原始、很困難,但是隨著參與者和參與計算的計算機的數量的不斷增加, 計算計劃變得非常迅速,而且被實踐證明是的確可行的。目前一些較大的分布式計算項目的處理能力已經可以達到甚而超過目前世界上速度最快的超級計算機。
您也可以選擇參加某些項目以捐贈Cpu的內核處理時間,您將發現您所提供的 中央處理器 內核處理時間將出現在項目的貢獻統計中。您可以和其他的參與者競爭貢獻時間的排名,您也可以加入一個已經存在的計算團體或者自己組建一個計算小組。這種方法很利于調動參與者的熱情。
隨著民間的組隊逐漸增多, 許多大型組織(例如公司、學校和各種各樣的網站)也開始了組建自己的戰隊。同時,也形成了大量的以分布式計算技術和項目討論為主題的社區,這些社區多數是翻譯制作分布式計算項目的使用教程及發布相關技術性文章,并提供必要的技術支持。
那么誰可能加入到這些項目中來呢? 當然是任何人都可以! 如果您已經加入了某個項目,而且曾經考慮加入計算小組, 您將在中國分布式計算總站及論壇里找到您的家。任何人都能加入任何由我站的組建的分布式計算小組。希望您在中國分布式總站及論壇里發現樂趣。
參與分布式計算——一種能充分發揮您的個人電腦的利用價值的最有意義的選擇——只需要下載有關程序,然后這個程序會以最低的優先度在計算機上運行,這對平時正常使用計算機幾乎沒有影響。如果你想利用計算機的空余時間做點有益的事情,還猶豫什么?馬上行動起來吧,你的微不足道的付出或許就能使你在人類科學的發展史上留下不小的一筆呢!
BOINC分布式計算平臺
BOINC是Berkeley Open Infrastructure for Network Computing的簡稱,即伯克利開放式網絡計算平臺。
BOINC是不同分布式計算可以共享的分布式計算平臺。不同分布式計算項目可以直接使用BOINC的公用上傳下載系統、統計系統等,這樣不僅可以發揮各個分布式計算之間的協調性,也能使分布式計算的管理、使用更加方便易用。
BOINC項目由加利福尼亞大學伯克利分校(U.C.Berkeley)主持發起。
BOINC項目由美國國家科學基金會(National Science Foundation)贊助。
BOINC有自己的積分系統,因為在BOINC上可以運行的項目千差萬別,比如項目A的任務包(Workunit,簡稱WU)在某臺機器里需要3個小時完成,而項目B的任務包在這臺機器里需要30個小時才能完成,顯然用WU的數目來衡量工作量是不可行的;類似的,機器性能也有差別,用CPU時間來衡量工作量更是不行的。積分系統只能通過一定的算法得到用戶實際完成的計算量,這篇文章對BOINC中積分的計算方法進行了說明。
分布式計算在中國
據中國互聯網信息中心(CNNIC)的統計信息,中文網民人數占世界的比重已經增長到了12%左右,并且還在快速增長著。這里所說的中文網民是包括大陸、香港特別行政區、澳門、臺灣和海外華人的。
相比于互聯網在中國的快速發展,中國的分布式計算卻發展緩慢。就我看來,網民數量的統計并不能十分客觀地反映一個國家信息化程度的高低,而參與分布式計算網民的數量或比例卻可以明顯地看出這個國家科學普及化的水平。在這方面,毋庸置疑,歐美國家是十分領先的。在北歐國家,幾乎一半的電腦參加了分布式計算項目,這是一個驚人的數字。再讓我們來看看我們中國和印度,盡管我們擁有了不少最新科技,且看上去在網絡普及化進程中有不錯表現,但是在分布式計算方面卻很薄弱。讓我們來看些例子:
SETI@home是世界上最大的分布式計算項目。從中國的參與人數來看,它在中國也是最著名的項目。它通過使用聯網的計算機下載程序分析射電望遠鏡所收到的訊號,來搜索地球外的生命跡象。
盡管中國在分布式計算中取得了進步,中國的國際排名從29上升到了24,但是我們中國用戶卻仍然只完成了日本用戶完成的工作數的十分之一,而日本,這個高度發達的國家網民人數卻少于中國??磥?,提高網民素質、提高科學普及化程度也是十分重要的。印度和一些黎巴嫩也有相似的問題,而中歐國家明顯在這方面作得比較好,不少獨立國家聯合體國家所完成的數據量已經超過了俄羅斯聯邦的總合。
Folding@home是一個研究蛋白質折疊,誤解,聚合及由此引起的相關疾病的分布式計算工程。它使用聯網式的計算方式和大量的分布式計算能力來模擬蛋白質折疊的過程,并指引我們對由折疊引起的疾病的一系列研究。
中國參加這個項目的人數在不斷增多,截至2011年3月底,中國3213團隊的用戶數達到3025人,活躍用戶有190人左右。
參與該項目 Climateprediction工程是把最新的氣候預測模型通過家庭、學校、辦公室的計算機來進行計算。這些計算完成的結果將會組成世界最大的氣象預測模型。氣候改變了,而我們對此的行動已經是全球重要的話題。這將影響到人類的農業生產、水資源量、生態系統、能源需求、保險花費和很多其他與人類息息相關的方面。確鑿的科學依據表明,地球在在接下來的幾個世紀可能會變得溫暖,但是我們無法估計到底變化會有多大。如果您參加,這將能有助與21世紀的氣候科學預測。
中國已經有了很多計算機,其中不乏性能極其先進的。而他們中的大多數僅僅是打字、播放幻燈而已。這不能不說是一種資源的浪費。
從另外一個角度看,我們不難發現發達國家和發展中國家的差距。我們把這種現象稱為數字鴻溝。另一個現象同樣令人痛心疾首,所有的分布式計算項目都是由發達國家,如:美國、德國、英國、日本等發起的,這一方面也加深了科學鴻溝。斯坦福大學化學系的戈爾哈姆·理查德·切爾曼教授說,分布式計算將加快整個人類的科學進程??茖W家們可以完成以前從來想不到要去完成的,或者要花幾十年幾百年才能完成的計算任務。這是的確是千真萬確的,但是這種計算從一定程度上助長了發達國家的科學壟斷。
中國有關部門也開始意識到分布式計算的重要性,一些大學教授和科學家也開始鉆研分布式計算科學,比如:中科院CAS@HOME和清華大學的“清水計劃”。
意義格局
分布式計算與人類
由于現代人類各個課題學科繁多,涉及面廣,而分類又細。而當今的每個學科似乎都需要進行大量的計算。天文學研究組織需要計算機來分析太空脈沖(pulse),星位移動;生物學家需要計算機來模擬蛋白質的折疊(protein folding)過程;藥物學家想要研制克服艾滋病(AIDS)或嚴重急性呼吸綜合征(SARS)的藥物;數學家想計算最大的質數和圓周率的更精確值;經濟學家要用計算機分析計算在幾萬種因素考慮下某個企業/城市/國家的發展方向從而宏觀調控。由此可見,人類未來的科學,時時刻刻離不開計算。而分布式計算(Distributed Computing),以其獨特的優點——便宜、高效而越來越受到社會的關注。
分布式計算格局
就目前來看,全球的各種分布式計算已有約百種,這些計算大多互無聯系、獨立管理、獨立使用自己的一套軟件。這種分布式計算互相割據的格局很不利于發展的需要。比如,某個生物學研究機構需要利用世界各地志愿者的計算機來模擬蛋白質折疊的過程,那個生物學研究機構沒有分布式計算方面的專業人才,而但是社會上也并沒有任何公司可以提供這樣的服務,他們就不得不自己花費大量精力用于開發分布式計算的服務器、客戶端。這樣一來,原來可以用于研究生物的時間用在了別的地方。剛才提到的生物學研究機構就是美國斯坦福大學的PANDE小組。
BOINC一統大局
為了改變這種雜亂無章的割據,加利福尼亞大學伯克利分校(UC Berkeley)首先提出了建立BOINC的想法。BOINC的中文全稱是伯克利開放式網絡計算平臺(Berkeley Open Infrastructure for Network Computing),他能夠把許多不同的分布式計算項目聯系起來統一管理。并對計算機資源進行統一分配(比方您對研究艾滋病藥物和探索地外文明同時感興趣,您就可以同時選擇兩個運行,并設置優先級)。對統計評分系統進行統一管理(無論你在為哪個項目工作,只要你奉獻CPU時間長,就積分高)。有了這樣的統一管理,的確給PANDE小組這樣的科學研究機構提供了便利!
BOINC已經成熟,多個項目已經成功運行于BOINC平臺之上,如SETI@home,LHC@home等。
安全性介紹
對用戶方來說,加入任何一個項目之前,您必須確保您可以信任項目的研制方,主要涉及兩方面:
計算機上的隱私數據
您從項目方下載的計算程序,運行在本機,而且可以訪問網絡,因此,只有可靠的項目方才能保證您計算機上的隱私數據不會惡意的取走、修改等。
個人計算機的壽命
雖然分布式計算的計算程序一般運行在最低優先級,不會對您的日常使用造成影響,但計算程序全負荷運行時仍會對計算機的各個部件造成一定壓力,要了解更多請查看分布式計算對計算機軟硬件的影響。
對項目方來說,參加分布式計算的志愿者畢竟不是項目方自己的人員,并不是全體可信任,因此必須引入一定的冗余計算機制,才能防止計算錯誤、惡意作弊等。
參考資料 >