“HPC云”國內遍地開花——趕時髦還是真需要? |
發布時間: 2012/8/2 9:54:34 |
有人曾表示,高性能計算可能會采取一種不同的、使用密集多核服務器的方式進入云計算。用戶可以在桌面上就將作業加到SGE中去。這種資源調度方式會接觸可以運行虛擬機的本地資源或者云中資源。這種資源調度方式可能會讓HPC實現寶貴的桌面化——聽起來像網格計算,但是更簡單。 如今,這種理想化的計算方式已經來到了我們身邊,在國外還只是較小規模的實驗性質的“HPC云”(采用云架構打造的HPC平臺,對外提供 按需 HPC服務),在中國已經花開數朵。例如,去年成都建成了國內第一家商用的高性能計算云中心,北京工業大學的“科教云”和北京計算中心的“工業云”均可定 義為“HPC云”。 趕時髦還是真需要? 盡管一朵又一朵“HPC云”已經在我們身邊冉冉升起,但是依舊有不少聲音質疑:用云計算的方式打造 HPC平臺,是趕云計算的時髦,還是真需要?例如,英特爾服務器產品經理張振宇就表示:“目前在高性能計算中引入云計算的需求不大。”中科院計算所常務副 所長孫凝暉也認為并非所有的計算中心都需要向云計算靠攏,他說:“云計算模式的前提是看服務的用戶數夠不夠多,能不能提供解決方案式的服務。除了象北京計 算中心需要面向大量用戶提供超算服務的之外,一般的超算中心就百八十個用戶,單純提供機時,沒有必要。” 不過,贊同的聲音也不少。在IBM大中華區云計算中心總經理朱近之看來,超算中心引入云計算有兩大好 處,一是能提高超算資源利用率,服務的客戶數量和種類更多,例如,可以用于一些商業計算,而不僅局限于傳統的科學計算;二是能提供給用戶更好的服務。而曙 光公司產品副總經理王璟則相信:“超算中心采用云運營方式將是一次服務質量提升的變革,未來的超算中心建設中都會考慮到其對未來云系統的支持。”北京計算 中心主任曾宇更是有一種使命感和緊迫感,他認為,云計算服務市場應該定位于對大規模計算服務能力和海量數據處理能力需求旺盛的個人及企業用戶市場,這一市 場正伴隨信息技術的發展和產業結構的調整而日益龐大,并最終會分化為工業云計算領域、生物云計算領域、政務云計算領域等許多垂直細分的領域。因此,“北京 市計算中心在未來發展中尚有5年的發展機遇期,”曾宇說,“我們必須集中優勢資源,在狹窄的云計算垂直細分領域建立起強勢的核心競爭優勢和知名度。” 為什么人們偏偏在“HPC云”上會有較大的意見分歧?這些贊成或質疑的聲音是否有道理?弄清這些問題,應該從HPC、虛擬化、云計算之間的復雜關系說起。 令HPC“愛恨交加”的虛擬化 在很多人的理解中,虛擬化和云計算簡直如“連體嬰兒”一樣密不可分,以為任何一朵私有云或公有云都必須 在硬件資源層實施虛擬化技術。關于這個認識的正確與否,我們暫且不表(后文還將詳細敘述),因為現實中確實很多“云”都利用到了虛擬化技術,而且我們所提 到的北京工業大學的“科教云”、成都超算中心的HPC云都對一部分底層硬件資源進行了虛擬化,這符合不少人對“云”的理解,即底層一定實施了虛擬化技術。 而社會上恰恰又存在一種看法,即HPC與虛擬化的關系是“水火不相容”,人們自然難免質疑,這種造“HPC云”的行為是否只是趕時髦呢? 其實,如果深入分析HPC與虛擬化的關系,HPC與虛擬化并非“水火不相容”,HPC對虛擬化那是“愛恨交加”。 眾所周知,PC服務器虛擬化技術之所以被市場迅速認可,有兩個重要優點。第一個優點就是能大幅提高服務器CPU、內存等資源的利用率。然而,HPC主要集中執行并行高密度高負載任務,對CPU的利用率幾乎能達到100%,因此虛擬化技術的這一優點對HPC 可以說“無用武之地”,并且“HPC應用跑在虛擬的資源層上,性能肯定是會受影響的。”北京工業大學計算機學院教授邸瑞華坦誠地告訴記者。 北京工業大學計算機學院教授邸瑞華 那么,影響程度究竟有多大?邸瑞華說:“影響的程度主要視HPC應用類型而定。如果是計算密集型的HPC應用,影響不是很大,大概在5%~10%左右,但如果是I/O密集型應用,這個影響就可能比較大。” “5%~10%”這個數值貌似完全可接受,不過,對性能分外計較的HPC應用來說,這個數字已經不小 了。例如,長年戰斗在高性能計算第一線的王璟亦承認:“對我們而言,1%的影響就覺得難以忍受了。”這也是為什么會有觀點認為HPC與虛擬化“水火不相 容”了。盡管如此,王璟還是堅持“構建‘HPC云’能夠發揮超算中心的全方位應用能力,因為虛擬化對于超算應用的影響雖然是負面的,但是對非超算應用的影 響是正面的。” 此外,邸瑞華表示還應從另一個角度看待這個問題,她說:“業界有個比較統一的看法,也就是說一臺超級計 算機能否發揮作用,主要還是看HPC應用的并行度是不是足夠好。如果一個任務HPC不能被有效分解,或者分解后不能與系統充分匹配,把它拿到超級計算機上 運行可能和拿到一臺PC上運行的執行速度是一樣的。因此,比起過度地關注虛擬化對HPC的影響,著力于優化HPC應用程序本身可能來得更實際有效。” 接下來讓我們看虛擬化技術的另一個關鍵優點:虛擬化技術改變了原有計算體系架構,以及原有計算層次結構 關系,它將不同的資源和邏輯單元剝離,讓上層應用程序與底層硬件資源之間形成“松耦合”關系。因此,清華大學計算機系副主任陳文光指出:“虛擬化使得在某 一個計算節點上執行用戶自行選定的分配任務變得靈活可行,尤其是像異構環境下的計算任務等。” 陳文光解釋說,傳統模式下,超算中心向HPC用戶提供一個調度器接口,用戶通過該接口提交一個任務,調 度器就返回一個結果,用戶沒有可選擇的余地,實際上這種接口并不友好。例如,假設當前任務需要Linux平臺,而下一個任務需要Windows平臺,在傳 統模式下,只能卸載當前系統重新部署所需平臺,非常麻煩,費時費力。此外,陳文光表示:“HPC用戶還經常面臨這樣的問題,即開發HPC應用的環境和超算 中心提供的執行環境不同,需要重新配置環境,優化HPC應用,導致開發效率很低”。 而虛擬化卻為此提供了一種可能。“當用戶向調度器提交任務時,可以自行指定希望在任務中使用的操作系統或中間件等組件。作業調度器就會自動分發所需的軟件,并將相應軟件安裝在虛擬機(VM)內。當任務處理完畢后,虛擬資源被收回,節點繼續執行下一任務。”陳文光說道。 邸瑞華也表示,當初北京工業大學之所以選擇采用云架構搭建HPC平臺,也是看重了云計算“允許用戶對各自的虛擬計算資源進行個性化配置,支持對用戶對CPU、內存、存儲等虛擬計算資源的擴展,以及集群中節點的增加。” 曙光公司產品副總經理王璟 此外,HPC對虛擬化技術的“愛”的理由不僅于此。在陳文光看來,虛擬化技術對提高HPC的可用性更為 有益。HPC規模大了以后,最大的挑戰便是可用性。現在國內的百萬億次計算機,平均故障時間大概在10~100小時之間,這對于跑上一周的作業應用就具有 很大的挑戰。怎么辦?陳文光告訴記者,解決此類問題通常要做CheckPoint(檢查點),把中間結果存下來,然后在從最近一個檢查點重新啟動應用。而 檢查點傳統的做法是需要用戶自己寫程序,這種做法要求比較高,因為會涉及到眾多邊界問題,具有相當的難度。“而虛擬機卻為我們提供了這樣一種可能,虛擬機 能夠提供一個很干凈的邊界,我們可以把這個狀態很好地保存下來”。 不過,陳文光同時表示,由于HPC應用和CheckPoint的復雜性,到今天為止,清華大學對此仍在進一步研究當中,目前還沒有一個非常完善的解決方案。“盡管如此,‘虛擬機+CheckPoint’仍為提供HPC程序可用性提供了可能”。 對“HPC云”似乎不是那么支持的張振宇提出了些自己的見解。他認為,盡管虛擬化技術致力于“去耦合”,但HPC應用比較特別,HPC應用與底層平臺之間其實是非常緊密的“緊耦合”關系,不同的HPC應用對底層的要求有較大的差別。例 如,石油行業HPC應用對網絡延遲的要求不高,而對帶寬要求很高,因為它是對地震波反射的方式來收集海量數據進行分析,數據載入時間往往大于數據處理時 間。相比之下,模擬汽車碰撞試驗的HPC應用就對網絡延遲的要求很高。這就意味著,適合跑石油業HPC應用的HPC平臺,很可能就不適合跑汽車模擬碰撞試 驗的HPC應用。因此,虛擬化技術‘去耦合’的這一優點,在HPC應用上似乎體現不出什么優勢,這大概也是張振宇認為目前將云計算引入HPC的需求不是很 大的理由之一。總之,張振宇表示超算中心在建超算平臺的時候,無論是沿用傳統方式,還是采用云計算方式,都不要指望建一個HPC平臺就“通吃”各種HPC 應用。這一點上,張振宇是贊同曾宇的關于超算服務終將形成垂直細分領域的觀點。 “誰說云計算一定要虛擬化?” 其實,在記者最初開始試圖理清虛擬化、云計算和HPC的關系的時候,朱近之即微笑地反問記者:“誰說云計算一定要虛擬化?在資源共享這個大范圍內,虛擬化只是模式的一種,還有很多其它的模式。” 事實上,無論“科教云”還是成都高性能計算云中心都僅將部分資源實施了虛擬化。例如,“科教云”為A、 B、C、D四個區,每個區八十多個計算節點,其中僅A區利用虛擬化技術建立資源共享平臺。而IBM當時負責該“科教云”項目的項目經理岳爽告訴記者,之所 以只對一個區部署虛擬化技術,是因為有些HPC用戶提出來,由于應用的特殊性或出于安全的考慮,不希望將應用跑在虛擬的資源層。不過,這四個區都是受 IBM的“藍云”管理平臺統一進行資源調度,對外提供超級計算的按需服務。換句話說,無論用戶想要獲取虛擬的還是非虛擬的計算資源,“藍云”管理平臺都能 統一調度、分配和管理。 英特爾服務器產品經理張振宇 張振宇表示,對這個問題的理解應該追本溯源,去深入理解云計算的內涵。他認為,可以從兩個維度來理解云 計算:從服務提供商的角度,云計算其是一種“管理的方法論,能實現對資源更好地管理”;從用戶的感受來看,云計算是按需獲取服務。用戶根本無需在意服務提 供方究竟采用了什么技術。因此,“‘HPC云’準確地說是‘HPCAsService’,”張振宇如此說道。 理想與現實的距離 前景雖然美好,但現實往往是曲折的。在搭建“工業云”的過程中,曾宇坦言也遇到了令其頭疼的問題,即工 業PaaS(平臺即服務)的構建。曾宇說:“我們希望通過云主機、云存儲、彈性計算平臺為工業用戶提供開發平臺服務,縮短企業從創意到實踐的過程。然而工 業范疇太大,如何提供透明的工業PaaS設計平臺,這個問題到現在也沒解決。” 邸瑞華也曾表示,無論是他們自己,還是他們的用戶,對安全都還是有一些擔憂和顧慮。張振宇表示,現有的 網絡帶寬環境還不行,那種理想的情況,即HPC用戶通過網絡上傳HPC應用實現起來恐怕夠嗆。而孫凝暉則認為,不僅是“HPC云”,對整個云計算而言,認 為現在的各種軟硬件產品和技術“只能說是湊合用!” 孫凝暉解釋說,云計算其實對整個計算機系統都提出很多新的挑戰。例如,云計算對服務器I/O吞吐量、計 算訪存比的要求就很高。孫凝暉拿城市交通舉例說明:“設想一下,如果城市交通全靠火車,是不是靈活性就很欠缺?是不是還需要汽車這種靈活的交通工具?火車 是沿著固定軌道,把一大群人一下子運送到某個地方,而汽車,兩三個人想去哪里就哪里。火車這種運輸方式就好像高性能計算,一次完成大量的計算任務,而汽車 這種方式,就類似高通量計算(中科院提出的新型計算系統)。云計算不僅需要‘火車’(高性能計算),也需要‘汽車’(高通量計算)。”其次,云計算對互聯 網服務軟件的要求也比較高,要求有“強動態性”,因為互聯網上的請求數量都是忽高忽低的,難以預測的。 “作為科學家,我們關注的是更具有前瞻性的任務,”孫凝暉說道,“云計算作為互聯網的新的模式,在未來十年是主流,我們將要研發更適合云計算的計算系統。” 除了學術界,許多IT廠商們也在致力于為云計算的成熟營造技術基礎。例如,英特爾一直研究硬件輔助虛擬 化技術,“我們希望將Hypervisor(虛擬機管理程序)變得越來越薄,甚至完全消失掉,從而最大程度地減輕虛擬機的開銷。”張振宇說道。此外,英特 爾還將推出集成眾核(MIC)架構的芯片產品,旨在幫助加速特定的高度并行化的應用。而曙光已經在高性能計算機產品本身開始逐漸融入云計算的技術需求,例 如曙光開發的云存儲、并行存儲、并行數據庫、云管理等軟件,并且在構建更加符合云計算需求的服務器平臺。相信隨著各項技術的逐漸成熟,我們的IT天空終究 會漂浮起一朵朵美麗而強大的“云”。 本文出自:億恩科技【www.vbseamall.com】 |