云計算真能改變科學計算?
發布時間:2016-04-21 點擊數:25924
內容摘要: 日前,云計算專家湯姆·威爾基提供了兩個例證,科學數據集的增長推動向云計算進軍,另外,這將深刻地改變科學計算。
日前,云計算專家湯姆·威爾基提供了兩個例證,科學數據集的增長推動向云計算進軍,另外,這將深刻地改變科學計算。
今年一月初,倫敦韋爾科姆基金會邀請生命科學領域的一些研究人員參會,對于一個新的私有學術云進行數據分析初步的結果進行評定,而這個私有學術云是由七個學術研究機構組成的emedlab聯盟成立的。而幾個月前在大西洋的另一邊,美國國家科學基金會(NSF)宣布將為Aristotle云聯盟中的三個大學的私人學術云連續5年贈予500萬美元的研究資金。
私有云和聯合云都試圖解決同樣的兩個科學問題:如何利用學術機構有限的預算,為分析現代科學所產生的巨大的數據集提供必要的計算能力?以及如何能夠有效地共享這些數據集,而不必重復這些數據集?
這兩個項目舉例說明行業人士近期對高性能云計算的興趣大增,而在《科學計算世界》的二月和三月號的專題文章中描述:“HPC終于登上云端”。
倫敦大學學院研究平臺總監兼emedlab項目經理杰克·帕拉斯表示:“很多生物醫學工程人員想要訪問相同的核心數據集。例如,國際癌癥基因組協會的數據集就達到了2PB字節,我們不希望出現如此大規模的數據集在不同的組織復制的情況。”
來自患者或志愿者的醫療研究數據是敏感的,有著相關法律和道德的限制,而這些數據在物理上來說誰都可以訪問。只是移動PB級的數據本身就是一個挑戰,需要大量時間。帕拉斯估計,即使采用一個由英國聯合學術網(Janet)提供的專用萬兆網的快速連接,它仍然需要一個月的時間才能得到來自歐洲生物信息學研究所的1PB的emedlab結構數據。而復制非常大的數據集,不管是否遷移動副本,這個工作量很快就變得十分繁重。
讓計算接近數據
eMedLab項目團隊為一個非常緊密耦合的計算基礎設施創建背后的驅動程序,其中的一部分就是創建一個PB級數據存儲系統,對于這種方式,帕拉斯解釋道:“我們可以容納這些大的數據集,并讓他們的多個研究小組對這些數據的不同的問題進行分析。”
該聯盟選擇了云解決方案,而沒有采用一個簡單的HPC集群。帕拉斯繼續說,“因為許多不同的研究小組進行了設想,要求資源針對不同的問題數據集,使用完全不同類型的代碼和分析管道。隨著云計算的解決方案的采用,生物信息學研究人員可以建立自己的虛擬機,這是他們的首選管道套件,通過他們的臺式機和端口進入eMedLab”。為了滿足用戶要求盡可能多的計算和分析需要,采用的核心處理器的數量高達6000個。
Aristotle云聯盟面臨著與之驚人相似的挑戰。康奈爾大學的高級計算中心主任(CAC)和聯合項目負責人戴維·利夫卡表示:“大數據就是大美元。人們必須有一個數據管理計劃,并且說明他們將如何分享這些數據并使之有效,人們正為此而努力。在不同的學科中,特別是基因組學和天文學,它們都被埋藏在數據中。他們沒有共享數據,而這也不只是復制其數據的一個很好的方式,當你談論到復制是PB級數據是很難的。如果能在源代碼中分析數據而不用移動數據,那是一個非常符合成本效益的模型,使得它更容易管理。”
研究人員驅動
部分的理論基礎也讓研究人員成為技術驅動的主要因素:“我們認為,如果采取學術合作,推動數據共享,那么需要基礎設施來支持,從而聯合。如果你有這么多的數據,你就需要為多個機構成員共享資源。”
eMedLab的研究機構大多位于倫敦,其中包括:倫敦大學學院;倫敦大學瑪麗女王學院;倫敦衛生與熱帶醫學學院;倫敦大學國王學院;弗蘭西斯克里克所;桑格研究所和歐洲生物信息研究所。商業數據中心提供商的物理云位于倫敦西區的斯勞鎮。硬件是由英國的集成商OCF公司的設備部署在一起,他們的工作也延伸到了OpenStack軟件。“OCF公司一直在支持社區的工作。”帕拉斯說。
Aristotle云聯盟的地理位沒有這樣的緊湊,因為這些機構從美國東海岸橫跨到西海岸:它是由康奈爾大學(Cu),布法羅大學(UB),加利福尼亞大學,圣塔巴巴拉分校(UCSB)共同承擔的。每個站點都有自己的云計算基礎設施,“因此它是一個真正的聯盟,其硬件是真正的分布式部署。”利夫卡說。
像emedlab項目,Aristotle聯盟一般都有萬兆連接的網絡,“我可以告訴你,我們已經在研究和思考未來的10萬兆的網絡連接技術。”利夫卡說,該聯盟的Globus公司主要采用在線移動數據,其部分原因是其可靠性,也是為了用戶和訪問的方便性。該聯盟正在使用InCommon,這是美國教育和科研標準的信任框架,允許訪問在線資源共享,并以此來驗證用戶身份,為Globus提供支持。“因此,通過登錄,用戶有一個標準的方式來移動數據,為每個云采用身份驗證的標準方法和方式來啟動虛擬機,它只是成為學習如何做的事情,”利夫卡說。
“這一切的云計算的好處是,如果你有一個HPC集群和大家分享,別人的HPC集群也可以共享,你可以使用他們的軟件堆棧。每次你想改變它,可以為你提供需要的東西,你必須要和每個人有一個完全連接,它只是沒有形成規模。”但是,利夫卡繼續說,“在云計算,你只需在自己的虛擬機上就獲得自已的分析數據環境。”
他強調,目的是為了讓研究人員做事情更加容易:“我們當地的云總是會很謙虛,但你希望能夠讓它盡可能容易移動,而你不想阻礙研究人員。所以,你要為研究者具有優化其預算的能力;優化他們的時間,優化他們對數據的訪問。在一個標準的HPC集群上做這些,是非常困難的事情。”
商業云的不同觀點
盡管有相似之處,但兩者之間有很大的區別,這其中的原因部分來自地理位置,也有不同的法律約束。特別是商業云對此的態度。
來自英國的醫學研究理事會的撥款原來集中于三種疾病;癌癥,心血管疾病,以及罕見的疾病。帕拉斯指出eMedLab的架構是為這種類型的醫療和生物信息學進行的專門的研究和設計。她繼續說:“商業云提供商架構有問題,這是非常大的商品,沒有對我們在學術界使用的專門結構進行優化。此外,由于歐洲的法律限制,存在的數據要物理保持在所在國,并在組織的控制下,這是受歐盟數據立法保護,這使得我們的商業供應商在法律上十分敏感。”
另一個問題是,考慮可以進入商業云計算的數據集相關的定價和速度:商業云提供商的數據出口收費以及分析。數據出口收費是目前研究小組面臨的問題;而如果移動數據,那是相當重要的。”帕拉斯說。然而,她并沒有完全排除這種情況:“我不是說我們不會進入商業云,我當然認為那里是有價值的。”
Eucalyptus或OpenStack?
利夫卡更看好商業云對科學的潛力。首先,Aristotle云采用了Helion公司的Eucalyptus,這是來自惠普企業(HPE)的軟件,而不是OpenStack的(eMedLab已經采用)。其原因是,Eucalyptus是亞馬遜網絡服務(AWS)云軟件的開源實現。利夫卡說:“我們很清楚,亞馬遜是一個公共服務,人們想采用Eucalyptus是因為其百分之百的兼容。”
Eucalyptus允許用戶集中計算,存儲和網絡資源,或者動態擴展,因為應用程序工作負載的變化滿足所有的云啟用軟件的功能。任何人都可以免費下載該軟件,并建立與AWS的API兼容的私有云和混合云的云。可從HPE獲得可選的咨詢服務。
三層聯合云模型
利夫卡設想了一個三層云模型:“首先在自己的數據中心運行;然后,當自己的數據中心飽和的,再到合作的伙伴運行;然后,再達到飽和時,就移動到一個NSF云或亞馬遜云。”利夫卡說,“如果你能保持充分利用一個資源,并且在自己的數據中心運營更加做便宜;但是如果你不能,最好把它外包出去。就像你并不是每天開車去上班,大部分時間是閑置的,那為什么買一輛車?但是如果你每天開車去上班,那么買一輛車比租一輛車要便宜很多。”
Aristotle項目已經從康奈爾大學的早期實驗發展成為一個中等規模的云,成為人們在康奈爾大學真正的HPC集群的互補的資源。”但是有一個問題,即使是一流大學,如康奈爾大學,也會對計算資源的資本開支進行限制。如果多個機構的聯合云結合在一起,資金成本可能會大幅增加。但是,他指出:“當人們不再采用亞馬遜云時,那是因為他們比我們需要利用更多的資源。但是,我們可以提供,我們可以保持資源的規模,并提供更好的價格,所以我們可以很容易為用戶挑選最符合其成本效益的價格/性能的解決方案。“Aristotle項目的合作伙伴UB和UCSB開發,將幫助科學家在何時使用他們的機構之外的聯合資源時作出明智的決定。
英國eMedLab項目和美國國家科學基金會資助Aristotle云的重點是其數據密集型應用,利夫卡相信針對計算密集型的工作也將有很多機會。然而,帕拉斯承認商業云提供商是不會采用緊耦合的基礎設施為核心業務,因為硬件的溢價,他們不會獲得足夠的業務來恢復它。他們將直接放棄服務器。這就是市場的成交量,也是他們的賭注,但是,他對此表示樂觀,并認為研究界會適應它的計算,以適應他們所擁有的計算資源類型的方式。
“時間到科學”才是最重要的
利夫卡描繪了HPC未來愿景,并認為商用服務器將代替專業組件。“回溯到上世紀80年代,當每個人都在買自己喜歡的超級計算機時。然后,英特爾公司走了出來,說:‘你可以建立一個Beowulf集群,它會做幾乎所有的大型機所能做到的一切。’人們嘲笑地說:‘這行不通。你必須有一個思維連接機器;或者你得有一個IBM公司的SP。’而如今再看看我們現在的情況。這一行業帶動了市場的數量和研究的調整,而這樣的研究才是非常好的。”
利夫卡表示,如今也將看到一個類似的模式轉變的,原因是研究者重要的是“科學的時間”,而不再用時間的長度來衡量的計算時間。“如果你的計算任務可以在一個國家超級計算中心排隊,在你的工作運行隊列需要五天的時間,然后你獲得50000個核心處理器運轉,你的工作時間是幾個小時,這是了不起的。但是如果你現在能得到50000個核心的話,則無需等待,而你的工作需要運行較長時間,但它仍然會在結束前,你的其他工作將在超級計算機上啟動。”
“時間到科學是最重要的,”他總結說,“在一個緊密耦合方式使用,并不知道采用了多少個核心處理器。研究人員將進行調整。他們關心的是結果,最好的價格,以及在隊列中的最少的時間。”
他并非暗示緊密耦合的超級計算機是多余的:“真正需要的高端的東西的人都將仍然需要它,他們將在國家超級計算中心運行它。但是,很少有學術機構將能夠負擔得起這個系統的費用,除非是得到了美國聯邦政府的資助或被游戲系統采用。”
利夫卡認為,這將迫使大多數用戶找出一種新的方式實施科學計算,因為這些人并沒有國家資助的計算資源。“這是我第一次看到管理IT驅動的發展趨勢,而不是研究出來的。人們對企業應用和代碼使用云基礎設施的需求越來越高。當他們做到這一點,研究界開始流行開來,并看到了效益。我認為這將會改變游戲規則。”
然而,這種革命不會很快發生,利夫卡說,“從英特爾的筆記本電腦到英特爾的超級計算機并不是在一天中所實現的。我認為人們將對超級計算機有一個巨大的需求,但這是一個互補的資源,將為那些最需要它的研究人員騰出使用超級計算機的時間。”他總結道:“如果每個人都有自己的時間進行科學完善,那么人人都將是贏家。
日前,云計算專家湯姆·威爾基提供了兩個例證,科學數據集的增長推動向云計算進軍,另外,這將深刻地改變科學計算。
今年一月初,倫敦韋爾科姆基金會邀請生命科學領域的一些研究人員參會,對于一個新的私有學術云進行數據分析初步的結果進行評定,而這個私有學術云是由七個學術研究機構組成的emedlab聯盟成立的。而幾個月前在大西洋的另一邊,美國國家科學基金會(NSF)宣布將為Aristotle云聯盟中的三個大學的私人學術云連續5年贈予500萬美元的研究資金。
私有云和聯合云都試圖解決同樣的兩個科學問題:如何利用學術機構有限的預算,為分析現代科學所產生的巨大的數據集提供必要的計算能力?以及如何能夠有效地共享這些數據集,而不必重復這些數據集?
這兩個項目舉例說明行業人士近期對高性能云計算的興趣大增,而在《科學計算世界》的二月和三月號的專題文章中描述:“HPC終于登上云端”。
倫敦大學學院研究平臺總監兼emedlab項目經理杰克·帕拉斯表示:“很多生物醫學工程人員想要訪問相同的核心數據集。例如,國際癌癥基因組協會的數據集就達到了2PB字節,我們不希望出現如此大規模的數據集在不同的組織復制的情況。”
來自患者或志愿者的醫療研究數據是敏感的,有著相關法律和道德的限制,而這些數據在物理上來說誰都可以訪問。只是移動PB級的數據本身就是一個挑戰,需要大量時間。帕拉斯估計,即使采用一個由英國聯合學術網(Janet)提供的專用萬兆網的快速連接,它仍然需要一個月的時間才能得到來自歐洲生物信息學研究所的1PB的emedlab結構數據。而復制非常大的數據集,不管是否遷移動副本,這個工作量很快就變得十分繁重。
讓計算接近數據
eMedLab項目團隊為一個非常緊密耦合的計算基礎設施創建背后的驅動程序,其中的一部分就是創建一個PB級數據存儲系統,對于這種方式,帕拉斯解釋道:“我們可以容納這些大的數據集,并讓他們的多個研究小組對這些數據的不同的問題進行分析。”
該聯盟選擇了云解決方案,而沒有采用一個簡單的HPC集群。帕拉斯繼續說,“因為許多不同的研究小組進行了設想,要求資源針對不同的問題數據集,使用完全不同類型的代碼和分析管道。隨著云計算的解決方案的采用,生物信息學研究人員可以建立自己的虛擬機,這是他們的首選管道套件,通過他們的臺式機和端口進入eMedLab”。為了滿足用戶要求盡可能多的計算和分析需要,采用的核心處理器的數量高達6000個。
Aristotle云聯盟面臨著與之驚人相似的挑戰。康奈爾大學的高級計算中心主任(CAC)和聯合項目負責人戴維·利夫卡表示:“大數據就是大美元。人們必須有一個數據管理計劃,并且說明他們將如何分享這些數據并使之有效,人們正為此而努力。在不同的學科中,特別是基因組學和天文學,它們都被埋藏在數據中。他們沒有共享數據,而這也不只是復制其數據的一個很好的方式,當你談論到復制是PB級數據是很難的。如果能在源代碼中分析數據而不用移動數據,那是一個非常符合成本效益的模型,使得它更容易管理。”
研究人員驅動
部分的理論基礎也讓研究人員成為技術驅動的主要因素:“我們認為,如果采取學術合作,推動數據共享,那么需要基礎設施來支持,從而聯合。如果你有這么多的數據,你就需要為多個機構成員共享資源。”
eMedLab的研究機構大多位于倫敦,其中包括:倫敦大學學院;倫敦大學瑪麗女王學院;倫敦衛生與熱帶醫學學院;倫敦大學國王學院;弗蘭西斯克里克所;桑格研究所和歐洲生物信息研究所。商業數據中心提供商的物理云位于倫敦西區的斯勞鎮。硬件是由英國的集成商OCF公司的設備部署在一起,他們的工作也延伸到了OpenStack軟件。“OCF公司一直在支持社區的工作。”帕拉斯說。
Aristotle云聯盟的地理位沒有這樣的緊湊,因為這些機構從美國東海岸橫跨到西海岸:它是由康奈爾大學(Cu),布法羅大學(UB),加利福尼亞大學,圣塔巴巴拉分校(UCSB)共同承擔的。每個站點都有自己的云計算基礎設施,“因此它是一個真正的聯盟,其硬件是真正的分布式部署。”利夫卡說。
像emedlab項目,Aristotle聯盟一般都有萬兆連接的網絡,“我可以告訴你,我們已經在研究和思考未來的10萬兆的網絡連接技術。”利夫卡說,該聯盟的Globus公司主要采用在線移動數據,其部分原因是其可靠性,也是為了用戶和訪問的方便性。該聯盟正在使用InCommon,這是美國教育和科研標準的信任框架,允許訪問在線資源共享,并以此來驗證用戶身份,為Globus提供支持。“因此,通過登錄,用戶有一個標準的方式來移動數據,為每個云采用身份驗證的標準方法和方式來啟動虛擬機,它只是成為學習如何做的事情,”利夫卡說。
“這一切的云計算的好處是,如果你有一個HPC集群和大家分享,別人的HPC集群也可以共享,你可以使用他們的軟件堆棧。每次你想改變它,可以為你提供需要的東西,你必須要和每個人有一個完全連接,它只是沒有形成規模。”但是,利夫卡繼續說,“在云計算,你只需在自己的虛擬機上就獲得自已的分析數據環境。”
他強調,目的是為了讓研究人員做事情更加容易:“我們當地的云總是會很謙虛,但你希望能夠讓它盡可能容易移動,而你不想阻礙研究人員。所以,你要為研究者具有優化其預算的能力;優化他們的時間,優化他們對數據的訪問。在一個標準的HPC集群上做這些,是非常困難的事情。”
商業云的不同觀點
盡管有相似之處,但兩者之間有很大的區別,這其中的原因部分來自地理位置,也有不同的法律約束。特別是商業云對此的態度。
來自英國的醫學研究理事會的撥款原來集中于三種疾病;癌癥,心血管疾病,以及罕見的疾病。帕拉斯指出eMedLab的架構是為這種類型的醫療和生物信息學進行的專門的研究和設計。她繼續說:“商業云提供商架構有問題,這是非常大的商品,沒有對我們在學術界使用的專門結構進行優化。此外,由于歐洲的法律限制,存在的數據要物理保持在所在國,并在組織的控制下,這是受歐盟數據立法保護,這使得我們的商業供應商在法律上十分敏感。”
另一個問題是,考慮可以進入商業云計算的數據集相關的定價和速度:商業云提供商的數據出口收費以及分析。數據出口收費是目前研究小組面臨的問題;而如果移動數據,那是相當重要的。”帕拉斯說。然而,她并沒有完全排除這種情況:“我不是說我們不會進入商業云,我當然認為那里是有價值的。”
Eucalyptus或OpenStack?
利夫卡更看好商業云對科學的潛力。首先,Aristotle云采用了Helion公司的Eucalyptus,這是來自惠普企業(HPE)的軟件,而不是OpenStack的(eMedLab已經采用)。其原因是,Eucalyptus是亞馬遜網絡服務(AWS)云軟件的開源實現。利夫卡說:“我們很清楚,亞馬遜是一個公共服務,人們想采用Eucalyptus是因為其百分之百的兼容。”
Eucalyptus允許用戶集中計算,存儲和網絡資源,或者動態擴展,因為應用程序工作負載的變化滿足所有的云啟用軟件的功能。任何人都可以免費下載該軟件,并建立與AWS的API兼容的私有云和混合云的云。可從HPE獲得可選的咨詢服務。
三層聯合云模型
利夫卡設想了一個三層云模型:“首先在自己的數據中心運行;然后,當自己的數據中心飽和的,再到合作的伙伴運行;然后,再達到飽和時,就移動到一個NSF云或亞馬遜云。”利夫卡說,“如果你能保持充分利用一個資源,并且在自己的數據中心運營更加做便宜;但是如果你不能,最好把它外包出去。就像你并不是每天開車去上班,大部分時間是閑置的,那為什么買一輛車?但是如果你每天開車去上班,那么買一輛車比租一輛車要便宜很多。”
Aristotle項目已經從康奈爾大學的早期實驗發展成為一個中等規模的云,成為人們在康奈爾大學真正的HPC集群的互補的資源。”但是有一個問題,即使是一流大學,如康奈爾大學,也會對計算資源的資本開支進行限制。如果多個機構的聯合云結合在一起,資金成本可能會大幅增加。但是,他指出:“當人們不再采用亞馬遜云時,那是因為他們比我們需要利用更多的資源。但是,我們可以提供,我們可以保持資源的規模,并提供更好的價格,所以我們可以很容易為用戶挑選最符合其成本效益的價格/性能的解決方案。“Aristotle項目的合作伙伴UB和UCSB開發,將幫助科學家在何時使用他們的機構之外的聯合資源時作出明智的決定。
英國eMedLab項目和美國國家科學基金會資助Aristotle云的重點是其數據密集型應用,利夫卡相信針對計算密集型的工作也將有很多機會。然而,帕拉斯承認商業云提供商是不會采用緊耦合的基礎設施為核心業務,因為硬件的溢價,他們不會獲得足夠的業務來恢復它。他們將直接放棄服務器。這就是市場的成交量,也是他們的賭注,但是,他對此表示樂觀,并認為研究界會適應它的計算,以適應他們所擁有的計算資源類型的方式。
“時間到科學”才是最重要的
利夫卡描繪了HPC未來愿景,并認為商用服務器將代替專業組件。“回溯到上世紀80年代,當每個人都在買自己喜歡的超級計算機時。然后,英特爾公司走了出來,說:‘你可以建立一個Beowulf集群,它會做幾乎所有的大型機所能做到的一切。’人們嘲笑地說:‘這行不通。你必須有一個思維連接機器;或者你得有一個IBM公司的SP。’而如今再看看我們現在的情況。這一行業帶動了市場的數量和研究的調整,而這樣的研究才是非常好的。”
利夫卡表示,如今也將看到一個類似的模式轉變的,原因是研究者重要的是“科學的時間”,而不再用時間的長度來衡量的計算時間。“如果你的計算任務可以在一個國家超級計算中心排隊,在你的工作運行隊列需要五天的時間,然后你獲得50000個核心處理器運轉,你的工作時間是幾個小時,這是了不起的。但是如果你現在能得到50000個核心的話,則無需等待,而你的工作需要運行較長時間,但它仍然會在結束前,你的其他工作將在超級計算機上啟動。”
“時間到科學是最重要的,”他總結說,“在一個緊密耦合方式使用,并不知道采用了多少個核心處理器。研究人員將進行調整。他們關心的是結果,最好的價格,以及在隊列中的最少的時間。”
他并非暗示緊密耦合的超級計算機是多余的:“真正需要的高端的東西的人都將仍然需要它,他們將在國家超級計算中心運行它。但是,很少有學術機構將能夠負擔得起這個系統的費用,除非是得到了美國聯邦政府的資助或被游戲系統采用。”
利夫卡認為,這將迫使大多數用戶找出一種新的方式實施科學計算,因為這些人并沒有國家資助的計算資源。“這是我第一次看到管理IT驅動的發展趨勢,而不是研究出來的。人們對企業應用和代碼使用云基礎設施的需求越來越高。當他們做到這一點,研究界開始流行開來,并看到了效益。我認為這將會改變游戲規則。”
然而,這種革命不會很快發生,利夫卡說,“從英特爾的筆記本電腦到英特爾的超級計算機并不是在一天中所實現的。我認為人們將對超級計算機有一個巨大的需求,但這是一個互補的資源,將為那些最需要它的研究人員騰出使用超級計算機的時間。”他總結道:“如果每個人都有自己的時間進行科學完善,那么人人都將是贏家。
上一篇:數據中心的基本運維體系
下一篇:云計算在快速革命整個ICT世界



