摘要 : 2016年10月14日,學術期刊《BioInformatics》在線發(fā)表了*北京基因組研究所生命與健康大數據中心章張研究員的一篇研究論文,研究報道了*基于Spark的大數據系統(tǒng)發(fā)育建樹工具CloudPhylo。
2016年10月14日,學術期刊《BioInformatics》在線發(fā)表了*北京基因組研究所生命與健康大數據中心章張研究員的一篇研究論文,研究報道了*基于Spark的大數據系統(tǒng)發(fā)育建樹工具CloudPhylo。博士研究生徐行健為論文*作者,章張研究員為論文通訊作者。
構建系統(tǒng)發(fā)育樹是分子進化研究中分析物種間進化關系的基礎步驟與重要環(huán)節(jié)。隨著生物大數據時代的到來,傳統(tǒng)的建樹工具在使用大數據集構建系統(tǒng)發(fā)育樹時需要消耗更多的計算資源且運行時間超長,使得科研工作者無法快速地進行分子進化分析。為此,生命與健康大數據中心(BIG Data Center;http://bigd.big.ac.cn)利用Spark云計算技術,于近期開發(fā)了一款適用于大數據集的系統(tǒng)發(fā)育樹構建工具——CloudPhylo。Spark是一種新的分布式云計算框架,它實現(xiàn)了MapReduce分布式并行算法?;赟park框架的程序在運算過程中可地將中間輸出結果保存在內存中,大大降低了因為頻繁讀寫文件造成的損耗。因此,與傳統(tǒng)的Hadoop框架相比,Spark能更好地應用于需要反復迭代的大數據分析任務。
CloudPhylo是目前上針對大數據集開發(fā)的系統(tǒng)發(fā)育建樹工具,同時也是國內*使用Spark云計算技術開發(fā)的生物信息學分析軟件。在應用于模擬和真實的大數據集構建系統(tǒng)發(fā)育樹時,CloudPhylo均表現(xiàn)出了比傳統(tǒng)建樹軟件更高的運行效率和更大的并行加速比(圖1)。
工具已經部署在BIGD云平臺Qomo(https://cloud.big.ac.cn/users/bigd/tools/Clouldphylo)上,無須本地安裝,用戶可在線提交數據并進行分析。
<img alt="BioInformatics:北京基因組所章張研究組開發(fā)基于Spark的大數據系統(tǒng)發(fā)育建樹工具" "="" data-cke-saved-src="http://www.bio1000。。com/uploads/allimg/161102/0956493591-0.jpg" src="http://www.bio1000。。com/uploads/allimg/161102/0956493591-0.jpg" style="vertical-align: middle; border: 0px; width: 400px; height: 214px;">
圖1 CloudPhylo在不同條件下的并行加速比
請輸入賬號
請輸入密碼
以上信息由企業(yè)自行提供,信息內容的真實性、準確性和合法性由相關企業(yè)負責,環(huán)保在線對此不承擔任何保證責任。
溫馨提示:為規(guī)避購買風險,建議您在購買產品前務必確認供應商資質及產品質量。