
Hadoop是當前最流行的大數據技術架構,包括Hadoop分布式文件系統(HDFS)、數據分析框架Map-Reduce、數據挖掘工具Mahout等,目前很多大數據處理都是基于Hadoop平臺之上。
數據流處理的特殊性以及大數據處理的時效性等各種限制使得傳統的實時處理技術已不能夠滿足需求,因此,大數據的流式處理成為了天文學學者的研究熱點。當前,流式數據處理的計算框架主要有Storm,SparkStreaming等,并且在互聯網行業得到了一定的應用,但在天文學研究中尚鮮有應用。
國內外在天體系統運行狀態監測大數據技術研究和應用方面已有成效,但仍處于起步探索階段。天體系統的運行狀態數據具有持續不斷、數據量大、規模及順序無法預知及時效性高等特點,形成了大規模的數據流。而數據流的價值會隨著時間的流逝而減少,如何快速地從數據流中發現異常數據,為天體系統的運行與安全狀態監測提供重要依據具有重要意義,因此可以將大數據技術引入到天體系統運行異常狀態檢測中。目前在天體系統運行異常狀態檢測中應用的大數據技術有時間序列分析、馬爾可夫模型、遺傳規劃算法、分類算法等,但這些研究尚處于探索階段,尚未形成完善、成熟的理論體系。