本案例庫課程目標是基于開源Hadoop生態(tài)系統(tǒng)構建面向大數(shù)據(jù)時代人才培養(yǎng)的數(shù)據(jù)科學分析實踐平臺,,以真實場景為示范實現(xiàn)企業(yè)數(shù)據(jù)開發(fā)與管理能力培養(yǎng),,專注培養(yǎng)專業(yè)學位學生數(shù)據(jù)抽取、數(shù)據(jù)集成,、數(shù)據(jù)分析,、數(shù)據(jù)展示綜合能力,從大數(shù)據(jù)存儲、大數(shù)據(jù)并行處理算法,、大數(shù)據(jù)分析應用三個維度,,讓學生掌握實現(xiàn)大數(shù)據(jù)分析應用的基本工具、開發(fā)語言,、實現(xiàn)算法與應用集成,,培養(yǎng)學生實現(xiàn)單機數(shù)據(jù)處理到多機數(shù)據(jù)處理的跨越,實現(xiàn)從數(shù)據(jù)處理到知識處理的提升,。
1.大數(shù)據(jù)4V特征分析與處理流程
2.HDFS文件系統(tǒng)原理與存儲實踐
3.MapReduce編程模型與實踐
4.HBASE數(shù)據(jù)模型與數(shù)據(jù)管理實踐
5.垂直搜索引擎原理與實踐
6.Hive數(shù)據(jù)倉庫原理與實踐
7.多維數(shù)據(jù)倉庫構建與主題分析
8.圖計算與內存計算引擎與實踐
9.基于大數(shù)據(jù)的個性化推薦算法實現(xiàn)
10.基于大數(shù)據(jù)的主題事件檢測與演化分析
參考書目:
1.利用Python進行數(shù)據(jù)分析 O’REILLY,機械工業(yè)出版社,唐學韜等譯
2.Hadoop大數(shù)據(jù)分析與挖掘實戰(zhàn) 張良均等,,機械工業(yè)出版社
3.Spark大數(shù)據(jù)處理 技術、應用與性能優(yōu)化 高彥杰著,,機械工業(yè)出版社