本案例庫課程目標(biāo)是基于開源Hadoop生態(tài)系統(tǒng)構(gòu)建面向大數(shù)據(jù)時代人才培養(yǎng)的數(shù)據(jù)科學(xué)分析實(shí)踐平臺,,以真實(shí)場景為示范實(shí)現(xiàn)企業(yè)數(shù)據(jù)開發(fā)與管理能力培養(yǎng),,專注培養(yǎng)專業(yè)學(xué)位學(xué)生數(shù)據(jù)抽取、數(shù)據(jù)集成,、數(shù)據(jù)分析,、數(shù)據(jù)展示綜合能力,從大數(shù)據(jù)存儲、大數(shù)據(jù)并行處理算法,、大數(shù)據(jù)分析應(yīng)用三個維度,,讓學(xué)生掌握實(shí)現(xiàn)大數(shù)據(jù)分析應(yīng)用的基本工具、開發(fā)語言,、實(shí)現(xiàn)算法與應(yīng)用集成,,培養(yǎng)學(xué)生實(shí)現(xiàn)單機(jī)數(shù)據(jù)處理到多機(jī)數(shù)據(jù)處理的跨越,實(shí)現(xiàn)從數(shù)據(jù)處理到知識處理的提升,。
1.大數(shù)據(jù)4V特征分析與處理流程
2.HDFS文件系統(tǒng)原理與存儲實(shí)踐
3.MapReduce編程模型與實(shí)踐
4.HBASE數(shù)據(jù)模型與數(shù)據(jù)管理實(shí)踐
5.垂直搜索引擎原理與實(shí)踐
6.Hive數(shù)據(jù)倉庫原理與實(shí)踐
7.多維數(shù)據(jù)倉庫構(gòu)建與主題分析
8.圖計(jì)算與內(nèi)存計(jì)算引擎與實(shí)踐
9.基于大數(shù)據(jù)的個性化推薦算法實(shí)現(xiàn)
10.基于大數(shù)據(jù)的主題事件檢測與演化分析
參考書目:
1.利用Python進(jìn)行數(shù)據(jù)分析 O’REILLY,機(jī)械工業(yè)出版社,唐學(xué)韜等譯
2.Hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn) 張良均等,,機(jī)械工業(yè)出版社
3.Spark大數(shù)據(jù)處理 技術(shù)、應(yīng)用與性能優(yōu)化 高彥杰著,,機(jī)械工業(yè)出版社