IBM公司產(chǎn)學(xué)合作專業(yè)綜合改革項(xiàng)目面向高校計(jì)算機(jī)學(xué)院,、軟件學(xué)院及相關(guān)院系,,通過支持多個專業(yè)方向課程建設(shè),改進(jìn)課程教學(xué)內(nèi)容,,優(yōu)化課程體系,,推進(jìn)優(yōu)質(zhì)教學(xué)資源共享,提升計(jì)算機(jī)專業(yè)教學(xué)質(zhì)量,。2013年IBM公司產(chǎn)學(xué)合作專業(yè)綜合改革項(xiàng)目重點(diǎn)支持大數(shù)據(jù),、云計(jì)算、企業(yè)計(jì)算,、軟件工程等專業(yè)方向的課程建設(shè),。本課程是經(jīng)學(xué)校申報,專家評審,,最終確定的全國 20門課程之一,。
大數(shù)據(jù)平臺課程主要介紹當(dāng)前信息管理領(lǐng)域中涉及到大數(shù)據(jù)理論及其應(yīng)用的各個大數(shù)據(jù)平臺/技術(shù),以培養(yǎng)具備大數(shù)據(jù)應(yīng)用及開發(fā)能力的優(yōu)秀大數(shù)據(jù)工程師,。
1,、學(xué)生能夠理解大數(shù)據(jù)理論,以及掌握諸如基于網(wǎng)頁爬蟲的大數(shù)據(jù)收集,、基于NoSQL的大數(shù)據(jù)存儲,、基于Hadoop的大規(guī)模文件系統(tǒng)、基于MapReduce的大數(shù)據(jù)處理,、數(shù)據(jù)流挖掘等大數(shù)據(jù)相關(guān)技術(shù)/工具,;
2、學(xué)生能夠基于IBM InfoSphere BigInsights以及IBM InfoSphere Streams等大數(shù)據(jù)平臺將大數(shù)據(jù)理論應(yīng)用于當(dāng)前信息管理的各個領(lǐng)域,;
3,、訓(xùn)練學(xué)生一定的知識檢索和科研能力,。
該課程主要從理論教學(xué),、實(shí)驗(yàn)教學(xué)和開發(fā)應(yīng)用三個層面入手,。
講授的理論內(nèi)容包括:1)第一章:大數(shù)據(jù)理論及大數(shù)據(jù)潛力;2)第二章:NoSQL非關(guān)系型高級數(shù)據(jù)模型管理大數(shù)據(jù),;3)第三章:大規(guī)模文件系統(tǒng)及MapReduce,,特別是Hadoop分布式文件系統(tǒng)及其在MapReduce中實(shí)現(xiàn);4)第四章:數(shù)據(jù)流的管理與挖掘等,。這四大內(nèi)容均配有理論課程授課視頻,。
實(shí)驗(yàn)教學(xué)方面包括:1)第一章實(shí)驗(yàn):基于各種語言編寫的網(wǎng)頁爬蟲程序從各種網(wǎng)頁爬取大數(shù)據(jù);2)第二章實(shí)驗(yàn):采用NoSQL文檔類型的MongoDB數(shù)據(jù)庫應(yīng)用實(shí)驗(yàn),;3)第三章實(shí)驗(yàn):兩個基于MapReduce的大數(shù)據(jù)處理分析算法實(shí)驗(yàn),;4)第四章實(shí)驗(yàn):一個基于SVStream的流數(shù)據(jù)聚類算法實(shí)驗(yàn)。
開發(fā)應(yīng)用方面:主要以IBM InfoSphere BigInsights(大數(shù)據(jù)處理)和IBM InfoSphere Streams(流數(shù)據(jù)處理)等信息管理和大數(shù)據(jù)平臺相關(guān)軟件作為該課程的應(yīng)用開發(fā)平臺,。本課程的實(shí)驗(yàn)教學(xué)部分將以課程負(fù)責(zé)人參加的2013IBM大數(shù)據(jù)平臺師資培訓(xùn)課程實(shí)驗(yàn)為主,,即基于IBM大學(xué)合作部所提供的VM+IBM大數(shù)據(jù)軟件環(huán)境作為主體實(shí)驗(yàn)環(huán)境。
講授理論結(jié)合指導(dǎo)實(shí)驗(yàn)以及應(yīng)用開發(fā)
本課程的教學(xué)主要是理論教學(xué)結(jié)合實(shí)驗(yàn)教學(xué)以及應(yīng)用開發(fā),。在低年級本科生已經(jīng)學(xué)了數(shù)據(jù)庫,,機(jī)器學(xué)習(xí)等基礎(chǔ)課程的基礎(chǔ)上,我們這門大數(shù)據(jù)平臺課程擬從理論結(jié)合實(shí)驗(yàn)及應(yīng)用開發(fā)講解大數(shù)據(jù)平臺的四個主要知識點(diǎn),,共76個學(xué)時,。具體學(xué)時分配如下:
1、大數(shù)據(jù)理論,、應(yīng)用潛力及數(shù)據(jù)爬蟲實(shí)驗(yàn):共10學(xué)時
大數(shù)據(jù)理論:3學(xué)時
大數(shù)據(jù)應(yīng)用潛力:3學(xué)時
網(wǎng)頁大數(shù)據(jù)爬蟲實(shí)驗(yàn):4學(xué)時
2,、NoSQL技術(shù)及其實(shí)驗(yàn):共20學(xué)時
NoSQL產(chǎn)生背景:2學(xué)時
大數(shù)據(jù)模型:3學(xué)時
大數(shù)據(jù)一致性:3學(xué)時
版本戳記:2學(xué)時
NoSQL的四大代表性數(shù)據(jù)庫及其比較:6學(xué)時
采用NoSQL文檔類型的MongoDB數(shù)據(jù)庫應(yīng)用實(shí)驗(yàn):4學(xué)時
3、大規(guī)模文件系統(tǒng),、MapReduce及實(shí)驗(yàn)和應(yīng)用開發(fā):共26學(xué)時
分布式文件系統(tǒng):4學(xué)時
Hadoop:4學(xué)時
MapReduce:6學(xué)時
基于MapReduce的大數(shù)據(jù)處理分析算法實(shí)驗(yàn):4學(xué)時
基于IBM InfoSphere BigInsights的大數(shù)據(jù)應(yīng)用開發(fā):8學(xué)時
4,、流數(shù)據(jù)挖掘、實(shí)驗(yàn)及應(yīng)用開發(fā):共20學(xué)時
流數(shù)據(jù)模型:3學(xué)時
流數(shù)據(jù)管理和處理:3學(xué)時
指數(shù)衰退模型:2學(xué)時
基于SVStream的流數(shù)據(jù)聚類算法實(shí)驗(yàn):4學(xué)時
基于IBM InfoSphere Streams的流數(shù)據(jù)應(yīng)用開發(fā):8學(xué)時
[1] E. Dumbill, editor. Planningfor Big Data . O’Reilly Media, Inc., 2012.
[2] J. Manyika, M. Chui, B.Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers. Big data: The nextfrontier for innovation, competition, and productivity. McKinsey GlobalInstitute, May 2011.
[3] A. Rajaraman and J. D. Ullman.Mining of Massive Datasets. Cambridge University Press, 2011.
[4] P. J. Sadalage and M.Fowler. NoSQL Distilled: A Brief Guide to the Emerging World of PolyglotPersistence . Addison-Wesley Professional, 2012.
[5] G. Vaish. Getting Startedwith NoSQL . Packt Publishing Ltd., 2013.
[6] 陸嘉恒. 大數(shù)據(jù)挑戰(zhàn)與NoSQL數(shù)據(jù)庫技術(shù). 電子工業(yè)出版社.2013.
[7] W. Zhao, H. Ma and Q. He. ParallelK-Means Clustering Based on MapReduce. CloudCom 2009, LNCS 5931, pp. 674–679,2009.
[8] InfoSphere BigInsights: Bringingthe power of Hadoop to the enterprise. http://www-01.ibm.com/software/data/infosphere/biginsights/.
[9] C. M. Saracco, D. Kikuchiand T. Friedrich. Developing, publishing, and deploying your first BigDataapplication with InfoSphere BigInsights. developerWorks. 2013.
[10] C.-D. Wang, J.-H. Lai, D.Huang, and W.-S. Zheng. SVStream: A support vector based algorithm forclustering data streams. IEEE Transactions on Knowledge and Data Engineering,25(6):1410–1424, 2013.
[11] InfoSphere Streams: Captureand analyze data in motion. http://www-03.ibm.com/software/products/en/infosphere-streams.
[12] S. Soares. IBM InfoSphere:A Platform for Big Data Governance and Process Data Governance. MC PressOnline, LLC. 2013.