INTRODUCTION TO DATA MINING (數(shù)據(jù)挖掘)
1) For undergraduate students in Computer Science major
2) South campus, GDUFS
3) Starting at September 2016; March 2017; September 2017; March 2018
4) 48 study scores in total
5) Scheduled as 16 weeks in total (16*3, 1~2 weeks for each chapter)
Teaching Materials:
1) 《數(shù)據(jù)挖掘原理與實(shí)踐》,蔣盛益等著,電子工業(yè)出版社,,2011
2) 《商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析》,,蔣盛益著,電子工業(yè)出版社,,2014
3) Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining.
(美)譚,(美)斯坦巴赫 著,范明等譯.數(shù)據(jù)挖掘?qū)д?/span>, 圖靈計(jì)算機(jī)科學(xué)叢書. 人民郵電出版社.2006
4) Jiawei Han, Micheline Kamber, Jian Pei. Data Mining: Concepts and Techniques
(加)韓家煒,堪博(Kam ber, M.)著,范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)(原書第2版). 機(jī)械工業(yè)出版社.2007
5) Ian H. Witten, Eibe Frank, Mark A. Hall. Data Mining Practical Machine Learning Tools and Techniques.Morgan Kaufmann Publishers
Ian H. Witten, Eibe Frank, Mark A. Hall 著, 李川等譯. 數(shù)據(jù)挖掘-實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù). 機(jī)械工業(yè)出版社
6) 袁梅宇著. 數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)WEKA應(yīng)用技術(shù)與實(shí)踐. 清華大學(xué)出版社. 2014
7) Peter Harrington. Machine Learning in Action.
(美)Peter Harrington, 李銳等譯. 機(jī)器學(xué)習(xí)實(shí)戰(zhàn).圖靈計(jì)算機(jī)科學(xué)叢書. 人民郵電出版社. 2013
8) Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman. Mining of Massive Datasets (Second Edition)
(美)Jure Leskovec等著, 王斌譯. 互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理.圖靈計(jì)算機(jī)科學(xué)叢書. 人民郵電出版社. 2015
Practice resource:
1) Weka 3: Data Mining Software in Java
2) Downloading and installing Weka
3) General Weka documentation (manual Weka 3.8.0)
Related resources:
1) 《Introduction to Data Mining》 by Pang-Ning Tan, Michael Steinbach, Vipin Kumar, University of Minnesota, course resource
2) 《Introduction to Data Mining》 by Prof. Qiang Yang, 香港科技大學(xué), course resource
3) 《Data Mining》 by Prof. Chris Clifton, Purdue University, course resource
周 次 | 內(nèi)容(章節(jié)、知識點(diǎn)) |
第1周 | 課程介紹 第1章 緒論 1.1 數(shù)據(jù)挖掘產(chǎn)生的背景 1.2 數(shù)據(jù)挖掘任務(wù)及過程 1.3 數(shù)據(jù)挖掘應(yīng)用 1.4 數(shù)據(jù)挖掘的前景,、研究熱點(diǎn) |
第2周 | 第2章 數(shù)據(jù)處理基礎(chǔ) 2.1 數(shù)據(jù) 2.2 數(shù)據(jù)統(tǒng)計(jì)特性 2.3 數(shù)據(jù)預(yù)處理 |
第3周 | 2.4 相似性度量 數(shù)據(jù)挖掘在電信行業(yè)中的應(yīng)用 |
第4周 | 第3章 分類與回歸 3.1 概述 3.2 決策樹分類方法 |
第5周 | 3.3 貝葉斯分類方法 3.4 K-最近鄰分類方法 3.7 組合學(xué)習(xí)方法 3.9 分類模型的評價 3.10 回歸方法 |
第6周 | WEKA介紹 實(shí)驗(yàn)一:分類 Project分組宣講 |
第7周 | 第4章 聚類分析 4.1 概述 4.2 基于劃分的聚類算法 4.3 層次聚類算法 |
第8周 | 4.4 基于密度的聚類算法 4.6 一趟聚類算法 4.7 基于原型的聚類算法 |
第9周 | 實(shí)驗(yàn)二:聚類 |
第10周 | 第5章 關(guān)聯(lián)分析 5.1 概述 5.2 頻繁項(xiàng)集發(fā)現(xiàn)算法 5.3 關(guān)聯(lián)規(guī)則的生成 5.4 非二元屬性的關(guān)聯(lián)規(guī)則挖掘 5.5 關(guān)聯(lián)規(guī)則的評價 5.6 序列問題 |
第11周 | 實(shí)驗(yàn)三:關(guān)聯(lián)分析 Project進(jìn)展匯報 |
第12周 | 第6章 異常挖掘 6.1 異常挖掘概述 6.2 基于統(tǒng)計(jì)的方法 6.3 基于距離的方法 |
第13周 | 6.4 基于密度的方法 6.5 基于聚類的方法 |
第14周 | 實(shí)驗(yàn)四:異常挖掘 |
第15周 | Project檢查 |
第16周 | Project答辯 |