大數(shù)據的火熱,導致大數(shù)據挖掘分析工作也異常火熱,成為很多小伙伴的職業(yè)選擇,如果你想學會如何分析數(shù)據以及挖掘數(shù)據,那么這4個項目可一定不要錯過。
- 發(fā)布于:2024-11-17 01:06:54
- 來源:24直播網
本節(jié)課程我們將介紹另外一個國際貿易門戶--ebay,一個致力于為中國商家開辟海外網絡直銷渠道的平臺。我們可以在這個平臺上充當買家或是賣家。與淘寶不同的是,這個平臺不是一口價交易,而是設置一個開始競投的價格后開始拍賣。
這節(jié)課程我們就是要利用ebay上的歷史拍賣數(shù)據,用機器學習的方法來訓練一個模型,以預測一項拍賣是否會成功,和成功的交易最終的成交價格。
學習如何用scikit-learn的機器學習算法
scikit-learn 做數(shù)據分析
數(shù)據分析結果可視化
相信很多在機場等待飛行的旅客都不愿意聽到這句話。隨著乘坐飛機這種交通方式的逐漸普及,航延延誤問題也一直困擾著我們。航班延誤通常會造成兩種結果,一種是航班取消,另一種是航班晚點。
在本課程中,我們將通過 Spark 提供的 DataFrame、 SQL 和機器學習框架等工具,基于 D3.js 數(shù)據可視化技術,對航班起降的記錄數(shù)據進行分析,嘗試找出造成航班延誤的原因,以及對航班延誤情況進行預測。
Spark DataFrame 操作
Spark SQL 常用操作
Spark MLlib 機器學習框架使用
不知道你是否朋友圈被刷屏過nba的某場比賽進度或者結果?或者你就是一個nba狂熱粉,比賽中的每個進球,搶斷或是逆轉壓哨球都能讓你熱血沸騰。除去觀賞精彩的比賽過程,我們也同樣好奇比賽的結果會是如何。
因此本節(jié)課程,將給同學們展示如何使用nba比賽的以往統(tǒng)計數(shù)據,判斷每個球隊的戰(zhàn)斗力,及預測某場比賽中的結果。我們將基于2015-2016年的NBA常規(guī)賽及季后賽的比賽統(tǒng)計數(shù)據,預測在當下正在進行的2016-2017常規(guī)賽每場賽事的結果。
利用Basketball-reference.com的部分統(tǒng)計數(shù)據,計算每支nba比賽隊伍的Elo socre,和利用這些基本統(tǒng)計數(shù)據評價每支隊伍過去的比賽情況,并且根據國際等級劃分方法Elo Score對隊伍現(xiàn)在的戰(zhàn)斗等級進行評分,最終結合這些不同隊伍的特征判斷在一場比賽中,哪支隊伍能夠占到優(yōu)勢。
nba球隊的Elo score計算
特征向量
邏輯回歸
出租車是我們生活中經常乘坐的一種交通工具,但打車難的問題也限制了我們更好地利用這種交通方式。在哪些地方出租車更容易打到?在什么時候更容易打到出租車?本課程將基于某市的出租車行駛軌跡數(shù)據,帶你學習如何應用Spark SQL和機器學習相關技巧,并且通過數(shù)據可視化手段展現(xiàn)分析結果。
Spark DataFrame操作
Spark SQL 的 API 查詢
Spark MLlib 的 KMeans 算法應用
當然,要學好數(shù)據分析,只看以上4個項目是遠遠不夠的,如果感興趣,你還可以看以下項目:
【Kaggle入門:泰坦尼克號幸存者項目】
【Twitter數(shù)據情感分析】
【Python基于共現(xiàn)提取《釜山行》人物關系】
更多相關教程,點擊實驗樓進行查看~
