秦皇岛纫惩金融服务有限公司

首頁 > 數(shù)據(jù)百科 > 數(shù)據(jù)挖掘的五個(gè)基本流程

數(shù)據(jù)挖掘的五個(gè)基本流程

2021-08-31 10:01:51   |  Smartbi大數(shù)據(jù)百科 2936

商業(yè)智能BI產(chǎn)品更多介紹:http://www.aobey.com.cn/

商業(yè)智能BI產(chǎn)品更多介紹:點(diǎn)擊前往

    第一步,對(duì)數(shù)據(jù)的了解和可視化&sma&<p>1、幾行幾列,有多少個(gè)特征,多少樣本</p><p>2、是否有缺失值,看看缺失值的情況</p><p>3、看數(shù)據(jù)類型,是否有一些字符型數(shù)據(jù),因?yàn)楹罄m(xù)的模型需要用到的是數(shù)值型數(shù)據(jù)</p><p>4、對(duì)數(shù)據(jù)做個(gè)可視化,看看數(shù)據(jù)長什么樣</p><p><br/></p><p><br/></p>

    第二步,對(duì)目標(biāo)的了解以及對(duì)數(shù)據(jù)的初步處理&sma&<p>1、對(duì)<span style=""><strong>數(shù)據(jù)挖掘</strong></span>的目標(biāo)要有所理解,通過理解,可以進(jìn)行這一步的主要分析</p><p>2、缺失值:通過對(duì)數(shù)據(jù)以及目標(biāo)的理解,看看 a、是否可以直接刪除該缺失數(shù)據(jù) b、如果不能刪除,用什么樣的方法填充它比較好,常見的有均值,中位數(shù),或者拉格朗日法,牛頓法等填充。這個(gè)填充要基于對(duì)數(shù)據(jù)的了解,才方便自己選擇具體方法進(jìn)行處理,例如你的數(shù)據(jù)可能是由于低于某些儀器的檢測下限所造成缺失的,那么可以用0來填充。</p><p>3、異常值:看數(shù)據(jù)是否處于異常,可以用 3σ原則,PCA,箱線圖等等,至于是否要處理也要看建模的目標(biāo)對(duì)于異常值的考慮。</p><p><br/></p>

    第三步,數(shù)據(jù)預(yù)處理&sma&<p>主要是對(duì)數(shù)據(jù)進(jìn)行歸一化,標(biāo)準(zhǔn)化,字符型數(shù)據(jù)轉(zhuǎn)化成數(shù)值性數(shù)據(jù),包括min-max,z-score, one-hot</p><p><br/></p>

    第四步,特征工程&sma&<p>經(jīng)歷了數(shù)據(jù)的預(yù)處理之后,接下去就是進(jìn)行特征工程了,特征工程顧名思義就是對(duì)數(shù)據(jù)里面的特征進(jìn)行一個(gè)操作,選擇后續(xù)可以提高模型效果的特征。</p><p><br/></p><p>1、相關(guān)性分析,選擇一些與目標(biāo)強(qiáng)相關(guān)性的特征</p><p>2、遞歸法,一開始,可以讓所有特征進(jìn)入模型,之后利用模型選擇出來的important_feature得到重要特征,再選擇top n的特征(n由自己選擇)進(jìn)入模型訓(xùn)練</p><p>3、還有其他一些方法(后續(xù)補(bǔ)充)</p><p><br/></p>

    第五步,建立模型&sma&<p>在進(jìn)行特征工程之后,我們一般會(huì)建立2-3個(gè)模型,來比較這幾個(gè)模型在這個(gè)任務(wù)上哪個(gè)模型更好。</p><p><br/></p><p>例如:</p><p>分類模型:KNN、貝葉斯分類、決策樹、隨機(jī)森林、SVM、邏輯回歸</p><p>回歸模型:簡單線性回歸、多重線性回歸、一元非線性回歸、lasso回歸、嶺回歸</p><p>聚類模型:k-means、DBSCAN密度法、層次聚類法。</p><p><br/></p><p>那么一般這些模型大家都可以直接使用sklearn中對(duì)應(yīng)的模型。</p><p><br/></p>

    第六步,模型優(yōu)化&sma&<p>選擇好模型之后,對(duì)于模型性能的進(jìn)一步優(yōu)化也是非常重要的</p><p><br/></p><p>模型的參數(shù)優(yōu)化:網(wǎng)格搜索、隨機(jī)搜索,選擇最優(yōu)的模型參數(shù)</p><p><br/></p><p>k-折交叉驗(yàn)證,避免過擬合</p><p><br/></p><p>模型評(píng)價(jià):一般模型評(píng)價(jià)有準(zhǔn)確率(分類模型),或者RMSE,R2(回歸模型)等,當(dāng)然也有F1-score(分類問題里面數(shù)據(jù)不平衡情況)等。</p><p><br/></p>

文章目錄

第一步,對(duì)數(shù)據(jù)的了解和可視化&sma&<p>1、幾行幾列,有多少個(gè)特征,多少樣本</p><p>2、是否有缺失值,看看缺失值的情況</p><p>3、看數(shù)據(jù)類型,是否有一些字符型數(shù)據(jù),因?yàn)楹罄m(xù)的模型需要用到的是數(shù)值型數(shù)據(jù)</p><p>4、對(duì)數(shù)據(jù)做個(gè)可視化,看看數(shù)據(jù)長什么樣</p><p><br/></p><p><br/></p>
第二步,對(duì)目標(biāo)的了解以及對(duì)數(shù)據(jù)的初步處理&sma&<p>1、對(duì)<span style=""><strong>數(shù)據(jù)挖掘</strong></span>的目標(biāo)要有所理解,通過理解,可以進(jìn)行這一步的主要分析</p><p>2、缺失值:通過對(duì)數(shù)據(jù)以及目標(biāo)的理解,看看 a、是否可以直接刪除該缺失數(shù)據(jù) b、如果不能刪除,用什么樣的方法填充它比較好,常見的有均值,中位數(shù),或者拉格朗日法,牛頓法等填充。這個(gè)填充要基于對(duì)數(shù)據(jù)的了解,才方便自己選擇具體方法進(jìn)行處理,例如你的數(shù)據(jù)可能是由于低于某些儀器的檢測下限所造成缺失的,那么可以用0來填充。</p><p>3、異常值:看數(shù)據(jù)是否處于異常,可以用 3σ原則,PCA,箱線圖等等,至于是否要處理也要看建模的目標(biāo)對(duì)于異常值的考慮。</p><p><br/></p>
第三步,數(shù)據(jù)預(yù)處理&sma&<p>主要是對(duì)數(shù)據(jù)進(jìn)行歸一化,標(biāo)準(zhǔn)化,字符型數(shù)據(jù)轉(zhuǎn)化成數(shù)值性數(shù)據(jù),包括min-max,z-score, one-hot</p><p><br/></p>
第四步,特征工程&sma&<p>經(jīng)歷了數(shù)據(jù)的預(yù)處理之后,接下去就是進(jìn)行特征工程了,特征工程顧名思義就是對(duì)數(shù)據(jù)里面的特征進(jìn)行一個(gè)操作,選擇后續(xù)可以提高模型效果的特征。</p><p><br/></p><p>1、相關(guān)性分析,選擇一些與目標(biāo)強(qiáng)相關(guān)性的特征</p><p>2、遞歸法,一開始,可以讓所有特征進(jìn)入模型,之后利用模型選擇出來的important_feature得到重要特征,再選擇top n的特征(n由自己選擇)進(jìn)入模型訓(xùn)練</p><p>3、還有其他一些方法(后續(xù)補(bǔ)充)</p><p><br/></p>
第五步,建立模型&sma&<p>在進(jìn)行特征工程之后,我們一般會(huì)建立2-3個(gè)模型,來比較這幾個(gè)模型在這個(gè)任務(wù)上哪個(gè)模型更好。</p><p><br/></p><p>例如:</p><p>分類模型:KNN、貝葉斯分類、決策樹、隨機(jī)森林、SVM、邏輯回歸</p><p>回歸模型:簡單線性回歸、多重線性回歸、一元非線性回歸、lasso回歸、嶺回歸</p><p>聚類模型:k-means、DBSCAN密度法、層次聚類法。</p><p><br/></p><p>那么一般這些模型大家都可以直接使用sklearn中對(duì)應(yīng)的模型。</p><p><br/></p>
第六步,模型優(yōu)化&sma&<p>選擇好模型之后,對(duì)于模型性能的進(jìn)一步優(yōu)化也是非常重要的</p><p><br/></p><p>模型的參數(shù)優(yōu)化:網(wǎng)格搜索、隨機(jī)搜索,選擇最優(yōu)的模型參數(shù)</p><p><br/></p><p>k-折交叉驗(yàn)證,避免過擬合</p><p><br/></p><p>模型評(píng)價(jià):一般模型評(píng)價(jià)有準(zhǔn)確率(分類模型),或者RMSE,R2(回歸模型)等,當(dāng)然也有F1-score(分類問題里面數(shù)據(jù)不平衡情況)等。</p><p><br/></p>

商業(yè)智能BI資料包

掃碼添加「小麥」領(lǐng)取 >>>

新一代商業(yè)智能BI工具

覆蓋傳統(tǒng)BI、自助BI、現(xiàn)代BI不同發(fā)展階段,滿足企業(yè)數(shù)字化轉(zhuǎn)型的多樣化需求

讓數(shù)據(jù)成為增長引擎,解鎖行業(yè)領(lǐng)先的智能BI實(shí)踐方案!

前往下載
Copyright? 廣州思邁特軟件有限公司  粵ICP備11104361號(hào) 網(wǎng)站地圖

電話咨詢

售前咨詢
400-878-3819 轉(zhuǎn)1

售后咨詢
400-878-3819 轉(zhuǎn)2
服務(wù)時(shí)間:工作日9:00-18:00

微信咨詢

添加企業(yè)微信 1V1專屬服務(wù)