企業(yè)網站設計基于機器學習的通用識別方式
日期 : 2020-12-22 12:11:14
基于機器學習的通用識別方式。近年來隨著機器學習算法的興起,很多文獻提出將相關算法用到垃圾頁面識別并已經取得了很好的效果。
由于從本質上來說垃圾頁面識別是一個二值分類問題,而機器學習中有很多相應的算法可以被利用。這些算法的共同點通常都是先將網頁數據集分為訓練集和測試集,然后對網頁數據進行預處理,去除數據中的無用信息包括HTML標簽、Java Script腳本代碼、大量存在的圖片等等,然后對網頁內容特征(網頁字數、標題字數、熱門關鍵詞、網頁壓縮率等)和鏈接結構特征(入鏈數、出鏈數、入鏈出鏈比例、Page Rank值等)進行提取作為訓練集的輸入得出輸入輸出的映射關系,最后將這種映射關系用測試集進行驗證。
由于從本質上來說垃圾頁面識別是一個二值分類問題,而機器學習中有很多相應的算法可以被利用。這些算法的共同點通常都是先將網頁數據集分為訓練集和測試集,然后對網頁數據進行預處理,去除數據中的無用信息包括HTML標簽、Java Script腳本代碼、大量存在的圖片等等,然后對網頁內容特征(網頁字數、標題字數、熱門關鍵詞、網頁壓縮率等)和鏈接結構特征(入鏈數、出鏈數、入鏈出鏈比例、Page Rank值等)進行提取作為訓練集的輸入得出輸入輸出的映射關系,最后將這種映射關系用測試集進行驗證。