但是,算法仍有一些需要深入研究的問題。后續(xù)工作需要更進一步擴大并完善初始數據,從而優(yōu)化對優(yōu)勢率字典的構建。同時,希望更進一步地研究優(yōu)勢率閾值的選取,從而更準確地對網頁進行檢測。
最后,網頁中,塊與塊之間是有聯系的,而本算法簡化了這一部分,把塊當作獨立的個體進行處理。所以,在后續(xù)研究中,可以將塊與塊之間的相似度,如結構相似度、文本內容相似度等加入特征的選取和計算、
本文地址:http://www.khwajamoinuddinchishty.com//article/21304.html