蜘蛛爬行:搜索引擎派出“蜘蛛”(網(wǎng)頁(yè)抓取程序)進(jìn)行網(wǎng)頁(yè)抓取,爬取網(wǎng)頁(yè)時(shí)一般采用深度優(yōu)先、寬度優(yōu)先或最佳優(yōu)先策略;抓取建庫(kù):將蜘蛛抓取到的網(wǎng)頁(yè)放到原始數(shù)據(jù)庫(kù)中,并丟棄掉不符合抓取規(guī)則的網(wǎng)頁(yè);網(wǎng)頁(yè)處理:對(duì)符合規(guī)則的網(wǎng)頁(yè)進(jìn)行預(yù)處理,主要包括網(wǎng)頁(yè)結(jié)構(gòu)化、分詞、降噪、建立索引等;檢索服務(wù):根據(jù)用戶提交的關(guān)鍵詞從數(shù)據(jù)庫(kù)中將符合匹配規(guī)則的網(wǎng)頁(yè)調(diào)取,并根據(jù)權(quán)重排序規(guī)則對(duì)其進(jìn)行排序;結(jié)果展示:將排序好的網(wǎng)頁(yè)按不同的方式呈現(xiàn)給用戶。
本文地址:http://www.khwajamoinuddinchishty.com//article/27632.html