企業(yè)網(wǎng)站設(shè)計網(wǎng)頁內(nèi)容解析
日期 : 2021-01-03 16:50:01
網(wǎng)頁內(nèi)容解析。利用網(wǎng)絡(luò)爬蟲抓取的網(wǎng)頁, 主要是靜態(tài)網(wǎng)頁。
為提高索引的精確度, 本系統(tǒng)采用了第三方的HTMLParser解析網(wǎng)頁。
其使用方法是繼承HTMLParser的基類Extractor來實現(xiàn)對HTML文件的解析。處理后是以文本文件格式存儲的, 以便之后分詞和建立索引使用。
為提高索引的精確度, 本系統(tǒng)采用了第三方的HTMLParser解析網(wǎng)頁。
其使用方法是繼承HTMLParser的基類Extractor來實現(xiàn)對HTML文件的解析。處理后是以文本文件格式存儲的, 以便之后分詞和建立索引使用。