金蜘蛛(金速探索) 是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲(chóng)的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過(guò)濾,并建立索引,以便之后的查詢和檢索;對(duì)于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo)。
1)該軟件操作方便、簡(jiǎn)單容易上手,無(wú)復(fù)雜的邏輯操作,是您的收集助手
2)新建任務(wù):名稱、入口URL地址、保存路徑必須填寫出現(xiàn)亂碼請(qǐng)選擇編碼
3)如果360或防火墻提示為木馬或病毒軟件、請(qǐng)加入信任
4)運(yùn)行任務(wù)數(shù)量越多cpu資源占用比例越多,不推薦全部運(yùn)行所有程序,每個(gè)任務(wù)線程數(shù)量根據(jù)系統(tǒng)資源調(diào)整
5)任務(wù)每隔3分鐘存儲(chǔ)一次,保存在下載文件夾中,壓縮類型如exe,zip等只提取地址不下載,其余文件類型全部下載保存
6)壓縮類型文件提取后的地址可用下載工具批量下載
7)優(yōu)先級(jí)設(shè)置關(guān)于最先采集什么樣MIME類型,等級(jí)1-5(由低到高)過(guò)濾器則跳過(guò)不需要采集的MIME文件類型
(圖片、文檔、MP3只 全部拿下)




UU頁(yè)游助手
gephi中文版
P2P終結(jié)者
WiFi萬(wàn)能鑰匙
2345網(wǎng)址導(dǎo)航桌面版
中國(guó)郵政儲(chǔ)蓄網(wǎng)銀助手