一種智能化的網(wǎng)絡(luò)信息采集方法及網(wǎng)絡(luò)信息采集系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息采集技術(shù)領(lǐng)域,更具體地說,涉及一種智能化的網(wǎng)絡(luò)信息采集方法及智能化的網(wǎng)絡(luò)信息采集系統(tǒng)。
【背景技術(shù)】
[0002]為了提供更精準(zhǔn)更高效的搜索服務(wù),信息采集系統(tǒng)通常會通過多臺服務(wù)器節(jié)點(diǎn)從各大網(wǎng)站采集所需信息。然而,出于安全考慮,眾多網(wǎng)站服務(wù)器300開始針對同一終端的單日訪問量進(jìn)行限制,并對一日或一段時(shí)間內(nèi)的訪問量超過設(shè)定訪問上限的終端實(shí)施IP封鎖的“懲誡”。由于現(xiàn)有的信息采集系統(tǒng)的任務(wù)分配機(jī)制缺乏靈活性,該信息采集系統(tǒng)不能為“ IP”地址遭到封鎖的服務(wù)器節(jié)點(diǎn)及時(shí)更換信息采集任務(wù),該遭“懲戒”的服務(wù)器節(jié)點(diǎn)易處于閑置狀態(tài),造成了系統(tǒng)資源的浪費(fèi),同時(shí)降低了信息采集效率。
【發(fā)明內(nèi)容】
[0003]本發(fā)明要解決的技術(shù)問題在于針對現(xiàn)有技術(shù)的上述缺陷,提供一種智能化的網(wǎng)絡(luò)信息采集方法及智能化的網(wǎng)絡(luò)信息采集系統(tǒng)。
[0004]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:構(gòu)造一種智能化的網(wǎng)絡(luò)信息采集方法,包括以下步驟;
[0005]S1、判斷多臺信息采集服務(wù)器中當(dāng)前最適于執(zhí)行信息采集工作的信息采集服務(wù)器及多個(gè)常用網(wǎng)站中當(dāng)前最適于訪問的目標(biāo)網(wǎng)站,將信息采集任務(wù)分配到該臺信息采集服務(wù)器,并指令該臺信息采集服務(wù)器根據(jù)分配到其的信息采集任務(wù)對該目標(biāo)網(wǎng)站服務(wù)器進(jìn)行訪問及下載所需的網(wǎng)絡(luò)信息;
[0006]S2、判斷是否接收到由該臺信息采集服務(wù)器返回的網(wǎng)絡(luò)信息,并在接收到該網(wǎng)絡(luò)信息時(shí),對該網(wǎng)絡(luò)信息進(jìn)行整理及將整理后的網(wǎng)絡(luò)信息存入數(shù)據(jù)庫。
[0007]在本發(fā)明上述智能化的網(wǎng)絡(luò)信息采集方法中,在所述步驟SI之前還包括如下步驟:
[0008]SO、將多個(gè)常用網(wǎng)站的多個(gè)URL信息預(yù)存到任務(wù)分配及調(diào)度中心。
[0009]在本發(fā)明上述智能化的網(wǎng)絡(luò)信息采集方法中,所述步驟SI中所述判斷多臺信息采集服務(wù)器中當(dāng)前最適于執(zhí)行信息采集工作的信息采集服務(wù)器及多個(gè)常用網(wǎng)站中當(dāng)前最適于訪問的目標(biāo)網(wǎng)站,將信息采集任務(wù)分配到該臺信息采集服務(wù)器的步驟包括:
[0010]SI 1、對各臺信息采集服務(wù)器的信息采集任務(wù)分配及完成情況進(jìn)行實(shí)時(shí)監(jiān)控;
[0011]S12、累計(jì)設(shè)定的第一時(shí)間閾值Tl內(nèi)各臺信息采集服務(wù)器針對各大網(wǎng)站的訪問次數(shù);
[0012]S13、基于各臺信息采集服務(wù)器當(dāng)前的信息采集任務(wù)分配及完成情況,每臺信息采集服務(wù)器在第一時(shí)間閾值Tl內(nèi)針對各大網(wǎng)站的訪問次數(shù),以及各臺信息采集服務(wù)器的當(dāng)前網(wǎng)絡(luò)狀況判斷該多臺信息采集服務(wù)器中當(dāng)前最適于執(zhí)行信息采集工作的信息采集服務(wù)器。
[0013]在本發(fā)明上述智能化的網(wǎng)絡(luò)信息采集方法中,所述步驟SI中所述判斷多臺信息采集服務(wù)器中當(dāng)前最適于執(zhí)行信息采集工作的信息采集服務(wù)器及多個(gè)常用網(wǎng)站中當(dāng)前最適于訪問的目標(biāo)網(wǎng)站,將信息采集任務(wù)分配到該臺信息采集服務(wù)器的步驟還包括:
[0014]S14、基于該多臺信息采集服務(wù)器在該第一時(shí)間閾值Tl內(nèi)針對該多個(gè)常用網(wǎng)站分別進(jìn)行的訪問次數(shù)從該多個(gè)常用網(wǎng)站中選擇當(dāng)前最適于訪問的目標(biāo)網(wǎng)站;
[0015]S15、查找數(shù)據(jù)庫中該目標(biāo)網(wǎng)站的URL,將包含有該目標(biāo)網(wǎng)站的URL及第一關(guān)鍵詞的網(wǎng)絡(luò)信息采集任務(wù)分配到該當(dāng)前最適于執(zhí)行信息采集工作的信息采集服務(wù)器。
[0016]在本發(fā)明上述智能化的網(wǎng)絡(luò)信息采集方法中,所述步驟SI中指令該臺信息采集服務(wù)器根據(jù)分配到其的信息收集任務(wù)對該目標(biāo)網(wǎng)站服務(wù)器進(jìn)行訪問及下載所需的網(wǎng)絡(luò)信息的步驟包括:
[0017]S16、對該網(wǎng)絡(luò)信息采集任務(wù)中目標(biāo)網(wǎng)站的URL所鏈接到的網(wǎng)站服務(wù)器進(jìn)行訪問,查找該網(wǎng)站服務(wù)器存儲的包含有該第一關(guān)鍵詞的所有URL ;
[0018]S17、鏈接到所查找的每一個(gè)URL的網(wǎng)頁頁面,并下載該網(wǎng)頁頁面所包含的所有有效的網(wǎng)絡(luò)信息。
[0019]在本發(fā)明上述智能化的網(wǎng)絡(luò)信息采集方法中,在所述步驟S17與所述步驟S2之前還包括如下步驟:
[0020]S172、將第二關(guān)鍵詞輸入該臺信息采集服務(wù)器,并指令該臺信息采集服務(wù)器依給定的第二關(guān)鍵詞對其下載的網(wǎng)絡(luò)信息進(jìn)行過濾以從中篩選出包含有第二關(guān)鍵詞的網(wǎng)絡(luò)信肩、O
[0021]在本發(fā)明上述智能化的網(wǎng)絡(luò)信息采集方法中,所述步驟S2中判斷是否接收到由該臺信息采集服務(wù)器傳回的網(wǎng)絡(luò)信息的步驟包括:
[0022]判斷是否在設(shè)定的第二時(shí)間閾值T2內(nèi)接收到由該臺信息采集服務(wù)器返回的經(jīng)過濾的網(wǎng)絡(luò)信息;如未在該第二時(shí)間閾值T2內(nèi)接收到該網(wǎng)絡(luò)信息,則判定該臺信息采集服務(wù)器執(zhí)行任務(wù)超時(shí),指令該臺信息采集服務(wù)器停止該超時(shí)的信息采集任務(wù),并對該信息采集任務(wù)進(jìn)行重新調(diào)度。
[0023]在本發(fā)明上述智能化的網(wǎng)絡(luò)信息采集方法中,所述步驟S2中判斷是否接收到由該臺信息采集服務(wù)器傳回的網(wǎng)絡(luò)信息的步驟還包括:
[0024]判斷是否在設(shè)定的第二時(shí)間閾值T2內(nèi)接收到由該臺信息采集服務(wù)器傳回的通信連接中斷信息,及在接收到該通信連接中斷信息時(shí),指令該臺網(wǎng)絡(luò)信息采集服務(wù)器停止該失效的信息采集任務(wù),并對該信息采集任務(wù)進(jìn)行重新調(diào)度。
[0025]在本發(fā)明上述智能化的網(wǎng)絡(luò)信息采集方法中,所述步驟S2還包括:
[0026]在指令該臺網(wǎng)絡(luò)信息采集服務(wù)器停止該次信息采集任務(wù)的同時(shí)啟動計(jì)時(shí),判斷是否在啟動計(jì)時(shí)之后的第三時(shí)間閾值T3內(nèi)接收到由該臺網(wǎng)絡(luò)信息采集服務(wù)器返回的響應(yīng)信息;如未接收到該響應(yīng)信息,則判定該臺網(wǎng)絡(luò)信息采集服務(wù)器出現(xiàn)宕機(jī)事故,及通過報(bào)警模塊發(fā)出報(bào)警語音。
[0027]本發(fā)明還構(gòu)造一種智能化的網(wǎng)絡(luò)信息采集系統(tǒng),所述系統(tǒng)包括任務(wù)分配及調(diào)度中心以及受控于所述任務(wù)分配及調(diào)度中心的多臺信息采集服務(wù)器;
[0028]所述任務(wù)分配及調(diào)度中心用于基于各臺信息采集服務(wù)器的當(dāng)前任務(wù)分配及完成情況、各臺信息采集服務(wù)器的當(dāng)前網(wǎng)絡(luò)狀況、以及各臺信息采集服務(wù)器在設(shè)定的第一時(shí)間閾值Tl內(nèi)針對多個(gè)常用網(wǎng)站的訪問次數(shù)判斷及選擇所述多臺信息采集服務(wù)器中當(dāng)前最適于執(zhí)行信息采集工作的信息采集服務(wù)器,以及多個(gè)常用網(wǎng)站中當(dāng)前最適于訪問的目標(biāo)網(wǎng)站,并將信息采集任務(wù)分配到所選中的信息采集服務(wù)器;
[0029]所述選中的信息采集服務(wù)器用于根據(jù)分配到其的信息采集任務(wù)對該目標(biāo)網(wǎng)站服務(wù)器進(jìn)行訪問及下載所需的網(wǎng)絡(luò)信息;
[0030]所述任務(wù)分配及調(diào)度中心還用于判斷是否接收到由所述選中的信息采集服務(wù)器返回的網(wǎng)絡(luò)信息,并在接收到該網(wǎng)絡(luò)信息時(shí),對該網(wǎng)絡(luò)信息進(jìn)行整理及將整理的網(wǎng)絡(luò)信息存入數(shù)據(jù)庫。
[0031 ] 實(shí)施本發(fā)明智能化的網(wǎng)絡(luò)信息采集方法及智能化的網(wǎng)絡(luò)信息采集系統(tǒng),可實(shí)現(xiàn)以下有益效果:
[0032]1、本發(fā)明智能化的網(wǎng)絡(luò)信息采集系統(tǒng)引入了靈活的任務(wù)分配機(jī)制,智能化的網(wǎng)絡(luò)信息采集系統(tǒng)可參考各臺信息采集服務(wù)器當(dāng)前的任務(wù)分配及完成情況,各臺信息采集服務(wù)器的當(dāng)前網(wǎng)絡(luò)狀況,以及各臺信息采集服務(wù)器在設(shè)定時(shí)間Tl內(nèi)針對各大常用網(wǎng)站的訪問量執(zhí)行任務(wù)分配工作,在任務(wù)分配過程中,任務(wù)分配及調(diào)度中心對同一服務(wù)器節(jié)點(diǎn)針對同一個(gè)網(wǎng)站服務(wù)器的訪問次數(shù)進(jìn)行累計(jì),避免該服務(wù)器節(jié)點(diǎn)在設(shè)定時(shí)段針對同一網(wǎng)站服務(wù)器的總訪問次數(shù)超限,以規(guī)避各大應(yīng)用網(wǎng)站對于各臺信息采集服務(wù)器“過分”的信息采集行為所實(shí)施的封鎖IP的反制措施,從而提高了信息采集效率。
[0033]2、本發(fā)明智能化的網(wǎng)絡(luò)信息采集系統(tǒng)可對超時(shí)的信息采集任務(wù)或分配到出現(xiàn)宕機(jī)事故的信息采集服務(wù)器的信息采集任務(wù)進(jìn)行重新調(diào)度,提高了信息采集服務(wù)器的系統(tǒng)資源利用率,進(jìn)一步提高了服務(wù)器節(jié)點(diǎn)的信息采