熊貓智能采集電腦版是一款高效易用的內(nèi)容收集程序,運(yùn)用獨(dú)特解析核心,模仿瀏覽器行為處理網(wǎng)頁信息,能區(qū)分框架與正文,創(chuàng)新方法實(shí)現(xiàn)同類頁面比對,只需要設(shè)定一個樣例,工具自動識別并抓取批量目標(biāo)數(shù)據(jù),直接點(diǎn)擊想提取的部分即可完成設(shè)置,歡迎有需要的朋友下載嘗試。
熊貓智能采集電腦版特色
1、多維度的收集作用,收集的目標(biāo)包含文字材料、圖像、flash 動態(tài)影像、保存文件等各類網(wǎng)絡(luò)材料。準(zhǔn)許圖文混合排列目標(biāo)的一同收集。準(zhǔn)許構(gòu)造繁雜的收集目標(biāo)組合,準(zhǔn)許繁雜多數(shù)據(jù)庫表格,準(zhǔn)許跨頁面材料整合收集的本領(lǐng)。
2、針對目標(biāo)收集,收集目標(biāo)的材料能夠是分散在多個頁面(模板頁面的深度嵌套訪問)熊貓收集是針對目標(biāo)的,一個收集目標(biāo)能夠包含許多需要收集的子項(xiàng)屬性材料。這些子項(xiàng)屬性的材料允許分散在不同的頁面內(nèi),這些頁面能夠是需要經(jīng)過若干次鏈接才能抵達(dá)的頁面,此處所謂 “目標(biāo)”,可以理解為 “(需要收集的數(shù)據(jù)的)數(shù)據(jù)組合 ” 的意思。這個數(shù)據(jù)組合的材料和范圍由使用者根據(jù)實(shí)際需求自行確定,沒有特定的要求。也可以將該目標(biāo)范疇包含到 “標(biāo)題列表頁面”,這屬于靈活使用的方法,在此不多做說明。靈活的使用針對目標(biāo)的方法,不僅可以完成很多繁雜的收集需求,更可以讓收集設(shè)置過程更為簡便。
3、收集速度迅速,熊貓收集的收集速度是收集工具中最快的(之一)。不運(yùn)用落后低效的正則匹配技術(shù)。也不運(yùn)用第三方內(nèi)置瀏覽器訪問的技術(shù)。運(yùn)用自己研發(fā)的解析引擎,完成對網(wǎng)頁源碼的仿瀏覽器解析。拆分網(wǎng)頁可視化材料元素,在此基礎(chǔ)上進(jìn)行機(jī)器學(xué)習(xí)、批量收集匹配。經(jīng)實(shí)際測試,是傳統(tǒng)的正則匹配方式收集速度的 2~5 倍。是基于第三方內(nèi)置瀏覽器收集速度的 10~20 倍。
4、結(jié)果數(shù)據(jù)完整度高,實(shí)際收集過程中,由于目標(biāo)頁面存在豐富的材料頁面版式的情況,此時就需要運(yùn)用熊貓獨(dú)有的 “多模板功能”,才能完成完整的收集。同時,看起來頁面版面一致的情況下,也可能會存在因?yàn)轫撁鎯?nèi)部的少量差異而收集匹配失敗,此時就需要收集器具有智能容錯本領(lǐng)。智能容錯本領(lǐng),是衡量一個收集器是否成熟的基本標(biāo)志之一。熊貓追求的是收集結(jié)果 100% 的完整。包括有效頁面 100% 的收集,頁面中收集的材料 100% 的收集。只要設(shè)置恰當(dāng),不會出現(xiàn)收集結(jié)果遺漏的情況。—— 只有熊貓才能讓結(jié)果如此完整。
5、JS 解析的自動判斷識別,現(xiàn)在很多網(wǎng)頁都采用了 ajax 網(wǎng)頁材料動態(tài)生成技術(shù)。此時僅僅依靠網(wǎng)頁源碼,并不能獲取需要的有效材料。此時就需要對被收集的頁面執(zhí)行 JavaScript(JS)解析,獲取 JS 執(zhí)行后的結(jié)果代碼。熊貓準(zhǔn)許對需要 JS 解析的頁面,執(zhí)行 JS 解析,獲取 JS 解析后的實(shí)際材料。鑒于執(zhí)行 JS 解析的速度效率很低,因此熊貓內(nèi)置了智能判斷功能,自動檢查是否需要對被收集的頁面執(zhí)行 JS 解析,如果不需要的,盡量不運(yùn)用低效的 JS 解析模式。
6、多模板自動適應(yīng)本領(lǐng),很多網(wǎng)站的 “材料頁面” 會存在多個不同種類的模板,因此熊貓收集工具允許每個收集項(xiàng)目可以同時設(shè)置多個材料頁面參考模板,在收集運(yùn)行時,系統(tǒng)會自動匹配尋找最合適的參考模板用來分析材料頁面。
7、實(shí)時幫助窗口,在收集項(xiàng)目設(shè)置環(huán)節(jié),系統(tǒng)會在窗口右上顯示與當(dāng)前配置相關(guān)的實(shí)時幫助材料,為使用新手提供實(shí)時幫助。因此熊貓收集工具的使用可以輕松上手。配合全程智能化輔助本領(lǐng),即便是第一次接觸熊貓收集工具,也可以較輕松完成收集項(xiàng)目的配置工作。
8、正文和回復(fù)材料一同收集的本領(lǐng),典型如論壇頁面,正文材料在前,若干回復(fù)材料在后,或者還存在若干個回復(fù)分頁存在。熊貓收集可以將這些作為一個 “目標(biāo)” 來對待,一并一同完整收集,其配置過程也非常簡便。
9、分頁材料的輕松整合,準(zhǔn)許各種類型的分頁模式,使用者只需要做兩步就可以完成分頁材料的整合:鼠標(biāo)點(diǎn)選確認(rèn)分頁鏈接所在,將需要分頁整合的字段項(xiàng)勾選上 “分頁整合” 項(xiàng)即可。如果頁面內(nèi)具有重復(fù)子項(xiàng)存在,則能自動在分頁中尋找該重復(fù)子項(xiàng),隱含自動進(jìn)行分頁材料整合,典型如上述的論壇例子,分頁頁面內(nèi)的回復(fù)材料,可自動完成歸并,此時使用者只需要鼠標(biāo)點(diǎn)選確認(rèn)分頁鏈接所在即可。有些場合下,在論壇材料頁面的分頁中也會同時出現(xiàn)主體(主表)材料,此時系統(tǒng)會自動進(jìn)行判斷,不會將主表材料當(dāng)成重復(fù)子項(xiàng)的子表材料進(jìn)行收集。
10、利用 cookie 方式模擬登錄網(wǎng)站,對于需要登錄才能訪問收集頁面的網(wǎng)站(包括 Discuz 等各類型論壇),可以利用賬號進(jìn)行模擬登錄。熊貓收集可以通過模擬瀏覽器機(jī)制,利用動態(tài) cookie 和網(wǎng)站進(jìn)行 cookie 動態(tài)對話。有些網(wǎng)站,為了加強(qiáng)數(shù)據(jù)的安全性,利用 cookie 對網(wǎng)頁材料數(shù)據(jù)進(jìn)行加密,此時就需要運(yùn)用熊貓收集特有的 “動態(tài) Cookie” 功能。
11、準(zhǔn)許常見類型數(shù)據(jù)庫引擎。準(zhǔn)許 FTP 上傳,目前版本的熊貓,準(zhǔn)許 Access/mssql/mysql/Oracle 四種常用數(shù)據(jù)庫類型,以后可能會視需求進(jìn)行擴(kuò)充。準(zhǔn)許將保存的各類文件圖片等一同 FTP 上傳到遠(yuǎn)程服務(wù)器內(nèi)。使用者利用此項(xiàng)功能就可以將在本地電腦上收集的數(shù)據(jù)一同更新到自己網(wǎng)站內(nèi),充實(shí)欄目材料。對于其他的動態(tài)數(shù)據(jù)發(fā)布方式,熊貓會在使用者使用反饋的基礎(chǔ)上盡快完成。
12、無人值守自動定時運(yùn)行,具備更新收集訪問的本領(lǐng),自動定時更新運(yùn)行。無需人工干預(yù),系統(tǒng)自動封閉運(yùn)行。
13、文字材料的 “偽原創(chuàng)” 修改。準(zhǔn)許文章時間的提前,具備文字材料的 “偽原創(chuàng)” 修改。還可以將文章時間做 “提前” 修改,文章的發(fā)表時間是搜索引擎用來區(qū)別文章是否原創(chuàng)的一個參考因素。

熊貓智能采集電腦版功能
1、大數(shù)據(jù)收集
熊貓具備極高的收集速度和效率,是大數(shù)據(jù)收集場合的最優(yōu)選擇。同時熊貓獨(dú)有的海量數(shù)據(jù)處理本領(lǐng),可以應(yīng)付大數(shù)據(jù)收集的需要。是大數(shù)據(jù)收集場合的首選。
2、輿情監(jiān)測
借助全部中文搜索引擎,輕松完成全網(wǎng)輿情信息的監(jiān)測,信息覆蓋面廣。對于需要重點(diǎn)監(jiān)測的網(wǎng)站,只需要錄入網(wǎng)址即可完成監(jiān)測。PC 端獨(dú)立運(yùn)行,普通的移動 PC 即可勝任輿情監(jiān)測工作。同時熊貓智能收集監(jiān)測引擎,也是第三方輿情系統(tǒng)內(nèi)置爬蟲的首選。
3、招標(biāo)信息監(jiān)測
利用熊貓智能收集監(jiān)測引擎,可以輕松完成對招標(biāo)信息發(fā)布網(wǎng)站的最新招標(biāo)信息進(jìn)行監(jiān)測。熊貓收集,是招標(biāo)信息監(jiān)測工具的最優(yōu)選擇:操作容易、維護(hù)簡單、結(jié)果直觀方便。
4、客戶資料收集
利用熊貓可以輕松從網(wǎng)絡(luò)中批量獲取需要的客戶信息,利用熊貓的各類繞開防收集機(jī)制(如熊貓獨(dú)有的云收集功能),可以輕松繞開被收集網(wǎng)站的防收集機(jī)制。如 58、趕集、百姓網(wǎng)、阿里巴巴、慧聰?shù)鹊取?/p>
5、眾多站長:網(wǎng)站搬家、網(wǎng)站材料自動填充
熊貓是操作最簡單的收集器,是眾多網(wǎng)站站長的首先。同時熊貓也是功能復(fù)雜的收集器,可以應(yīng)用幾乎所有的復(fù)雜網(wǎng)站的收集、搬家操作。
6、收集互聯(lián)網(wǎng)資源
利用熊貓收集工具,可以將互聯(lián)網(wǎng)資源完成批量、格式化的下載到本地??蛇x的收集工具實(shí)在太多了,但都屬于 DOS 時代,操作繁瑣、作用簡單、需要專業(yè)技術(shù)人員才可以勉強(qiáng)操作。而熊貓不同,全程可視化鼠標(biāo)操作,操作簡單,且功能全面,尤其熊貓可以完成非常復(fù)雜的收集需求,不懂技術(shù)的人也可以輕松操作。熊貓收集是收集工具的換代產(chǎn)品,—— 輕松收集,從熊貓開始!
7、充實(shí)使用者網(wǎng)站材料
使用者可以利用熊貓,將互聯(lián)網(wǎng)上零散或集中的資源批量收集拷貝到自己網(wǎng)站內(nèi),充實(shí)自己網(wǎng)站材料。不需要懂技術(shù)、不要資金、不要人力投入、借助熊貓,任何人都可以輕松成為一個大站的站長。
8、行業(yè)垂直搜索引擎
利用熊貓收集,配合熊貓收集配套的分詞索引檢索系統(tǒng),使用者就可以輕松構(gòu)建一個行業(yè)垂直搜索引擎。例如招聘、人才、房產(chǎn)、旅游、購物、商務(wù)、分類信息、二手、醫(yī)療健康等等。
熊貓收集工具,從開發(fā)伊始,就是為了做通用搜索引擎而設(shè)計,如果僅僅認(rèn)為熊貓只是原始而廉價的收集工具,那就是對熊貓大誤解。熊貓收集的技術(shù),是源于熊貓精準(zhǔn)搜索引擎。
9、作為相關(guān)工具的功能配套
可以作為輿情、監(jiān)控、情報等互聯(lián)網(wǎng)相關(guān)工具的配套工具,節(jié)約重復(fù)高成本開發(fā),關(guān)鍵是可以提高使用者的使用體驗(yàn),提升工具自身的技術(shù)形象。

熊貓智能采集電腦版亮點(diǎn)
1、搜索引擎解析內(nèi)核
熊貓利用的是搜索引擎的智能解析內(nèi)核,完成對網(wǎng)頁材料的仿瀏覽器解析、拆分、材料提取、近似頁面比對等等。
2、內(nèi)置分詞 / 索引 / 檢索引擎
工具內(nèi)置有熊貓獨(dú)立研發(fā)的分詞索引檢索引擎,用于文章的分詞、文章材料相似度的分析匹配,摘要自動生成等應(yīng)用。性能強(qiáng)悍,內(nèi)存占用小,效率極高。
3、視覺模擬技術(shù)
熊貓收集工具會模擬人的視覺來分析網(wǎng)頁,在此基礎(chǔ)上利用參考(模板)頁面完成收集匹配工作。
4、網(wǎng)站頁面邏輯關(guān)系分析技術(shù)
這是熊貓?zhí)赜械脑瓌?chuàng)技術(shù)。是熊貓收集工具所依賴的基礎(chǔ)技術(shù)之一。