當(dāng)前位置:首頁 > 電腦軟件 > 網(wǎng)絡(luò)輔助 > SysNucleus WebHarvy

SysNucleus WebHarvy

版本:v7.2.0.217 大?。?30.42M 語言:簡(jiǎn)體中文 類別:網(wǎng)絡(luò)輔助
  • 類型:國產(chǎn)軟件
  • 授權(quán):免費(fèi)軟件
  • 更新:2024-05-09
  • 環(huán)境:Windows11,Windows10,Windows8,Windows7
  • 本地下載
9.1
0% 0%

情介紹

WebHarvy是一款專業(yè)的網(wǎng)頁數(shù)據(jù)抓取工具??梢宰詣?dòng)抓取并從多個(gè)頁面提取數(shù)據(jù),你可以直接在網(wǎng)頁上選擇需要選擇的資源,也可以直接將整個(gè)網(wǎng)頁保存為HTML的格式,可以幫助用戶快速從網(wǎng)頁上提取數(shù)據(jù)并保存在不同的格式,允許您將抓取的數(shù)據(jù)導(dǎo)出為Excel,XML,CSV,JSON或TSV文件。智能地識(shí)別數(shù)據(jù)模式發(fā)生在web頁面。 SysNucleus WebHarvy自動(dòng)提取文字、圖片、網(wǎng)址和電子郵件從網(wǎng)站,并保存了各種格式的內(nèi)容。從網(wǎng)頁上采集數(shù)據(jù)作為導(dǎo)航到包含數(shù)據(jù)和點(diǎn)擊數(shù)據(jù)被捕獲的網(wǎng)頁一樣簡(jiǎn)單??梢宰詣?dòng)抓取并從多個(gè)網(wǎng)頁中提取數(shù)據(jù)。只是指出了“鏈接到下一頁'和WebHarvy網(wǎng)站刮板將自動(dòng)刮從所有頁面的數(shù)據(jù)。使用這款軟件,您可以從各種網(wǎng)站提取數(shù)據(jù),例如產(chǎn)品目錄或搜索結(jié)果,這些網(wǎng)站可能涉及房地產(chǎn),電子商務(wù),學(xué)術(shù)研究,娛樂,技術(shù)等不同類別。

功能特點(diǎn)

1、簡(jiǎn)單的網(wǎng)頁抓取
通過 WebHarvy 的點(diǎn)擊界面,網(wǎng)頁抓取變得非常簡(jiǎn)單。無需編寫代碼或腳本來抓取數(shù)據(jù)。您將使用 WebHarvy 的內(nèi)置瀏覽器加載和導(dǎo)航網(wǎng)站,并且可以通過單擊鼠標(biāo)選擇要抓取的數(shù)據(jù)。
2、智能模式檢測(cè)
WebHarvy 自動(dòng)識(shí)別網(wǎng)頁中出現(xiàn)的數(shù)據(jù)模式。要從網(wǎng)頁中抓取項(xiàng)目列表或表格(名稱、地址、電子郵件、價(jià)格等),不需要額外的配置。如果數(shù)據(jù)重復(fù),WebHarvy 會(huì)自動(dòng)抓取它。
3、保存到文件或數(shù)據(jù)庫
抓取的數(shù)據(jù)可以以多種格式保存。當(dāng)前版本的 WebHarvy 網(wǎng)頁抓取軟件允許您將抓取的數(shù)據(jù)保存為 Excel、XML、CSV、JSON 或 TSV 文件。您還可以將數(shù)據(jù)導(dǎo)出到 SQL 數(shù)據(jù)庫。
4、處理分頁
網(wǎng)站通常會(huì)在多個(gè)頁面中顯示產(chǎn)品列表或搜索結(jié)果等數(shù)據(jù)。WebHarvy 可以自動(dòng)從多個(gè)頁面爬行和抓取數(shù)據(jù)。只需指出“下一頁的鏈接”,WebHarvy 就會(huì)自動(dòng)從所有頁面中抓取數(shù)據(jù)。
5、提交關(guān)鍵詞
通過自動(dòng)向搜索表單提交輸入關(guān)鍵字列表來抓取數(shù)據(jù)??梢詫⑷我鈹?shù)量的輸入關(guān)鍵字提交到多個(gè)輸入文本字段來執(zhí)行搜索。可以從輸入關(guān)鍵字的所有組合的搜索結(jié)果中抓取數(shù)據(jù)。
6、保護(hù)隱私
為了匿名抓取數(shù)據(jù)并防止網(wǎng)絡(luò)抓取軟件被網(wǎng)絡(luò)服務(wù)器阻止,您可以選擇通過代理服務(wù)器或 VPN 訪問目標(biāo)網(wǎng)站??梢允褂脝蝹€(gè)代理服務(wù)器或代理服務(wù)器列表。
7、類別抓取
WebHarvy 允許您從指向網(wǎng)站內(nèi)類似頁面/列表的鏈接列表中抓取數(shù)據(jù)。這允許您使用單一配置來抓取網(wǎng)站內(nèi)的類別和子類別。
8、常用表達(dá)
正則表達(dá)式 (RegEx) 可以應(yīng)用于網(wǎng)頁的文本或 HTML 源來抓取匹配部分。這種強(qiáng)大的技術(shù)為您在抓取數(shù)據(jù)時(shí)提供了更大的靈活性和控制力。
9、JavaScript 支持
在抓取數(shù)據(jù)之前,在瀏覽器中運(yùn)行您自己的 JavaScript 代碼。這可用于與頁面元素交互、修改 DOM 或調(diào)用目標(biāo)頁面中已實(shí)現(xiàn)的 JavaScript 函數(shù)。
10、圖像抓取
可以下載圖像或抓取圖像 URL。WebHarvy 可以自動(dòng)抓取電子商務(wù)網(wǎng)站產(chǎn)品詳細(xì)信息頁面中顯示的多張圖像。
11、自動(dòng)執(zhí)行瀏覽器任務(wù)
WebHarvy 可以輕松配置為執(zhí)行諸如 單擊鏈接、 選擇列表/下拉選項(xiàng)、在字段中輸入文本、 滾動(dòng)頁面、 打開彈出窗口等任務(wù)。

軟件優(yōu)勢(shì)

1、需要 Windows
WebHarvy 需要 Windows 操作系統(tǒng)才能運(yùn)行。如果您想在 Mac 上運(yùn)行 WebHarvy,您應(yīng)該通過 BootCamp 安裝 Windows 或通過 Parallels 運(yùn)行 WebHarvy。目前不支持 OS X / macOS。
2、基于 Chrome 構(gòu)建
最新版本的 WebHarvy 是使用 Google 的開源 Chrome 瀏覽器項(xiàng)目構(gòu)建的,這使得它更加安全、穩(wěn)定和更快。
3、從云運(yùn)行
WebHarvy 可以在 Amazon AWS EC2 Windows 實(shí)例中運(yùn)行

載地址

  • 電腦版
SysNucleus WebHarvy v7.2.0.217

網(wǎng)友評(píng)論

0條評(píng)論
(您的評(píng)論需要經(jīng)過審核才能顯示)