亚洲熟妇av一区二区三区,久久久久久精品观看sss,免费观看四虎精品国产永久,国产成人精品一区二三区熟女,天堂网在线最新版www资源网

爬蟲可以干什么?(爬蟲可以干什么工作)

本人剛剛跨專業(yè)到大數(shù)據(jù)方向,每天就是跟各種各樣的數(shù)據(jù)打交道,數(shù)據(jù)采集令人頭疼,于是硬著頭皮去嘗試各式各樣的爬蟲工具,可大都操作繁瑣,要不就是采集精度不夠,直到在B站看教程時(shí)看到前嗅forespider的教程時(shí),才發(fā)現(xiàn)這款實(shí)用又好用的寶藏軟件。

與之前試用過的其他爬蟲軟件對(duì)比,前嗅ForeSpider爬蟲有自己的可視化配置模板,不僅對(duì)小白十分友好,更讓實(shí)力選手省心節(jié)力。下面我就以人上人體驗(yàn)教育網(wǎng)(網(wǎng)址:http://www.gzrsr.com/news/)來演示一下自己當(dāng)時(shí)學(xué)習(xí)的步驟:

  • 可視化模板下的翻頁鏈接抽取配置

1.【復(fù)制網(wǎng)頁】

找到自己想要獲取內(nèi)容所在的網(wǎng)站,復(fù)制網(wǎng)址

爬蟲可以干什么?(爬蟲可以干什么工作)

2.【新建任務(wù)】

打開forespider程序;點(diǎn)擊“采集配置”–點(diǎn)擊“ ”新建任務(wù)-在彈出的任務(wù)窗口內(nèi)粘入剛剛復(fù)制的網(wǎng)站鏈接,并修改任務(wù)名稱–點(diǎn)擊完成

爬蟲可以干什么?(爬蟲可以干什么工作)

爬蟲可以干什么?(爬蟲可以干什么工作)

3.【抽取網(wǎng)頁鏈接】

①點(diǎn)擊模板配置下“添加鏈接抽取”按鈕;分別將兩個(gè)抽取鏈接命名為:翻頁鏈接、列表鏈接

爬蟲可以干什么?(爬蟲可以干什么工作)爬蟲可以干什么?(爬蟲可以干什么工作)

②點(diǎn)擊“翻頁鏈接”選項(xiàng)–Ctrl 鼠標(biāo)左鍵 選取一個(gè)翻轉(zhuǎn)頁,shift 鼠標(biāo)左鍵擴(kuò)大至翻轉(zhuǎn)頁選區(qū)–點(diǎn)擊“確認(rèn)選區(qū)”,點(diǎn)擊保存。

爬蟲可以干什么?(爬蟲可以干什么工作)

③點(diǎn)擊“翻頁鏈接”,在關(guān)聯(lián)模板下拉選擇“默認(rèn)模板:01”;點(diǎn)擊保存。此時(shí),就完成了翻轉(zhuǎn)頁鏈接的抽取設(shè)置,可以點(diǎn)擊“采集預(yù)覽”對(duì)采集結(jié)果進(jìn)行查看。

爬蟲可以干什么?(爬蟲可以干什么工作)

爬蟲可以干什么?(爬蟲可以干什么工作)

④列表鏈接抽取

爬蟲可以干什么?(爬蟲可以干什么工作)

爬蟲可以干什么?(爬蟲可以干什么工作)

  • 可視化模板下的數(shù)據(jù)抽取配置

1.【創(chuàng)建數(shù)據(jù)表單】

數(shù)據(jù)建表–創(chuàng)建表單并更改名稱–創(chuàng)建數(shù)據(jù)表結(jié)構(gòu)–根據(jù)需求設(shè)置相應(yīng)字段,最后保存

爬蟲可以干什么?(爬蟲可以干什么工作)

爬蟲可以干什么?(爬蟲可以干什么工作)

2.【創(chuàng)建數(shù)據(jù)表】

爬蟲可以干什么?(爬蟲可以干什么工作)

3.【關(guān)聯(lián)數(shù)據(jù)表】

①如下,令模板關(guān)聯(lián)數(shù)據(jù)表

爬蟲可以干什么?(爬蟲可以干什么工作)

爬蟲可以干什么?(爬蟲可以干什么工作)

②點(diǎn)擊“列表鏈接”,在關(guān)聯(lián)模板下拉選擇“新建模板02”,點(diǎn)擊保存

爬蟲可以干什么?(爬蟲可以干什么工作)

③如下配置示例地址

爬蟲可以干什么?(爬蟲可以干什么工作)

爬蟲可以干什么?(爬蟲可以干什么工作)

4.【定位數(shù)據(jù)】

①如下圖依次將每個(gè)字段對(duì)應(yīng)定位

爬蟲可以干什么?(爬蟲可以干什么工作)

爬蟲可以干什么?(爬蟲可以干什么工作)

②此處展開講一個(gè)細(xì)節(jié):當(dāng)對(duì)所需字段定位選區(qū)時(shí)不可避免的選取到了不想要的內(nèi)容時(shí),可以通過字段屬性配置里的數(shù)據(jù)清洗功能對(duì)所需內(nèi)容進(jìn)行相應(yīng)的字符串截取。

以發(fā)表日期字段數(shù)據(jù)為例,此處需截取中間串來抽取該數(shù)據(jù)內(nèi)容,如下:

爬蟲可以干什么?(爬蟲可以干什么工作)

爬蟲可以干什么?(爬蟲可以干什么工作)

爬蟲可以干什么?(爬蟲可以干什么工作)

如果需要選取右串?dāng)?shù)據(jù),則如下設(shè)置(取左串同理):

爬蟲可以干什么?(爬蟲可以干什么工作)

5.采集預(yù)覽

點(diǎn)擊模板抽取配置下第一個(gè)標(biāo)題,右鍵單擊并選擇“模板預(yù)覽”,即可看到想要的數(shù)據(jù),這樣就完成了模板配置。

爬蟲可以干什么?(爬蟲可以干什么工作)

  • 數(shù)據(jù)采集與展示

1.選取“關(guān)聯(lián)數(shù)據(jù)表”,為將要采取的數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)表

爬蟲可以干什么?(爬蟲可以干什么工作)

爬蟲可以干什么?(爬蟲可以干什么工作)

2.開啟數(shù)據(jù)采集,如下:

爬蟲可以干什么?(爬蟲可以干什么工作)

3.瀏覽查看采集到的數(shù)據(jù):

爬蟲可以干什么?(爬蟲可以干什么工作)

爬蟲可以干什么?(爬蟲可以干什么工作)

以上,就完成了數(shù)據(jù)采集模板的配置、數(shù)據(jù)采集與數(shù)據(jù)瀏覽。可以看到,可視化的數(shù)據(jù)采集模板配置起來很便捷,配置以及采集功能的操作非常智能,可實(shí)現(xiàn)的采集要求也十分全面。

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。