本人剛剛跨專業(yè)到大數(shù)據(jù)方向,每天就是跟各種各樣的數(shù)據(jù)打交道,數(shù)據(jù)采集令人頭疼,于是硬著頭皮去嘗試各式各樣的爬蟲(chóng)工具,可大都操作繁瑣,要不就是采集精度不夠,直到在B站看教程時(shí)看到前嗅forespider的教程時(shí),才發(fā)現(xiàn)這款實(shí)用又好用的寶藏軟件。
與之前試用過(guò)的其他爬蟲(chóng)軟件對(duì)比,前嗅ForeSpider爬蟲(chóng)有自己的可視化配置模板,不僅對(duì)小白十分友好,更讓實(shí)力選手省心節(jié)力。下面我就以人上人體驗(yàn)教育網(wǎng)(網(wǎng)址:http://www.gzrsr.com/news/)來(lái)演示一下自己當(dāng)時(shí)學(xué)習(xí)的步驟:
- 可視化模板下的翻頁(yè)鏈接抽取配置
1.【復(fù)制網(wǎng)頁(yè)】
找到自己想要獲取內(nèi)容所在的網(wǎng)站,復(fù)制網(wǎng)址
2.【新建任務(wù)】
打開(kāi)forespider程序;點(diǎn)擊“采集配置”–點(diǎn)擊“ ”新建任務(wù)-在彈出的任務(wù)窗口內(nèi)粘入剛剛復(fù)制的網(wǎng)站鏈接,并修改任務(wù)名稱–點(diǎn)擊完成
3.【抽取網(wǎng)頁(yè)鏈接】
①點(diǎn)擊模板配置下“添加鏈接抽取”按鈕;分別將兩個(gè)抽取鏈接命名為:翻頁(yè)鏈接、列表鏈接
②點(diǎn)擊“翻頁(yè)鏈接”選項(xiàng)–Ctrl 鼠標(biāo)左鍵 選取一個(gè)翻轉(zhuǎn)頁(yè),shift 鼠標(biāo)左鍵擴(kuò)大至翻轉(zhuǎn)頁(yè)選區(qū)–點(diǎn)擊“確認(rèn)選區(qū)”,點(diǎn)擊保存。
③點(diǎn)擊“翻頁(yè)鏈接”,在關(guān)聯(lián)模板下拉選擇“默認(rèn)模板:01”;點(diǎn)擊保存。此時(shí),就完成了翻轉(zhuǎn)頁(yè)鏈接的抽取設(shè)置,可以點(diǎn)擊“采集預(yù)覽”對(duì)采集結(jié)果進(jìn)行查看。
④列表鏈接抽取
- 可視化模板下的數(shù)據(jù)抽取配置
1.【創(chuàng)建數(shù)據(jù)表單】
數(shù)據(jù)建表–創(chuàng)建表單并更改名稱–創(chuàng)建數(shù)據(jù)表結(jié)構(gòu)–根據(jù)需求設(shè)置相應(yīng)字段,最后保存
2.【創(chuàng)建數(shù)據(jù)表】
3.【關(guān)聯(lián)數(shù)據(jù)表】
①如下,令模板關(guān)聯(lián)數(shù)據(jù)表
②點(diǎn)擊“列表鏈接”,在關(guān)聯(lián)模板下拉選擇“新建模板02”,點(diǎn)擊保存
③如下配置示例地址
4.【定位數(shù)據(jù)】
①如下圖依次將每個(gè)字段對(duì)應(yīng)定位
②此處展開(kāi)講一個(gè)細(xì)節(jié):當(dāng)對(duì)所需字段定位選區(qū)時(shí)不可避免的選取到了不想要的內(nèi)容時(shí),可以通過(guò)字段屬性配置里的數(shù)據(jù)清洗功能對(duì)所需內(nèi)容進(jìn)行相應(yīng)的字符串截取。
以發(fā)表日期字段數(shù)據(jù)為例,此處需截取中間串來(lái)抽取該數(shù)據(jù)內(nèi)容,如下:
如果需要選取右串?dāng)?shù)據(jù),則如下設(shè)置(取左串同理):
5.采集預(yù)覽
點(diǎn)擊模板抽取配置下第一個(gè)標(biāo)題,右鍵單擊并選擇“模板預(yù)覽”,即可看到想要的數(shù)據(jù),這樣就完成了模板配置。
- 數(shù)據(jù)采集與展示
1.選取“關(guān)聯(lián)數(shù)據(jù)表”,為將要采取的數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)表
2.開(kāi)啟數(shù)據(jù)采集,如下:
3.瀏覽查看采集到的數(shù)據(jù):
以上,就完成了數(shù)據(jù)采集模板的配置、數(shù)據(jù)采集與數(shù)據(jù)瀏覽??梢钥吹剑梢暬臄?shù)據(jù)采集模板配置起來(lái)很便捷,配置以及采集功能的操作非常智能,可實(shí)現(xiàn)的采集要求也十分全面。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。