自學爬蟲——老馬惹不起，簡書謝謝你（爬蟲怎么自學）

投稿用戶 ? 2024年7月7日 am8:07 ? 科研百科 ? 閱讀 77

這個爬蟲是個通用爬蟲,去用心的了解scrapy框架,你就能輕松駕馭

https://github.com/a371057600/python-paChong-

這里是我的不專業(yè)的github,不逼逼直接搬來用吧,不推薦重復造輪子,對著代碼多讀幾次就好,除非練手,不然不推薦重新敲,當然,能優(yōu)化,改到你想要的功能是最好的.

把輪子用到了爬頭條上面

我覺得,在頭條上面教大家爬頭條好像不是太好(雖然,頭條也是爬別人的新聞)

頭條的反爬方法基本跟微博也是一樣,但是不推薦爬微博,因為微博大量的賬號和原創(chuàng)內(nèi)容,估計不登錄也不能爬,登陸了就會廢號.

本來,計劃是爬淘寶的,但是無論怎么爬都會重定向到登錄頁面,用selemui也沒用(實際有用,你只要在爬取的時候登錄成為操作就好,但是這就類麻煩了.畢竟淘寶賬號很重要的…)所以,最后折中爬了簡書,謝謝簡書爸爸的教導.

圖片描述(最多50字)

from scrapy import signals

from selenium import webdriver

import time

from scrapy.http.response.html import HtmlResponse

class SeleniumDownloadMiddleware(object):

def init(self):

self.driver = webdriver.Chrome(executable_path=r\”C:Workpythonchromedriver.exe\”)

def process_request(self,request,spider):

self.driver.get(request.url)

time.sleep(1)

try:

while True:

showMore = self.driver.find_element_by_class_name(\’show-more\’)

showMore.click()

time.sleep(0.3)

if not showMore:

break

except:

pass

source = self.driver.page_source

response = HtmlResponse(url=self.driver.current_url,body=source,request=request,encoding=\’utf-8\’)

return responsege

大的門戶網(wǎng)站你可以爬,爬了之后記得告訴我

獲取ajax數(shù)據(jù)的方式：

直接分析ajax調用的接口。然后通過代碼請求這個接口。

使用Selenium chromedriver模擬瀏覽器行為獲取數(shù)據(jù)。

方式優(yōu)點缺點分析接口直接可以請求到數(shù)據(jù)。不需要做一些解析工作。代碼量少，性能高。分析接口比較復雜，特別是一些通過js混淆的接口，要有一定的js功底。容易被發(fā)現(xiàn)是爬蟲。

圖片描述(最多50字)

selenium直接模擬瀏覽器的行為。瀏覽器能請求到的，使用selenium也能請求到。爬蟲更穩(wěn)定。代碼量多。性能低。

PS:本人全部自學,發(fā)送到頭條也只是作為學習經(jīng)歷,順便分享經(jīng)驗,沒有炫耀和裝大佬的意向,反而有互相學習尋求幫助的想法.

醫(yī)生對病人說,你們有選擇不痛苦的權利.但是,各位自學的哥們,我們沒有選擇的權利,學習的過程必然是艱辛痛苦的,程序猿996不是為了誰,真的是因為喜歡,真的是想要進步所以才會996.死在自己喜歡的工作上何嘗不是鐘享受呢.

不求認同,但是不希望噴子進來,這只是個筆記.

贊 (0)

投稿用戶

釘釘發(fā)布全新7.5版本，上線人人可用AI助理，還可在線敲木魚 – 最前線

上一篇 2024年7月7日 am8:00

螺絲學堂、職工書屋…… 上海國企在基層黨建中不斷探索新模式

下一篇 2024年7月7日 am8:12

創(chuàng)新實施“一心一意”“雙向融合”黨建工作法打造“青春向黨盈光飛揚”特色黨建品牌點燃企業(yè)發(fā)展新“引擎”

棗莊泰盈科技有限公司是以數(shù)字中后臺管理服務，大數(shù)據(jù)和人工智能技術研發(fā)、數(shù)字經(jīng)濟產(chǎn)業(yè)人才教育培養(yǎng)、數(shù)字經(jīng)濟產(chǎn)業(yè)眾包孵化等為一體的數(shù)字經(jīng)濟產(chǎn)業(yè)鏈鏈主企業(yè)，是目前全國領先的數(shù)字中后臺運營…

科研百科 2023年11月4日
191 0
項目經(jīng)費預算及撥款計劃表

項目經(jīng)費預算及撥款計劃表一、項目概述本項目旨在支持學校的學術研究和創(chuàng)新發(fā)展，提高學校的科研水平和教學質量。項目將資助研究人員開展科學研究，包括實驗和研究費用、儀器和設備的購買、會…

科研百科 2024年7月11日
216 0
project項目進度計劃表

Project 項目進度計劃表 Project 項目進度計劃表是一份用于跟蹤和管理項目進度的重要工具。它可以幫助項目團隊了解項目的進展情況，及時發(fā)現(xiàn)問題并采取措施，確保項目按時完成…

科研百科 2024年10月15日
4 0
合同管理的app

合同管理app：實現(xiàn)合同管理的數(shù)字化時代隨著數(shù)字化時代的到來，合同管理已經(jīng)成為了一個日益重要的話題。傳統(tǒng)的合同管理方式已經(jīng)無法滿足現(xiàn)代商業(yè)的需求，因此，一款高效的合同管理app成…

科研百科 2024年9月20日
34 0
剛進高校的老師有沒有科研項目

剛進高校的老師有沒有科研項目隨著高校教育的快速發(fā)展，越來越多的年輕教師進入高校工作。對于剛進入高校的老師來說，有沒有科研項目是他們衡量工作水平的重要指標之一。然而，科研項目并不是…

科研百科 2024年12月1日
0 0
參與科研項目一般有多少錢可以做(參與科研項目一般有多少錢)

參與科研項目一般有多少錢？近年來，隨著科技的不斷發(fā)展，科研項目也在不斷推進。作為科研項目的一部分，參與人員的費用也是備受關注的話題。那么，參與科研項目一般有多少錢呢？一般來說，…

科研百科 2024年4月2日
113 0
12個裝機必備軟件，讓你的電腦好用10倍（電腦十大裝機必備軟件）

今天分享 12 個好用的軟件工具，包括 6 個電腦軟件和 6 個在線網(wǎng)站。每一個都是自己用心挑選，每一個都是實用并且好用。 1 Mokup Frames Mokup Frames…

科研百科 2022年10月6日
269 0
建筑行業(yè)查詢平臺匯總，包含企業(yè)、人員、業(yè)績、招中標、擬建（建筑行業(yè)查詢網(wǎng)址）

在建筑行業(yè)中，了解各類信息是非常重要的，小方對一些常用的查詢平臺進行的匯總，包含企業(yè)、人員、業(yè)績、招中標以及擬建項目，來了解一下！ 1、查人員/企業(yè) 查人員和企業(yè)的數(shù)據(jù)，可以在四庫…

科研百科 2024年5月7日
197 0
網(wǎng)絡管理員的5款最佳網(wǎng)絡配置管理工具，收藏了（網(wǎng)絡管理員必備工具）

企業(yè)網(wǎng)絡的增速往往超出網(wǎng)絡管理員的預期。一方面，這種增長反映了網(wǎng)絡連接性的能力，而另一方面，它提出了管理這種復雜性勢必需要選擇正確工具的需求。在不同位置管理數(shù)百個交換機，路由器，設…

科研百科 2024年4月29日
234 0
PDCA管理循環(huán)圖怎么畫？干貨分享高顏值圖形圖表軟件（pdca循環(huán)圖咋畫）

PDCA管理循環(huán)圖是一種改進企業(yè)各方面工作的常用工具，也是質量管理的思想基礎和方法依據(jù)。PDCA管理循環(huán)圖就是PLAN(計劃)、DO(執(zhí)行)、CHECK(檢查)和ACTION(處理…

科研百科 2024年4月21日
171 0

自學爬蟲——老馬惹不起，簡書謝謝你（爬蟲怎么自學）

相關推薦