91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

豆瓣電影Top250信息爬取

python爬蟲知識分享 ? 來源:python爬蟲知識分享 ? 作者:python爬蟲知識分享 ? 2022-03-23 15:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

通過本案例[豆瓣電影Top250信息爬取]鍛煉除正則表達(dá)式之外兩種信息解析方式:Xpath和PyQuery。

爬取url地址:https://movie.douban.com/top250

分析:

分析url地址:每頁25條數(shù)據(jù),共計(jì)10頁

第1頁:https://movie.douban.com/top250?start=0
第2頁:https://movie.douban.com/top250?start=25
第3頁:https://movie.douban.com/top250?start=50
...
結(jié)果:
for i in range(10):
    url = "https://movie.douban.com/top250?start="+str(i*25)

分析網(wǎng)頁源代碼內(nèi)容:每部電影信息都是放在

...

具體實(shí)現(xiàn)代碼如下:

from requests.exceptions import RequestException
from lxml import etree
from pyquery import PyQuery as pq
import requests
import re,time,json

def getPage(url):
    '''爬取指定url頁面信息'''
    try:
        #定義請求頭信息
        headers = {
            'User-Agent':'User-Agent:Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1'
        }
        # 執(zhí)行爬取
        res = requests.get(url,headers=headers)
        #判斷響應(yīng)狀態(tài),并響應(yīng)爬取內(nèi)容
        if res.status_code == 200:
            return res.text
        else:
            return None
    except RequestException:
        return None

def parsePage(content):
    '''解析爬取網(wǎng)頁中的內(nèi)容,并返回字段結(jié)果'''
    print(content)
    # =========使用pyquery解析==================
    # 解析HTML文檔
    doc = pq(content)
    #獲取網(wǎng)頁中所有標(biāo)簽并遍歷輸出標(biāo)簽名
    items = doc("div.item")
    #遍歷封裝數(shù)據(jù)并返回
    for item in items.items():
        yield {
            'index':item.find("div.pic em").text(),
            'image':item.find("div.pic img").attr('src'),
            'title':item.find("div.hd span.title").text(),
            'actor':item.find("div.bd p:eq(0)").text(),
            'score':item.find("div.bd div.star span.rating_num").text(),
        }    

    '''
    # =======使用xpath解析====================
    # 解析HTML文檔,返回根節(jié)點(diǎn)對象
    html = etree.HTML(content)
    #獲取網(wǎng)頁中所有標(biāo)簽并遍歷輸出標(biāo)簽名
    items = html.xpath('//div[@class="item"]')
    #遍歷封裝數(shù)據(jù)并返回
    for item in items:
        yield {
            'index':item.xpath('.//div/em[@class=""]/text()')[0],
            'image':item.xpath('.//img[@width="100"]/@src')[0],
            'title':item.xpath('.//span[@class="title"]/text()')[0],
            'actor':item.xpath('.//p[@class=""]/text()')[0],
            'score':item.xpath('.//span[@class="rating_num"]/text()'),
            #'time':item[4].strip()[5:],
        }
    '''

def writeFile(content):
    '''執(zhí)行文件追加寫操作'''
    with open("./result.txt",'a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False) + "\n")
        #json.dumps 序列化時(shí)對中文默認(rèn)使用的ascii編碼.想輸出真正的中文需要指定ensure_ascii=False

def main(offset):
    ''' 主程序函數(shù),負(fù)責(zé)調(diào)度執(zhí)行爬蟲處理 '''
    url = 'https://movie.douban.com/top250?start=' + str(offset)
    html = getPage(url)
    # 判斷是否爬取到數(shù)據(jù),并調(diào)用解析函數(shù)
    if html:
        for item in parsePage(html):
            writeFile(item)

# 判斷當(dāng)前執(zhí)行是否為主程序運(yùn)行,并遍歷調(diào)用主函數(shù)爬取數(shù)據(jù)
if __name__ == '__main__':
    for i in range(10):
        main(offset=i*25)
        time.sleep(1)

審核編輯:符乾江
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • python
    +關(guān)注

    關(guān)注

    57

    文章

    4876

    瀏覽量

    90025
  • 爬蟲
    +關(guān)注

    關(guān)注

    0

    文章

    87

    瀏覽量

    8091
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    一文讀懂電氣間隙與電距離 · 來龍去脈:設(shè)計(jì)指南、影響因素、計(jì)算方法、案例說明

    -關(guān)于《電氣間隙與電距離的全面解析與設(shè)計(jì)指南》的解析-文字原創(chuàng),素材來源:TI、IEC、IPC、GB、網(wǎng)絡(luò)-「SysPro|電動(dòng)汽車標(biāo)準(zhǔn)解讀」專欄內(nèi)容,全文13700字-本篇為節(jié)選,完整內(nèi)容會(huì)在
    的頭像 發(fā)表于 02-07 07:03 ?854次閱讀
    一文讀懂電氣間隙與<b class='flag-5'>爬</b>電距離 · 來龍去脈:設(shè)計(jì)指南、影響因素、計(jì)算方法、案例說明

    MOSFET 失效 Top 原因

    匹配。根據(jù)FAE現(xiàn)場統(tǒng)計(jì),80%的MOSFET失效并非器件質(zhì)量問題,而是設(shè)計(jì)與應(yīng)用問題。本文聚焦Top10中的前5項(xiàng)來看看:電氣設(shè)計(jì)相關(guān)失效的原因。一、TOP1:V
    的頭像 發(fā)表于 01-20 15:29 ?245次閱讀
    MOSFET 失效 <b class='flag-5'>Top</b> 原因

    壁機(jī)器人磁鐵的一些常見問題

    壁機(jī)器人近幾年比較火,它是一類能夠在垂直墻面、天花板、傾斜表面上移動(dòng)和作業(yè)的特種機(jī)器人,今天我們不聊其它,只聊下關(guān)于磁吸附應(yīng)用中的磁鐵,以下是小編整理的關(guān)于壁機(jī)器人中磁鐵的一些常見問題。
    的頭像 發(fā)表于 01-09 10:06 ?263次閱讀
    <b class='flag-5'>爬</b>壁機(jī)器人磁鐵的一些常見問題

    2026 開工大吉 | 電源互連技術(shù)白皮書:電距離與電氣間隙解析

    ——該標(biāo)準(zhǔn)會(huì)根據(jù) 材料等級、工作電壓以及污染等級 ,明確規(guī)定 電距離與電氣間隙 的具體數(shù)值。無論系統(tǒng)設(shè)計(jì)方案如何,電距離和電氣間隙都關(guān)乎產(chǎn)品安全,是必須滿足的合規(guī)指標(biāo)。 近期Samtec發(fā)布了一份技術(shù)白皮書,旨在闡釋
    的頭像 發(fā)表于 01-05 14:42 ?415次閱讀
    2026 開工大吉 | 電源互連技術(shù)白皮書:<b class='flag-5'>爬</b>電距離與電氣間隙解析

    京東關(guān)鍵詞搜索商品列表的Python爬蟲實(shí)戰(zhàn)

    ?。?京東擁有商品數(shù)據(jù)的版權(quán),爬蟲僅可用于 個(gè)人學(xué)習(xí)、研究 ,禁止用于商業(yè)用途、批量造成京東服務(wù)器壓力。 遵守京東《用戶協(xié)議》和robots.txt協(xié)議(京東https://www.jd.com/robots.txt明確限制了部分爬蟲行為)。 本實(shí)戰(zhàn)僅演示基礎(chǔ)爬蟲思路
    的頭像 發(fā)表于 01-04 10:16 ?705次閱讀

    瀟湘電影集團(tuán)與洲明集團(tuán)達(dá)成戰(zhàn)略合作

    12月10日,瀟湘電影集團(tuán)與洲明集團(tuán)戰(zhàn)略合作簽約儀式圓滿舉行。此次合作雙方將在LED電影屏、光顯系統(tǒng)及國產(chǎn)電影拍攝器材等核心領(lǐng)域展開深度合作,共同推動(dòng)影視產(chǎn)業(yè)與光顯科技的融合創(chuàng)新。
    的頭像 發(fā)表于 12-18 13:52 ?463次閱讀

    第七屆海南島國際電影節(jié)聯(lián)想AI電影季開幕

    12月7日,由海南島國際電影節(jié)組委會(huì)指導(dǎo),今日美術(shù)館AI藝術(shù)創(chuàng)新聯(lián)盟(AIAIA)、聯(lián)想集團(tuán)主辦的“第七屆海南島國際電影節(jié)·聯(lián)想AI電影季”在海南三亞開幕。本屆AI電影季共吸引全球56
    的頭像 發(fā)表于 12-13 15:36 ?1917次閱讀

    一文讀懂 · 電氣間隙與電距離 · 來龍去脈:設(shè)計(jì)指南、影響因素、計(jì)算方法、案例說明

    -關(guān)于《電氣間隙與電距離的全面解析與設(shè)計(jì)指南》的解析-文字原創(chuàng),素材來源:TI、IEC、IPC、GB、網(wǎng)絡(luò)-「SysPro|電動(dòng)汽車標(biāo)準(zhǔn)解讀」專欄內(nèi)容,全文13700字-本篇為節(jié)選,完整內(nèi)容會(huì)在
    的頭像 發(fā)表于 11-08 07:01 ?1466次閱讀
    一文讀懂 · 電氣間隙與<b class='flag-5'>爬</b>電距離 · 來龍去脈:設(shè)計(jì)指南、影響因素、計(jì)算方法、案例說明

    POE電保護(hù)

    防雷 / 過電壓 / 電流 / ESD 電子電路保護(hù)器件專業(yè)提供商 針對POE電, 國際IEEE 802.3標(biāo)準(zhǔn)說明 及兩種電方式 ? www.yint.com.cn 本文為音特公司技術(shù)人員
    的頭像 發(fā)表于 10-17 16:33 ?506次閱讀
    POE<b class='flag-5'>取</b>電保護(hù)

    電距離”與“電氣間隙”是怎樣計(jì)算的?

    大家好,分享一篇優(yōu)秀文章,歡迎轉(zhuǎn)載共同學(xué)習(xí)。 做高壓產(chǎn)品,經(jīng)常會(huì)涉及到電距離和電氣間隙,今天來看看這2個(gè)參數(shù)是由什么決定的? 電距離 沿絕緣表面測得的兩個(gè)導(dǎo)電零部件之間或?qū)щ娏悴考c設(shè)備防護(hù)界面
    的頭像 發(fā)表于 09-10 17:29 ?3.5w次閱讀
    “<b class='flag-5'>爬</b>電距離”與“電氣間隙”是怎樣計(jì)算的?

    請問USB緩沖區(qū)數(shù)據(jù)可以多次嗎?

    在使用USB軟件獲取數(shù)據(jù)是,下位機(jī)給我發(fā)送了13個(gè)32位數(shù)據(jù)到USB IN緩沖區(qū),為什么我調(diào)用API函數(shù)想要第一次1個(gè)32位數(shù)據(jù),完之后再取12位數(shù)據(jù),程序會(huì)卡死。
    發(fā)表于 07-16 08:12

    電氣間隙與電距離的相關(guān)設(shè)計(jì)

    眾所周知,48V相較12V電壓上升,因此需要更大的電距離(安全絕緣路徑)和電氣間隙(安全絕緣間距)。這意味著部分連接器需要重新設(shè)計(jì)。
    的頭像 發(fā)表于 07-09 11:33 ?2121次閱讀

    FLIR ONE Edge Pro紅外熱像儀在寵飼養(yǎng)中的應(yīng)用

    寵飼養(yǎng)中,溫度控制是決定寵物健康與幸福的關(guān)鍵因素。無論是巴西龜、蜥蜴還是蛇類,它們依賴外部熱源調(diào)節(jié)體溫,稍有不慎就可能導(dǎo)致健康問題。今天,我們就通過一位寵主人的真實(shí)案例,看看FLIR ONE Edge Pro智能紅外熱像儀如何幫助他精準(zhǔn)掌控飼養(yǎng)環(huán)境,讓愛寵舒適生活。
    的頭像 發(fā)表于 06-23 13:40 ?1359次閱讀

    用于攝像頭模塊的 Open Top QFN 插槽Ironwood Electronics

    、Open Top QFN插槽的核心特性O(shè)pen Top結(jié)構(gòu)頂部開口設(shè)計(jì)允許芯片直接放置或通過自動(dòng)化設(shè)備(如放機(jī))快速裝載,無需額外操作空間,適配攝像頭模塊的小型化需求。便于視覺檢測或調(diào)試時(shí)直接觀察
    發(fā)表于 05-09 09:11

    2025全球IGBT企業(yè)TOP 55!

    2025全球IGBT企業(yè)TOP 55!
    的頭像 發(fā)表于 04-27 16:38 ?705次閱讀
    2025全球IGBT企業(yè)<b class='flag-5'>TOP</b> 55!