91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用表格做爬蟲

Wildesbeast ? 來源:今日頭條 ? 作者:Python之眼 ? 2020-02-03 15:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

很多人不知道,其實(shí)我們最常用的表格,在某些情況下也是可以用來做爬蟲的,而且爬下來的數(shù)據(jù)規(guī)整,不需要花太多時(shí)間進(jìn)行數(shù)據(jù)清洗,來看看是怎么實(shí)現(xiàn)的。

一、Microsoft Excel

首先教大家一個(gè)用Excel爬取數(shù)據(jù)的方法,這里用的Microsoft Excel 2013版本,下面手把手開始教學(xué)~

(1)新建Excel,打開它,如下圖所示

(2)點(diǎn)擊“數(shù)據(jù)”——“自網(wǎng)站”

(3)在彈出的對(duì)話框中輸入目標(biāo)網(wǎng)址,這里以全國實(shí)時(shí)空氣質(zhì)量網(wǎng)站為例,點(diǎn)擊轉(zhuǎn)到,再導(dǎo)入

選擇導(dǎo)入位置,確定

(4)結(jié)果如下圖所示,怎么樣,是不是很贊?

(5)如果要實(shí)時(shí)更新數(shù)據(jù),可以在“數(shù)據(jù)”——“全部更新”——“連接屬性”中進(jìn)行設(shè)置,輸入更新頻率即可

非誠勿擾:正在學(xué)習(xí)python的小伙伴或者打算學(xué)習(xí)的,可以私信小編“01”領(lǐng)取資料!

二、Google Sheet

使用Google Sheet爬取數(shù)據(jù)前,要保證三點(diǎn):使用Chrome瀏覽器、擁有Google賬號(hào)、電腦可以科學(xué)上網(wǎng)。如果這三個(gè)條件具備了的話,下面我們就開始吧~

(1)打開Google Sheet網(wǎng)站:http://www.google.cn/sheets/about/

(2)在首頁上點(diǎn)擊“轉(zhuǎn)到Google表格”,然后登錄自己的賬號(hào),可以看到如下界面,再點(diǎn)擊“+”創(chuàng)建新的表格

新建的表格如下:

(3)打開要爬取的目標(biāo)網(wǎng)站,一個(gè)全國實(shí)時(shí)空氣質(zhì)量網(wǎng)站http://www.pm25.in/rank,目標(biāo)網(wǎng)站上的表格結(jié)構(gòu)如下圖所示

(4)回到Google sheet頁面,使用函數(shù)=IMPORTHTML(網(wǎng)址, 查詢, 索引),“網(wǎng)址”就是要爬取數(shù)據(jù)的目標(biāo)網(wǎng)站,“查詢”中輸入“l(fā)ist”或“table”,這個(gè)取決于數(shù)據(jù)的具體結(jié)構(gòu)類型,“索引”填阿拉伯?dāng)?shù)字,從1開始,對(duì)應(yīng)著網(wǎng)站中定義的哪一份表格或列表

對(duì)于我們要爬取的網(wǎng)站,我們?cè)贕oogle sheet的A1單元格中輸入函數(shù)

=IMPORTHTML("http://www.pm25.in/rank","table",1),回車后就爬得數(shù)據(jù)啦

(5)將爬取好的表格存到本地

是不是感覺超級(jí)簡單?

當(dāng)然,沒有學(xué)習(xí)成本的技能缺陷也是很明顯的,就是在網(wǎng)頁的數(shù)據(jù)排列沒那么規(guī)則的時(shí)候,或者說多個(gè)頁面的數(shù)據(jù),以上的方法就失效了,這個(gè)時(shí)候Python就展現(xiàn)出它強(qiáng)大的威力了。

不過,話說回來,這么裝逼的技能,而且不需要學(xué)習(xí)成本,掌握了有什么不好呢,沒準(zhǔn)什么時(shí)候就能用上了。

最后多說一句,小編是一名python開發(fā)工程師,這里有我自己整理了一套最新的python系統(tǒng)學(xué)習(xí)教程,包括從基礎(chǔ)的python腳本到web開發(fā)、爬蟲、數(shù)據(jù)分析、數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)等。想要這些資料的可以關(guān)注小編,并在后臺(tái)私信小編:“01”即可領(lǐng)取。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 瀏覽器
    +關(guān)注

    關(guān)注

    1

    文章

    1043

    瀏覽量

    37086
  • Excel
    +關(guān)注

    關(guān)注

    4

    文章

    231

    瀏覽量

    57704
  • 爬蟲
    +關(guān)注

    關(guān)注

    0

    文章

    87

    瀏覽量

    8092
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    油電同智?為什么燃油車很難自動(dòng)駕駛?

    細(xì)心的小伙伴應(yīng)該會(huì)發(fā)現(xiàn),雖然市面上智能電動(dòng)車的自動(dòng)駕駛功能日新月異,但在燃油車領(lǐng)域,高階智駕的普及速度卻明顯緩慢。為什么燃油車很難自動(dòng)駕駛?
    的頭像 發(fā)表于 03-01 11:54 ?1422次閱讀
    油電同智?為什么燃油車很難<b class='flag-5'>做</b>自動(dòng)駕駛?

    京東關(guān)鍵詞搜索商品列表的Python爬蟲實(shí)戰(zhàn)

    京東關(guān)鍵詞搜索商品列表 Python 爬蟲實(shí)戰(zhàn) 你想要實(shí)現(xiàn)京東關(guān)鍵詞搜索商品的爬蟲,我會(huì)從 合規(guī)聲明、環(huán)境準(zhǔn)備、頁面分析、代碼實(shí)現(xiàn)、反爬優(yōu)化 五個(gè)方面展開,幫助你完成實(shí)戰(zhàn)項(xiàng)目。 一、前置聲明(重要
    的頭像 發(fā)表于 01-04 10:16 ?760次閱讀

    智能顯示模塊能實(shí)現(xiàn)表格顯示功能嗎?

    智能顯示模塊能實(shí)現(xiàn)表格顯示
    發(fā)表于 12-15 08:19

    # 深度解析:爬蟲技術(shù)獲取淘寶商品詳情并封裝為API的全流程應(yīng)用

    需求。本文將深入探討如何借助爬蟲技術(shù)實(shí)現(xiàn)淘寶商品詳情的獲取,并將其高效封裝為API。 一、爬蟲技術(shù)核心原理與工具 1.1 爬蟲運(yùn)行機(jī)制 網(wǎng)絡(luò)爬蟲本質(zhì)上是一種遵循特定規(guī)則,自動(dòng)抓取網(wǎng)頁信
    的頭像 發(fā)表于 11-17 09:29 ?351次閱讀

    用 Python 給 Amazon “全身 CT”——可量產(chǎn)、可擴(kuò)展的商品詳情爬蟲實(shí)戰(zhàn)

    一、技術(shù)選型:為什么選 Python 而不是 Java? 結(jié)論: “調(diào)研階段用 Python,上線后如果 QPS 爆表再考慮 Java 重構(gòu)?!?二、整體架構(gòu)速覽(3 分鐘看懂) 三、開發(fā)前準(zhǔn)備(5 分鐘搞定) 環(huán)境 Python 3.11 + VSCode + 虛擬環(huán)境 依賴一次性裝完 bash ? python -m venv venvsource venv/bin/activatepip install playwright pandas tqdm loguru fake-useragent aiofilesplaywright install chromium # 自動(dòng)下載瀏覽器 ? 目標(biāo)字段 & CSS 選擇器 ? 四、MVP:120 行代碼即可跑通 單文件腳本,支持異步并發(fā) 10 個(gè) ASIN,自動(dòng)重
    的頭像 發(fā)表于 10-21 16:59 ?520次閱讀
    用 Python 給 Amazon <b class='flag-5'>做</b>“全身 CT”——可量產(chǎn)、可擴(kuò)展的商品詳情<b class='flag-5'>爬蟲</b>實(shí)戰(zhàn)

    從 0 到 1:用 PHP 爬蟲優(yōu)雅地拿下京東商品詳情

    PHP 語言 實(shí)現(xiàn)一個(gè) 可運(yùn)行的京東商品爬蟲 ,不僅能抓取商品標(biāo)題、價(jià)格、圖片、評(píng)價(jià)數(shù),還能應(yīng)對(duì)常見的反爬策略。全文附完整代碼, 復(fù)制粘貼即可運(yùn)行 。 一、為什么選擇 PHP 爬蟲? 雖然 Python 是
    的頭像 發(fā)表于 09-23 16:42 ?858次閱讀
    從 0 到 1:用 PHP <b class='flag-5'>爬蟲</b>優(yōu)雅地拿下京東商品詳情

    Nginx限流與防爬蟲配置方案

    在互聯(lián)網(wǎng)業(yè)務(wù)快速發(fā)展的今天,網(wǎng)站面臨著各種流量沖擊和惡意爬蟲的威脅。作為運(yùn)維工程師,我們需要在保證正常用戶訪問的同時(shí),有效防范惡意流量和爬蟲攻擊。本文將深入探討基于Nginx的限流與防爬蟲解決方案,從原理到實(shí)踐,為大家提供一套完
    的頭像 發(fā)表于 09-09 15:52 ?911次閱讀

    用于各種設(shè)備協(xié)議間報(bào)文轉(zhuǎn)換的網(wǎng)關(guān)是什么

    用于各種設(shè)備協(xié)議間報(bào)文轉(zhuǎn)換的網(wǎng)關(guān)通常被稱為協(xié)議轉(zhuǎn)換網(wǎng)關(guān),也常被稱為工業(yè)協(xié)議網(wǎng)關(guān)(在工業(yè)場景中)或多協(xié)議網(wǎng)關(guān)。它是一種專門用于解決不同設(shè)備、系統(tǒng)或網(wǎng)絡(luò)之間因協(xié)議不兼容而無法直接通信的中間設(shè)備,核心
    的頭像 發(fā)表于 08-11 14:08 ?1041次閱讀
    用于各種設(shè)備協(xié)議間<b class='flag-5'>做</b>報(bào)文轉(zhuǎn)換的網(wǎng)關(guān)是什么

    matlab appdesigner 表格組件賦值問題,求助

    如上圖所示,我在用matlab2021Ra APP模塊進(jìn)行編程的時(shí)候,想在表格中調(diào)入自己編寫的結(jié)構(gòu)數(shù)組,我從網(wǎng)上AI了一個(gè)程序語句,看著沒問題,但是就是給表格賦值不了,還請(qǐng)各位大神幫忙看一下這個(gè)是怎么回事,我是初學(xué)者,請(qǐng)各位幫忙看看
    發(fā)表于 07-12 11:45

    【HarmonyOS 5】鴻蒙應(yīng)用實(shí)現(xiàn)發(fā)票掃描、文檔掃描輸出PDF圖片或者表格的功能

    【HarmonyOS 5】鴻蒙應(yīng)用實(shí)現(xiàn)發(fā)票掃描、文檔掃描輸出PDF圖片或者表格的功能 ##鴻蒙開發(fā)能力 ##HarmonyOS SDK應(yīng)用服務(wù)##鴻蒙金融類應(yīng)用 (金融理財(cái)# 一、前言 圖(1-1
    的頭像 發(fā)表于 07-11 18:16 ?1385次閱讀
    【HarmonyOS 5】鴻蒙應(yīng)用實(shí)現(xiàn)發(fā)票掃描、文檔掃描輸出PDF圖片或者<b class='flag-5'>表格</b>的功能

    求大佬解答,怎么保存為帶表頭的電子表格

    求大佬解答,怎么保存為帶表頭的電子表格
    發(fā)表于 06-04 14:14

    CYUSB3014從機(jī)FIFO接口圖顯示支持DQ[31:0],但表格僅表明支持DQ[15:0],哪一個(gè)是正確的?

    問題 1)從機(jī)FIFO接口圖顯示支持DQ[31:0],但表格僅表明支持DQ[15:0]。 哪一個(gè)是正確的? 請(qǐng)?jiān)敿?xì)解釋一下。 問題 2) 從屬 FIFO 接口使用 A[1:0]、FLAGA 和 FLAGB,但 USB 通信也可以與所連接的電路配合使用。 我可以只使用 FLAGA 嗎?
    發(fā)表于 05-16 06:15

    如何堅(jiān)持難而正確的芯片研發(fā)?

    如果一件事在別人眼中是坐冷板凳,是臟活、累活,你是否還會(huì)堅(jiān)持下去呢?以下視頻來源于格致論道講壇石侃·中國科學(xué)院計(jì)算技術(shù)研究所副研究員格致論道第117期|2025年1月18日北京大家好,我是來自
    的頭像 發(fā)表于 04-18 10:01 ?1196次閱讀
    如何堅(jiān)持<b class='flag-5'>做</b>難而正確的芯片研發(fā)?

    爬蟲數(shù)據(jù)獲取實(shí)戰(zhàn)指南:從入門到高效采集

    爬蟲數(shù)據(jù)獲取實(shí)戰(zhàn)指南:從入門到高效采集 ? ? 在數(shù)字化浪潮中,數(shù)據(jù)已成為驅(qū)動(dòng)商業(yè)增長的核心引擎。無論是市場趨勢洞察、競品動(dòng)態(tài)追蹤,還是用戶行為分析,爬蟲技術(shù)都能助你快速捕獲目標(biāo)信息。然而,如何既
    的頭像 發(fā)表于 03-24 14:08 ?1581次閱讀

    PCB 過孔電流自動(dòng)計(jì)算器表格(免積分下載)

    可以根據(jù)所需自行調(diào)整數(shù)據(jù)計(jì)算: 獲取表格資料可下載附件哦?。。?!
    發(fā)表于 03-13 11:20