幫助中心 | 我的帳號 | 關於我們

Python3爬蟲數據清洗與可視化實戰(第2版)/慕研數據分析師事務所系列叢書

  • 作者:零一//韓要賓//黃園園|責編:張慧敏
  • 出版社:電子工業
  • ISBN:9787121391187
  • 出版日期:2020/07/01
  • 裝幀:平裝
  • 頁數:247
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書是一本通過實戰教初學者學習爬取數據、清洗和組織數據進行分析和可視化的Python讀物。書中案例均經過實戰檢驗,筆者在實踐過程中深感採集數據、清洗和組織數據的重要性,作為一名數據行業的「碼農」,數據就是沃土,沒有數據,我們將無田可耕。
    本書共13章,包括6個核心主題,其一是Python基礎入門,包括環境配置、基本操作、數據類型、語句和函數;其二是Python爬蟲的構建,包括網頁結構解析、爬蟲流程設計、代碼優化、爬蟲效率優化、無線端的數據採集、容錯處理、反防爬蟲、表單交互和模擬頁面點擊;其三是Python資料庫應用,包括MongoDB、MySQL在Python中的連接與應用;其四是數據清洗和組織,包括NumPy數組知識,以及pandas數據的讀寫、分組、變形,缺失值、異常值和重複值處理,時序數據處理和正則表達式的使用等;其五是綜合應用實例,幫助讀者貫穿爬蟲、數據清洗與組織的過程;最後是數據可視化,包括matplotlib和pyecharts兩個庫的使用,涉及餅圖、柱形圖、線圖、詞雲圖等圖形,幫助讀者進入可視化的殿堂。
    本書以實戰為主,適合Python初學者及高等院校相關專業的學生閱讀,也適合Python培訓機構作為實驗教材。

作者介紹
零一//韓要賓//黃園園|責編:張慧敏

目錄
第1章  Python語言基礎
  1.1  安裝Python環境
    1.1.1  Python 3.6.2安裝與配置
    1.1.2  使用IDE工具——PyCharm
    1.1.3  使用IDE工具——Anaconda
  1.2  Python操作入門
    1.2.1  編寫第一個Python代碼
    1.2.2  Python基本操作
    1.2.3  變數
  1.3  Python數據類型
    1.3.1  數字
    1.3.2  字元串
    1.3.3  列表
    1.3.4  元組
    1.3.5  集合
    1.3.6  字典
  1.4  Python語句與函數
    1.4.1  條件語句
    1.4.2  循環語句
    1.4.3  函數
  1.5  習題
第2章  數據採集的基本知識
  2.1  關於爬蟲的合法性
  2.2  了解網頁
    2.2.1  認識網頁結構
    2.2.2  寫一個簡單的HTML
  2.3  使用requests庫請求網站
    2.3.1  安裝requests庫
    2.3.2  爬蟲的基本原理
    2.3.3  使用GET方式抓取數據
    2.3.4  使用POST方式抓取數據
  2.4  使用Beautiful Soup解析網頁
  2.5  清洗和組織數據
  2.6  爬蟲攻防戰
  2.7  關於什麼時候存儲數據
  2.8  習題
第3章  用API爬取天氣預報數據
  3.1  註冊免費API和閱讀技術文檔
  3.2  獲取API數據
  3.3  存儲數據到MongoDB
    3.3.1  下載並安裝MongoDB
    3.3.2  在PyCharm中安裝Mongo Plugin
    3.3.3  將數據存入MongoDB中
  3.4  MongoDB資料庫查詢
  3.5  習題
第4章  大型爬蟲案例:抓取某電商網站的商品數據
  4.1  觀察頁面特徵和解析數據
  4.2  工作流程分析
  4.3  構建類目樹
  4.4  獲取景點產品列表

  4.5  代碼優化
  4.6  爬蟲效率優化
  4.7  容錯處理
  4.8  習題
第5章  採集手機App數據
  5.1  模擬器及抓包環境配置
  5.2  App數據抓包
  5.3  手機App數據的採集
  5.4  習題
第6章  Scrapy爬蟲
  6.1  Scrapy簡介
  6.2  安裝Scrapy
  6.3  案例:用Scrapy抓取股票行情
  6.4  習題
第7章  Selenium爬蟲
  7.1  Selenium簡介
  7.2  安裝Selenium
  7.3  Selenium定位及操作元素
  7.4  案例:用Selenium抓取某電商網站數據
  7.5  習題
第8章  爬蟲案例集錦
  8.1  採集外賣平台數據
    8.1.1  採集目標
    8.1.2  採集代碼
  8.2  採集內容平台數據
    8.2.1  採集目標
    8.2.2  採集代碼
  8.3  採集招聘平台數據
    8.3.1  採集目標
    8.3.2  採集代碼
  8.4  採集知識付費平台數據
    8.4.1  採集目標
    8.4.2  採集代碼
第9章  資料庫連接和查詢
  9.1  使用PyMySQL
    9.1.1  連接資料庫
    9.1.2  案例:某電商網站女裝行業TOP100銷量數據
  9.2  使用SQLAlchemy
    9.2.1  SQLAlchemy基本介紹
    9.2.2  SQLAlchemy基本語法
  9.3  MongoDB
    9.3.1  MongoDB基本語法
    9.3.2  案例:在某電商網站搜索「連衣裙」的商品數據
  9.4  習題
第10章  NumPy數組操作
  10.1  NumPy簡介
  10.2  一維數組
    10.2.1  數組與列表的異同
    10.2.2  數組的創建
  10.3  多維數組

    10.3.1  多維數組的高效性能
    10.3.2  多維數組的索引與切片
    10.3.3  多維數組的屬性和方法
  10.4  數組的運算
  10.5  習題
第11章  pandas數據清洗
  11.1  數據讀寫、選擇、整理和描述
    11.1.1  從CSV中讀取數據
    11.1.2  向CSV中寫入數據
    11.1.3  數據選擇
    11.1.4  數據整理
    11.1.5  數據描述
  11.2  數據分組、分割、合併和變形
    11.2.1  數據分組
    11.2.2  數據分割
    11.2.3  數據合併
    11.2.4  數據變形
    11.2.5  案例:旅遊數據的分析與變形
  11.3  缺失值、異常值和重複值處理
    11.3.1  缺失值處理
    11.3.2  檢測和過濾異常值
    11.3.3  移除重複值
    11.3.4  案例:旅遊數據值的檢查與處理
  11.4  時序數據處理
    11.4.1  日期/時間數據轉換
    11.4.2  時序數據基礎操作
    11.4.3  案例:天氣預報數據分析與處理
  11.5  數據類型轉換
  11.6  正則表達式
    11.6.1  元字元與限定符
    11.6.2  案例:用正則表達式提取網頁文本信息
  11.7  習題
第12章  綜合應用實例
  12.1  按性價比給用戶推薦旅遊產品
    12.1.1  數據採集
    12.1.2  數據清洗、建模
  12.2  通過熱力圖分析為用戶提供出行建議
    12.2.1  某旅遊網站熱門景點爬蟲代碼
    12.2.2  提取CSV文件中經緯度和銷量信息
    12.2.3  創建景點門票銷量熱力圖HTML文件
第13章  數據可視化
  13.1  應用matplotlib畫圖
    13.1.1  畫出各省份平均價格、各省份平均成交量柱狀圖
    13.1.2  畫出各省份平均成交量折線圖、柱狀圖、箱形圖和餅圖
    13.1.3  畫出價格與成交量的散點圖
  13.2  應用pyecharts畫圖
    13.2.1  Echarts簡介
    13.2.2  pyecharts簡介
    13.2.3  初識pyecharts,玫瑰相送
    13.2.4  pyecharts基本語法

    13.2.5  基於商業分析的pyecharts圖表繪製
    13.2.6  使用pyecharts繪製其他圖表
    13.2.7  pyecharts和Jupyter
  13.3  習題

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032