內容大鋼
本書根據高等院校數據科學通識課程的教學需求編寫,著重培養學生的數據意識、數據思維和數據能力,深入闡述了數據科學的核心理論與實踐應用。全書共分9章,包括數據科學概論、Python與數據科學、數組的統計分析、數據清洗與統計、可視化數據挖掘、Web應用框架、文本數據處理、機器學習以及大數據技術。
為確保讀者能夠輕鬆掌握數據分析技能,本書採用當前流行的Python語言,通過實際案例演示各個數據分析過程,力求內容深入淺出,既方便讀者快速上手,還能幫助他們在實踐中不斷鞏固和加深所學知識。
本書適合作為高等院校理工科各專業平台課教材,也可作為各專業的數據科學通識課程教材,對於對數據科學有濃厚興趣的讀者,也是一本不可多得的參考書。
目錄
第1章 數據科學概論
1.1 數據科學的定位
1.1.1 數據和大數據
1.1.2 數據科學理論基礎
1.1.3 數據科學家
1.2 工具軟體
1.2.1 常用Python軟體簡介
1.2.2 Jupyter Notebook軟體
1.3 數據處理流程
1.3.1 傳統的數據處理流程
1.3.2 數據科學的數據處理流程
拓展與練習
第2章 Python與數據科學
2.1 Python基礎語法
2.1.1 標識符與變數
2.1.2 運算符和表達式
2.1.3 程序流程式控制制
2.2 Python內置數據類型
2.2.1 數值類型
2.2.2 組合類型
2.3 函數
2.3.1 函數的定義與調用
2.3.2 參數傳遞
2.3.3 匿名函數
2.4 模塊
2.4.1 模塊的導入和使用
2.4.2 常用內置模塊
2.5 綜合案例
拓展與練習
第3章 數組的統計分析
3.1 創建數組對象
3.1.1 創建一維數組
3.1.2 創建二維數組
3.2 屬性和切片
3.2.1 常用屬性
3.2.2 切片
3.3 常用函數
3.3.1 數學函數
3.3.2 統計函數
3.4 綜合案例
拓展與練習
第4章 數據清洗與統計
4.1 數據採集
4.1.1 數據來源概述
4.1.2 簡單爬蟲示例
4.2 Pandas數據結構
4.2.1 Series對象
4.2.2 DataFrame數據
4.3 數據導入——基於Pandas庫
4.3.1 讀寫CSV文件和TXT文件
4.3.2 讀寫Excel文件
4.3.3 讀寫JSON文件
4.4 數據的清洗與預處理
4.4.1 缺失值處理
4.4.2 異常值檢測與處理
4.4.3 檢測與處理重複數據
4.4.4 數據轉換
4.5 數據的規整化
4.5.1 數據排序與索引
4.5.2 數據合併與連接
4.6 數據的統計分析
4.6.1 通用函數與運算
4.6.2 統計函數
4.6.3 相關性分析
4.7 綜合案例
拓展與練習
第5章 可視化數據挖掘
5.1 數據可視化基礎
5.1.1 Pandas數據可視化
5.1.2 Matplotlib繪圖基礎
5.2 繪製常用圖形
5.2.1 認識基本圖表類型
5.2.2 常用圖形繪製
5.3 動態互動式圖表
5.4 綜合案例
拓展與練習
第6章 Web應用框架
6.1 Python的Web開發
6.1.1 Web開發原理
6.1.2 框架和步驟
6.2 Flask框架
6.2.1 基礎應用
6.2.2 項目配置文件
6.3 Django框架
6.3.1 環境準備
6.3.2 基礎應用
6.4 綜合案例
拓展與練習
第7章 文本數據處理
7.1 文本處理概述
7.1.1 文本處理的常見任務
7.1.2 文本處理的基本步驟
7.2 中文文本處理
7.2.1 中文分詞
7.2.2 中文分詞庫Jieba
7.3 綜合案例
拓展與練習
第8章 機器學習
8.1 機器學習概述
8.1.1 機器學習與人工智慧
8.1.2 機器學習的分類
8.2 回歸模型
8.2.1 原理與實現
8.2.2 應用案例
8.3 分類模型
8.3.1 原理與實現
8.3.2 應用案例
8.4 聚類分析
8.4.1 原理與實現
8.4.2 應用案例
8.5 強化學習
8.5.1 原理與實現
8.5.2 應用案例
拓展與練習
第9章 大數據技術
9.1 大數據技術概述
9.1.1 大數據的概念
9.1.2