幫助中心 | 我的帳號 | 關於我們

尋路大數據(海量數據與大規模分析)

  • 作者:(美)馬諾切里|譯者:戴志偉//許楊毅//鄢博//陳冠誠
  • 出版社:電子工業
  • ISBN:9787121244728
  • 出版日期:2014/11/01
  • 裝幀:平裝
  • 頁數:215
人民幣:RMB 59 元      售價:
放入購物車
加入收藏夾

內容大鋼
    這是一個數據爆發的時代,更是一個數據技術爆發的時代,各行各業都在因此進行深刻的變革。如何從眾多的數據技術中選擇正確的工具、如何使用這些工具從海量數據中挖掘出有價值的東西,無疑是非常具有挑戰性的問題。
    《尋路大數據(海量數據與大規模分析)》作者馬諾切里結合自己在Google大數據平台工作的豐富經驗,闡述了數據技術的方方面面。從數據收集、共享到數據存儲,從分散式數據平台、分析型資料庫到數據可視化,從數據工作流構建到大規模數據分析,作者不僅進行了全面而深入的介紹,更覆蓋了目前流行的各種數據技術與工具,同時對技術選型提出了指導性的建議。最後,作者對數據挑戰的非技術因素進行了深刻的分析,並對數據技術的發展趨勢進行了展望,引人深思。
    本書對企業管理者、技術經理、數據分析師、數據應用開發人員和相關從業者都有很好的參考價值。決策者可以從中看到技術趨勢,把握時代發展脈搏;數據分析人員可以看到經驗的總結和工具的應用;其他從業者可以從中了解數據技術所涉及的各個方面。

作者介紹
(美)馬諾切里|譯者:戴志偉//許楊毅//鄢博//陳冠誠
    Michael Manoochehri 是個企業家、作家和樂觀主義者。憑借自己與企業、研究機構和非營利性機構多年的合作經驗,他力圖讓可擴展數據分析變得更加廉價和易獲取。Michael 是Google 雲平台開發者關係組的成員之一,關注云計算和數據開發者產品,例如Google BigQuery。此外,Michael 是技術博客ProgrammableWeb.com的作者之一,曾在烏干達農村地區研究行動電話的使用,擁有UC Berkeley 信息學院的信息管理與系統文學碩士學位。

目錄
第1部分  大數據時代指引
  第1章  數據成功四原則
    1.1  當數據成為一件「大」事
    1.2  數據和單台伺服器
    1.3  大數據的權衡
      1.3.1  構建可(限)擴展的解決方案
      1.3.2  構建可(在互聯網上)共享數據的系統
      1.3.3  構建解決方案,而非基礎設施
      1.3.4  關注從數據中解放價值
    1.4  大數據流水線剖析
    1.5  終極資料庫
    1.6  總結
第2部分  收集和共享海量數據
  第2章  托管和共享TB級原始數據
    2.1  文件之殤
      2.1.1  共享大量文件的挑戰
    2.2  存儲:基礎設施即服務
      2.2.1  網路很慢
    2.3  選擇合適的數據格式
      2.3.1  XML:數據,描述你自己
      2.3.2  JSON:程序員的選擇
    2.4  字元編碼
      2.4.1  文件轉換
    2.5  移動中的數據:數據序列化格式
      2.5.1  Apache Thrift和Protocol Buffers
    2.6  總結
  第3章  構建基於NoSQL的Web應用採集眾包數據
    3.1  關係型資料庫:命令及控制
      3.1.1  關係資料庫的ACID測試
    3.2  當關係型資料庫遇上互聯網
      3.2.1  CAP原理與BASE
    3.3  非關係型資料庫的模式
      3.3.1  鍵-值資料庫
      3.3.2  文檔存儲
    3.4  為寫入性能優化:Redis
    3.5  在多個Redis實例上分片
      3.5.1  使用Twemproxy自動分區
      3.5.2  Redis的替代選項
    3.6  NewSQL:Codd歸來
    3.7  總結
  第4章  解決數據孤島問題的策略
    4.1  堆滿術語的倉庫
      4.1.1  實踐中的問題
      4.1.2  數據合規與安全規劃
      4.1.3  走進數據倉庫
      4.1.4  數據倉庫的口訣:抽取、轉換和載入
    4.2  Hadoop:數據倉庫中的大象
    4.3  數據孤島也可能是個優點
      4.3.1  專註于數據問題,而不是技術
      4.3.2  鼓勵員工提出他們自己的問題

      4.3.3  投資溝通數據孤島的技術
    4.4  融合:數據孤島的終結
      4.4.1  Luhn的商業智能系統是否能成為現實
    4.5  總結
第3部分  數據探究
  第5章  使用Hadoop、Hive和Shark探索大規模數據集
    5.1  什麼是數據倉庫
    5.2  Apache Hive:在Hadoop上進行互動式查詢
      5.2.1  Hive用例
      5.2.2  Hive實戰
      5.2.3  在Hive中使用其他數據源
    5.3  Shark:以內存的速度進行查詢
    5.4  雲中的數據倉庫
    5.5  總結
  第6章  使用Google Big Query構建數據信息中心
    6.1  分析型資料庫
    6.2  Dremel:均貧富
      6.2.1  Dremel與Map Reduce的不同之處
    6.3  Big Query:數據分析即服務
      6.3.1  Big Query的查詢語言
    6.4  建造自己的大數據信息面板
      6.4.1  授權訪問Big QueryAPI
      6.4.2  運行查詢並獲取結果
      6.4.3  緩存查詢結果
      6.4.4  添加可視化圖形
    6.5  分析型查詢引擎的未來
    6.6  總結
  第7章  探索大數據的可視化策略
    7.1  警世良言:將數據翻譯成故事
    7.2  人類尺度VS機器尺度
      7.2.1  交互性
    7.3  開發互動式數據應用
      7.3.1  使用R和ggplot2實現互動式可視化
      7.3.2  matplotlib:Python的2D圖形庫
      7.3.3  D3.js:用於Web的互動式可視化庫
    7.4  總結
第4部分  構建數據流水線
  第8章  整合:Map Reduce數據流水線
    8.1  數據流水線是什麼
      8.1.1  正確的工具
    8.2  使用Hadoop Streaming搭建數據流水線
      8.2.1  Map Reduce和數據轉換
      8.2.2  最簡單的流水線:stdin到stdout
    8.3  單步Map Reduce變換
      8.3.1  從原始NVSS數據中抽取相關信息:map階段
      8.3.2  合計每月出生數:reducer階段
      8.3.3  在本地測試Map Reduce流水線
      8.3.4  在Hadoop集群上運行我們的Map Reduce作業
    8.4  降低複雜性:Hadoop上Python的Map Reduce框架
      8.4.1  使用mrjob重寫Hadoop Streaming示例

      8.4.2  建造一個多步流水線
      8.4.3  在Elastic Map Reduce上運行mrjob腳本
      8.4.4  其他基於Python的Map Reduce框架
    8.5  總結
  第9章  使用Pig和Cascading構建數據轉換工作流
    9.1  大規模數據工作流實戰
    9.2  多步Map Reduce轉換真複雜
      9.2.1  ApachePig:拒絕複雜
      9.2.2  使用互動式Grunt shell運行Pig
      9.2.3  過濾和優化數據工作流
      9.2.4  以批處理模式運行Pig腳本
    9.3  Cascading:構建健壯的數據工作流應用
      9.3.1  以source和sink的方式思考
      9.3.2  構建Cascading應用
      9.3.3  創建一個Cascade:一個簡單的JOIN例子
      9.3.4  在Hadoop集群上部署Cascading應用
    9.4  何時選擇Pig或Cascading
    9.5  總結
第5部分  基於大規模數據集的機器學習
  第10章  使用Mahout構建數據分類系統
    10.1  機器能否預測未來
    10.2  機器學習的挑戰
      10.2.1  貝葉斯分類
      10.2.2  聚類
      10.2.3  推薦引擎
    10.3  Apache Mahout:可伸縮的機器學習工具
      10.3.1  使用Mahout進行文本分類
    10.4  MLbase:分散式機器學習框架
    10.5  總結
第6部分  基於大規模數據集的統計分析
  第11章  使用R語言處理大數據集
    11.1  統計學為什麼性感
      11.1.1  R處理大型數據集的局限性
      11.1.2  R的數據幀和矩陣
    11.2  處理大數據集的策略
      11.2.1  大矩陣處理:bigmemory和biganalytics
      11.2.2  ff:使用大於內存的數據幀
      11.2.3  biglm:大規模數據集的線性回歸
      11.2.4  RHadoop:使用R訪問ApacheHadoop
    11.3  總結
  第12章  使用Python和Pandas構建分析工作流
    12.1  數據樂園中自在的蟒蛇——Python
      12.1.1  為統計性計算選擇一門語言
      12.1.2  擴展現有代碼
      12.1.3  工具和測試
    12.2  用於數據處理的Python庫
      12.2.1
      12.2.2  SciPy:Python的科學計算庫
      12.2.3  數據分析庫Pandas
    12.3  構建更複雜的工作流

      12.3.1  處理損壞或丟失的記錄
    12.4  iPython:科學計算工具鏈的最後一環
      12.4.1  在集群上並行執行iPython
    12.5  總結
第7部分  展望未來
  第13章  何時選擇自製、購買或外包
    13.1  功能重合的解決方案
    13.2  理解你的數據問題
    13.3  自製還是購買問題的參考手冊
      13.3.1  你已經對哪些技術有所投入
      13.3.2  從小處著手
      13.3.3  規劃時考慮可擴展性
    13.4  私人數據中心
    13.5  了解開源的成本
    13.6  一切皆服務
    13.7  總結
  第14章  未來:數據科技的幾個趨勢
    14.1  Hadoop:攪局者與被攪局者
    14.2  一切皆在雲中
    14.3  數據科學家的興衰
    14.4  融合:終極資料庫
    14.5  文化融合
    14.6  總結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032