幫助中心 | 我的帳號 | 關於我們

社交媒體數據挖掘與分析/數據科學與工程技術叢書

  • 作者:(美)加博爾·薩博//格爾·波拉特坎//P.奧斯卡·柏金//(英)安東尼奧斯·查基奧普洛斯|責編:梁華傑|譯者:李凱//呂天陽
  • 出版社:機械工業
  • ISBN:9787111643685
  • 出版日期:2020/01/01
  • 裝幀:平裝
  • 頁數:219
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書由工作在大規模社交媒體數據處理一線的研發人員撰寫,旨在以更為友好、基礎、實用的方式幫助你理解在線社交媒體。本書圍繞著如何探索和理解社交媒體系統的基本組成部分進行組織,從用戶角度深入剖析收集和應用社交媒體數據的機制,並通過建立在真實數據集上的代碼及分析案例詳細闡述相關數據挖掘方法、技術和工具。
    全書共7章,第1章介紹典型用戶在社交媒體服務上的行為及其在不同服務中的普遍相似性;第2章主要討論創造了社交網路的用戶之間的連接;第3章主要探討時間在社交系統中所扮演的角色,並且介紹幫助你理解其作用的工具;第4章回顧自然語言處理技術;第5章介紹分析大型數據集的挑戰;第6章展示如何用機器學習技術預測人們喜歡哪類電影,並對預測結果進行評估;第7章由淺入深地分析全書中用於分析不同問題的通用統計模式,以及如何使用類似的分析技術去理解它們。

作者介紹
(美)加博爾·薩博//格爾·波拉特坎//P.奧斯卡·柏金//(英)安東尼奧斯·查基奧普洛斯|責編:梁華傑|譯者:李凱//呂天陽

目錄
譯者序
前言
致謝
作者簡介
技術編輯簡介
第1章  用戶:誰參與社交媒體
  1.1  測量Wikipedia中用戶行為的變化
    1.1.1  用戶活動的多樣性
    1.1.2  人類活動中的長尾效應
  1.2  隨處可見的長尾效應:80/20定律
  1.3  Twitter上的在線行為
    1.3.1  檢索用戶的Tweet
    1.3.2  對數分區
    1.3.3  Twitter上的用戶活動
  1.4  總結
第2章  網路:社交媒體如何運行
  2.1  社交網路的類型和屬性
    2.1.1  用戶何時創建連接:顯式網路
    2.1.2  有向圖與無向圖
    2.1.3  節點和邊的屬性
    2.1.4  加權圖
    2.1.5  由活動構建圖:隱式網路
  2.2  網路可視化
  2.3  度:贏家通吃
    2.3.1  連接計數
    2.3.2  用戶連接的長尾分佈
    2.3.3  理想網路模型
  2.4  捕獲相關:三角結構、簇和同配性
    2.4.1  局部三角結構和簇
    2.4.2  同配性
  2.5  總結
第3章  時序過程:用戶何時使用社交媒體
  3.1  傳統模型如何描述事件發生的時間
  3.2  事件間隔時間
    3.2.1  與無記憶過程的對比
    3.2.2  自相關
    3.2.3  與無記憶過程的偏離
    3.2.4  用戶活動中的時間周期
  3.3  個體行為的爆發
  3.4  預測長期指標
    3.4.1  發現趨勢
    3.4.2  發現季節性
    3.4.3  利用ARIMA預測時間序列
  3.5  總結
第4章  內容:社交媒體中有什麼
  4.1  定義內容:聚焦于文本和非結構數據
    4.1.1  從文本生成特徵:自然語言處理基礎
    4.1.2  文本中詞條的基本統計
  4.2  使用內容特徵識別主題
    4.2.1  話題的流行度

    4.2.2  用戶個體興趣有多麼多樣化
  4.3  從高維文本中抽取低維信息
  4.4  總結
第5章  處理大型數據集
  5.1  MapReduce:組織並行和串列操作
    5.1.1  單詞計數
    5.1.2  偏斜:后一個Reducer的詛咒
  5.2  多階段MapReduce流
    5.2.1  扇出
    5.2.2  歸併數據流
    5.2.3  連接兩個數據源
    5.2.4  連接小數據集
    5.2.5  大規模MapReduce模型
  5.3  MapReduc程序設計模式
    5.3.1  靜態MapReduce作業
    5.3.2  迭代MapReduce作業
    5.3.3  增量MapReduce作業
    5.3.4  時間相關的MapReduce作業
    5.3.5  處理長尾分佈社交媒體數據的挑戰
  5.4  抽樣和近似:以較少計算得到結果
    5.4.1  HyperLogLog
    5.4.2  Bloom過濾器
    5.4.3  Count-Min Sketch
  5.5  在Hadoop集群上運行
    5.5.1  在Amazon EC2上安裝CHD集群
    5.5.2  為合作者提供IAM存取
    5.5.3  根據需要增加集群處理能力
  5.6  總結
第6章  學習、映射和推薦
  6.1  在線社交媒體服務
    6.1.1  搜索引擎
    6.1.2  內容參與
    6.1.3  與現實世界的互動
    6.1.4  與人的互動
  6.2  問題闡述
  6.3  學習和映射
    6.3.1  矩陣分解
    6.3.2  學習和訓練
    6.3.3  電影評分示範
  6.4  預測與推薦
    6.4.1  評估
    6.4.2  方法概述
  6.5  總結
第7章  結論
  7.1  人類互動模式出乎意料的穩定性
  7.2  均值、標準差和抽樣
  7.3  移除異常值

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032