loading
cover

JavaScript爬蟲新思路!從零開始帶你用Node.js打造FB & IG爬蟲專案(iT邦幫忙鐵人賽系列書)

點閱數

作者
林鼎淵

出版社
博碩文化

格式
PDF

本書內容改編自第12屆 iT 邦幫忙鐵人賽,AI&Data 組佳作網路系列文章──
《行銷廣告、電商小編的武器,FB & IG 爬蟲專案從零開始 》

 你知道 JavaScript 不僅能寫網頁還能夠爬蟲嗎?
 你受夠像機器人般蒐集資料的生活嗎?
 從新手村畢業的朋友想知道一個專案是如何進行的嗎?
 PM 們想知道工程師面對問題時在想什麼嗎?

 想知道這些答案嗎?想知道的話可以全部都給你。
 閱讀吧!我把所有的解答都放在書裡了!

【書籍特色】

從零開始!手把手建置 Mac/Windows 的專案環境

 擋住學習熱情的不是困難的工具,而是屢戰屢敗的環境建置!
 除了 step by step 帶你安裝環境,更讓你掌握每個工具的用途與原理。

循序漸進!每個章節都是一個里程碑

 每個章節都有明確的學習目標,讓讀者在閱讀與實作的過程中成長;
 並透過實務上的議題,培養獨立思考能力。

整合技術!完成屬於自己的爬蟲專案

 從架構上全面著手,提供多種解決問題的思路,打造擴充性強大的系統。
 透過需求訪談,你將發現──只有爬蟲技術是無法完善整個專案的!
 儲存資料的容器、定時執行的排程與爬蟲完成後的通知都是不可或缺的一環。
  Node.js x Selenium x Google Sheets x Schedule x LINE Notify

最後,習得爬蟲技能的你

 1. 向機械化的操作 Say Goodbye ~
 2. 蒐集海量資料不再是苦差事
 3. 比別人擁有更多技能優勢
林鼎淵(Dean Lin)

待過專業的接案公司、也有獨立接案的經驗,這本書教的是從談需求到真實商業環境的程式開發,可以讓讀者接地氣的學習。
筆者擁有5年的全端開發經驗,熟悉 Vuetify、Node.js、Laravel 等前後端技術;同時也兼職公司內部伺服器管理與 Gitlab 架設部署等相關任務。
除了精進工作上的技術外,也會研究新的技術領域;在2019年出於對魔術的愛好, 學習並運用 React Native 開發了能在行動裝置 Android/iOS 運行的魔術 APP。
在空閒時會與朋友交流 idea,碰上有趣的想法就會研究相關技術並將其寫成 Side Project,像本書的爬蟲技術就是為了幫朋友解決工作遇到的困擾而研究的。
不僅對技術充滿熱情,更會將自身的經驗分享到部落格上,希望可以幫助遇到相同問題的人:
https://medium.com/dean-lin
PART 1 先了解專案需求,再思考如何實作
01 需求訪談
02 撰寫需求規格書
PART 2 開發前環境介紹&設定
03 開發前環境介紹&設定
PART 3 寫程式所需的基礎常識(Node.js)
04 寫程式時該注意的基本原則
05 認識Node.js專案
06 用Yarn安裝及控管套件
07 善用「.env」管理環境變數,幫你快速遷移專案
08 在「.gitignore」設定不加入版控的資料
PART 4 用selenium-webdriver爬蟲網頁資訊
09 爬蟲之前
10 認識selenium-webdriver,操作所見即所得的爬蟲工具
11 爬蟲第一步,FB先登入
12 關閉干擾爬蟲的彈窗,取得FB粉專追蹤數
13 舉一反三,帶你了解IG爬蟲不可忽略的細節
14 合體吧!用一隻程式搞定FB、IG爬蟲
15 重構程式碼,減少歷史業障
16 用try-catch捕獲爬蟲過程發生的錯誤
17 json x爬蟲=瑣事自動化
18 驗證json的內容是否符合格式
19 優化爬蟲的小技巧
20 學會爬蟲,之後呢?
PART 5 使用Google Sheets儲存爬蟲資訊
21 免費儲存資料的好選擇,一起進入省錢起手式
22 了解官方範例在做什麼事
23 你在文件迷路了嗎?用兩個處理Sheet的範例帶你攻略官方文件
24 寫入爬蟲資料,告別Copy & Paste的日子
25 客戶:「爬蟲資料塞錯位置!」專案被報Bug的處理方式
26 客戶:「我希望新資料插在最前面!」如何談需求變更
27 優化格式,滿足客戶需求 & 談使用者體驗
PART 6 設定排程自動執行爬蟲程式
28 用Schedule套件讓爬蟲自己動起來
29 用 pm2套件來控管Node.js排程,背景執行才是王道!
30 今天爬蟲怎麼沒有跑?來試試系統內建的排程吧!
PART 7 透過LINE回報爬蟲狀況
31 透過POSTMAN了解LINE Notify如何使用
32 用axios發出LINE通知
33 整合LINE的爬蟲通知,專案大功告成!