寫出網路爬蟲,是一回事,但要能夠長期維運,並將它轉換為資料集,則完全是另一項工作。這篇文章將介紹我們如何處理開放台灣租屋資料(以下簡稱開租)的流程。
開租總共使用三組流程,並將中繼、最終資料,存在三種資料表中。
為了節省計算資源、簡化季度、年度資料處理流程,我們將從「使用 PostgresSQL 合併跨月資料」,改為「使用 ClickHouse local 合併跨月資料」。除了少數欄位名稱更改外,使用上並無其餘影響。
對新合併法有興趣者,歡迎參見合併原始碼。
由於591 改版的緣故,2021 的年度資料,也存在資料遺失的問題。但因為在 10 月爬蟲機器人修正後,有將所有資料重新更新一次,因此遺失的狀況,會比逐月、逐季資料還要輕微。以下將比對逐月、整年的資料集,並對照 2020 與 2021 兩年的差異,以提供遺失情況的線索。
由於影響 591 刊登物件數的變因很多,單純第比較跨月、跨年的數量,並沒有太多意義,因此本文所作的分析,以確認資料的性質為主。
封面圖片源自曼努製作的2020 台北捷運房租地圖,資料由 Jheng-Yu Lee 整理,資料原始出處來自這個資料集。
這半年因為各種忙,像是開始跳坑作居住議題的開源社群、幫忙 g0v 雙年會的一小部份網站,還有幾個組織的數位專案,租屋資料僅維持最低程度的運作,確定機器人有乖乖爬資料、空間足夠,但新出現的警告訊息,以及整理資料、放上網站,就和沒折的衣服一樣,一直拿不起力氣處理。