開放台灣民間租屋資料
近期公告
開放台灣租屋資料處理流程
寫出網路爬蟲,是一回事,但要能夠長期維運,並將它轉換為資料集,則完全是另一項工作。這篇文章將介紹我們如何處理開放台灣租屋資料(以下簡稱開租)的流程。
開租總共使用三組流程,並將中繼、最終資料,存在三種資料表中。
消除重複住宅邏輯更新
為了節省計算資源、簡化季度、年度資料處理流程,我們將從「使用 PostgresSQL 合併跨月資料」,改為「使用 ClickHouse local 合併跨月資料」。除了少數欄位名稱更改外,使用上並無其餘影響。
對新合併法有興趣者,歡迎參見合併原始碼。
2023 10 月資料更新異常情況解釋 (2023-01 號爬蟲錯誤)
我們在 10/06 ~ 10/26 期間,由於主機維護問題,導致爬蟲無法順利執行。