跟大家宣佈一個好消息,以及一個壞消息 🥹
好消息是,機器人在停止運作四個月後,終於在 2024-09-08 正式復工,並完整爬取了 9 月的資料。
壞消息是,由於 591 持續調整網頁呈現技術,機器人在 2024-10-31 時,再次停止運作,目前尚未復原。
因此,開放台灣租屋資料,將再次暫停更新,直至 ddio 有空修復為止。這次的技術調整,還不確定解決方式,若有確切的復原時間,會再次通知大家。
很抱歉需要跟大家說明,由於 ddio 家中新生命降臨地球,加上 591 自 4 月開始,持續調整系統設定,導致爬蟲機器人,無法正常運作。因此,開放台灣租屋資料,將暫停更新,直至機器人與作者復原為止。目前已將已知的變動範圍,紀錄在 #176 ,若無太大意外,爬蟲會在九月時正式復工,十月則是復工後,首次完整月份的資料集釋出。
為了節省計算資源、簡化季度、年度資料處理流程,我們將從「使用 PostgresSQL 合併跨月資料」,改為「使用 ClickHouse local 合併跨月資料」。除了少數欄位名稱更改外,使用上並無其餘影響。
對新合併法有興趣者,歡迎參見合併原始碼。
由於591 改版的緣故,2021 的年度資料,也存在資料遺失的問題。但因為在 10 月爬蟲機器人修正後,有將所有資料重新更新一次,因此遺失的狀況,會比逐月、逐季資料還要輕微。以下將比對逐月、整年的資料集,並對照 2020 與 2021 兩年的差異,以提供遺失情況的線索。
由於影響 591 刊登物件數的變因很多,單純第比較跨月、跨年的數量,並沒有太多意義,因此本文所作的分析,以確認資料的性質為主。
封面圖片源自曼努製作的2020 台北捷運房租地圖,資料由 Jheng-Yu Lee 整理,資料原始出處來自這個資料集。
這半年因為各種忙,像是開始跳坑作居住議題的開源社群、幫忙 g0v 雙年會的一小部份網站,還有幾個組織的數位專案,租屋資料僅維持最低程度的運作,確定機器人有乖乖爬資料、空間足夠,但新出現的警告訊息,以及整理資料、放上網站,就和沒折的衣服一樣,一直拿不起力氣處理。