開放台灣租屋資料的機器人,已經修復至可以進行基本的資料爬取工作,並在十月期間,完成了初步的測試用資料集釋出。這份資料集,主要是為了讓使用者能夠在正式恢復每日更新前,先行體驗目前的資料狀況。
關於爬蟲錯誤說明、專案開發、衍生應用
機器人與作者復原中!
很抱歉需要跟大家說明,由於 ddio 家中新生命降臨地球,加上 591 自 4 月開始,持續調整系統設定,導致爬蟲機器人,無法正常運作。因此,開放台灣租屋資料,將暫停更新,直至機器人與作者復原為止。目前已將已知的變動範圍,紀錄在 #176 ,若無太大意外,爬蟲會在九月時正式復工,十月則是復工後,首次完整月份的資料集釋出。
消除重複住宅邏輯更新
為了節省計算資源、簡化季度、年度資料處理流程,我們將從「使用 PostgresSQL 合併跨月資料」,改為「使用 ClickHouse local 合併跨月資料」。除了少數欄位名稱更改外,使用上並無其餘影響。
對新合併法有興趣者,歡迎參見合併原始碼。
2021 年度資料修正推估
由於591 改版的緣故,2021 的年度資料,也存在資料遺失的問題。但因為在 10 月爬蟲機器人修正後,有將所有資料重新更新一次,因此遺失的狀況,會比逐月、逐季資料還要輕微。以下將比對逐月、整年的資料集,並對照 2020 與 2021 兩年的差異,以提供遺失情況的線索。
由於影響 591 刊登物件數的變因很多,單純第比較跨月、跨年的數量,並沒有太多意義,因此本文所作的分析,以確認資料的性質為主。
拖稿半年資料釋出,徵求自動化小幫手
封面圖片源自曼努製作的2020 台北捷運房租地圖,資料由 Jheng-Yu Lee 整理,資料原始出處來自這個資料集。
這半年因為各種忙,像是開始跳坑作居住議題的開源社群、幫忙 g0v 雙年會的一小部份網站,還有幾個組織的數位專案,租屋資料僅維持最低程度的運作,確定機器人有乖乖爬資料、空間足夠,但新出現的警告訊息,以及整理資料、放上網站,就和沒折的衣服一樣,一直拿不起力氣處理。
第 2019-02 號爬蟲錯誤說明
- 錯誤發生時間:
- 2019-10-17 ~ 2019-10-19 ,因為爬蟲工作產生方式的問題,製造太多重複而作不完工作,耗盡資料庫 CPU 資源,導致連續三日資料沒爬完
- 2019-10-20 開始爬蟲恢復正常