開放台灣民間租屋資料
近期公告
機器人短暫回歸(然後又倒了)
跟大家宣佈一個好消息,以及一個壞消息 🥹
好消息是,機器人在停止運作四個月後,終於在 2024-09-08 正式復工,並完整爬取了 9 月的資料。
壞消息是,由於 591 持續調整網頁呈現技術,機器人在 2024-10-31 時,再次停止運作,目前尚未復原。
因此,開放台灣租屋資料,將再次暫停更新,直至 ddio 有空修復為止。這次的技術調整,還不確定解決方式,若有確切的復原時間,會再次通知大家。
機器人與作者復原中!
很抱歉需要跟大家說明,由於 ddio 家中新生命降臨地球,加上 591 自 4 月開始,持續調整系統設定,導致爬蟲機器人,無法正常運作。因此,開放台灣租屋資料,將暫停更新,直至機器人與作者復原為止。目前已將已知的變動範圍,紀錄在 #176 ,若無太大意外,爬蟲會在九月時正式復工,十月則是復工後,首次完整月份的資料集釋出。
開放台灣租屋資料處理流程
寫出網路爬蟲,是一回事,但要能夠長期維運,並將它轉換為資料集,則完全是另一項工作。這篇文章將介紹我們如何處理開放台灣租屋資料(以下簡稱開租)的流程。
開租總共使用三組流程,並將中繼、最終資料,存在三種資料表中。