我們在 10/06 ~ 10/26 期間,由於主機維護問題,導致爬蟲無法順利執行。
從 10/06 到 10/26 日期間,由於主機硬碟空間額滿,無法寫入執行紀錄(log),因此造成爬蟲中斷執行。雖然從 10/27 開始,爬蟲有順利恢復執行,但比較歷年同期資料後,推估有以下兩點影響:
- 十月實際物件數量,會較資料集的為多,如果有物件是在 10/06 後刊登,但在 10/26 前下架,則該物件不會出現在資料集中。
- 十月物件的更新時間,會較資料集的為晚,如果有物件是在 10/06 後更新,且在 10/26 後沒有再更新,則該物件的更新時間會是錯誤的。
由於目前主機空間不大,硬碟大約兩個月左右,就需要清理。若有興趣,協助自動化清理主機空間的工作,歡迎到 GitHub 提供協助。