2026年2月1日 星期日

全自動撈取「疾病照護品質認證」合格效期內之醫院名單

醫策會目前已推出18項「精緻商品」供各醫療機構「選購」。
內容出處:健康照護推薦

圖片 20260131215451
全自動收集網站目標內容的過程擷圖

以腦中風這項商品為例,點入後為以下畫面。

該頁面拉到底後,如下:


我現在想把這18項疾病認證商品內容全部下載,下載內容為疾病類別、醫院名稱、合格效期日期區間。所以撰寫python程式碼時,先到第一個疾病別頁面撈出我要的內容,接下來偵測是否有下一頁,若有就進下一頁繼續撈,若無就跳到下一個疾病別繼續撈,最後把所有的疾病別全部撈完。

剛開啟時,我選擇將每一疾病別和其網址用python { }字典打包,再用for in迴圈逐項疾病撈取目標值,日後官網若有「新商品上架」或「舊商品下架」,我只要補入該元素即可,字典內每一元素由鍵和值組成。在此例,鍵就是疾病別,值就是網址。而最後撈得的資料透過openpyxl模組內的workbook函數放入單一xlsx檔並依不同疾病別放入不同的工作表。每一疾病別內的醫療機構再算出「剩餘效期」並以小至大排序。整個過程切割成眾多小目標,這些小目標均用自定義函數(def)逐項依序完成,最後再綜整出xlsx檔。

至於如何讓程式碼知道要撈哪一個內容,這是我的know how,是觀察網頁html碼後歸納出來的方法(觀察>找關鍵內容藏身處>找變化邏輯>測試假設規則>驗證>形成初步規則>寫少量程式碼try>成功後再寫正式版程式碼大量撈。這不是用AI就能跨過去的檻)。

以下影片呈現全自動化網站目標內容蒐集流程,執行時間約 13 分鐘。程式碼執行後無需理會,它除了自動擷取網站資料,也一併計算各項認證各醫院之剩餘效期,結果檔xlsx將輸出至指定目錄。
疾病認證效期內醫院清單(示範靠Python全自動化資料撈取)

沒有留言: