黃新智生活筆記: 全自動撈取「疾病照護品質認證」合格效期內之醫院名單

2026年2月1日星期日

全自動撈取「疾病照護品質認證」合格效期內之醫院名單

醫策會目前已推出18項「精緻商品」供各醫療機構「選購」。

內容出處：健康照護推薦

全自動收集網站目標內容的過程擷圖

以腦中風這項商品為例，點入後為以下畫面。

該頁面拉到底後，如下：

我現在想把這18項疾病認證商品內容全部下載，下載內容為疾病類別、醫院名稱、合格效期日期區間。所以撰寫python程式碼時，先到第一個疾病別頁面撈出我要的內容，接下來偵測是否有下一頁，若有就進下一頁繼續撈，若無就跳到下一個疾病別繼續撈，最後把所有的疾病別全部撈完。

剛開啟時，我選擇將每一疾病別和其網址用python { }字典打包，再用for in迴圈逐項疾病撈取目標值，日後官網若有「新商品上架」或「舊商品下架」，我只要補入該元素即可，字典內每一元素由鍵和值組成。在此例，鍵就是疾病別，值就是網址。而最後撈得的資料透過openpyxl模組內的workbook函數放入單一xlsx檔並依不同疾病別放入不同的工作表。每一疾病別內的醫療機構再算出「剩餘效期」並以小至大排序。整個過程切割成眾多小目標，這些小目標均用自定義函數(def)逐項依序完成，最後再綜整出xlsx檔。

至於如何讓程式碼知道要撈哪一個內容，這是我的know how，是觀察網頁html碼後歸納出來的方法(觀察＞找關鍵內容藏身處＞找變化邏輯＞測試假設規則＞驗證＞形成初步規則＞寫少量程式碼try＞成功後再寫正式版程式碼大量撈。這不是用AI就能跨過去的檻)。

以下影片呈現全自動化網站目標內容蒐集流程，執行時間約 13 分鐘。程式碼執行後無需理會，它除了自動擷取網站資料，也一併計算各項認證各醫院之剩餘效期，結果檔xlsx將輸出至指定目錄。

↓ Flickr頁面疾病認證效期內醫院清單(示範靠Python全自動撈取資料) | 大貓黃 | Flickr