黃新智生活筆記: Python爬蟲程式碼自動抓股票交易數據+自動抓醫策會TCPI指標個別群組報表

我執行Python程式碼慣用的IDE軟體 Spyder (免費軟體)

[Python]Spyder IDE 5.5 繁體中文語言套件，以及一些 Spyder 的操作說明 | Vixual

若要執行大專案，推薦使用Spyder。

Python 執行平台比較

Spyder軟體的獲得，建議由Anaconda Navigator途徑下載 Download Anaconda Distribution | Anaconda，不要至Spyder官網獨立安裝(套件和路徑日後維護易有問題且版本更新也有問題，一言難盡，我一堆怨言)。

獨立安裝的下載處（如果不信邪的話，Pleeeeeeeease~） Spyder | The Python IDE that scientists and data analysts deserve

獨立安裝的Spyder (可看見standalone，若是透過Anaconda途徑安裝，此處為conda，見本文章首張圖)

Spyder也有 online模式

若有安裝Anaconda，也可將Python部份功能引入POWER BI軟體中使用。

Anaconda平台(紅框為我有興趣的軟體)

PyCharm有一大票資訊工程師支持，但我不愛(我愛的是PyCharm Pro,但要每年訂閱繳錢, 科科, 我用Spyder就好，但你若打算用python開發web，PyCharm會是一個得心應手的好軟體)。而Spyder則有一大票資料分析科學家使用(~~因為我也是資料分析科學家，也是統計分析師，但領行政人員的薪水，不是工程師等級的薪資~~)。而Orange軟體很有趣，藉點按拖拉放方式完成分析和製圖。軟體會把你的操作轉成Python程式碼(SAS Enterprise Guide(EG)和SAS Studio也是如此，所有操作即時轉化成SAS程式碼)，再去執行該程式，而你也可直接寫程式執行所有工作。軟體界面如下：

下圖為葡萄酒品系分析用變項，呈現軟體「特徵統計」功能。

流程圖，似SAS EG。

SAS EG 流程圖 (我喜歡這種嚴肅風格,這案子是我10幾年前練習用的，素材取自SAS訓練資料庫)

SAS Studio 流程圖(近期教醫務管理系實習生操作的案例，素材取自SAS訓練資料庫)

都有SAS EG了，為何舊有的SAS軟體曝光率還這麼高？

因為運行速度最快(因為它省略了很多對新手友善的功能(ex:下code的建議與提醒等))。執行大專案時，其顯著差異性就會出來。

而也唯有靠code，才能榨出SAS軟體功力。很多功能與細節調整無法靠點案拖拉方式設定。

＝＝＝＝＝＝＝＝＝＝＝＝開始進入文章主題＝＝＝＝＝＝＝＝＝＝＝＝

A.自動化下載數支股票於某日期區間內相關交易數據

A流程描述

1.啟動網頁瀏覽器(我慣用Edge)

2.開啟台灣證券交易所網站個股日成交資訊

3.選民國112年，再選01月，打入股票代碼2308，按查詢鍵，結果如下

順道一提，這股票一張不到30萬，CP值很高(我不能再說了，懂的人就懂)。

4.把查詢到的所有數據用Excel檔存起來。

這時可發現，若要下載36個月進行事後的序列分析，你得重複操作36遍，並執行36遍的複製和貼上至Excel上。若你要下載30支股票進行事後的序列相似性分析或關聯性分析，就得30*36=1080遍。

接下來只要寫一段程式碼，就可以把這樣的流程自動化。程式碼選取再按執行，就可以去廚房切水果倒飲料，回到座位時，你要的Excel檔已放在指定的資料夾中。

B流程補充說明

1.程式碼於Spyder的畫面

2.抓資料。上紅框為table標題，下紅框為table數據。透過多層迴圈將標題與一列列數據全數打包進串列中。最後再透過append函數將串列塞入Workbook物件並以save函數存成Excel檔。

filename = f"{stockid}.xlsx"

wb.save(filename)

print(f"已完成Excel檔===> {filename}")

3.全部執行完畢

4.已下載的Excel檔

連每一欄位名稱末端都掛上 _股票代號，一律靠程式碼自動加掛。

header = [f"{th.text.strip()}_{stockid}" for th in th_tags if th.text.strip()]

th_tags則靠find_elements其By.TAG_NAME去掃HTML碼的<th>標籤，它代表html table的欄位名稱。

5.所有Excel檔最後進SAS透過Proc Similarity執行序列相似性分析的結果(此為另一案，此僅說明可以這樣上下游串接分析流)。交易相關數據這樣抓，而營收、毛利、營業利益、稅後淨利、ROE、EPS等相關指標也這樣抓，就可合併在同一dataset上，最後以計量經濟學的時間序列分析法，看多時間序列彼此間的關聯性(通常折線圖畫出來，大概就能經驗判斷能不能下手，很少會走到統計分析這步)等。而美國聯準會政策、商業新聞以及產業資訊(ex: 廠商主攻技術與產品及其在市場上的話語權(ex: 價錢幾乎他說了算, 具有定訂該領域遊戲規則的能耐)等)都必須知道。此外，經濟學上重要指標(ex: GDP, CPI, PPI, PMI等約8-10個 )也都要懂，否則買ETF會較適合你。然後，我覺得EPS達標速度也可自設指標衡量，例如以前2024年整年12.5元，但2025年才8月已達12元，這就是訊號。但你的樣本量得納入更多的計算，不能只看2024年。另外，超過多少才算值得下手，細節怎麼算及如何衡量，我不會細講，每人都有各自的獨門功夫與公式祕方。最後再說一點，要看得懂錢往哪裡跑，跟著主力準沒錯，只有資金流不會騙人。那些技術分析(ex: KD, MACD等)或裸K分析(ex: 五波三浪等波浪理論)，不知是我道行太淺或資質不足，總覺得沒什麼用。若相信這些東西，上場鐵定被海浪捲走。