先帶入2個專有名詞。
聚類分析:用在事先不知道類別的情況下,完全按照反映對象特徵的數據將對象進行分類。
判別分析:是基於已知分類的樣本建立判別函數,再對未知類別的大量個體歸屬於哪個類別進行判別。
所以聚類分析是一種沒有類別信息可參考的情況下,利用
距離或相似性係數將一個集合劃分成若干個子集的過程,它是種監督式的學習過程。相關前述粉紅色內容,通常具有多個變項供軟體綜合判定,但也可能只有一個變項可供軟體判定,故接下來,本文章將聚焦在後者,如果你只有一個連續性的變項(即下例中的x),該如何分類?
===以上是版大集中腦力寫出來的段落,然為節省體內能量,以下段落寫法會較隨性===
版大先以2個迴圈產生2批虛擬資料,其描述性統計值設定如下:
data test;
grp=1; /*
平均數0 標準差0.5,共有100筆觀察值,批數grp=1*/
do i=1 to 100;
x=0+0.5*rannor(1234);
output;
end;
grp=2; /*
平均數3 標準差1,共有200筆觀察值,批數grp=2*/
do i=1 to 200;
x=3+1*rannor(1234);
output;
end;
run;
... ...