Quy trình kiểm định Kolmogorov-Smirnov hai mẫu

Đăng bởi Hoanglien vào

Kiểm định Kolmogorov – Smirnov hai mẫu được sử dụng để kiểm tra xem hai mẫu có đến từ cùng một phân phối hay không?

Giả sử rằng mẫu đầu tiên có kích thước m với hàm phân phối tích lũy quan sát là F ( x ) và mẫu thứ hai có kích thước n với hàm phân phối tích lũy quan sát được của G ( x ).

Định nghĩa:

Giả sử đồ thị của hàm WTTN (Màu đỏ) và hàm WSTN (Màu xanh)

Gọi: ${D_{m,n}} = {D_{{\rm{MAX}}}} = \mathop {\max }\limits_x \left| {{F_m}(x) – {G_n}(x)} \right|$

Cho m và n đủ lớn: ${D_{m,n,\alpha }}$ là giá trị tới hạn.

Giả thuyết không là H 0 : Cả hai mẫu đều đến từ một quần thể có cùng phân phối. Đối với phép thử Kolmogorov – Smirnov hai mẫu về tính quy tắc, Chúng tôi bác bỏ giả thuyết không (ở mức ý nghĩa α ) nếu m, n= Dmax > D m, n, α trong đó m, n, α  là giá trị tới hạn.

  1. Tìm Dmax

Lập bảng Tần suất tích lũy (Phân phối tích lũy) như bảng sau trong EXCEL.

Trong đó:

Cột D chứa phân phối tích lũy cho TTN (dựa trên cột B), cột E chứa phân phối tích lũy cho STN và cột F chứa giá trị tuyệt đối của hiệu các cột D và E.

Cụ thể:

– Cột D, ô D3 chứa công thức = B3 / B8, ô D4 chứa công thức = B4 / B8 + D3; ô D5 chứa công thức =B5/B8+D4;…

– Tương tự cột D cho cột E.

– Cột F, ô F3 chứa công thức = ABS (D3-E3); F4 chứa công thức=ABS(D4-F4);…

– Ô F9 chứa công thức = max (F3:F7).

– Ô F10 là giá trị Dm,n,α được tính ở mục 2 sau.

Vậy: Dmax=giá trị ô F9.

  1. Tính ${D_{m,n,\alpha }}$

a) Trường hợp 1: m,n có trong bảng Kolmogorov – Smirnov hai mẫu;

${D_{m,n,\alpha }} = \frac{{c(\alpha )}}{{m.n}}$ Với c(α) được tra bảng với giá trị α, dòng m, cột n tương ứng.

Ví dụ: m=10, n=15, α=0,05

=>c(0.05)=80; ${D_{10,15,0.05}} = \frac{{80}}{{10.15}} = 0,5333$.

Bảng Kolmogorov – Smirnov hai mẫu 

b) Trường hợp 2: m, n lớn vượt quá bảng Kolmogorov – Smirnov hai mẫu.

Ta có: ${D_{m,n,\alpha }} = c(\alpha ).\sqrt {\frac{{m + n}}{{m.n}}} $

Trong đó: c(α) là số cuối cùng của tử số trong bảng Kolmogorov – Smirnov  một mẫu dưới đây.

Bảng Kolmogorov – Smirnov một mẫu

 

Ví dụ: Giả sử:  m=195; n=198; α=0.05 =>c(α)=1.35810.

Với m=195, n=198 thì   ${D_{m,n,\alpha }} = {D_{195,198,0.05}} = 1.3581.\sqrt {\frac{{195 + 198}}{{195.198}}} = 0.1360$

3. Thực hành kiểm định Kolmogorov – Smirnov hai mẫu

Giả sử ta có hai phân phối tích lũy (như bảng sau).

Từ bảng trên ta có Dmax=0,3102.

Sử dụng kiểm định Kolmogorov-Smirnov hai mẫu, với mức α = 0,05 .

Tra bảng Kolmogorov – Smirnov với: m = 195;n=198, cho ta kết quả là:

C(α) =1,3581=> ${D_{m,n,\alpha }} = c(\alpha )\sqrt {\frac{{m + n}}{{mn}}} = 1.3581\sqrt {\frac{{195 + 198}}{{195.198}}} = 0.1360$

=> Dm,n,α =0.1360 <Dmax= 0,3302; với mức ý nghĩa sai số 5%

Do đó, giả thuyết H0 bị bác bỏ.

Ta có biểu đồ tần suất tích lũy như sau:

Đánh giá:  Biểu đồ Phân phối WSTN nằm phía bên phải biểu đồ phân phối WTTN. Do vậy phân phối WSTN tốt hơn phân phối WTTN với mức ý nghĩa  95%.

Chúc các bạn thành công.

Nguồn: http://www.real-statistics.com, http://www.real-statistics.com

Translator-Dịch »