Sample và Population

Sample và Population

Khi bắt đầu học môn Quant, có một phần tôi luôn thắc mắc khi nói về Sample (mẫu) và Population (tạm dịch là tổng thể). Trong công thức tính Mean thì cả sample mean (thường được ký hiệu $\bar x$ ) và population mean (thường được ký hiệu μ) đều được chia cho n (với giả sử n là số lượng quan sát trong sample hoặc trong population).

Còn với standard deviation thì không như vậy, mẫu số của sample sd là (n-1) còn của population sd là n. Tại sao lại có phân biệt đối xử như vậy? 

Ok, tôi so sánh công thức tính độ lệch chuẩn (standard deviation – sd) của một population:

$$ \sigma\ =\ \sqrt{\frac{\sum_{i=1}^N \left(X_i\ –\ \mu_X\right)^2}{N}} $$

và độ lệch chuẩn của một sample :

$$ s\ =\ \sqrt{\frac{\sum_{i=1}^n \left(X_i\ –\ \bar X\right)^2}{n\ –\ 1}} $$

Hmm, có thể nhận ra ngay điểm khác biệt rõ rệt đó là mẫu số: với population là N, và với sample là (n-1). Vào ngày thi, khi áp lực là vô cùng lớn, 2 công thức này có thể rất dễ bị lẫn lộn. Và đương nhiên là, trong 3 đáp án các ông có thể khoanh sẽ bao gồm cả đáp án sai – đáp án sử dụng n thay vì (n-1) (hoặc tương tự thế).

Rõ ràng là tôi có thể học vẹt/thuộc lòng 2 công thức, nhưng mà tôi đã nói ở trên rồi, trong khi thi áp lực là rất kinh khủng; và nếu hiểu được bản chất (as people always say), sẽ dễ dàng hơn để tránh được những cái bẫy được đưa ra.

Vậy vì sao là n và (n-1) ?

Ý tưởng ở đây là tôi muốn trung bình của các phương sai của tất cả các sample có thể phải bằng phương sai của population. Như vậy tôi sẽ không “thiên vị” (bias). Để hiểu rõ hơn, tôi cho các ông ví dụ như sau nhé:

Giả sử có 3 lá bài với các giá trị 0, 2, 4. Như vậy:

$ Population\ mean = \frac{(0+2+4)}{3} = 2 $
$ Population\ variance =  \frac{(0-2)^2 + (2-2)^2 + (4-2)^2}{3} = \frac{8}{3} $

Bây giờ tôi xét tất cả những cách lấy các mẫu-có-2-phần-tử. Có 9 cách như vậy, và tôi có bảng sau:

Mẫu Trung bình mẫu Phương sai – mẫu số (n-1) Phương sai – mẫu số (n)
(0,0) 0 0 0
(0,2) 1 2 1
(0,4) 2 8 4
(2,0) 1 2 1
(2,2) 2 0 0
(2,4) 3 2 1
(4,0) 2 8 4
(4,2) 3 2 1
(4,4) 4 0 0

Có thể thấy:

Với mẫu số (n-1), trung bình của các phương sai của tất cả mẫu-2-phần-tử có thể là: (0+2+8+2+0+2+8+2+0)/9 = 24/9 = 8/3, bằng với phương sai của population.

Với mẫu số (n), trung bình của các phương sai của tất cả mẫu-2-phần-tử có thể là: (0+1+4+1+0+1+4+1+0)/9 = 12/9 = 4/3, khác với phương sai của population.

Và đó là lý do tại sao phải sử dụng (n-1) thay vì n khi tính phương sai/độ lệch chuẩn cho sample. Ý tưởng là để điều chỉnh cho những “thiên vị” (bias) khi chọn mẫu. Nếu tôi lấy 1 sample gồm 30 quan sát, rồi tính mean cho sample đó; sau đó lấy tiếp 30 quan sát khác, thì chỉ có 29 quan sát được phép tự do thay đổi nếu như muốn sample mean không đổi. Nói cách khác, sau khi lấy ngẫu nhiên 29 quan sát đầu tiên, chỉ có duy nhất 1 giá trị cho quan sát thứ 30 đưa lại giá trị sample mean như cũ. Như vậy, tôi đã mất 1 bậc tự do (1 degree of freedom). Số 1 này chính là điều chỉnh từ n thành (n-1).

(Nguồn tham khảo: http://nebula.deanza.edu/~bloom/math10/m10divideby_nminus1.pdf )

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.