Sample và Population

Khi bắt đầu học môn Quant, có một phần mình luôn thắc mắc khi nói về Sample (mẫu) và Population (tạm dịch là tổng thể). Trong công thức tính Mean thì cả sample mean (thường được ký hiệu $\bar x$ ) và population mean (thường được ký hiệu μ) đều được chia cho n (với giả sử n là số lượng quan sát trong sample hoặc trong population).

Còn với standard deviation thì không như vậy, mẫu số của sample sd là (n-1) còn của population sd là n. Tại sao lại như vậy ? Trong post này chúng ta sẽ đi tìm hiểu nguyên nhân.

Chúng ta so sánh công thức tính độ lệch chuẩn (standard deviation – sd) của một population:

$$ \sigma\ =\ \sqrt{\frac{\sum_{i=1}^N \left(X_i\ –\ \mu_X\right)^2}{N}} $$

và độ lệch chuẩn của một sample :

$$ s\ =\ \sqrt{\frac{\sum_{i=1}^n \left(X_i\ –\ \bar X\right)^2}{n\ –\ 1}} $$

Chúng ta có thể nhận ra ngay điểm khác biệt rõ rệt đó là mẫu số: với population là N, và với sample là (n-1). Vào ngày thi, khi áp lực là vô cùng lớn, 2 công thức này có thể rất dễ bị lẫn lộn. Và đương nhiên là, trong 3 đáp án bạn có thể khoanh sẽ bao gồm cả đáp án sai – đáp án sử dụng n thay vì (n-1) (hoặc tương tự thế).

Rõ ràng chúng ta có thể học vẹt/thuộc lòng 2 công thức, nhưng như mình đã nói ở trên, trong khi thi áp lực là rất kinh khủng; và nếu chúng ta hiểu được bản chất, sẽ dễ dàng hơn để tránh được những cái bẫy được đưa ra.

Vậy vì sao là n và (n-1) ?

Ý tưởng ở đây là chúng ta muốn trung bình của các phương sai của tất cả các sample có thể phải bằng phương sai của population. Như vậy chúng ta sẽ không bị “thiên vị” (bias).

Để hiểu rõ hơn, ta xét ví dụ sau:

Giả sử chúng ta có 3 lá bài với các giá trị 0, 2, 4. Như vậy ta có:

$ Population\ mean = \frac{(0+2+4)}{3} = 2 $
$ Population\ variance =  \frac{(0-2)^2 + (2-2)^2 + (4-2)^2}{3} = \frac{8}{3} $

Bây giờ chúng ta xét tất cả những cách lấy các mẫu-có-2-phần-tử. Có 9 cách như vậy, và ta có bảng sau:

Mẫu Trung bình mẫu Phương sai – mẫu số (n-1) Phương sai – mẫu số (n)
(0,0) 0 0 0
(0,2) 1 2 1
(0,4) 2 8 4
(2,0) 1 2 1
(2,2) 2 0 0
(2,4) 3 2 1
(4,0) 2 8 4
(4,2) 3 2 1
(4,4) 4 0 0

Ta có thể thấy:

Với mẫu số (n-1), trung bình của các phương sai của tất cả mẫu-2-phần-tử có thể là: (0+2+8+2+0+2+8+2+0)/9 = 24/9 = 8/3, bằng với phương sai của population.

Với mẫu số (n), trung bình của các phương sai của tất cả mẫu-2-phần-tử có thể là: (0+1+4+1+0+1+4+1+0)/9 = 12/9 = 4/3, khác với phương sai của population.

Và đó là lý do tại sao chúng ta sử dụng (n-1) thay vì n khi tính phương sai/độ lệch chuẩn cho sample. Ý tưởng là để điều chỉnh cho những “thiên vị” (bias) khi chúng ta chọn mẫu. Nếu chúng ta lấy 1 sample gồm 30 quan sát, rồi tính mean cho sample đó. Sau đó ta lấy 30 quan sát khác, thì chỉ có 29 quan sát được phép tự do thay đổi nếu như muốn sample mean không đổi. Nói cách khác, sau khi lấy ngẫu nhiên 29 quan sát đầu tiên, quan sát thứ 30 không thể tự do lấy bất kỳ giá trị nào; chỉ có duy nhất 1 giá trị cho quan sát thứ 30 đưa lại giá trị sample mean như cũ. Như vậy, chúng ta đã đánh mất 1 bậc tự do (1 degree of freedom). Số 1 này chính là điều chỉnh từ n thành (n-1).

(Nguồn tham khảo: http://nebula.deanza.edu/~bloom/math10/m10divideby_nminus1.pdf )

Leave a Reply

Your email address will not be published.