Phân phối chuẩn – Normal distribution

Phân phối chuẩn (hay còn gọi là Phân phối Gaussian) được xem một trong những phân phối xác suất quan trọng nhất trong ngành Xác suất – Thống kê, và chắc chắn nó là phân phối xác suất quan trọng nhất xuất hiện trong kỳ thi CFA. 

Dữ liệu có thể được phân phối theo nhiều cách khác nhau:

Trải ra về bên trái                                                             hoặc tập trung vào bên phải

 

 

 

 

 

hoặc là sắp xếp lung tung lộn xộn

Nhưng trong rất nhiều trường hợp, dữ liệu sẽ có xu hướng tập trung xung quanh 1 điểm trung tâm, không bị lệch qua trái hay phải, và hình dạng gần giống với “quả chuông” như sau:

Phân phối này gọi là phân phối chuẩn. Trong tự nhiên, có rất nhiều sự vật gần như tuân theo phân phối chuẩn như: chiều cao con người, chỉ số huyết áp, etc.

Giống như các phân phối khác, phân phối chuẩn được định nghĩa dựa vào bởi giá trị trung bình (mean) và độ lệch chuẩn (standard deviation). Nếu bạn muốn đi sâu hơn về mặt toán học, thì hàm số biểu thị phân phối chuẩn, hay probability density function, viết tắt là pdf (không liên quan gì đến định dạng pdf của Adobe đâu nhé) có công thức như sau:

\[ f\left(x\right)\ =\ \frac1{\sigma\sqrt{2\pi}}e^{-\left(x\ -\ \mu\right)^2/\left(2\sigma^2\right)}\]

với

  • μ : giá trị trung bình (mean)
  • σ : độ lệch chuẩn (standard deviation)

OK, ngay khi bạn đọc xong công thức này, hãy cho nó ra khỏi đầu ngay lập tức; bạn sẽ không bao giờ cần sử dụng đến nó trong kỳ thi CFA. Bạn chỉ cần ghi nhớ những tính chất của nó.


Sau đây là những tính chất quan trọng của Phân phối chuẩn:

  • Nếu X có phân phối chuẩn, thì Y = kX  (với k là hằng số khác 0) cũng sẽ có phân phối chuẩn.
  • Nếu X và Y đều có phân phối chuẩn, thì Z = X + Y cũng tuân theo phân phối chuẩn.
  • Với một vài giả thiết cho trước, nếu 1 mẫu được lấy từ 1 tập hợp có phân phối xác suất bất kỳ thì giá trị trung bình (mean) của mẫu này sẽ có phân phối xấp xỉ phân phối chuẩn ,và sự chính xác sẽ càng tăng lên khi kích thước mẫu được tăng lên. Đây chính là Định lý giới hạn trung tâm (Central Limit Theorem). Do đó, tổng của các biến ngẫu nhiên độc lập (vd: lợi nhuận của danh mục đầu tư bao gồm lợi nhuận của các chứng khoán nhỏ cấu thành) sẽ có phân phối xấp xỉ phân phối chuẩn.
  • Khi tính toán, người ta nhận thấy độ phân tán của các giá trị như sau:

 

68% dữ liệu rơi vào khoảng 1 độ lệch chuẩn tính từ giá trị trung bình.

 

 

95% dữ liệu rơi vào khoảng 2 độ lệch chuẩn tính từ giá trị trung bình.

 

 

99.7% dữ liệu rơi vào khoảng 3 độ lệch chuẩn tính từ giá trị trung bình.

 

 

 

Ngoài ra, trong các loại phân phối chuẩn, loại quan trọng nhất là phân phối chuẩn chuẩn hóa (standard normal distribution) : giá trị trung bình = 0  độ lệch chuẩn = 1.

Đây cũng chính là loại Phân phối chuẩn duy nhất mà bạn cần biết, vì một lý do đơn giản:

Một Phân phối chuẩn bất kỳ có thể (dễ dàng) được biến thành Phân phối chuẩn chuẩn hóa, Phân phối chuẩn chuẩn hóa cũng có thể (dễ dàng) được biến thành bất cứ Phân phối chuẩn bất kỳ.

 

Cách để chuẩn hóa một Phân phối chuẩn với X là biến ngẫu nhiên, giá trị trung bình μ, và độ lệch chuẩn σ (hay phương sai σ²)  – ký hiệu là X ~ N(μ, σ²) – như sau:

\[ Z = \frac{X-\mu}{\sigma}\]

Giải thích: việc trừ đi μ ở tử số sẽ khiến giá trị trung bình của phân phối mới bằng 0. Và việc chia cho σ sẽ biến độ lệch chuẩn của phân phối mới bằng 1.

Kết quả là biến ngẫu nhiên Z sẽ có Phân phối chuẩn chuẩn hóa, hay Z ~ N(0,1).

Z được sử dụng khá phổ biến để ký hiệu biến ngẫu nhiên có Phân phối chuẩn chuẩn hóa, nên người ta còn gọi Phân phối chuẩn chuẩn hóa là z-distribution.

Ví dụ 1:

Giả sử lợi nhuận hàng tháng của một danh mục đầu tư với phân phối chuẩn có giá trị trung bình là 1% và độ lệch chuẩn là 0.3%. Nếu lợi nhuận của 1 tháng là 1.6%, giá trị z-value tương ứng là bao nhiêu ?

Lời giải:

Ký hiệu R là lợi nhuận hàng tháng, ta có R ~ N(0.01, 0.000009) (lưu ý 0.000009 = 0.003²):

\[Z = \frac{R-\mu}{\sigma} =\frac{1.6\% -1\%}{0.3\%} =2.0\]

Ví dụ 2:

Giả sử chiều cao của một mẫu gồm 500 người có phân phối chuẩn, giá trị trung bình là 1.6 mét và độ lệch chuẩn là 0.4 mét. Tính giá trị chiều cao tương ứng với Z = -1.98, và giá trị z-value tương ứng với chiều cao 1.4 mét ?

Lời giải:

Ký hiệu H là chiều cao của một người, ta có H ~ N(1.6, 0.16) (lưu ý 0.16 = 0.4²).

Ý thứ nhất:

\[\begin{align}Z\ &=\ \frac{H\ -\ \mu}{\sigma} \\& \\ -1.98\ &=\ \frac{H\ -\ 1.6}{0.4} \\& \\ -0.792\ &=\ H\ -\ 1.6 \\& \\ H\ &=\ 1.518 \end{align}\]

 

Ý thứ hai:

\[\begin{align}Z\ &=\ \frac{H\ -\ \mu}{\sigma}\\& \\ &=\ \frac{1.4\ – 1.6}{0.4}\\& \\ &=\ -0.5 \end{align}\]

 

Phân phối chuẩn liên quan đến việc xác định khoảng tin cậy (confidence interval) cho kiểm nghiệm giả định (hypothesis testing). Các bạn có thể tham khảo bài viết về Kiểm nghiệm giả định để biết thêm chi tiết.

 

1 Comment on “Phân phối chuẩn – Normal distribution

  1. Phân phối chuẩn chỉ áp dụng cho các dữ liệu có hướng 2 chiều(dữ liệu phải được biểu diễn dưới dạng 2 trục tung và trục hoành). Ví dụ dữ liệu chiều cao phải đi kèm tuổi tác. Trường hợp dữ liệu nhiều chiều thì khái niệm này không mô tả được. Thưc tế dữ liệu rất nhiều chiều, giả sử dữ liệu về học sinh bao gồm tuổi tác, chiều cao, cân nặng, giới tính… thì không thể áp dụng được.

Leave a Reply

Your email address will not be published.