top of page

Huyền thoại con số 30 (và ước tính cỡ mẫu).

Một trong những vấn đề "đau đầu" trong nghiên cứu khoa học là số cỡ mẫu. "Nghiên cứu của tôi cần phải tuyển bao nhiêu người" là câu hỏi thường được đặt ra. Ở Việt Nam, có nhiều đồng nghiệp nghĩ rằng cần 30 (có nơi nói 20) trở lên thì mới xem là đủ. Nhưng tôi sợ rằng con số 30 đó chỉ là một huyền thoại. Số cỡ mẫu cần thiết không phải là một con số tùy tiện như thế.

Huyền thoại con số 30 được lặp đi lặp lại rất nhiều lần. Không chỉ trong các hội nghị khoa học, hội đồng duyệt đề cương nghiên cứu, mà còn trên báo chí phổ thông. Vài năm trước, khi có người nói rằng nước mắm nhiễm arsenic, một vị quan chức nói rằng 'trong toán học thống kê thì phải lấy ít nhất trên 30 mẫu trên cùng một sản phẩm thì mới có độ tin cậy cao.'

Tuần này, câu chuyện nước mắm và arsenic lại xuất hiện trên báo chí. Nghe nói có một chuyên gia bị đuổi ra khỏi phòng họp vì chị này phản đối tiêu chuẩn mới về nồng độ arsenic trong nước mắm, mà sẽ dẫn đến bất lợi cho kĩ nghệ nước mắm truyền thống. Nhân dịp này, chúng ta bàn qua một khía cạnh khoa học về số cỡ mẫu 30 mà tôi gọi là 'huyền thoại.'


1. Một chút lí giải

Tôi sợ rằng đó là một hiểu lầm, chứ số cỡ mẫu cần thiết cho một survey hay một nghiên cứu không đơn giản chỉ là một hằng số cố định như vậy. Trong thực tế, số cỡ mẫu cần thiết cho một nghiên cứu phụ thuộc vào một số tham số quan trọng liên quan đến mục tiêu nghiên cứu, biến số phân tích, độ dao động của biến số, và sai sót trong suy luận mà chúng ta chấp nhận. Giải thích thêm:

(a) Mục tiêu nghiên cứu quyết định công thức ước tính cỡ mẫu. Mục tiêu có thể đơn giản là ước tính chiều cao trung bình của phụ nữ Việt Nam, có thể là ước tính tỉ lệ cư dân Sài Gòn mắc bệnh tiểu đường, hay cũng có thể là so sánh hiệu quả hai loại thuốc điều trị loãng xương, v.v. Do đó, trước hết ước tính cỡ mẫu phải biết rõ mình muốn giải quyết mục tiêu gì.

(b) Biến phân tích. Trong nghiên cứu khoa học, chúng ta phân biệt hai biến chính: liên tục và nhị phân. Biến liên tục là độ tuổi, chiều cao, trọng lượng, nồng độ glucose trong máu, thu nhập bình quân, v.v. Biến nhị phân chỉ có hai giá trị yes/no, có/không, sống/chết, nam/nữ, v.v. Với biến liên tục chúng ta có thể tính số trung bình và độ lệch chuẩn. Với biến nhị phân chúng ta không tính được số trung bình, nhưng tính được tỉ lệ cho mục tiêu mô tả. Thể loại của biến phân tích cũng quyết định công thức ước tính cỡ mẫu.

(c) Sai sót trong suy luận. Không có một nghiên cứu khoa học nào là hoàn hảo. Tất cả các nghiên cứu mang tính suy luận đều dựa trên lí thuyết dùng các ước số của mẫu nghiên cứu để suy luận cho các tham số trong quần thể. Và, trong quá trình suy luận, chúng ta có thể sai lầm. Sai lầm loại (type I error, còn gọi là α) và sai lầm loại II (type II error, hay gọi tắt là β).

Có thể lấy ví dụ về nghiên cứu hiệu quả của thuốc. Thuốc có thể có hiệu quả hay không có hiệu quả -- chúng ta không biết. Nghiên cứu trên một nhóm bệnh nhân có thể cho ra kết quả dương tính hay âm tính -- và chúng ta biết. Sai lầm loại I là dương tính giả, tức thuốc không có hiệu quả, mà kết quả nghiên cứu là dương tính! Cũng giống như bệnh nhân không có bệnh, nhưng test cho ra kết quả dương tính.

Sai lầm loại II là âm tính giả, tức thuốc có hiệu quả, nhưng nghiên cứu cho ra kết quả âm tính! Cũng giống như tình huống bệnh nhân có bệnh, nhưng test xét nghiệm cho ra kết quả âm tính.

Thông thường, chúng ta chấp nhận sai lầm α là 1% hay 5%; còn sai lầm β là 10% đến 20%. Khái niệm "power" là xác suất chúng ta kết luận (thuốc có hiệu quả) đúng. Power được tính bằng cách lấy 1 trừ cho β. Ở Việt Nam người ta dịch power là "lực", nhưng tôi e rằng cách dịch này không đúng và khó hiểu; power nên dịch là "độ nhạy của nghiên cứu", vì nó tương đường với sensitivity -- độ nhạy trong xét nghiệm chẩn đoán.


2. Cỡ mẫu cho ước tính số trung bình

Dĩ nhiên, có nghiên cứu mô tả không cần đến việc xác định độ nhạy của nghiên cứu. Chẳng hạn như nghiên cứu mô tả không cần phải xác định β. Ví dụ: chúng ta không biết nồng độ arsenic trong cá mòi là bao nhiêu, nhưng chúng ta có thể lấy mẫu n con cá, và dùng số trung bình của mẫu để suy luận cho số trung bình quần thể μ. Câu hỏi đặt ra là n phải là bao nhiêu?

Câu trả lời tùy thuộc vào độ lệch chuẩn của nồng độ arsenic, và độ chính xác mà chúng ta muốn có. Giả dụ rằng chúng ta biết độ lệch chuẩn (SD) của nồng độ arsenic trong cá mòi là 0.20 mg/kg. Chúng ta muốn ước tính cỡ mẫu (số cá mòi) sao cho nồng độ trung bình 'xê xích' trên dưới 0.05 mg/kg (con số này gọi là 'margin of error') với xác suất 0.95 (tức α = 0.05). Chỉ vài dòng R tính toán cho chúng ta đáp số là cần phải đo nồng độ arsenic trong 61 con cá mòi:

alpha = 0.05 z = qnorm(1-alpha/2) sd = 0.20 margin.error = 0.05 n = (z^2*sd^2) / (margin.error)^2 n

Chú ý công thức trên là cái margin of error (E) là mẫu số. Điều này có nghĩa là khi mẫu số nhỏ (tức chúng ta đòi hỏi độ chính xác cao) thì số cỡ mẫu sẽ nhiều hơn. Ví dụ như với những điều kiện trên và E là 0.01 mg/kg thì số cỡ mẫu sẽ lên đến 1536 con cá mòi!

Cũng cần chú ý là độ lệch chuẩn (SD, phản ảnh độ dao động của biến số) là tử số. Điều này có nghĩa là SD càng cao thì số cỡ mẫu càng cao, và nếu SD thấp thì số cỡ mẫu cũng giảm theo. Ví dụ như nếu chúng ta biết rằng SD của nồng độ arsenic là 0.10 mg/kg, và nếu E là 0.05 mg/kg, thì số cỡ mẫu chỉ 15 con cá mòi.


3. Cỡ mẫu cho so sánh 2 số trung bình

Ví dụ trên là "nghiên cứu" mô tả, nhưng cũng có khi chúng ta muốn làm nghiên cứu so sánh hai nhóm hay 2 số trung bình. Giả dụ như chúng ta muốn so sánh nồng độ arsenic trong nước mắm ở Phú Quốc và Phan Thiết. Câu hỏi đặt ra là cần lấy bao nhiêu mẫu nước mắm ở mỗi địa phương. Một lần nữa, câu hỏi này phụ thuộc vào:

(a) độ lệch chuẩn của nồng độ arsenic (SD); (b) mức độ khác biệt về nồng độ arsenic giữa hai địa phương (Delta); (c) sai số α và β.

Giả dụ rằng chúng ta biết độ lệch chuẩn của nồng độ arsenic là 0.10 mg/kg. Chúng ta cũng nghĩ rằng nồng độ arsenic trong nước mắm giữa hai địa phương chỉ chừng 0.05 mg/kg. Nếu chọn α = 5% và β = 20% (tức power = 80%), thì số mẫu nước mắm cần thiết cho MỖI địa phương là 63. Cụ thể, công thức ước tính cỡ mẫu qua R đơn giản là:

zalpha = qnorm(1-0.05/2) # hằng số cho alpha = 5% zbeta = qnorm(1-0.2) # hằng số cho beta = 20% sd = 0.10 delta = 0.05 2*sd^2*(zalpha + zbeta)^2 / delta^2

Cần phải nhấn mạnh rằng số cỡ mẫu rất phụ thuộc vào độ lệch chuẩn (SD) và mức độ khác biệt giữa hai nhóm (delta). Trong thực tế, chúng ta không biết delta là bao nhiêu, nhưng chúng ta biết SD vì có thể tìm qua y văn. Do đó, một cách đặt câu hỏi là dùng effect size (ES). ES được tính bằng cách lấy delta/SD. Nếu ES = 1 có nghĩa là độ khác biệt bằng 1 độ lệch chuẩn, nếu ES = 0.5 có nghĩa là độ khác biệt chỉ bằng phân nửa độ lệch chuẩn. Thường, ES > 1 có thể xem là 'cao', ES = 0.5 là 'trung bình', và ES = 0.3 là 'thấp'.

Với ES, chúng ta có thể đơn giản hóa công thức trên: n = 2*(zalpha + zbeta)^2 / ES^2. Ví dụ như nếu ES là 1.5, chúng ta có thể ước tính rằng nghiên cứu cần chỉ 7 mẫu nước mắm cho mỗi địa phương:

ES = 1.5 sd = 0.10 zalpha = qnorm(1-0.05/2) # hằng số cho alpha = 5% zbeta = qnorm(1-0.2) # hằng số cho beta = 20% 2*(zalpha + zbeta)^2 / ES^2


4. Con số 30

Hai ví dụ đơn giản trên cho thấy không có con số cỡ mẫu phải là 30 (hay 20) mới nói là đáng tin cậy. Số cỡ mẫu của một nghiên cứu có thể thấp hơn hay cao hơn 30, bởi vì nó phụ thuộc vào 3 yếu tố chính: mức độ khác biệt. độ lệch chuẩn phản ảnh sự dao động của biến số, và sai lầm loại I và II.

Như vậy, con số huyền thoại 30 này nó xuất xứ từ đâu? Một số sách giáo khoa thường có một phát biểu chung chung về số cỡ mẫu “lớn” và “nhỏ”. Chẳng hạn như cuốn Probability and Statistical Inference của Hogg và Tanis có viết rằng cỡ mẫu dưới 25 hay dưới 30 được xem là “nhỏ”, và trên con số đó là “lớn”. Nhưng ngưỡng nhỏ/lớn này không phải là cỡ mẫu cho nghiên cứu khoa học, mà là ngưỡng để tính xấp xỉ giữa phân bố chuẩn (normal distribution) và phân bố t (t distribution). Chúng ta biết rằng phân bố t là xấp xỉ phân phối chuẩn. Khi cỡ mẫu lớn, phân bố t và phân bố chuẩn gần như giống nhau. Ở đây, “lớn” có nghĩa là trên 30. Con số 30 này, do đó, chẳng liên quan gì đến số cỡ mẫu cho nghiên cứu khoa học, mà liên quan đến lí thuyết về phân bố chuẩn và phân bố t.

Có thể một hiểu lầm khác là liên quan đến Định lí giới hạn trung tâm (central limit theorem - CLT). Đại khái, CLT phát biểu rằng bất cứ chỉ số thống kê nào (như trung bình, phương sai, trung vị) đều tuân theo luật phân bố chuẩn hay gần với phân bố chuẩn nếu số cỡ mẫu đủ. “Đủ” ở đây thường được hiểu là trên 30. Cần nhấn mạnh rằng đây là một xấp xỉ về phân bố của chỉ số thống kê (statistic) như trung bình, trung vị, tỉ lệ, độ lệch chuẩn, v.v. chứ chẳng liên quan gì đến cỡ mẫu nghiên cứu.

Tóm lại, trong nghiên cứu khoa học, số cỡ mẫu cần thiết cần phải được ước tính trước khi nghiên cứu. Biết trước số cỡ mẫu cần thiết (chỉ áng chừng) là để biết nghiên cứu của mình có khả thi. Nó cũng có thể liên quan đến đạo đức khoa học. Biết trước mình không bao giờ có đủ cỡ mẫu cần thiết mà mình vẫn làm và gây phiền phức cho bệnh nhân là vi phạm đạo đức khoa học.

Số cỡ mẫu phụ thuộc rất nhiều vào kiến thức của chúng ta: đó là độ lệch chuẩn của biến số và mức độ khác biệt. Không biết hai tham số này thì không thể ước tính cỡ mẫu. Nhưng kiến thức của chúng ta thường bất định và hạn chế. Chúng ta không biết mức độ khác biệt là bao nhiêu, và chỉ có thể dự đoán mà thôi. Dự đoán của chúng ta thường là sai, và do đó số cỡ mẫu cần thiết cũng hay bị sai.

Nếu số cỡ mẫu sai thì kết quả nghiên cứu có phải là vô dụng? Không. Kết quả nghiên cứu vẫn có ích. Giả dụ như chúng ta ước tính rằng mức độ khác biệt là (ví dụ) 10% và nghiên cứu cần 200 bệnh nhân, nhưng sau khi làm nghiên cứu xong thì mức độ khác biệt quan sát chỉ 5% và do đó, kết quả không có ý nghĩa thống kê. Điều này không có nghĩa rằng kết quả nghiên cứu đó vứt đi, mà chúng ta phải xem xét đến khoảng tin cậy 95% để đi đến kết luận hợp lí.

Nếu chúng ta giả định rằng mức độ khác biệt là 30% và nghiên cứu cần 100 bệnh nhân. Tuy nhiên, dù cố gắng làm hết mình, mà cũng chỉ có được 70 bệnh nhân. Nhưng kết quả có ý nghĩa thống kê. Như vậy nghiên cứu này thiếu "power"? Không. Một khi kết quả có ý nghĩa thống kê thì power chắc chắn phải đủ. Do đó, không nên đánh giá số cỡ mẫu sau khi nghiên cứu đã xong.

Tất cả những lí giải trên để nói rằng không có con số cỡ mẫu huyền thoại 30 cho một nghiên cứu khoa học.



Featured Posts
Check back soon
Once posts are published, you’ll see them here.
Recent Posts
Archive
Search By Tags
No tags yet.
Follow Us
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square
bottom of page