Post by NHAKHOA on Aug 27, 2010 14:06:33 GMT -5
Ý nghĩa của trị số P trong nghiên cứu y học
Nguyễn Văn Tuấn
Nguyễn Văn Tuấn
Trong một công trình nghiên cứu đánh giá hiệu quả chống gãy xương của thuốc zoledronate, các nhà nghiên cứu điều trị 1065 bệnh nhân bằng zoledronate và 1062 bệnh nhân không được điều trị bằng zoledronate (placebo), và kết quả được trình bày qua một đoạn văn quan trọng sau đây: “The rates of any new fracture were 8,6% in the zoledronic acid group and 13,9% in the placebo group, a 35% risk reduction with zoledronic acid (p = 0,001); the respective rates of new vertebral fracture were 1,7% and 3,8% (p = 0,02)” [1]. Câu văn trên đây gắn liền với trị số p có nghĩa gì?
Khi một câu hỏi tương tự được đem đi hỏi một nhóm bác sĩ chuyên khoa và có kinh nghiệm trong nghiên cứu y học, có đến 85% trả lời sai [2]. Đại đa số những người được hỏi hiểu rằng một kết luận (về sự khác biệt) với trị số p = 0,05 có nghĩa là khả năng mà kết luận đó sai là 5%, hay khả năng mà kết luận đó đúng là 95% (lấy 1 trừ cho 0,05). Nhiều người khác thì hiểu rằng một sự khác biệt với trị số P càng nhỏ thì mức độ ảnh hưởng càng có ý nghĩa và độ tin cậy của kết luận càng cao. Nhưng rất tiếc rằng cả hai cách hiểu này đều sai. Điều đáng ngạc nhiên là không những giới làm nghiên cứu khoa học hiểu sai, mà ngay cả các nhà nghiên cứu có kiến thức thống kê khá như dịch tễ học cũng hiểu sai. Thật ra, một số nhà thống kê chuyên nghiệp cũng hiểu sai ý nghĩa của trị số P bởi vì một số sách giáo khoa giải thích hoặc là sai, hoặc không rõ ràng!
1. Trị số P và triết lí phản nghiệm (falsificationism)
Khi đọc các bài báo khoa học trên các tập san y học, chúng ta thường hay gặp những trị số P. Một sự khác biệt với trị số P < 0,05 thường được hiểu là sự khác biệt đó có ý nghĩa thống kê (statistically significant); ngược lại, khi P > 0,05 chúng ta thường hiểu rằng sự khác biệt không có ý nghĩa thống kê, không đáng kể, hay do ngẫu nhiên. Tuy nhiên, cách hiểu P [là một xác suất phi điều kiện] như thế rất sai lầm. Trị số P là một xác suất có điều kiện. Ý nghĩa của trị số P gắn liền với triết lí phản nghiệm (falsificationism) trong khoa học. Do đó, trước khi bàn về ý nghĩa của trị số P, thiết tưởng chúng ta cần phải hiểu qua về triết lí phản nghiệm.
Một giả thuyết được xem là mang tính “khoa học” nếu giả thuyết đó có khả năng “phản nghiệm”. Theo Karl Popper [3], nhà triết học khoa học, đặc điểm duy nhất để có thể phân biệt giữa một lí thuyết khoa học thực thụ với ngụy khoa học (pseudoscience) là thuyết khoa học luôn có đặc tính có thể “bị bác bỏ” hay “khả năng phản nghiệm” (falsified) bằng những thực nghiệm đơn giản. Ông gọi đó là “khả năng phản nghiệm” (falsifiability) [4]. Phép phản nghiệm là phương cách tiến hành những thực nghiệm không phải để xác minh mà để phê phán các lí thuyết khoa học, và có thể coi đây như là một nền tảng cho khoa học thực thụ. Chẳng hạn như giả thuyết [đơn giản] “Tất cả các quạ đều màu đen” có thể bị bác bỏ nếu chúng ta quan sát được một con quạ màu đỏ. Hay, giả thuyết “vi khuẩn V. cholerae gây bệnh dịch tả” có thể bác bỏ nếu có một bệnh nhân dịch tả không nhiễm vi khuẩn V. cholerae.
Đứng trên phương diện khoa học, có hai mô hình thực tế để tiếp cận lí thuyết phản nghiệm: đó là mô hình kiểm định thống kê và mô hình kiểm định giả thuyết. Rất nhiều sách giáo khoa thống kê và khoa học đã được viết ra, nhưng rất tiếc, nhiều tác giả không giải thích hay không phân biệt được hai mô hình này. Có tác giả thậm chí còn nhầm lẫn khi diễn dịch, và đó cũng chính là một trong những nguyên nhân dẫn đến tình trạng hiểu lầm ý nghĩa của trị số P. Trong phần này, tôi sẽ giải thích ngắn gọn và cung cấp tài liệu tham khảo của hai mô hình để bạn đọc có thể hiểu qua và nghiên cứu thêm.
1.1 Fisher và mô hình kiểm định ý nghĩa thống kê
Triết lí phản nghiệm rất phổ biến và trở thành một mô hình để giải thích sự tiến bộ của khoa học. Chịu ảnh hưởng bởi triết lí này, Ronald A. Fisher (1890 – 1962), một nhà di truyền học người Anh và cũng là “cha đẻ” của nền thống kê học hiện đại, đề xuất một phương pháp định lượng để phản nghiệm một giả thuyết khoa học. Ông gọi phương pháp này là “Test of Significance” [5-6] (tôi tạm dịch là: phương pháp kiểm định ý nghĩa thống kê). Fisher quan niệm rằng thống kê là một bộ phận quan trọng của phương pháp suy luận theo phép qui nạp (inductive inference), tức là phương pháp suy luận dựa vào quan sát từ các mẫu (sample) và khái quát cho một quần thể (population). Phương pháp kiểm định ý nghĩa thống kê được tiến hành theo 3 bước như sau:
Fisher đề nghị báo cáo trị số P một cách chính xác. Tức là không có những cách viết như p < 0,05 hay p > 0,01 mà phải là p = 0,043 hay p = 0,002. Fisher còn đề nghị rằng nếu trị số p thấp hơn 0,05 thì giả thuyết H0 (vô hiệu) không phù hợp với số liệu quan sát được. Đối với Fisher, không có chuyện “bác bỏ giả thuyết” hay “chứng minh giả thuyết” mà chỉ có số liệu có phù hợp, có nhất quán với giả thuyết hay không mà thôi. Quan điểm này chịu ảnh hưởng “đậm” của triết lí phản nghiệm của Popper, vì theo triết lí này, chúng ta không thể chứng minh bất cứ một giả thuyết nào, mà chỉ có thể bác bỏ (disprove) một giả thuyết bằng dữ liệu quan sát được.
Ví dụ 1. Có thể minh họa cho các bước trên bằng một ví dụ như sau: chúng ta có 10 bệnh nhân, mỗi bệnh nhân được điều trị bằng 2 loại thuốc (A và B). Sau khi theo dõi một thời gian, có 8 bệnh nhân mà hiệu quả của thuốc A tốt hơn thuốc B. Kết quả này có phù hợp với giả thuyết thuốc A tốt hơn thuốc B?
Để trả lời câu hỏi và cũng là kiểm định giả thuyết trên, chúng ta phát biểu một giả thuyết vô hiệu: nếu hai loại thuốc này có hiệu quả như nhau, thì sẽ có 5 bệnh nhân với kết quả A tốt hơn B, và 5 bệnh nhân với kết quả B tốt hơn A. Gọi p là xác suất mà kết quả thuốc A tốt hơn thuốc B. Giả thuyết vô hiệu này cũng có nghĩa là p = 0,5. Nếu giả thuyết vô hiệu này đúng (tức p = 0,5), chúng ta có thể tính toán xác suất quan sát k bệnh nhân (k = 0, 1, 2, 3, …, 10) với kết quả A tốt hơn B theo luật phân phối nhị phân như sau:
P(k) | p = 0,5) = (10/k)(0,5)k (1-0,5) 10-k
Và kết quả có thể trình bày trong bảng sau đây:
Bảng 1. Xác suất quan sát k bệnh nhân (trong số 10 bệnh nhân) với kết quả A>B nếu giả thuyết vô hiệu (p = 0,5) đúng
k = Pr(k | p=0,5)
0 0,0009765625
1 0,009765625
2 0,04394531
3 0,1171875
4 0,2050781
5 0,2460938
6 0,2050781
7 0,1171875
8 0,04394531
9 0,009765625
10 0,0009765625
P(k ≥ 8) 0,054687
Cố nhiên, tổng số xác suất k = 0, 1, 2, …, 10 phải bằng 1. Theo kết quả trên, nếu không có sự khác biệt về hiệu quả của hai thuốc, xác suất mà chúng ta quan sát 8 bệnh nhân với kết quả A>B là khoảng 4,39%. Diễn dịch tương tự, chúng ta ước tính rằng xác suất với 9 bệnh nhân kết quả A>B là 0,97%, và xác suất tất cả 10 bệnh nhân với kết quả A>B là 0,097%. Xác suất mà tối thiểu 8 bệnh nhân với kết quả A>B là 0,055 hay 5,5%. Viết theo kí hiệu toán: P(k ≥ 8) = 0,0547. Đây chính là trị số P.
Sử dụng tiêu chí 0,05, chúng ta có thể nói rằng dù 80% (8 trên 10) bệnh nhân với kết quả A>B, chúng ta vẫn chưa có đầy đủ bằng chứng để khẳng định rằng kết quả này nhất quán với giả thuyết thuốc A tốt hơn B.
1.2 Neyman và Pearson và mô hình Kiểm định giả thuyết
Jerzy Neyman (1894 – 1981) là một nhà toán học xuất sắc gốc Ba Lan và Egon Pearson (1895 – 1980) là một nhà thống kê học (con của giáo sư Karl Pearson, cha đẻ của lí thuyết Chi-square và hệ số tương quan) cùng lúc với Fisher, phát triển một phương pháp rất khác với Fisher, mà hai ông gọi là Test of Hypothesis (Kiểm định giả thuyết) [7]. Neyman và Pearson bác bỏ khái niệm suy luận theo qui nạp; hai ông nghĩ rằng thống kê học là một phương pháp hay cơ chế để hướng dẫn chúng ta đi đến một quyết định đúng về lâu về dài. Nói cách khác, Neyman và Pearson cho rằng phương pháp của Fisher vô nghĩa!
Một cách đơn giản, mô hình kiểm định giả thuyết của Neyman và Pearson có thể thực hiện qua các bước như sau:
* Bước 1, phát biểu giả thuyết chính (H1) và giả thuyết vô hiệu (H0).
* Bước 2, quyết định mức độ a và b có thể chấp nhận được và ước tính cỡ mẫu cần thuyết. a là xác suất bác bỏ giả thuyết H1 nhưng đó là giả thuyết đúng. b là xác suất bác bỏ H0 trong khi H0 đúng.
* Bước 3, thu thập dữ liệu liên quan đến giả thuyết.
* Bước 4, nếu dữ liệu nằm trong khoảng bác bỏ giả thuyết H0, thì chấp nhận giả thuyết H1; nếu không thì chấp nhận giả thuyết H0. Chú ý rằng “chấp nhận” một giả thuyết không có nghĩa là chúng ta tin vào giả thuyết đó, mà chỉ có nghĩa là chúng ta hành động với điều kiện đó là giả thuyết đúng.
Nguyên lí của mô hình Neyman và Pearson là chúng ta dựa vào dữ liệu để chọn một giả thuyết sao cho về lâu về dài chúng ta không quá sai. Chính vì thế mà ngày nay chúng ta thường chọn a = 5% và b = 10% đến 20%.
Fisher bác bỏ hoàn toàn mô hình của Neyman và Pearson [8]. Ông cho rằng đó là một mô hình … vô duyên. Fisher nhạo báng rằng các nhà toán học (ám chỉ Neyman và Pearson) “chẳng hiểu gì về thực nghiệm và đề ra một mô hình quá phi thực tế”. Trong những năm sau đó (thập niên 1930s) cộng đồng thống kê học chứng kiến một cuộc tranh luận dai dẵng và đôi khi nóng bỏng giữa Fisher và Neyman-Pearson trên các tập san thống kê học ở Anh. Fisher tuy là một người thông minh tuyệt vời, một nhà tư tưởng với những suy nghĩ trừu tượng, nhưng lại là một người rất khó tính và có khi hẹp hòi. Sự hẹp hòi của Fisher thể hiện ở chỗ ông sử dụng chức quyền khoa bảng của mình để gây khó khăn cho Neyman đến nỗi ông này chịu không nỗi và phải di cư sang Mĩ và sau này trở thành giáo sư tại trường Đại học Berkeley. Sau này, Neyman được lịch sử ghi nhận là một nhà thống kê học xuất sắc có công cực kì to lớn cho khoa học hiện đại, sánh vai cùng các “đại thụ” trong khoa học hiện đại. Nước Mĩ quả thật là môi trường cho ông thi thố tài năng!
1.2 Một mô hình hỗn hợp
Trớ trêu thay, mấy mươi năm sau, hai mô hình của Fisher và Neyman-Pearson được “hun đúc” thành một mô hình tổng hợp mà chúng ta ứng dụng ngày nay trong nghiên cứu y học. Mô hình này sử dụng kết quả kiểm định thống kê của Fisher để đi đến quyết định chấp nhận hay bác bỏ giả thuyết vô hiệu H0 hay giả thuyết chính H1 theo mô hình của Neyman và Pearson. Tiêu biểu cho mô hình này là nghiên cứu lâm sàng đối chứng ngẫu nhiên (randomized controlled clinical trial hay RCT). Theo đó, một nghiên cứu lâm sàng được tiến hành theo các bước như sau:
* Bước 1, định nghĩa một giả thuyết vô hiệu và một giả thuyết chính. Thí dụ trong một nghiên cứu lâm sàng, gồm hai nhóm bệnh nhân: một nhóm được điều trị bằng thuốc A, và một nhóm được điều trị bằng placebo, nhà nghiên cứu có thể phát biểu giả thuyết vô hiệu rằng độ hiệu nghiệm thuốc A tương đương với placebo.
* Bước 2, xác định xác suất a (còn gọi là sai số loại I) và b (còn gọi là sai số loại II), và ước tính cỡ mẫu dựa vào hai xác suất này.
* Bước 3, thu thập dữ liệu liên quan đến giả thuyết. Gọi dữ liệu là D.
* Bước 4, sử dụng phương pháp kiểm định ý nghĩa thống kê của Fisher ước tính xác suất P(D | H0). Gọi trị số này là P.
* Bước 5, nếu P < 0,05, bác bỏ giả thuyết H0. Chú ý, bác bỏ H0 không có nghĩa là chúng ta chấp nhận giả thuyết H1.
Ví dụ 2. Có thể minh họa cho các bước trên bằng một ví dụ về nghiên cứu hiệu quả của thuốc zoledronate trong việc phòng chống loãng xương [1]. Với giả thuyết rằng thuốc có hiệu nghiệm giảm nguy cơ gãy xương, các nhà nghiên cứu so sánh tỉ lệ gãy xương giữa hai nhóm bệnh nhân: nhóm 1 được điều trị bằng zoledronate và nhóm 2 là nhóm giả được (nhận calcium và vitamin D). Bắt đầu bằng cách xác định a = 0,05 và b = 0,80, các nhà nghiên cứu ước tính số lượng bệnh nhân cần thiết. Sau ba năm thu thập số liệu, kết quả có thể tóm lược trong bảng số liệu sau đây:
Bảng 2. Nguy cơ gãy xương ở bệnh nhân được điều trị bằng zoledronate và placebo
Chỉ số Zoledronate Placebo Trị số P
Số bệnh nhân 1065 1062
Số gãy xương 92 139
Tỉ lệ gãy xương 8,6% 13,9 0,001
Bởi vì trị số P thấp hơn mức a (0,05) mà các nhà nghiên cứu đề ra từ lúc đầu (trước khi thu thập số liệu); cho nên, các nhà nghiên cứu kết luận rằng sự khác biệt về tỉ lệ gãy xương giữa hai nhóm (8,6% vs 13,9%) có ý nghĩa thống kê. Tất nhiên, trị số P trên không có nghĩa là nghiên cứu đã chứng minh rằng thuốc zoledronate có hiệu quả giảm nguy cơ gãy xương. Nó có nghĩa là nếu thật sự thuốc zoledronate không có hiệu quả giảm nguy cơ gãy xương thì xác suất mà các nhà nghiên cứu quan sát các số liệu trên (13,9% so với 8,6%) là 0,001.
2. Vấn đề của trị số P
Có lẽ nói không ngoa rằng trị số P là một con số phổ biến nhất trong khoa học từ khoảng 100 năm qua [9]. Hầu hết các bài báo khoa học đều trình bày trị số P như hàm ý nâng cao tính khoa học và độ tin cậy của bài báo. Tuy nhiên, ngay từ lúc mới “ra đời”, trị số P đã bị phê bình dữ dội. Có người cho rằng việc ứng dụng trị số P trong suy luận khoa học là một bước lùi, là một sự thoái hóa của khoa học, nên đề nghị không sử dụng trị số này trong nghiên cứu khoa học. Nhưng dù chịu nhiều chỉ trích và phê bình, ứng dụng phương pháp kiểm định giả thuyết và trị số P vẫn càng ngày càng phổ biến, đơn giản vì chúng ta chưa có một phương pháp khác tốt hơn, hay hợp lí hơn, hay đơn giản hơn. Trong phần này, tôi sẽ không điểm qua tất cả các phê bình trị số P (vì làm như thế cần một cuốn sách), mà chỉ nêu một số vấn đề chúng ta cần lưu ý khi diễn dịch trị số P.
2.1 Vấn đề logic
Như qua minh họa trên, trị số P không cho chúng ta biết gì về sự khả dĩ của một giả thuyết, bởi vì nó là một xác suất có điều kiện. Trị số P cho chúng ta biết xác suất của dữ liệu (data) nếu một giả thuyết là đúng. Cái khiếm khuyết lớn nhất của trị số P là nó thiếu tính logic. Thật vậy, nếu chúng ta chịu khó xem xét lại ví dụ trên, có thể khái quát tiến trình của một nghiên cứu y học (dựa vào trị số P) như sau:
* Đề ra một giả thuyết chính vô hiệu (H0)
* Từ giả thuyết vô hiệu, đề ra một giả thuyết chính (H1)
* Tiến hành thu thập dữ liệu (D)
* Phân tích dữ kiện: tính toán xác suất D xảy ra nếu H0 là thật. Nói theo ngôn ngữ toán xác suất, bước này chính là bước tính toán trị số P hay P(D | H0).
Vì thế, con số P có nghĩa là xác suất của dữ liệu D xảy ra nếu (nhấn mạnh: “nếu”) giả thuyết vô hiệu H0 là đúng. Như vậy, con số P không trực tiếp cho chúng ta một ý niệm gì về sự thật của giả thuyết chính H1; nó chỉ gián tiếp cung cấp bằng chứng để chúng ta chấp nhận giả thuyết chính và bác bỏ giả thuyết vô hiệu.
Logic đằng sau của trị số P có thể được hiểu như là một qui trình chứng minh đảo ngược (proof by contradiction):
* Mệnh đề 1: Nếu giả thuyết vô hiệu đúng, thì sự kiện này không thể xảy ra;
* Mệnh đề 2: Sự kiện xảy ra;
* Mệnh đề 3 (kết luận): Giả thuyết vô hiệu không thể đúng.
Nếu cách lập luận trên khó hiểu, chúng ta thử xem một ví dụ cụ thể như sau:
* Nếu ông Tuấn bị cao huyết áp, thì ông không thể có triệu chứng rụng tóc (hai hiện tượng sinh học này không liên quan với nhau, ít ra là theo kiến thức y khoa hiện nay);
* Ông Tuấn bị rụng tóc;
* Do đó, ông Tuấn không thể bị cao huyết áp.
Trị số P, do đó, gián tiếp phản ánh xác suất của mệnh đề 3. Và đó cũng chính là một khiếm khuyết quan trọng của trị số P, bởi vì nó ước tính mức độ khả dĩ của dữ liệu, chứ không nói cho chúng ta biết mức độ khả dĩ của một giả thuyết. Điều này làm cho việc suy luận dựa vào trị số P rất xa rời với thực tế, xa rời với khoa học thực nghiệm. Trong khoa học thực nghiệm, điều mà nhà nghiên cứu muốn biết là với dữ liệu mà họ có được, xác suất của giả thuyết chính là bao nhiêu, chứ họ không muốn biết nếu giả thuyết đảo là sự thật thì xác suất của dữ liệu là bao nhiêu. Nói cách khác và dùng kí hiệu mô tả trên, nhà nghiên cứu muốn biết P(H1 | D), chứ không muốn biết P(D | H0) hay P(D | H1).
2.2 Ý nghĩa thống kê không tương đương với ý nghĩa lâm sàng
Một sai lầm rất phổ biến trong giới y khoa là xem một khác biệt có “ý nghĩa thống kê” (statistical significance) tương đương với “ý nghĩa lâm sàng” (clinical significance). Có thể xem trị số P được tính toán từ tỉ số của tín hiệu (signal, mức độ khác biệt giữa hai nhóm) và nhiễu (noise hay độ dao động của mẫu). Gọi T là kiểm định thống kê, S là tín hiệu, và E là nhiễu, ý tưởng trên có thể mô tả như sau:
Khi số lượng cỡ mẫu tăng và nếu S bất biến thì T sẽ tăng, tức có cơ hội đạt ý nghĩa thống kê. Điều này có nghĩa là chúng ta có thể giảm E tối đa bằng cách tăng số lượng cỡ mẫu, và nó cũng có nghĩa là một khác biệt rất nhỏ chẳng có ý nghĩa gì trong thực tế nhưng vẫn có thể có ý nghĩa thống kê. Ngược lại, một khác biệt hay ảnh hưởng (effect) lớn, nhưng nếu số lượng cỡ mẫu không đầy đủ không thể đạt được cái chuẩn “có ý nghĩa thống kê” (tức p > 0,05).
Bảng 3 sau đây trình bày 4 nghiên cứu (tưởng tượng) với số cỡ mẫu khác nhau, từ 20 đến 2.000.000 bệnh nhân. Cột “Kết quả” trình bày số bệnh nhân được điều trị dứt bệnh và số trong ngoặc là phần trăm. Giả thuyết vô hiệu là xác suất kết quả 0,5 (tức 50%). Tất cả 4 nghiên cứu đều có trị số P = 0,041. Như có thể thấy qua bảng này, nghiên cứu 1 có tỉ lệ ảnh hưởng cao và có ý nghĩa lâm sàng (75%), và chỉ với 20 bệnh nhân, các nhà nghiên cứu có thể bác bỏ giả thuyết H0. Nhưng nghiên cứu 4, mức độ ảnh hưởng rất thấp (chỉ 50,07%, tức chỉ cao hơn giả thuyết vô hiệu 0,07%) nhưng vẫn có ý nghĩa thống kê vì số cỡ mẫu quá lớn !
Bảng 3. Ảnh hưởng của cỡ mẫu đến trị số P
Nghiên cứu Số lượng đối tượng Kết quả điều trị thành công (%) Trị số P
1 20 15 (75%) 0,041
2 200 114 (57%) 0,041
3 2000 1.046 (52,5%) 0,041
4 2000000 1.001.445 (50,07%) 0,041
Trong thực tế, có rất nhiều nghiên cứu mà độ khác biệt giữa hai nhóm rất nhỏ, nhưng vẫn có ý nghĩa thống kê [10-11]. Điều đáng quan tâm là kết quả có ý nghĩa thống kê như thế được các nhà nghiên cứu diễn dịch với hàm ý có ý nghĩa lâm sàng.
Ngược lại, có những nghiên cứu mà kết quả có ý nghĩa lâm sàng nhưng vì không đạt cái chuẩn p < 0,05, nên các nhà nghiên cứu lại diễn dịch rằng không có ý nghĩa lâm sàng! Chẳng hạn như một nghiên cứu về hiệu quả của bổ sung vitamin C và E ở phụ nữ mang thai [12], các nhà nghiên cứu kết luận rằng “Supplementation with vitamin C and E during pregnancy does not reduce the risk of serious outcomes in their infants” (Bổ sung vitamin E và E không làm giảm các triệu chứng lâm sàng nghiêm trọng). Nhưng khi xét qua số liệu thực tế thì thấy ở trẻ em mà mẹ có bổ sung vitamin C và E, tỉ lệ với triệu chứng lâm sàng giảm đến 21% (p = 0,06). Chỉ vì p = 0,06 mà các nhà nghiên cứu có xu hướng diễn dịch sai kết quả, và sai lầm này rất nghiêm trọng!
2.2 Vấn đề kiểm định nhiều giả thuyết
Như đã nói trên, nghiên cứu y học là một qui trình kiểm định giả thuyết. Trong một nghiên cứu, ít khi nào chúng ta kiểm định chỉ một giả thuyết duy nhất, mà rất nhiều giả thuyết cùng một lúc. Chẳng hạn như trong một nghiên cứu về mối liên hệ giữa vitamin D và nguy cơ gãy cổ xương đùi, các nhà nghiên cứu có thể phân tích mối liên hệ giữa vitamin D và mật độ xương (bone mineral density), giữa vitamin D và nguy cơ gãy xương theo từng giới tính, từng nhóm tuổi, hay phân tích theo các đặc tính lâm sàng của bệnh nhân, v.v… Mỗi một phân tích như thế có thể xem là một kiểm định giả thuyết. Ở đây, chúng ta phải đối diện với vấn đề nhiều giả thuyết (multiple tests of hypothesis hay còn gọi là multiple comparisons).
Vấn đề là như sau: nếu chúng ta kiểm định một giả chúng ta chấp nhận một sai sót 5% (giả dụ chúng ta chấp nhận tiêu chuẩn p = 0,05 để tuyên bố có ý nghĩa hay không có ý nghĩa thống kê). Nói cách khác, sự thật là không thuốc có hiệu quả sai, nhưng kết quả kiểm định thống kê cho ra kết quả có ý nghĩa thống kê, và chúng ta chấp nhận rằng sự kiện này có thể xảy ra với tần số 5%. Vấn đề đặt ra là trong bối cảnh kiểm định nhiều giả thuyết là như sau: nếu trong số n thử nghiệm, chúng ta tuyên bố k thử nghiệm “có ý nghĩa thống kê” (tức là p<0,05), thì xác suất có ít nhất một giả thuyết sai là bao nhiêu?
Để trả lời câu hỏi này chúng ta sẽ bắt đầu bằng một ví dụ đơn giản. Mỗi kiểm định chúng ta chấp nhận một xác suất sai lầm là 0,05. Nói cách khác, chúng ta có xác suất đúng là 0,95. Nếu chúng ta thử nghiệm 3 giả thuyết, xác suất mà chúng ta đúng cả ba [dĩ nhiên] là: 0,95 x 0,95 x 0,95 = 0,8574. Như vậy, xác xuất có ít nhất một sai lầm trong ba tuyên bố “có ý nghĩa thống kê” là: 1 – 0,8574 = 0,1426 (tức khoảng 14%).
Nói chung, nếu chúng ta thử nghiệm n giả thuyết, và mỗi lần thử nghiệm chúng ta chấp nhận một xác suất sai lầm là p, thì xác suất có ít nhất 1 sai lầm trong n lần thử nghiệm đó là . Khi số lần kiểm định là n = 10 và p=0,05 thì xác suất có ít nhất một kết luận sai lầm lên đến 40%!
“Bài học” rút ra từ cách lí giải trên là như sau: nếu chúng ta đọc một bài báo khoa học mà trong đó nhà nghiên cứu tiến hành nhiều thử nghiệm khác nhau với các kết quả trị số p < 0,05, chúng ta có lí do để cho rằng xác suất mà một trong những cái-gọi-là “significant” (hay “có ý nghĩa thống kê”) đó rất cao. Chúng ta cần phải dè dặt với những kết quả phân tích như thế.
Đối với một người làm nghiên cứu, ý nghĩa của vấn đề thử nghiệm nhiều giả thuyết là: không nên “câu cá”. Xin nói thêm về khái niệm “câu cá” trong khoa học. Hãy tưởng tượng, một nhà nghiên cứu muốn tìm hiểu hiệu quả của một thuật điều trị mới cho các bệnh nhân đau khớp. Sau khi xem xét các nghiên cứu đã công bố trong y văn, nhà nghiên cứu quyết định tiến hành một nghiên cứu trên 300 bệnh nhân: phân nửa được điều trị bằng thuật mới, phân nửa chỉ sử dụng giả dược. Sau thời gian theo dõi, thu thập dữ liệu, nhà nghiên cứu phân tích và phát hiện sự khác biệt giữa hai nhóm không có ý nghĩa thống kê. Nói cách khác, thuật điều trị không có hiệu quả. Nhà nghiên cứu không chịu “đầu hàng”, nên tìm cho được một kết quả có ý nghĩa thống kê: chia bệnh nhân thành nhiều nhóm theo độ tuổi (trên 50 hay dưới 50), theo giới tính (nam hay nữ), thành phần kinh tế (có thu nhập cao hay thấp), và thói quen (chơi thể thao hay không). Tính chung, nhà nghiên cứu có 16 nhóm khác nhau, và có thể kiểm định 16 giả thuyết. Nhà nghiên cứu “khám phá” thuật điều trị có ý nghĩa thống kê trong nhóm phụ nữ tuổi trên 50 và có thu nhập cao. Và, kết quả trên được công bố. Đó là một qui trình làm việc mà giới nghiên cứu khoa học gọi là “fishing expedition” (một chuyến đi câu cá). Tất nhiên, một kết quả như thế không có giá trị khoa học và không thể tin được. (Với 16 thử nghiệm khác nhau và với p = 0,05, xác suất mà một thử nghiệm có kết quả “significant” lên đến 55%, do đó chúng ta chẳng ngạc nhiên khi thấy có một “con cá” được bắt!)
Để cho kết quả trị số P có ý nghĩa nguyên thủy của nó trong bối cảnh thử nghiệm nhiều giả thuyết, các nhà nghiên cứu đề nghị sử dụng thuật điều chỉnh Bonferroni (tên của một nhà thống kê học người Ý từng đề nghị cách làm này). Theo đề nghị này, trước khi tiến hành nghiên cứu, nhà nghiên cứu phải xác định rõ giả thuyết nào là chính, và giả thuyết nào là phụ. Ngoài ra, nhà nghiên cứu còn phải đề ra kế hoạch sẽ thử nghiệm bao nhiêu giả thuyết trước khi phân tích dữ liệu. Chẳng hạn như nếu nhà nghiên cứu có kế hoạch thử nghiệm 20 so sánh và muốn giữ cho trị số p ở 0,05, thì thay vì dựa vào 0,05 là tiêu chuẩn để tuyên bố“significant”, nhà nghiên cứu phải dựa vào tiêu chuẩn 0,0025 (tức lấy 0,05 chia cho 20) để tuyên bố “significant”. Nói cách khác, chỉ khi nào một kết quả có trị số p thấp hơn 0,0025 (hay nói chung là p/n) thì nhà nghiên cứu mới có “quyền” tuyên bố kết quả đó có ý nghĩa thống kê.