Youyang Gu, chàng trai 27 tuổi sống cùng cha mẹ tại bang California, Mỹ, bất ngờ trở thành người dự đoán chính xác số liệu về đại dịch Covid-19.
Đầu năm 2020, cả thế giới trông chờ vào hai hệ thống dự báo uy tín nhằm đánh giá mức độ nghiêm trọng của đại dịch Covid-19, theo Bloomberg.
Trong đó có một hệ thống được Đại học Hoàng gia London, Vương quốc Anh, phát triển. Hệ thống còn lại là sản phẩm của Viện Đánh giá và Đo lường Sức khỏe (IHME), có trụ sở tại thành phố Seattle, bang Washington, Mỹ.
Song hai hệ thống lại đưa ra những kết quả có khác biệt đáng kể. Hệ thống của Anh cảnh báo Mỹ có thể ghi nhận 2 triệu ca tử vong vì Covid-19 vào mùa hè, trong khi IHME dự báo số liệu này chỉ dừng ở khoảng 60.000 trường hợp.
Cuối cùng, cả hai hệ thống đều không cho kết quả chính xác. Tính đến đầu tháng 8/2020, nước Mỹ ghi nhận khoảng 160.000 ca tử vong vì Covid-19.
Kết quả dự báo thiếu chính xác đã thu hút sự quan tâm của một nhà khoa học dữ liệu trẻ tuổi, anh Youyang Gu.
Siêu sao dữ liệu
Anh Gu, 27 tuổi, có bằng thạc sĩ về toán học, kỹ thuật và khoa học máy tính tại Học viện Công nghệ Massachusetts (MIT). Dù không được đào tạo về y học, anh vẫn tin tưởng các mô hình dữ liệu của mình có thể phát huy tác dụng trong thời đại dịch.
Giữa tháng 4/2020, Gu đã dành một tuần để xây dựng công cụ dự đoán số người tử vong vì đại dịch. Anh cũng thiết lập trang web để thông báo số liệu dịch tễ. Không lâu sau, thuật toán của anh Gu đưa ra kết quả chính xác, vượt qua mô hình dự báo từ các viện nghiên cứu hàng đầu trên thế giới.
Anh Youyang Gu, 27 tuổi, có bằng thạc sĩ về toán học, kỹ thuật và khoa học máy tính tại Học viện Công nghệ Massachusetts (MIT). (Ảnh: Bloomberg).
“Đây là mô hình duy nhất mang lại hiệu quả”, chuyên gia dữ liệu Jeremy Howard từ Đại học San Francisco nhận xét. “Các mô hình khác đã nhiều lần trở nên vô dụng. Song những người thiết lập chúng không xem xét và giải quyết vấn đề, báo giới cũng không mấy bận tâm”.
Ông Howard kết luận: “Cuộc sống của mọi người phụ thuộc vào điều này. Và Youyang Gu là người duy nhất chịu xem xét và xử lý dữ liệu đúng cách”.
Trên thực tế, mô hình dự báo của Gu khá đơn giản. Trước tiên, anh cân nhắc mối liên hệ giữa số lần xét nghiệm Covid-19 và số lần nhập viện. Từ đó, anh nhận thấy các tiểu bang và chính phủ liên bang cung cấp số liệu không đồng nhất.
Theo Gu, chỉ có số ca tử vong được cập nhật một cách nhất quán. Anh cho biết: “Các mô hình khác sử dụng nhiều nguồn dữ liệu. Nhưng tôi quyết định dựa vào số ca tử vong trong quá khứ để dự đoán số liệu này trong tương lai. Đây là nguồn thông tin ít bị ‘nhiễu’ nhất”.
Dù không hoàn hảo, mô hình của anh Gu đã vận hành hiệu quả ngay từ khi đi vào hoạt động. Vào cuối tháng 4/2020, Gu dự đoán nước Mỹ sẽ ghi nhận khoảng 80.000 người tử vong vì Covid-19 vào ngày 9/5. Số liệu thực tế là 79.926 trường hợp.
Gu cũng dự đoán số ca tử vong tại Mỹ vào ngày 18/5 và ngày 27/5 lần lượt là 90.000 và 100.000. Một lần nữa, những số liệu ước tính lại khớp với thực tế.
Đáng chú ý, Gu còn dự đoán được làn sóng dịch bệnh lần hai, ngay khi nhiều tiểu bang ở Mỹ dỡ bỏ các biện pháp phòng chống dịch. Trong khi đó, viện IHME cho rằng virus corona sẽ biến mất nhờ các biện pháp giãn cách xã hội.
Sự đóng góp quan trọng
Tháng 3/2020, IHME phải đối mặt với một số lời chỉ trích vì không thể dự đoán chính xác số liệu dịch tễ. Dù vậy, đơn vị vẫn được Quỹ Bill & Melinda Gates tài trợ hơn 500 triệu USD.
Ngày 19/4/2020, Gu đưa ra cảnh báo về làn sóng dịch bệnh lần hai. Cùng lúc này, cựu Tổng thống Donald Trump trích dẫn dự báo ra của IHME để thể hiện cuộc chiến chống lại virus corona sẽ sớm kết thúc.
Các quan chức từ IHME cũng tích cực đề cao kết quả nghiên cứu của mình. Anh Gu kể lại: “IHME liên tục xuất hiện trên truyền thông, cố gắng thuyết phục mọi người rằng số ca tử vong sẽ về mức 0 vào tháng 7”.
Anh bình luận: “Tôi nghĩ việc làm này thật vô ích. Bất kỳ ai cũng có thể nhận ra số người tử vong sẽ duy trì ở mức từ 1.000 đến 1.500 trường hợp trong một khoảng thời gian”.
Giám đốc Christopher Murray của IHME thì cam kết dự báo sẽ được cải thiện triệt để sau tháng 4. Song lúc này, dư luận đã bắt đầu chú ý đến mô hình dự báo của anh Gu.
Cuối tháng 4/2020, nhà khoa học nổi tiếng Carl Bergstrom của Đại học Washington đã đăng bài về mô hình của anh Gu trên mạng xã hội Twitter. Không lâu sau, Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh (CDC) Mỹ cũng công bố số liệu của Gu lên trang web chính thức.
Khi đại dịch tiếp tục hoành hành, Gu thường xuyên dự họp với CDC và các chuyên gia thống kê, chuyên gia dịch tễ học chuyên nghiệp.
Anh Youyang Gu đang sống ở thành phố New York và tiếp tục công việc thiết lập mô hình dự đoán. (Ảnh: Bloomberg).
Cùng lúc này, lưu lượng truy cập vào trang web của anh Gu bùng nổ. Mỗi ngày, có thêm hàng triệu người đăng ký tài khoản để cập nhật diễn biến dịch bệnh tại khu vực họ sinh sống.
Nhờ sự quan tâm của dư luận, nhiều mô hình dự báo bắt đầu xuất hiện trong suốt mùa hè năm 2020. Phó giáo sư Nicholas Reich tại khoa thống kê sinh học và dịch tễ học của Đại học Massachusetts đã thu thập khoảng 50 mô hình dự đoán và so sánh độ chính xác của chúng. Ông Reich nhận xét: “Mô hình của Youyang luôn nằm trong top đầu chính xác nhất”.
Tháng 11/2020, Gu quyết định tạm dừng mô hình dự báo của mình. Ông Reich bình luận: “Youyang đã lùi lại một cách khiêm tốn. Khi thấy các mô hình tốt hơn xuất hiện, anh ấy tin rằng công việc của mình đã hoàn tất”.
Một tháng trước khi dừng dự án, Gu dự đoán Mỹ sẽ ghi nhận 231.000 trường hợp tử vong vào ngày 1/11/2020. Khi đến thời điểm này trong thực tế, Mỹ báo cáo 230.995 trường hợp tử vong.
Sau khi dành thời gian nghỉ ngơi, Youyang Gu đang sống ở thành phố New York và tiếp tục công việc thiết lập mô hình dự đoán. Lần này, anh nghiên cứu số người Mỹ mắc Covid-19, tốc độ triển khai vaccine và khả năng nước này đạt miễn dịch cộng đồng.
Dự đoán của Gu cho rằng 61% dân số Mỹ sẽ đạt tình trạng miễn dịch vào tháng 6, thông qua hình thức tiêm vaccine hoặc đã nhiễm virus corona và hồi phục.
Anh Gu bình luận: “Lĩnh vực dự đoán còn nhiều thiếu sót và những người có nền tảng như tôi có thể giúp sức. Nhưng tôi vẫn không biết mình sẽ góp sức như thế nào”.