Giải mã protein dựa trên Trí tuệ nhân tạo đã đạt giải Nobel hóa học 2024

Giải mã protein sử dụng trí tuệ nhân tạo (AI). Giải Nobel hóa học năm 2024 liên quan đến tính toán và dự đoán cấu trúc protein dựa trên AI

Các nhà khoa học đạt giải Nobel hóa học năm 2024. Ảnh Viện hàn lâm khoa học hoàng gia Thụy Điển

Viện hàn lâm khoa học hoàng gia Thụy Điển đã quyết định trao một nửa giải Nobel Hóa học năm 2024 cho David Becker (thuộc Đại học Washington) vì “thiết kế tính toán protein”, nửa còn lại thuộc về Demis Hassabis và John M. Jumper của DeepMind Foundation của Google cho “dự đoán cấu trúc protein”.

Giải Nobel hóa học năm 2024 liên quan đến ‘khám phá thế giới protein’ bằng trí tuệ nhân tạo (AI), dù là dự đoán cấu trúc của hầu hết các protein đã biết hay nắm vững nghiên cứu về các khối xây dựng cơ bản của sự sống và sau đó sử dụng kiến thức chuyên môn đó để tạo ra các protein hoàn toàn mới.

Giải Nobel hóa học năm 2024, khám phá thế giới protein bằng trí tuệ nhân tạo. Ảnh Viện hàn lâm khoa học hoàng gia Thụy Điển
Giải Nobel hóa học năm 2024, khám phá thế giới protein bằng trí tuệ nhân tạo. Ảnh Viện hàn lâm khoa học hoàng gia Thụy Điển

Protein bắt đầu như thế nào?

Để hiểu giải thưởng Nobel năm 2024 có ý nghĩa gì ở mức độ đơn giản hóa, chúng ta hãy quay lại điểm 0, để tìm hiểu ý nghĩa của gen, gen đơn giản là ‘quy tắc sống’ mà bạn thừa hưởng từ cha mẹ.

Hãy tưởng tượng, cơ thể bạn như một bộ phim được chiếu trên màn hình, và bộ phim này ban đầu bao gồm một đoạn ‘phim dài’ (đoạn băng) trong đó các cảnh được mã hóa.

Tại đây, người anh hùng gặp người yêu của mình lần đầu tiên và thú nhận tình yêu của mình với cô ấy, và ở vị trí thứ ba trong ‘đoạn phim’, cô ấy để anh một mình với nỗi buồn.

Tế bào con người của chúng ta chứa một ‘dải dài’ các đơn vị hóa học đại diện cho cái được gọi là ‘DNA’, được tìm thấy trong nhân của mọi tế bào trong cơ thể con người. Mỗi nhóm đơn vị này (đoạn) đại diện cho một gen biểu hiện màu tóc của bạn, một gen khác biểu hiện màu mắt của bạn, và gen thứ ba biểu thị … chiều dài của xương … cho đến những hình thành phân tử và phản ứng hóa học chi tiết nhất trong cơ thể con người.

Cũng giống như celluloid (một loại vật liệu ứng dụng trong ngành công nghiệp phim, đã ngừng sử dụng – thuật ngữ hiện tại được hàm ý là ‘phim’ nói chung) trên màn hình chuyển thành phim, cơ thể chúng ta chuyển những ‘mã di truyền’ (DNA) đó thành protein.

Protein được tạo thành từ các đơn vị nhỏ hơn gọi là axit amin, cụ thể chỉ có 20 loại axit amin. Ảnh Viện hàn lâm khoa học hoàng gia Thụy Điển
Protein được tạo thành từ các đơn vị nhỏ hơn gọi là axit amin, cụ thể chỉ có 20 loại axit amin. Ảnh Viện hàn lâm khoa học hoàng gia Thụy Điển

Protein là tất cả mọi thứ trong cơ thể chúng ta, bắt đầu từ các thành phần của da, cơ và tất cả các bộ phận của cơ thể, cho đến những cấu trúc nhỏ nhất hoạt động trong các tế bào nhỏ, cho dù là các ‘bào quan’ của những tế bào đó hay các ‘thiết bị’ rất nhỏ, và làm việc không mệt mỏi trong suốt cuộc đời. Hãy xem protein như những khối xây dựng cơ bản trong toàn bộ tế bào của cơ thể.

Protein cũng là một phương tiện để sửa chữa cơ thể và giúp xây dựng cơ, xương và các mô khác. Một số protein hoạt động như enzyme, giúp tăng tốc các phản ứng hóa học (chẳng hạn như tiêu hóa thức ăn) và vận chuyển các phân tử quan trọng, chẳng hạn như hemoglobin là một loại protein vận chuyển oxy trong máu, và giúp bảo vệ chống lại bệnh tật (kháng thể). Một số protein cũng là hormone gửi tín hiệu trong cơ thể (chẳng hạn như insulin).

Bây giờ bạn phải hiểu tầm quan trọng của thứ tồn tại trong toàn bộ cơ thể (và cơ thể của mọi sinh vật khác) và quản lý nó. Bất chấp sự đa dạng ‘tột độ’ này, protein được tạo thành từ các đơn vị nhỏ hơn gọi là axit amin, đặc biệt chỉ có 20 loại axit amin mà thôi.

Nó giống như những mảnh Lego, vì các đơn vị này được liên kết với nhau theo những chuỗi khác nhau và đa dạng đến một mức độ rất phức tạp, chính điều này tạo nên sự đa dạng to lớn trong các tế bào của cơ thể con người và mọi sinh vật sống khác, cũng như cách thức mà các axit amin (các mảnh lego cơ bản) được sắp xếp sẽ quyết định hình dạng của protein và công việc của nó.

Các axit amin được liên kết với nhau theo các chuỗi khác nhau và rất phức tạp. Ảnh Viện hàn lâm khoa học hoàng gia Thụy Điển
Các axit amin được liên kết với nhau theo các chuỗi khác nhau và rất phức tạp. Ảnh Viện hàn lâm khoa học hoàng gia Thụy Điển

Phép gấp protein kỳ diệu

Các nhà khoa học từ lâu đã quan tâm đến việc tìm hiểu cách sắp xếp các axit amin. Rõ ràng nhất, các chuỗi axit amin xoắn lại và gấp lại thành cấu trúc 3 chiều độc đáo, mang lại cho protein các chức năng của chúng. Đây là cái mà ngày nay chúng ta gọi là “protein gấp”.

Các nhà hóa học đã biết từ thế kỷ 19 rằng, protein rất quan trọng đối với mọi quá trình sống, nhưng phải đến những năm 1950, các công cụ hóa học mới trở nên đủ chính xác để các nhà nghiên cứu bắt đầu khám phá protein chi tiết hơn.

Các nhà nghiên cứu John Kendrew và Max Perutz của Đại học Cambridge đã có một khám phá mang tính đột phá khi họ sử dụng phương pháp ‘tinh thể học tia X’ để cung cấp các mô hình protein 3D đầu tiên. Để ghi nhận phát hiện này, họ đã được trao giải Nobel hóa học năm 1962.

Sau đó, các nhà nghiên cứu chủ yếu sử dụng phương pháp ‘tinh thể học tia X’ để tạo thành công hình ảnh của khoảng 200.000 loại protein khác nhau, nhưng những kỹ thuật đó đòi hỏi nhiều nỗ lực và diễn ra chậm.

Nhưng bằng cách sử dụng kiến ​​thức sẵn có vào thời điểm đó, Christian Anfinsen, một nhà khoa học người Mỹ, đã thực hiện một khám phá rất quan trọng khác, khi ông sử dụng các kỹ thuật hóa học khác nhau cho phép ông làm cho ‘protein mở ra và sau đó gấp lại’.

Quan sát thú vị là protein luôn có hình dạng giống hệt nhau. Điều này có nghĩa là có một cách (hoặc nhiều cách) cụ thể trong đó protein uốn cong và xoắn lại, và nếu biết về nó, chúng ta có thể biết mọi thứ về nó, và do đó giúp hiểu các khối xây dựng cơ bản của cấu trúc cơ thể con người và các sinh vật sống khác. Điều này dẫn đến việc Anvinsen được trao giải Nobel hóa học năm 1972

Xem thêm: MicroRNA là gì? Vì sao khám phá microRNA nhận được giải Nobel y học 2024?

Protein phức tạp hơn chúng ta nghĩ

Bây giờ chúng ta biết rằng, các chuỗi axit amin gấp lại theo một cách cụ thể để tạo ra các protein mà chúng ta đã biết, nhưng chúng gấp lại như thế nào? Đây là giải Nobel hóa học 2024.

Sự khác biệt giữa DNA và RNA
Sự khác biệt giữa DNA và RNA

Năm 1994, các nhà nghiên cứu đã bắt đầu dự án “Dự đoán cấu trúc protein”, dự án này đã phát triển thành một cuộc thi hoặc trò chơi, nơi các nhà nghiên cứu từ khắp nơi trên thế giới có quyền truy cập vào các chuỗi axit amin trong protein có cấu trúc đã được xác định bằng các phương pháp trước đó.

Tuy nhiên, đối với những người tham gia, thách thức là phải dự đoán cấu trúc protein dựa trên trình tự axit amin mà họ được cung cấp.

Trò chơi khoa học này đã thu hút nhiều nhà nghiên cứu, nhưng việc giải quyết vấn đề dự đoán tỏ ra vô cùng khó khăn và sự thống nhất giữa dự đoán của các nhà nghiên cứu trong cuộc thi và cấu trúc thực tế lại không hề cải thiện. Nhưng tại sao tất cả nỗ lực này lại thất bại?

Các nhà khoa học ước tính rằng, có khoảng 1.000-1.500 nếp gấp protein riêng biệt trong tự nhiên. Đây có vẻ là một con số nhỏ dễ phát hiện, nhưng hóa ra protein có thể có những ‘biến thể tinh tế’ trong những nếp gấp này, để tạo ra các hình dạng và chức năng độc đáo.

Hãy tưởng tượng rằng, bạn đang gấp một chiếc máy bay giấy. Chỉ có một vài thiết kế cơ bản (nếp gấp) nhưng bạn có thể thực hiện những sửa đổi và biến thể nhỏ trong mỗi thiết kế, tạo ra nhiều mặt phẳng độc đáo.

Protein cũng tương tự nhau, và những nếp gấp cơ bản giống nhau được sử dụng theo nhiều cách khác nhau, tạo ra hàng triệu protein độc đáo. Với các chức năng khác nhau.

MicroRNA điều hành chính hình thành loại tế bào - quá trình phiên mã và dịch mã. Ảnh ThygeNext
MicroRNA điều hành chính hình thành loại tế bào – quá trình phiên mã và dịch mã. Ảnh ThygeNext

Người chơi cờ

Tuy nhiên, nếu có dữ liệu ‘rất dày đặc’ với các ‘mẫu ẩn giấu’ khỏi mắt người và máy tính thông thường, điều gì có thể tiết lộ những mẫu này?

Chính xác là AI với khả năng độc đáo trong việc khám phá các mô hình giàu trí tưởng tượng với hàng núi dữ liệu.

Năm 2018, giáo sư cờ vua, chuyên gia khoa học thần kinh và người tiên phong trong lĩnh vực trí tuệ nhân tạo (Hasabis) đã bước vào lĩnh vực này 8 năm trước vào thời điểm đó, ông đồng sáng lập công ty DeepMind, công ty đã phát triển các mô hình trí tuệ nhân tạo khéo léo cho các ‘trò chơi board’ phổ biến.

Trò chơi không phải là mục tiêu mà là một phương tiện để phát triển các mô hình trí tuệ nhân tạo tốt hơn (AI), và vào năm 2018, Hassabis và mô hình của ông đã đăng ký tham gia cuộc thi “Dự đoán cấu trúc protein” số 13.

Trước Hassabis, cấu trúc protein mà các nhà nghiên cứu dự đoán có độ chính xác cao nhất là 40%, nhưng sử dụng mô hình trí tuệ nhân tạo của riêng mình có tên AlphaFold, nhóm Hassabis đạt độ chính xác xấp xỉ 60%, nhưng điều đó là không tốt, vì để dự đoán thành công, độ chính xác của dự đoán phải đạt 90% khi so sánh với cấu trúc protein ẩn giấu.

Ông ấy và nhóm của mình tiếp tục phát triển các thuật toán, nhưng không có kết quả. Cần có chuyên môn mới và khác biệt để hoàn thành dự án này với sự bổ sung chất lượng, và đã xuất hiện John Jumper, người vào năm 2011 đã bắt đầu phát triển các phương pháp đơn giản hơn và sáng tạo hơn để mô phỏng động lực học của protein.

Jumper nhanh chóng quan tâm đến cuộc thi “Dự đoán cấu trúc protein”. Vào năm 2017, ông ấy đã làm việc với Hassabis tại DeepMind và phiên bản mới “Alpha Fold 2” mà họ đang phát triển được trang bị ‘mạng thần kinh nhân tạo’ có thể tìm thấy các mẫu trong lượng dữ liệu khổng lồ, theo cách linh hoạt hơn và hiệu quả hơn trước – xác định những gì cần tập trung để đạt được một mục tiêu cụ thể.

Và vào năm 2020, khi ban tổ chức cuộc thi đánh giá kết quả và nhận thấy thử thách 50 năm ‘hóa sinh học’ đã kết thúc, AlphaFold đã giành chiến thắng và vượt qua mốc 90%, và giờ chúng ta đã có cách tốt nhất để dự đoán một protein gấp lại như thế nào.

Khi Hassabis và Jumper xác nhận rằng, AlphaFold2 thực sự hoạt động, họ đã tính toán cấu trúc của tất cả các protein của con người. Sau đó, họ dự đoán cấu trúc của tất cả khoảng 200 triệu protein mà các nhà nghiên cứu đã phát hiện cho đến nay khi lập bản đồ các sinh vật trên trái đất.

Không tìm thấy trong tự nhiên

Bây giờ chúng ta hãy tạm dừng để nói về David Pecker, người đã tham gia cuộc thi lớn tương tự vào năm 1998 bằng cách sử dụng một thuật toán khác có tên là “Rosetta Fold”, nhưng sau một thời gian, ông ấy đã nảy ra một ý tưởng thiên tài: Những chương trình này có thể được sử dụng để cố gắng dự đoán cấu trúc protein theo hướng ngược lại.

Baker nhận thấy rằng, thay vì nhập các chuỗi axit amin và trích xuất cấu trúc protein, họ có thể nhập cấu trúc protein mong muốn và nhận được đề xuất về trình tự axit amin, cho phép họ tạo ra các protein hoàn toàn mới.

Lĩnh vực thiết kế protein có nghĩa là các nhà nghiên cứu tạo ra các protein tùy chỉnh với các chức năng mới và ý kiến ​​của Becker rất đơn giản: Nếu bạn muốn chế tạo một chiếc máy bay, đừng bắt đầu bằng việc ‘sửa đổi’ một con chim. Thay vào đó, bạn phải hiểu những nguyên tắc đầu tiên của khí động học và chế tạo máy bay từ những nguyên tắc đó.

Vì vậy, dựa trên kiến ​​thức hiện có về cấu trúc protein, Becker và các đồng nghiệp đã có thể thiết kế các protein có cấu trúc hoàn toàn mới. Để làm điều này, Rosettafold đã tìm kiếm cơ sở dữ liệu chứa tất cả các cấu trúc protein đã biết, tìm kiếm các đoạn protein ngắn giống với cấu trúc mong muốn.

Sử dụng kiến ​​thức cơ bản này về ‘bối cảnh năng lượng’ của protein, Rosetta sau đó đã tinh chế các mảnh này, đề xuất các chuỗi axit amin cần thiết và thực sự có thể tạo ra một loại protein có tên là ‘TOP7’.

‘TOP 7’ là một bất ngờ đáng kinh ngạc đối với các nhà nghiên cứu trong lĩnh vực này, một loại protein hoàn toàn mới chứa 93 axit amin không có trong tự nhiên.

Becker công bố khám phá của mình vào năm 2003, bước đầu tiên được mô tả là một sự phát triển phi thường.

Một lần nữa, protein là khối xây dựng của cơ thể chúng ta, và do đó tiết lộ bí mật của chúng có nghĩa là góp phần không chỉ vào việc hiểu cơ thể con người và cơ thể của các sinh vật sống khác mà còn góp phần điều trị chúng.

Thành tựu của nhóm này đóng vai trò quan trọng, trong việc giúp các nhà nghiên cứu đạt được sự hiểu biết rõ ràng hơn trong các lĩnh vực như y học chính xác và rối loạn di truyền, hiểu cơ chế bệnh tật nói chung, cải tiến vắc xin và kháng thể mới, khám phá các loại thuốc mới với tốc độ nhanh hơn trước và phát triển nghiên cứu khoa học trong lĩnh vực này.

Tác giả: Shadi Abdel Hafez

Nguồn: Shadi Abdel Hafez – aljazeera.net – Qatar

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Lên đầu trang