Tác giả: Ambuj Tewari, giáo sư thống kê, Đại học Michigan
Bạn có thể vô cùng kinh ngạc khi xem video mới nhất do AI tạo ra, số dư ngân hàng của bạn được an toàn trước ‘tội phạm công nghệ’ nhờ hệ thống phát hiện gian lận, hoặc công việc trở nên dễ dàng hơn một chút vì bạn có thể đọc tin nhắn khi đang di chuyển, thì bạn phải cảm ơn rất nhiều nhà khoa học, nhà toán học và kỹ sư.
Nhưng có 2 cái tên nổi bật được cho là có những đóng góp nền tảng cho công nghệ học sâu (deep learning) giúp những trải nghiệm đó trở thành hiện thực: Nhà vật lý John Hopfield của Đại học Princeton và nhà khoa học máy tính Geoffrey Hinton (người Anh) của Đại học Toronto, Canada.
Hai nhà nghiên cứu đã được trao giải Nobel vật lý vào ngày 8 tháng 10 năm 2024, cho công trình tiên phong của họ trong lĩnh vực mạng nơ-ron nhân tạo. Mặc dù mạng nơ-ron nhân tạo được mô phỏng theo mạng nơ-ron sinh học, nhưng công trình của cả 2 nhà nghiên cứu đều dựa trên vật lý thống kê, do đó được trao giải thưởng nobel về vật lý.
Làm thế nào một tế bào thần kinh có thể tính toán (tự học tập)
Mạng nơ-ron nhân tạo có nguồn gốc từ các nghiên cứu về nơ-ron sinh học trong não người. Năm 1943, nhà sinh lý học thần kinh Warren McCulloch và nhà logic học Walter Pitts đã đề xuất một mô hình đơn giản về cách thức hoạt động của nơ-ron.
Trong mô hình McCulloch-Pitts, một nơ-ron được kết nối với các nơ-ron lân cận và có thể nhận tín hiệu từ chúng. Sau đó, nó có thể kết hợp các tín hiệu đó để gửi tín hiệu đến các nơ-ron khác.
Nhưng có một sự thay đổi: Nó có thể cân nhắc các tín hiệu đến từ những người ‘hàng xóm’ khác nhau theo cách khác nhau. Hãy tưởng tượng rằng, bạn đang cố gắng quyết định xem có nên mua một chiếc điện thoại mới – bán chạy nhất hay không.
Bạn nói chuyện với bạn bè và yêu cầu họ giới thiệu. Một chiến lược đơn giản là thu thập tất cả các khuyến nghị của bạn bè và quyết định đồng ý với bất kỳ điều gì mà đa số nói.
Ví dụ, bạn hỏi 3 người bạn, Alice, Bob và Charlie, và họ lần lượt nói ‘có, có và không’. Điều này dẫn bạn đến quyết định mua điện thoại vì bạn có 2 câu trả lời có và 1 câu trả lời không.
Tuy nhiên, bạn có thể tin tưởng một số người bạn hơn vì họ có kiến thức sâu rộng về các tiện ích kỹ thuật. Vì vậy, bạn có thể quyết định dựa trên ‘trọng số lớn hơn’ cho các khuyến nghị của họ.
Ví dụ, nếu Charlie rất hiểu biết (người trả lời không), bạn có thể gán ‘trọng số’ 3 cho ý kiến phản đối của anh ấy và bây giờ quyết định của bạn là không mua điện thoại – 2 lần đồng ý và 3 lần phản đối.
Nếu không may, có một người mà bạn hoàn toàn không tin tưởng về các vấn đề tiện ích kỹ thuật, bạn thậm chí có thể gán cho họ một trọng số âm. Vì vậy, sự đồng ý của họ được tính là phản đối và sự phản đối của họ được tính là đồng ý (vì trọng số là âm).
Sau khi đã tự đưa ra quyết định về việc liệu chiếc điện thoại mới có phải là lựa chọn tốt hay không, những người bạn khác có thể nhờ bạn giới thiệu.
Tương tự như vậy, trong các mạng nơ-ron nhân tạo và sinh học, các nơ-ron có thể tổng hợp các tín hiệu từ những nơ-ron lân cận và gửi tín hiệu đến các nơ-ron khác.
Khả năng này dẫn đến một sự khác biệt quan trọng: Có một chu kỳ trong mạng lưới nơ-ron không? Ví dụ, nếu hôm nay tôi hỏi Alice, Bob và Charlie, và ngày mai Alice nhờ tôi giới thiệu, thì sẽ có một chu kỳ: Từ Alice đến tôi, và từ tôi trở lại Alice.
Nếu các kết nối giữa các nơ-ron không có chu kỳ, thì các nhà khoa học máy tính gọi đó là mạng nơ-ron truyền thẳng. Các nơ-ron trong mạng truyền thẳng có thể được sắp xếp theo lớp. Lớp đầu tiên bao gồm các đầu vào. Lớp thứ 2 nhận tín hiệu từ lớp đầu tiên … Lớp cuối cùng biểu diễn các đầu ra của mạng lưới nơ-ron thần kinh.
Tuy nhiên, nếu có một ‘chu kỳ’ trong mạng lưới nơ-ron nhân tạo, các nhà khoa học máy tính gọi đó là mạng nơ-ron hồi quy và sự sắp xếp các nơ-ron có thể phức tạp hơn so với trong mạng nơ-ron truyền thẳng.
Xem thêm: Giải Nobel vật lý 2024: Mạng nơ-ron nhân tạo đặt nền nóng cho AI như thế nào?
Mạng Hopfield
Nguồn cảm hứng ban đầu cho mạng nơ-ron nhân tạo xuất phát từ sinh học, nhưng các lĩnh vực khác cũng sớm bắt đầu định hình sự phát triển của chúng. Bao gồm logic, toán học và vật lý.
Nhà vật lý John Hopfield đã sử dụng các ý tưởng từ vật lý để nghiên cứu một loại mạng nơ-ron hồi quy cụ thể, hiện được gọi là mạng Hopfield. Cụ thể, ông đã nghiên cứu động lực học của chúng: Điều gì xảy ra với mạng lưới nơ-ron theo thời gian?
Những động lực như vậy cũng quan trọng khi thông tin lan truyền qua mạng xã hội. Mọi người đều biết về các meme lan truyền và các phòng phản hồi hình thành trong các mạng xã hội trực tuyến. Đây đều là những hiện tượng ‘tập thể’, phát sinh từ việc trao đổi thông tin đơn giản giữa những người trong mạng xã hội.
Hopfield là người tiên phong trong việc sử dụng các mô hình từ vật lý, đặc biệt là các mô hình được phát triển để nghiên cứu từ tính, để hiểu động lực của các mạng nơ-ron hồi quy. Ông cũng chỉ ra rằng, động lực của chúng có thể cung cấp cho các mạng nơ-ron như vậy một dạng trí nhớ.
Máy Boltzmann và truyền ngược
Trong những năm 1980, Geoffrey Hinton, nhà thần kinh học tính toán Terrence Sejnowski và những người khác đã mở rộng ý tưởng của Hopfield để tạo ra một lớp mô hình mới gọi là máy Boltzmann (Boltzmann machine), được đặt theo tên nhà vật lý Ludwig Boltzmann thế kỷ 19.
Như tên gọi của nó, thiết kế của các mô hình này bắt nguồn từ vật lý thống kê do Boltzmann tiên phong khởi xướng. Không giống như các mạng Hopfield có thể lưu trữ các mẫu và sửa lỗi trong các mẫu – giống như trình kiểm tra chính tả – máy Boltzmann có thể tạo ra các mẫu mới, do đó gieo mầm cho cuộc cách mạng Trí tuệ nhân tạo – tạo sinh (generative AI) hiện đại.
Nghiên cứu của Hinton cũng tạo ra một đột phá khác, diễn ra vào những năm 1980: truyền ngược. Nếu muốn mạng nơ-ron nhân tạo thực hiện các nhiệm vụ thú vị, bạn phải bằng cách nào đó, chọn đúng trọng số cho các kết nối giữa các nơ-ron nhân tạo.
Truyền ngược là một thuật toán chính giúp có thể chọn ‘trọng số’ dựa trên hiệu suất của mạng nơ-ron dựa trên tập dữ liệu ‘đào tạo’. Tuy nhiên, vẫn còn nhiều thách thức khi đào tạo mạng nơ-ron nhân tạo với nhiều lớp.
Vào những năm 2000, Hinton và các cộng sự đã khéo léo sử dụng máy Boltzmann để đào tạo mạng nơ-ron nhiều lớp, đầu tiên là đào tạo trước từng lớp mạng và sau đó sử dụng một thuật toán tinh chỉnh khác trên mạng nơ-ron đã được đào tạo trước để điều chỉnh thêm trọng số. Mạng nhiều lớp được đổi tên thành ‘mạng sâu’ và cuộc cách mạng học sâu (deep learning) đã bắt đầu.
Trí tuệ nhân tạo (AI) và vật lý
Giải Nobel vật lý năm 2024 cho thấy các ý tưởng từ vật lý đã đóng góp như thế nào vào sự phát triển của công nghệ học sâu (deep learning). Giờ đây, công nghệ học sâu (deep learning) đã bắt đầu đền đáp vật lý, bằng cách cho phép mô phỏng chính xác và nhanh chóng các hệ thống từ phân tử và vật liệu cho đến toàn bộ khí hậu của trái đất.
Bằng cách trao giải Nobel vật lý cho Hopfield và Hinton (năm 2024), ủy ban giải thưởng Nobel đã hy vọng vào tiềm năng của nhân loại trong việc sử dụng những tiến bộ này để thúc đẩy phúc lợi của con người và xây dựng một thế giới bền vững.