ĐỘT PHÁ TRONG ĐÀO TẠO AI: TRUNG QUỐC CHUYỂN HƯỚNG GIẢM CHI PHÍ THAY VÌ ĐUA CẠNH VỀ PHẦN CỨNG

DeepSeek Gây Chấn Động Khi Vượt Mặt ChatGPT Với Phương Pháp Đột Phá Trong Huấn Luyện AI

Trong làng công nghệ toàn cầu, một tên tuổi mới nổi của Trung Quốc vừa làm rung chuyển giới trí tuệ nhân tạo (AI) với đề xuất đột phá về kiến trúc huấn luyện mô hình. Liang Wenfeng, nhà sáng lập DeepSeek, đã công bố sáng kiến Siêu kết nối đa tạp (Manifold-Constrained Hyper-Connections – mHC), mở ra khả năng đảo ngược cuộc đua tranh trong ngành AI vốn đang thuộc về các công ty Mỹ.

DeepSeek từng gây sốc khi ra mắt các mô hình AI có sức mạnh tương đương OpenAI nhưng với chi phí thấp hơn nhiều, khiến giá trị của Nvidia bị tổn thất nghiêm trọng khi cổ phiếu của hãng này sụt giảm 17% trong một ngày. Sự kiện này đã thúc đẩy các tập đoàn công nghệ Mỹ phải xem lại chiến lược, chuyển từ mô hình AI mã nguồn đóng sang mở để cạnh tranh hiệu quả hơn. Tuyên bố của Liang Wenfeng có thể mở ra một chương mới cho ngành trí tuệ nhân tạo toàn cầu, thúc đẩy sự cạnh tranh công bằng và sáng tạo từ các quốc gia khác.

SÁNG KIẾN ĐỔI MỚI ĐÁNG CHÚ Ý CỦA DEEPSEEK

Trong bài nghiên cứu công bố ngày 1.1, nhóm nghiên cứu của DeepSeek cho biết họ đã thử nghiệm phương pháp mHC trên các mô hình có quy mô nhỏ đến lớn, từ 3 tỉ cho tới 27 tỉ tham số. Kết quả cho thấy mHC có khả năng mở rộng mà không làm tăng đáng kể gánh nặng tính toán, một điều cực kỳ quan trọng trong cuộc đua công nghệ AI toàn cầu, nơi các công ty Mỹ nhờ khả năng truy cập sức mạnh xử lý để duy trì lợi thế cạnh tranh.

Điều này phản ánh rõ nét về bức tranh hợp tác ngày càng mở rộng giữa các công ty Trung Quốc trong lĩnh vực AI, khi họ sẵn sàng công khai các nghiên cứu để thúc đẩy tiến bộ chung, thay vì giữ bí mật để duy trì lợi thế cạnh tranh. Các chuyên gia trong ngành đánh giá cao tính khả thi của mHC, nhận định rằng kết quả thực nghiệm xác nhận khả năng của phương pháp này trong việc huấn luyện các mô hình lớn, đồng thời mang lại hiệu quả vượt trội về chi phí và công sức.

Liang Wenfeng những lúc này vẫn âm thầm tham gia vào các nghiên cứu cốt lõi của DeepSeek, thể hiện niềm đam mê và cam kết của nhà sáng lập này đối với sự phát triển của lĩnh vực.

SIÊU KẾT NỐI ĐA TẠP VÀ TƯƠNG LAI CỦA AI

Khái niệm siêu kết nối (HC) từng xuất hiện trong nghiên cứu của ByteDance vào tháng 9.2024 như một cải tiến đối với ResNet – kiến trúc mạng dư nổi tiếng từ năm 2015 do các nhà khoa học của Microsoft Research Asia phát triển, trong đó có Hà Khai Minh. ResNet cho phép xây dựng các mạng nơ-ron sâu mà vẫn giữ được hiệu quả trong quá trình huấn luyện, giữ thông tin quan trọng qua nhiều lớp. Đây là nền tảng của các mô hình lớn như GPT của OpenAI hay hệ thống AlphaFold của Google DeepMind.

Tuy nhiên, ResNet cũng tồn tại hạn chế như việc khó đảm bảo tín hiệu truyền qua các tầng mà không bị “sụp đổ”, đặc biệt khi mạng trở nên thật sự sâu và phức tạp. Các nhà nghiên cứu của DeepSeek cho biết, phương pháp HC của ByteDance đã phần nào giải quyết vấn đề này bằng cách mở rộng luồng dư, tăng cường khả năng truyền tải thông tin mà không làm tăng chi phí tính toán. Tuy nhiên, điểm yếu còn tồn tại là chi phí bộ nhớ ngày càng tăng khi phát triển các mô hình khổng lồ. Vì vậy, DeepSeek đề xuất một điều chỉnh nhằm “giới hạn” mạng HC bằng một đa tạp cụ thể, giúp tối ưu hóa hiệu quả tính toán và tiết kiệm chi phí hơn.

Các nhà sáng lập của DeepSeek tin rằng mHC sẽ giải quyết các giới hạn hiện tại và thúc đẩy các kiến trúc AI thế hệ tiếp theo phát triển mạnh mẽ. Bài báo này do chính Liang Wenfeng đăng tải lên kho lưu trữ mở arXiv, nơi ông cùng đội ngũ chia sẻ nhiều công trình nghiên cứu về các mô hình mới của công ty, đồng thời thể hiện cam kết của nhà sáng lập trong hướng đi đột phá của DeepSeek.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *