Công ty khởi nghiệp Trung Quốc có tên DeepSeek đã xây dựng một trong những hệ thống trí tuệ nhân tạo mạnh nhất thế giới nhưng lại sử dụng ít chip máy tính hơn nhiều so với bình thường.
Các công ty AI thường đào tạo chatbot bằng siêu máy tính chứa 16.000 chip chuyên dụng trở lên. Nhưng DeepSeek cho biết họ chỉ cần khoảng 2.000.
![]()
DeepSeek đã tạo ra cơn chấn động, bằng những cách thức đáng nể. Ảnh: The Economic
Cơn địa chấn AI giá rẻ gọi tên DeepSeek
Như các kỹ sư DeepSeek công bố trong một bài báo nghiên cứu sau đó, công ty khởi nghiệp này đã sử dụng một số thủ thuật công nghệ để giảm đáng kể chi phí xây dựng hệ thống.
Các kỹ sư của công ty chỉ cần khoảng 6 triệu USD cho sức mạnh tính toán thô, chỉ bằng khoảng 1/10 số tiền mà Meta đã chi để xây dựng công nghệ AI mới nhất.
Các công nghệ AI hàng đầu dựa trên cái mà các nhà khoa học gọi là mạng nơ-ron, hệ thống tính toán học kỹ năng bằng cách phân tích lượng dữ liệu khổng lồ.
Các hệ thống mạnh nhất dành nhiều tháng để phân tích hầu hết các văn bản tiếng Anh trên internet cũng như nhiều hình ảnh, âm thanh và dữ liệu đa phương tiện khác. Điều đó đòi hỏi một lượng lớn sức mạnh tính toán.
Khoảng 15 năm trước, các nhà nghiên cứu AI nhận ra rằng các chip máy tính chuyên dụng được gọi là bộ xử lý đồ họa, hay GPU, là cách hiệu quả để thực hiện loại phân tích dữ liệu này. Các công ty như Nvidia ban đầu thiết kế những con chip này để phục vụ cho việc chơi game trên máy tính. Nhưng GPU cũng có khả năng chạy phép tính cung cấp sức mạnh cho mạng nơ-ron.
Càng tích hợp nhiều GPU vào trung tâm dữ liệu máy tính, hệ thống AI càng phân tích nhiều dữ liệu hơn.
Nhưng GPU mạnh nhất hiện nay có giá lên tới 40.000 USD và chúng cần lượng điện rất lớn. Việc gửi dữ liệu giữa các chip có thể sử dụng nhiều điện năng hơn là chạy chính các chip đó. Chính vì vậy, việc đào tạo AI vốn rất tốn kém, đòi hỏi số tiền lên tới cả tỷ USD.
Tuyệt chiêu giảm thiểu chi phí
Công ty Trung Quốc làm điều này bằng rất nhiều cách. Đáng chú ý nhất là họ áp dụng một phương pháp gọi là 'hỗn hợp các chuyên gia'.
Các công ty thường tạo ra một mạng nơ-ron duy nhất có thể học mọi mẫu trong tất cả dữ liệu trên internet. Điều này rất tốn kém vì cần một lượng dữ liệu khổng lồ để truyền giữa các chip GPU.
![]()
Những con chip Nvidia đời cũ giúp DeepSeek tiết kiệm rất nhiều chi phí. Ảnh Indian Today
Nếu một con chip đang học cách viết một bài thơ và con chip khác đang học cách viết một chương trình máy tính, chúng vẫn cần phải nói chuyện với nhau, đề phòng trường hợp có sự chồng chéo giữa thơ ca và lập trình.
Với sự kết hợp của phương pháp chuyên gia, các nhà nghiên cứu đã giải quyết vấn đề này bằng cách chia hệ thống thành nhiều mạng nơ-ron: một cho thơ ca, một cho lập trình máy tính, một cho sinh học, một cho vật lý, v.v. Có thể có 100 hệ thống 'chuyên gia' nhỏ hơn này. Mỗi chuyên gia có thể tập trung vào lĩnh vực cụ thể.
Nhiều công ty gặp khó trong việc áp dụng phương pháp trên, nhưng DeepSeek lại làm rất tốt. Bí quyết của họ là ghép nối các hệ thống 'chuyên gia' nhỏ hơn với một hệ thống 'tổng quát'.
Các chuyên gia vẫn cần trao đổi một số thông tin với nhau, và chuyên gia đa ngành – hệ thống có hiểu biết ở mức khá nhưng không quá chi tiết về từng chủ đề - có thể giúp điều phối tương tác giữa các chuyên gia.
Hình dung dễ hơn, điều này giống như một biên tập viên điều phối một phòng tin tức toàn là các phóng viên chuyên ngành.
Nhưng đó không phải là điều duy nhất DeepSeek làm được. Công ty cũng áp dụng thành thạo một mẹo đơn giản liên quan đến số thập phân mà bất kỳ cũng từng học qua thời tiểu học.
Hãy nhớ lại giáo viên toán của bạn giải thích khái niệm pi. Pi, còn được ký hiệu là π, là một con số không bao giờ kết thúc: 3.14159265358979 …
Bạn có thể sử dụng π để thực hiện các phép tính hữu ích, như xác định chu vi của một hình tròn. Khi thực hiện các phép tính đó, bạn rút gọn π thành chỉ một vài chữ số thập phân: 3,14. Nếu sử dụng con số đơn giản hơn này, bạn sẽ có được ước tính khá tốt về chu vi của một hình tròn.
DeepSeek đã làm điều tương tự — nhưng ở quy mô lớn hơn nhiều — trong việc đào tạo công nghệ AI của mình.
Phép toán cho phép mạng nơ-ron nhận biết các mẫu trong văn bản thực chất chỉ là phép nhân — rất nhiều phép nhân.
![]()
Giống như việc tính toán với số Pi, đơn giản nhất chỉ cần dùng 3,14 thì kết quả vẫn chấp nhận được. Ảnh: TCTH
Không phải ai cũng dám làm điều mà ...ai cũng biết để tạo bước đột phá như DeepSeek. Ảnh: Windows Central