Chỉ trong chưa đầy hai năm, trí tuệ nhân tạo đã chuyển từ một công nghệ thử nghiệm thành công cụ trung tâm của cả ngành công nghệ toàn cầu. Người dùng từ lập trình viên, nhà sáng tạo nội dung cho tới doanh nghiệp đều phụ thuộc ngày càng nhiều vào các chatbot AI như OpenAI ChatGPT, Anthropic Claude hay Google Gemini. Nhưng ngày càng nhiều người dùng bắt đầu cảm thấy AI đang “tệ đi” thay vì tốt hơn.
Trong cộng đồng công nghệ, thuật ngữ “nerf” vốn được dùng trong game để mô tả việc nhà phát triển cố tình làm một nhân vật hoặc kỹ năng yếu đi sau khi quá mạnh. Và giờ đây, nhiều người dùng AI tin rằng điều tương tự đang xảy ra với các mô hình AI lớn nhất thế giới.
Các công ty AI đang bắt đầu siết giới hạn sử dụng, giảm hiệu năng mặc định và tối ưu hóa chi phí tính toán theo cách khiến trải nghiệm người dùng trở nên tệ hơn.
Trung tâm của vấn đề là “compute” – sức mạnh tính toán.
Trong giai đoạn đầu của cơn sốt AI, các công ty công nghệ tung ra các gói subscription gần như không giới hạn để thu hút người dùng. Với khoảng 20 USD/tháng, nhiều người có thể sử dụng AI gần như liên tục mà không gặp giới hạn đáng kể.
Nhưng mọi thứ đã thay đổi rất nhanh khi AI chuyển từ chatbot đơn giản sang “AI agent”.
Theo PCWorld, các công cụ AI hiện đại như Claude Code, GitHub Copilot Agent hay Gemini Agentic Workspace tiêu thụ lượng tài nguyên tính toán lớn hơn rất nhiều so với chatbot thông thường.
Một phiên làm việc với AI coding agent giờ đây có thể chạy hàng giờ liên tục, đọc hàng nghìn dòng code, phân tích nhiều file cùng lúc và tự động thực hiện chuỗi hành động phức tạp. Điều này khiến chi phí vận hành tăng theo cấp số nhân.
Theo Axios, Anthropic hiện đối mặt với một “compute crisis” – khủng hoảng tài nguyên tính toán, khi nhu cầu sử dụng Claude tăng quá nhanh so với năng lực hạ tầng hiện có.
Đó là lý do các công ty bắt đầu siết usage limits.
Theo PCWorld, Anthropic đã xác nhận việc “điều chỉnh” giới hạn sử dụng Claude trong giờ cao điểm do nhu cầu tăng quá mạnh ở tất cả các gói dịch vụ.
Nhiều người dùng Pro và Max, những gói giá cao nhất, cho biết, họ bắt đầu chạm giới hạn nhanh hơn rất nhiều so với trước đây.
Một số lập trình viên thậm chí nói rằng chỉ vài prompt code đơn giản cũng có thể tiêu tốn hàng chục phần trăm quota sử dụng.
Trên Reddit, hàng loạt người dùng Claude phàn nàn rằng trải nghiệm hiện tại “tệ hơn rõ rệt” so với vài tháng trước. Một người dùng viết rằng, trước đây họ có thể làm việc hàng giờ liên tục mà không chạm giới hạn, nhưng hiện nay chỉ vài tác vụ nhỏ đã khiến session bị khóa.
Không chỉ Anthropic, Google cũng đang thay đổi mạnh cách tính usage limits cho Gemini.
Theo PCWorld, Google đã chuyển từ mô hình giới hạn số request cố định sang “compute-based usage”, tức là giới hạn dựa trên lượng tài nguyên thực tế mà mỗi tác vụ tiêu thụ.
Điều này có nghĩa các prompt dài, phức tạp hoặc sử dụng agentic features sẽ “đốt quota” nhanh hơn nhiều.
Về mặt kỹ thuật, điều này hoàn toàn hợp lý.
Các mô hình AI hiện đại cực kỳ tốn kém để vận hành. Theo Scientific American, chi phí điện năng, GPU và datacenter cho AI đang tăng với tốc độ khổng lồ.
Một số nhà nghiên cứu gọi đây là “AI compute crunch”, giai đoạn mà nhu cầu AI vượt quá tốc độ mở rộng hạ tầng tính toán toàn cầu.
Điều đáng chú ý là, người dùng không chỉ phàn nàn về giới hạn sử dụng, mà còn về chất lượng AI.
Nhiều nhà phát triển cho rằng, Claude, Gemini, và một số model khác hiện trả lời ngắn hơn, giải thích kém hơn và thường “bỏ cuộc giữa chừng” trong các tác vụ phức tạp.
Theo VentureBeat, ngày càng nhiều người dùng cáo buộc Anthropic đã “nerf” Claude Opus và Claude Code nhằm giảm chi phí compute.
Anthropic phủ nhận việc cố tình làm model yếu đi, nhưng công ty thừa nhận từng có các thay đổi nội bộ khiến hiệu năng thực tế suy giảm.
Theo Business Insider, Anthropic xác nhận Claude Code từng gặp vấn đề do thay đổi mức reasoning mặc định, tối ưu cache, và sửa system prompt, nhằm làm giảm verbosity.
Nói cách khác, model không thực sự bị “làm ngu đi”, nhưng các thay đổi tối ưu chi phí đã ảnh hưởng trực tiếp tới trải nghiệm người dùng.
Đây là vấn đề cực kỳ quan trọng với ngành AI hiện nay.
Trong giai đoạn đầu, các công ty AI ưu tiên tăng trưởng người dùng bằng mọi giá. Nhưng khi chi phí compute bùng nổ, họ bắt đầu phải chuyển sang bài toán lợi nhuận.
Theo Axios, AI labs hiện đang đối mặt với một nghịch lý lớn: càng có nhiều người dùng, họ càng phải chi nhiều tiền hơn cho compute.
Khác với mạng xã hội hoặc phần mềm truyền thống, AI generative tiêu tốn tài nguyên cho mỗi lần sử dụng. Mỗi prompt đều cần GPU xử lý theo thời gian thực.
Điều này khiến mô hình subscription cố định trở nên khó bền vững.
Theo PCWorld, nhiều công ty AI hiện bắt đầu từ bỏ mô hình “flat-rate unlimited” để chuyển sang các gói usage-based hoặc compute-based pricing.
Nói cách khác, tương lai AI có thể giống cloud computing hơn là Netflix.
Bạn sẽ không còn được dùng “không giới hạn” với giá cố định nữa, mà phải trả tiền tương ứng với lượng compute thực tế tiêu thụ.
Điều này đặc biệt ảnh hưởng tới power users, những người dùng AI để coding, research, hoặc automation chuyên sâu.
Theo Axios, khoảng cách giữa AI miễn phí, AI phổ thông và AI premium đang ngày càng lớn hơn.
Một số chuyên gia lo ngại tương lai ngành AI sẽ bị phân tầng mạnh: người dùng phổ thông chỉ được tiếp cận model giới hạn, trong khi năng lực AI tốt nhất sẽ dành cho doanh nghiệp hoặc khách hàng trả phí rất cao.
Song song đó, làn sóng open-source AI cũng đang tăng mạnh.
Theo Financial Times, nhiều model open-source hiện có thể bị “gỡ guardrails” chỉ trong vài phút bằng các công cụ công khai trên GitHub.
Ngoài ra, các model mã nguồn mở như Llama hay DeepSeek đang thu hút ngày càng nhiều doanh nghiệp vì chi phí thấp hơn và không phụ thuộc usage limits từ Big Tech.
Trên Reddit, nhiều người dùng cho rằng việc Google, Anthropic và OpenAI siết usage limits có thể khiến open-source AI phát triển nhanh hơn nữa.
Đây là nghịch lý thú vị của ngành AI hiện tại.
Càng nhiều người sử dụng AI, các công ty càng khó duy trì trải nghiệm tốt với mức giá thấp. Nhưng nếu họ siết quá mạnh, người dùng lại chuyển sang open-source alternatives.
Theo Scientific American, toàn ngành AI hiện đang bước vào giai đoạn mà giới hạn vật lý của compute, điện năng và datacenter bắt đầu trở thành vấn đề thực sự.
Điều đó có nghĩa là, tốc độ phát triển AI trong tương lai có thể không còn “miễn phí” như giai đoạn bùng nổ đầu tiên.
Và đây có lẽ là sự thay đổi lớn nhất của ngành AI trong năm 2026: cuộc đua không còn chỉ là ai có model thông minh nhất, mà là ai có đủ hạ tầng để duy trì AI mạnh với chi phí mà người dùng chấp nhận được.

Bạn muốn kiếm tiền từ thị trường Forex, Vàng, Chứng Khoán Mỹ,…? Bạn muốn trở thành một nhà đầu tư chuyên nghiệp trong lĩnh vực này nhưng chưa biết bắt đầu từ đâu? Đừng lo, Blog cá nhân Tài Chính Forex – TaiChinhForex.com được tạo ra để chia sẻ những thông tin hữu ích và cần thiết nhất cho người mới bắt đầu trong lĩnh vực tài chính Forex cho dù bạn đang sống ở quốc gia nào trên thế giới. Xem thêm phần Giới thiệu về Tài Chính Forex để hiểu hơn về trang web này!



