Hacker News

Dừng ghi cửa sổ ngữ cảnh của bạn – Cách chúng tôi cắt giảm 98% đầu ra MCP trong mã Claude

Tìm hiểu cách chúng tôi giảm 98% đầu ra của công cụ MCP trong Claude Code để tránh tình trạng cạn kiệt cửa sổ ngữ cảnh và giúp trợ lý mã hóa AI hoạt động tốt nhất.

12 đọc tối thiểu

Mewayz Team

Editorial Team

Hacker News

Thuế ẩn đối với mọi quy trình làm việc được hỗ trợ bởi AI

Nếu bạn đã dành bất kỳ khoảng thời gian ý nghĩa nào để xây dựng với các trợ lý mã hóa AI thì bạn đã đi đến ngõ cụt. Không phải là trường hợp mà mô hình gây ảo giác hoặc hiểu sai ý định của bạn - trường hợp tinh vi hơn, khó chịu hơn khi đối tác AI có khả năng hoàn hảo của bạn đột nhiên mất đi cốt truyện giữa cuộc trò chuyện. Nó quên cấu trúc tập tin mà bạn đã thảo luận ba tin nhắn trước đó. Nó đọc lại các tập tin nó đã phân tích. Nó bắt đầu mâu thuẫn với những gợi ý trước đó của chính nó. Thủ phạm không phải là chất lượng mô hình — đó là sự cạn kiệt của cửa sổ ngữ cảnh và nguyên nhân lớn nhất là đầu ra công cụ cồng kềnh mà không ai yêu cầu.

Vấn đề này không phải là lý thuyết. Các nhóm xây dựng dựa trên tích hợp MCP (Giao thức ngữ cảnh mô hình) bên trong Claude Code, Con trỏ và các môi trường phát triển tương tự được hỗ trợ bởi AI đang phát hiện ra rằng phản hồi công cụ của họ thường xuyên trả về nhiều dữ liệu hơn từ 50x đến 100 lần so với nhu cầu thực sự của mô hình. Một truy vấn cơ sở dữ liệu đơn giản trả về kết xuất lược đồ đầy đủ. Tìm kiếm tập tin trả về toàn bộ cây thư mục. Kiểm tra trạng thái API trả về nhật ký được phân trang trong nhiều tuần trước. Mỗi mã thông báo dư thừa sẽ ăn vào cửa sổ ngữ cảnh hữu hạn, làm giảm hiệu suất của các tác vụ thực sự quan trọng. Cách khắc phục không phức tạp nhưng nó đòi hỏi sự thay đổi cơ bản trong cách bạn nghĩ về thiết kế công cụ AI.

Tại sao bối cảnh Windows lại bị hỏng trước khi các mô hình thực hiện

Các mô hình ngôn ngữ lớn hiện đại như Claude có cửa sổ ngữ cảnh rộng rãi — 200K mã thông báo ở nhiều cấu hình. Điều đó nghe có vẻ to lớn cho đến khi bạn nhận ra rằng quy trình làm việc nặng về công cụ sẽ tiêu tốn nó nhanh như thế nào. Một lệnh gọi công cụ MCP trả về một bảng cơ sở dữ liệu đầy đủ với 500 hàng có thể đốt 15.000-30.000 mã thông báo trong một phản hồi. Hãy xâu chuỗi năm hoặc sáu lệnh gọi đó lại với nhau trong một phiên gỡ lỗi và bạn đã sử dụng một nửa cửa sổ ngữ cảnh trước khi viết một dòng mã. Mô hình này không hề trở nên ngu ngốc hơn — nó thực sự không còn chỗ để lưu giữ cuộc trò chuyện của bạn trong bộ nhớ.

Hiệu ứng gộp là nguyên nhân làm cho điều này trở nên có sức tàn phá lớn. Khi ngữ cảnh bị nén hoặc cắt bớt để phù hợp với thông tin mới, mô hình sẽ mất quyền truy cập vào các hướng dẫn, quyết định kiến ​​trúc và mẫu đã thiết lập trước đó từ cuộc trò chuyện của bạn. Cuối cùng, bạn lặp lại chính mình, thiết lập lại bối cảnh và chứng kiến ​​AI mắc lỗi mà lẽ ra nó sẽ không đưa ra mười tin nhắn sớm hơn. Đối với các nhóm kỹ thuật vận chuyển các tính năng theo dòng thời gian chặt chẽ, điều này trực tiếp dẫn đến mất thời gian và chất lượng mã bị suy giảm.

Tại Mewayz, chúng tôi đã gặp phải vấn đề chính xác này khi xây dựng nền tảng kinh doanh gồm 207 mô-đun. Quy trình phát triển của chúng tôi chủ yếu dựa vào mã hóa được hỗ trợ bởi AI trên các mô-đun được kết nối với nhau - CRM, lập hoá đơn, bảng lương, nhân sự, phân tích - trong đó sự thay đổi trong một mô-đun thường xuyên chuyển sang các mô-đun khác. Khi đầu ra của công cụ MCP của chúng tôi bị quá tải, Claude sẽ mất dấu các phần phụ thuộc giữa các mô-đun trong một phiên duy nhất. Giải pháp yêu cầu chúng tôi phải suy nghĩ lại mọi phản hồi của công cụ ngay từ đầu.

Khuôn khổ giảm thiểu 98%: Bốn nguyên tắc đã thay đổi mọi thứ

💡 BẠN CÓ BIẾT?

Mewayz replaces 8+ business tools in one platform

CRM · Hóa đơn · Nhân sự · Dự án · Đặt chỗ · Thương mại điện tử · POS · Phân tích. Gói miễn phí vĩnh viễn có sẵn.

Bắt đầu miễn phí →

Việc cắt giảm 98% đầu ra MCP không phải là xóa thông tin — mà là chỉ trả lại thông tin mà mô hình cần để đưa ra quyết định tiếp theo. Sự khác biệt quan trọng. Công cụ trả về bản ghi người dùng không cần bao gồm mọi trường khi mô hình chỉ hỏi xem người dùng đó có tồn tại hay không. Tìm kiếm tệp không cần trả về nội dung tệp khi mô hình chỉ cần đường dẫn tệp. Mọi câu trả lời sẽ trả lời câu hỏi đã được hỏi, không có gì hơn.

Dưới đây là bốn nguyên tắc thúc đẩy việc tối ưu hóa của chúng tôi:

Trả về bản tóm tắt, không phải tập dữ liệu. Thay vì trả về 200 hàng từ một truy vấn, hãy trả về số lượng cộng với 3-5 hàng phù hợp nhất. Nếu mô hình cần nhiều hơn, nó có thể yêu cầu một phần cụ thể. Thay đổi duy nhất này thường làm giảm sản lượng 80-90% trên các công cụ nặng về dữ liệu.

Sử dụng các lược đồ có cấu trúc và tối thiểu. Loại bỏ mọi trường không liên quan trực tiếp đến mục đích đã khai báo của công cụ. Công cụ "kiểm tra trạng thái triển khai" sẽ trả về trạng thái, dấu thời gian và lỗi (nếu có) — chứ không phải bảng kê khai triển khai đầy đủ, biến môi trường và nhật ký bản dựng.

Imp

Frequently Asked Questions

What is context window exhaustion and why does it matter?

Context window exhaustion occurs when an AI coding assistant runs out of usable memory mid-conversation due to bloated tool outputs. This causes the model to forget earlier context, re-read files unnecessarily, and contradict its own suggestions. For teams relying on AI-powered development workflows, this silently degrades productivity and output quality, turning a capable assistant into an unreliable one without any obvious error message.

How did you reduce MCP output by 98%?

We restructured our MCP tool responses to return only essential data instead of verbose, unfiltered outputs. By implementing smart summarization, selective field returns, and context-aware truncation, we eliminated the noise that was consuming precious context tokens. The result is that Claude Code maintains coherent, productive conversations for significantly longer sessions — enabling complex, multi-step engineering tasks without losing the thread.

Does this optimization work with platforms like Mewayz?

Absolutely. Mewayz is a 207-module business OS starting at $19/mo that relies on efficient AI automation across its entire platform. Optimized MCP outputs mean AI-assisted workflows within tools like Mewayz at app.mewayz.com run faster and more reliably, since every saved token translates directly into longer productive sessions and more accurate responses when managing complex business operations.

Can I apply these MCP optimization techniques to my own projects?

Yes. The core principles — minimizing response payloads, returning only requested fields, and summarizing large datasets before passing them to the model — are universally applicable. Whether you're building custom MCP servers or integrating third-party tools with Claude Code, auditing your tool outputs for unnecessary verbosity is the single highest-impact optimization you can make to extend productive conversation length.

Dùng Thử Mewayz Miễn Phí

Nền tảng tất cả trong một cho CRM, hóa đơn, dự án, Nhân sự & hơn thế nữa. Không cần thẻ tín dụng.

Bắt đầu quản lý doanh nghiệp của bạn thông minh hơn ngay hôm nay.

Tham gia 30,000+ doanh nghiệp. Gói miễn phí vĩnh viễn · Không cần thẻ tín dụng.

Tìm thấy điều này hữu ích? Chia sẻ nó.

Sẵn sàng áp dụng vào thực tế?

Tham gia cùng 30,000+ doanh nghiệp đang sử dụng Mewayz. Gói miễn phí vĩnh viễn — không cần thẻ tín dụng.

Bắt đầu Dùng thử Miễn phí →

Sẵn sàng hành động?

Bắt đầu dùng thử Mewayz miễn phí của bạn ngay hôm nay

All-in-one business platform. No credit card required.

Bắt đầu miễn phí →

Dùng thử 14 ngày miễn phí · Không cần thẻ tín dụng · Hủy bất kỳ lúc nào