Hacker News

Berhenti Membakar Tetingkap Konteks Anda – Cara Kami Mengurangkan Output MCP sebanyak 98% dalam Kod Claude

Ketahui cara kami mengurangkan output alat MCP sebanyak 98% dalam Kod Claude untuk mengelakkan keletihan tetingkap konteks dan memastikan pembantu pengekodan AI menunjukkan prestasi terbaik mereka.

7 min bacaan

Mewayz Team

Editorial Team

Hacker News

Cukai Tersembunyi ke atas Setiap Aliran Kerja Dikuasakan AI

Jika anda telah menghabiskan apa-apa masa yang bermakna membina dengan pembantu pengekodan AI, anda telah memukul dinding. Bukan model di mana model berhalusinasi atau salah faham niat anda — yang lebih halus, lebih mengecewakan apabila rakan AI anda yang berkemampuan sempurna tiba-tiba kehilangan plot pada pertengahan perbualan. Ia melupakan struktur fail yang anda bincangkan tiga mesej yang lalu. Ia membaca semula fail yang telah dianalisisnya. Ia mula bercanggah dengan cadangan awalnya sendiri. Penyebabnya bukan kualiti model — ia adalah keletihan tetingkap konteks, dan penyumbang terbesar tunggal ialah keluaran alat kembung yang tiada siapa yang meminta.

Masalah ini bukan teori. Pasukan yang membina integrasi MCP (Model Context Protocol) dalam Claude Code, Cursor dan persekitaran pembangunan dikuasakan AI yang serupa mendapati bahawa tindak balas alat mereka secara rutin mengembalikan 50x hingga 100x lebih banyak data daripada model yang sebenarnya diperlukan. Pertanyaan pangkalan data mudah mengembalikan pembuangan skema penuh. Carian fail mengembalikan keseluruhan pepohon direktori. Semakan status API mengembalikan log bernombor minggu lalu. Setiap token yang berlebihan memakan tetingkap konteks terhingga, merendahkan prestasi pada tugas yang sebenarnya penting. Penyelesaiannya tidak rumit, tetapi ia memerlukan anjakan asas dalam cara anda berfikir tentang reka bentuk alat AI.

Mengapa Windows Konteks Pecah Sebelum Model Berlaku

Model bahasa besar moden seperti Claude mempunyai tetingkap konteks yang luas — 200K token dalam banyak konfigurasi. Kedengarannya sangat besar sehingga anda menyedari betapa cepatnya aliran kerja yang berat menggunakan alatan. Panggilan alat MCP tunggal yang mengembalikan jadual pangkalan data penuh dengan 500 baris boleh membakar 15,000-30,000 token dalam satu respons. Rangkaikan lima atau enam panggilan tersebut bersama-sama dalam sesi penyahpepijatan dan anda telah menggunakan separuh tetingkap konteks anda sebelum menulis satu baris kod. Model itu tidak menjadi bodoh — ia benar-benar kehabisan ruang untuk menyimpan perbualan anda dalam ingatan.

Kesan pengkompaunan inilah yang menjadikan ini sangat merosakkan. Apabila konteks dimampatkan atau dipotong untuk memuatkan maklumat baharu, model kehilangan akses kepada arahan awal, keputusan seni bina dan corak yang telah ditetapkan daripada perbualan anda. Anda akhirnya mengulangi diri sendiri, mewujudkan semula konteks, dan menonton AI membuat kesilapan yang tidak akan membuat sepuluh mesej lebih awal. Untuk pasukan kejuruteraan ciri penghantaran pada garis masa yang ketat, ini diterjemahkan terus kepada masa yang hilang dan kualiti kod yang merosot.

Di Mewayz, kami menghadapi masalah tepat ini semasa membina platform perniagaan 207 modul kami. Aliran kerja pembangunan kami sangat bergantung pada pengekodan berbantukan AI merentas modul yang saling berkaitan — CRM, invois, senarai gaji, HR, analitik — di mana perubahan dalam satu modul kerap berlaku kepada yang lain. Apabila output alat MCP kami meningkat, Claude akan kehilangan jejak kebergantungan silang modul dalam satu sesi. Penyelesaiannya memerlukan kami untuk memikirkan semula setiap tindak balas alat dari bawah.

Rangka Kerja Pengurangan 98%: Empat Prinsip yang Mengubah Segala-galanya

💡 ADAKAH ANDA TAHU?

Mewayz menggantikan 8+ alat perniagaan dalam satu platform

CRM · Pengebilan · HR · Projek · Tempahan · eCommerce · POS · Analitik. Pelan percuma selama-lamanya tersedia.

Mula Percuma →

Mengurangkan output MCP sebanyak 98% bukan tentang mengalih keluar maklumat — ini tentang memulangkan maklumat yang model perlukan sahaja untuk membuat keputusan seterusnya. Perbezaan itu penting. Alat yang mengembalikan rekod pengguna tidak perlu memasukkan setiap medan apabila model hanya bertanya sama ada pengguna itu wujud. Carian fail tidak perlu mengembalikan kandungan fail apabila model hanya memerlukan laluan fail. Setiap respons harus menjawab soalan yang ditanya, tidak lebih.

Berikut ialah empat prinsip yang mendorong pengoptimuman kami:

Kembalikan ringkasan, bukan set data. Daripada mengembalikan 200 baris daripada pertanyaan, kembalikan kiraan ditambah 3-5 baris yang paling berkaitan. Jika model memerlukan lebih banyak, ia boleh meminta kepingan tertentu. Perubahan tunggal ini biasanya mengurangkan output sebanyak 80-90% pada alat berat data.

Gunakan skema berstruktur dan minimum. Potong setiap medan yang tidak berkaitan secara langsung dengan tujuan alat yang diisytiharkan. Alat "semak status pengerahan" harus mengembalikan status, cap masa dan ralat (jika ada) — bukan manifes penggunaan penuh, pembolehubah persekitaran dan log binaan.

Imp

Frequently Asked Questions

What is context window exhaustion and why does it matter?

Context window exhaustion occurs when an AI coding assistant runs out of usable memory mid-conversation due to bloated tool outputs. This causes the model to forget earlier context, re-read files unnecessarily, and contradict its own suggestions. For teams relying on AI-powered development workflows, this silently degrades productivity and output quality, turning a capable assistant into an unreliable one without any obvious error message.

How did you reduce MCP output by 98%?

We restructured our MCP tool responses to return only essential data instead of verbose, unfiltered outputs. By implementing smart summarization, selective field returns, and context-aware truncation, we eliminated the noise that was consuming precious context tokens. The result is that Claude Code maintains coherent, productive conversations for significantly longer sessions — enabling complex, multi-step engineering tasks without losing the thread.

Does this optimization work with platforms like Mewayz?

Absolutely. Mewayz is a 207-module business OS starting at $19/mo that relies on efficient AI automation across its entire platform. Optimized MCP outputs mean AI-assisted workflows within tools like Mewayz at app.mewayz.com run faster and more reliably, since every saved token translates directly into longer productive sessions and more accurate responses when managing complex business operations.

Can I apply these MCP optimization techniques to my own projects?

Yes. The core principles — minimizing response payloads, returning only requested fields, and summarizing large datasets before passing them to the model — are universally applicable. Whether you're building custom MCP servers or integrating third-party tools with Claude Code, auditing your tool outputs for unnecessary verbosity is the single highest-impact optimization you can make to extend productive conversation length.

Cuba Mewayz Percuma

Platform semua-dalam-satu untuk CRM, pengebilan, projek, HR & banyak lagi. Kad kredit tidak diperlukan.

Mula menguruskan perniagaan anda dengan lebih bijak hari ini

Sertai 30,000+ perniagaan. Pelan percuma selama-lamanya · Kad kredit tidak diperlukan.

Jumpa ini berguna? Kongsikannya.

Bersedia untuk mempraktikkannya?

Sertai 30,000+ perniagaan yang menggunakan Mewayz. Pelan percuma selama-lamanya — kad kredit tidak diperlukan.

Start Free Trial →

Bersedia untuk mengambil tindakan?

Mulakan percubaan Mewayz percuma anda hari ini

Platform perniagaan all-in-one. Tiada kad kredit diperlukan.

Mula Percuma →

Percubaan percuma 14 hari · Tiada kad kredit · Batal bila-bila masa