Hacker News

Престаните да сагоревате прозор контекста – како смањујемо МЦП излаз за 98% у Цлауде Цоде-у

Коментари

1 min read Via mksg.lu

Mewayz Team

Editorial Team

Hacker News
<х2>Скривени порез на сваки ток рада који покреће вештачка интелигенција <п>Ако сте провели неко значајно време градећи са помоћницима за АИ кодирање, ударили сте у зид. Не онај у коме модел халуцинира или погрешно разуме вашу намеру – ону суптилнију, више фрустрирајућу где ваш савршено способан АИ партнер изненада изгуби заплет усред разговора. Заборавља структуру датотеке о којој сте разговарали пре три поруке. It re-reads files it already analyzed. Почиње да буде у супротности са сопственим ранијим сугестијама. Кривац није квалитет модела – већ исцрпљеност прозора контекста, а највећи допринос томе је надуван излаз алата који нико није тражио. <п>Овај проблем није теоретски. Тимови који се изграђују на МЦП (Модел Цонтект Протоцол) интеграцијама унутар Цлауде Цоде-а, Цурсор-а и сличних развојних окружења заснованих на вештачкој интелигенцији откривају да њихови одговори алата рутински враћају 50к до 100к више података него што је моделу заиста потребно. Једноставан упит базе података враћа пуне думпове шеме. Претрага фајлова враћа цела стабла директоријума. Провера статуса АПИ-ја враћа евиденције са страницама уназад неколико недеља. Сваки вишак токен једе у прозор коначног контекста, деградирајући перформансе задатака који су заиста важни. Решење није компликовано, али захтева суштинску промену у начину на који размишљате о дизајну алата за вештачку интелигенцију. <х2>Зашто се контекст Виндовс квари пре него што то ураде модели <п>Модерни модели великих језика као што је Цлауде имају великодушне прозоре контекста — 200К токена у многим конфигурацијама. То звучи огромно док не схватите колико брзо то троше токови посла са тешким алатима. Један позив МЦП алата који враћа пуну табелу базе података са 500 редова може да сними 15.000-30.000 токена у једном одговору. Повежите пет или шест тих позива заједно у сесији отклањања грешака и потрошили сте половину контекстног прозора пре него што сте написали једну линију кода. Модел не постаје глупљи — буквално му понестаје простора да задржи ваш разговор у памћењу. <п>Ефекат мешања је оно што ово чини тако деструктивним. Када се контекст компримује или скраћује да би се уклопио у нове информације, модел губи приступ ранијим упутствима, архитектонским одлукама и утврђеним обрасцима из вашег разговора. На крају се понављате, поново успостављате контекст и гледате како АИ прави грешке које не би направио десет порука раније. За инжењерске тимове који испоручују функције у кратким временским оквирима, ово се директно претвара у изгубљене сате и смањен квалитет кода. <п>У Меваизу смо наишли на овај проблем док смо градили нашу пословну платформу од 207 модула. Наш ток развоја у великој мери се ослања на кодирање уз помоћ вештачке интелигенције преко међусобно повезаних модула — ЦРМ, фактурисање, платни списак, ХР, аналитика — где промена у једном модулу често прелази у друге. Када би резултати наших МЦП алата били надути, Клод би изгубио појам о зависностима међу модулима у оквиру једне сесије. Решење је захтевало да поново размислимо о сваком одговору алата из темеља. <х2>Оквир за смањење од 98%: четири принципа која су променила све <п>Смањење МЦП излаза за 98% се не односи на уклањање информација – ради се о враћању само информација које су моделу потребне да би донео следећу одлуку. Разлика је битна. Алат који враћа кориснички запис не мора да укључи свако поље када модел само пита да ли корисник постоји. A file search doesn't need to return file contents when the model only needs file paths. Сваки одговор треба да одговори на постављено питање, ништа више. <п>Ево четири принципа који су покретали нашу оптимизацију: <ол> <ли><стронг>Врати резиме, а не скупове података. Уместо да враћате 200 редова из упита, вратите број плус 3-5 најрелевантнијих редова. Ако моделу треба више, може тражити одређени комад. Ова појединачна промена обично смањује излаз за 80-90% на алаткама са великим бројем података. <ли><стронг>Користите структуриране, минималне шеме. Скините свако поље које није директно релевантно за декларисану сврху алатке. Алатка „провера статуса примене“ треба да врати статус, временску ознаку и грешку (ако их има) — не цео манифест примене, променљиве окружења и евиденције изградње. <ли><стронг>Примените прогресивно откривање. Дизајнирајте алате за враћање резимеа високог нивоа при првом позиву, са параметрима који омогућавају моделу да дубље анализира када је то потребно. Замислите то као пагинацију за АИ — прво му дајте садржај, а затим поједина поглавља на захтев.<ли><стронг>Агресивно дедуплицирајте. Ако модел већ има део информације у контексту (из претходног позива алатке или корисничке поруке), немојте је поново враћати. Пратите шта је достављено и референцирајте га уместо да га понављате. <блоцккуоте><стронг>Кључни увид: Циљ одговора МЦП алата није потпуност – већ довољност. Сваки токен изван онога што модел треба да предузме своју следећу акцију је токен украден из будућег капацитета за размишљање. Дизајнирајте за одлуку модела, а не за људску радозналост. <х2>Практична примена: пре и после <п>Да бисте ово учинили конкретним, размотрите уобичајени развојни сценарио: испитивање структуре модула пројекта да бисте разумели зависности. У нашој оригиналној имплементацији, МЦП алат је вратио цео манифест модула — име сваког модула, опис, верзију, стабло зависности, опције конфигурације и статусне заставице. За Меваиз-ову архитектуру од 207 модула, овај појединачни одговор је потрошио отприлике 45.000 токена. The model needed about 800 tokens of that information to answer the question "which modules depend on the billing module?"

<п>Оптимизована верзија враћа равну листу назива модула са њиховим директним референцама зависности — без описа, без конфигурација, без бројева верзија. Када модел идентификује релевантне модуле, може позвати други алат да добије детаље о одређеним модулима. Укупна цена токена за исто питање пала је са 45.000 на приближно 900 токена. То је смањење од 98% које чува способност модела да расуђује о целом преосталом разговору. <п>Још један пример: анализа евиденције грешака. Оригинални алат је вратио последњих 500 уноса дневника са пуним траговима стека, временским ознакама, метаподацима захтева и контекстом окружења. Оптимизована верзија враћа резиме груписан по учесталостима — „ДатабасеЦоннецтионЕррор: 47 појављивања у последњем сату, последње у 14:32, које утичу на крајњу тачку /апи/инвоицес“ — у отприлике 200 токена уместо 12.000. Ако је моделу потребно одређено праћење стека, он га захтева по ИД-у грешке. Иста дијагностичка могућност, део цене. <х2>Ефекат таласања на брзину развоја <п>Предности леан МЦП излаза протежу се далеко даље од једноставног уклапања више у контекстни прозор. Када модел задржи више ваше историје разговора, он одржава конзистентност у сложеним рефакторима са више датотека. Памти архитектонска ограничења која сте споменули на почетку сесије. Не предлаже решења која су у супротности са одлукама које сте већ донели. Квалитативно побољшање кодирања уз помоћ вештачке интелигенције је драматично — то је разлика између способног млађег програмера који прави белешке и оног који стално заборавља шта сте му рекли. <п>За наш тим који ради на Меваиз-овим међусобно повезаним пословним модулима, то је значило да је Клод могао успешно да се креће кроз рефакторе који су додиривали модуле ЦРМ, фактурисања и аналитике у једној сесији, а да не изгуби траг о заједничким моделима података који их повезују. Пре оптимизације, ови међумодулски задаци су захтевали разбијање рада на изоловане сесије са опсежним поновним брифингом на почетку сваке од њих. Након тога, једна континуирана сесија могла би да обради цео ток посла — отприлике 3 пута побољшање у пропусности програмера на сложеним задацима.

Teams building any kind of multi-component SaaS product will recognize this pattern. Било да управљате микроуслугама, модуларним монолитом или платформом са десетинама међусобно повезаних функција, могућност одржавања пуног контекста разговора док се крећете по сложеним базама кода је трансформативна. Оптимизација није само подешавање перформанси – она мења оно што је могуће у једној развојној сесији уз помоћ вештачке интелигенције. <х2>Уобичајене грешке које саботирају ваш контекстни буџет <п>Чак и тимови који разумеју принцип минималног резултата често праве грешке у примени које поткопавају њихове напоре. Најчешће се описи МЦП алата третирају као документација, а не као брзи инжењеринг. Опис алата је примарни водич модела о томе како користити алат и шта очекивати од његовог резултата. Нејасни описи као што је „враћа информације о пројекту“ доводе до тога да модел прави широке, истраживачке позиве. Прецизни описи као што је „враћа листу назива модула који директно зависе од наведеног модула“ воде модел да прави циљане, ефикасне захтеве.<п>Још једна честа грешка је неуспех да се направи разлика између алата за читање и анализе. Алат који чита датотеку треба да врати садржај датотеке. Алат који анализира датотеку треба да врати резултате анализе, а не садржај датотеке плус анализу. Када се ове одговорности замагљују, на крају добијате алатке које враћају необрађене податке уз обрађене увиде, удвостручујући цену токена без користи за резоновање модела. <п>Трећа замка је недоследно форматирање одговора. Када неки алати врате ЈСОН, други враћају табеле са смањењем вредности, а други обичан текст, модел троши токене на рашчлањивање и нормализацију различитих формата. Стандардизујте један, компактан формат — обично минималан ЈСОН са доследним именовањем поља — и ваш модел троши мање токена на разумевање формата и више на стварно решавање проблема. <х2>Изградња екосистема алата свесног на контекст <п>Најсофистициранији приступ оптимизацији МЦП излаза превазилази индивидуалне реакције алата и посматра цео екосистем алата као координисан систем. То значи алатке које су свесне шта су друге алатке већ вратиле у тренутној сесији, алатке које могу да упућују на раније резултате по ИД-у уместо да их поново преузимају и алатке које прилагођавају њихову опширност на основу преосталог буџета контекста. <п>Имплементација алата који су свесни сесије захтева лагани слој средњег софтвера који прати историју позива алата у оквиру конверзације. Када се позове алатка, средњи софтвер проверава да ли релевантни подаци већ постоје у контексту и прилагођава одговор у складу са тим. На пример, ако је модел већ преузео листу активних модула, накнадни позив алата о зависностима модула може референцирати модуле по имену без њиховог поновног описивања. Ова свест међу алаткама може да смањи кумулативну употребу токена за додатних 30-40% поред оптимизације појединачних алата. <п>За инжењерске тимове који процењују овај приступ, инвестиција се исплати пропорционално сложености вашег екосистема алата. Пројекат са три МЦП алата можда неће оправдати трошкове средњег софтвера. Платформа као што је Меваиз, са алатима који обухватају упите базе података, управљање модулима, статус имплементације, анализу грешака и међусервисну комуникацију, види сложене поврате из сваког слоја оптимизације. Принцип се скала: што више алата имате, то ћете више вредности извући из тога што их чините свесним контекста. <х2>Шира лекција за АИ-први развој <п>Изазов оптимизације контекстног прозора открива нешто важно о тренутном стању развоја уз помоћ вештачке интелигенције: још увек смо у раним фазама учења како да дизајнирамо системе за употребу вештачке интелигенције. Већину МЦП алата праве програмери који о излазу алата размишљају на начин на који размишљају о одговорима АПИ-ја – свеобухватни, добро документовани и потпуни. Али АИ модел није фронтенд апликација која приказује контролну таблу. То је механизам за резоновање са ограниченим буџетом меморије, и сваки бајт тог буџета има директан утицај на квалитет излаза. <п>Тимови који ће изградити најбоље развојне токове рада засноване на вештачкој интелигенцији у наредних неколико година неће бити само они са најбољим моделима или највише алата. Они ће бити ти који третирају управљање прозорима контекста као првокласну инжењерску дисциплину — који мере буџете токена на начин на који мере кашњење АПИ-ја, који оптимизују одговоре алата на начин на који оптимизују упите базе података и који разумеју да у развоју уз помоћ вештачке интелигенције мање информација које се добро испоручују доследно надмашују више информација које се испоручују безбрижно. <п>Било да градите стартуп са једним производом или управљате сложеном платформом са стотинама међусобно повезаних модула, принцип је исти: поштујте прозор контекста. Ваши АИ алати су добри онолико колико им дајете простор за размишљање. <х2>Честа питања <х3>Шта је исцрпљивање контекстног прозора и зашто је то важно? <п>До исцрпљивања контекстног прозора долази када помоћнику за АИ кодирање понестане употребљиве меморије усред разговора због надувених излаза алата. Ово доводи до тога да модел заборави ранији контекст, непотребно поново чита датотеке и противречи сопственим предлозима. For teams relying on AI-powered development workflows, this silently degrades productivity and output quality, turning a capable assistant into an unreliable one without any obvious error message.

<х3>Како сте смањили МЦП излаз за 98%?<п>Реструктурисали смо одговоре на наше МЦП алатке да бисмо вратили само битне податке уместо детаљних, нефилтрираних излаза. Применом паметног сумирања, селективних враћања поља и скраћивања свесног контекста, елиминисали смо буку која је трошила драгоцене токене контекста. Резултат тога је да Цлауде Цоде одржава кохерентне, продуктивне разговоре за знатно дуже сесије — омогућавајући сложене инжењерске задатке у више корака без губљења нити. <х3>Да ли ова оптимизација функционише са платформама као што је Меваиз? <п>Апсолутно. Меваиз је пословни ОС са 207 модула почевши од 19 УСД месечно који се ослања на ефикасну аутоматизацију вештачке интелигенције на целој својој платформи. Оптимизовани МЦП излази значе да радни токови уз помоћ вештачке интелигенције у оквиру алата као што је Меваиз на апп.меваиз.цом раде брже и поузданије, пошто се сваки сачувани токен директно претвара у дуже продуктивне сесије и тачније одговоре при управљању сложеним пословним операцијама. <х3>Могу ли да применим ове технике МЦП оптимизације на своје пројекте? <п>Да. Основни принципи — минимизирање корисног оптерећења одговора, враћање само захтеваних поља и сумирање великих скупова података пре него што их проследе моделу — су универзално применљиви. Без обзира да ли правите прилагођене МЦП сервере или интегришете алате независних произвођача са Цлауде Цоде-ом, провера излаза ваших алата ради непотребне опширности је једина оптимизација са највећим утицајем коју можете да направите да бисте продужили дужину продуктивног разговора. <сцрипт типе="апплицатион/лд+јсон">{"@цонтект":"хттпс:\/\/сцхема.орг","@типе":"ФАКПаге","маинЕнтити":[{"@типе":"Куестион","наме":"Шта је исцрпљивање контекстног прозора и зашто је то важно?","аццептедАнсвер","аццептедАнсвер","тектАнсвер":"тектАнсхаус":{" Настаје када помоћнику за АИ кодирање понестане употребљиве меморије усред разговора због надувених излазних података алата, што доводи до тога да модел заборавља ранији контекст, непотребно чита датотеке и противречи сопственим предлозима. унрели"}},{"@типе":"Куестион","наме":"Како сте смањили МЦП излаз за 98%?","аццептедАнсвер":{"@типе":"Ансвер","тект":"Реструктурирали смо одговоре на наше МЦП алатке да бисмо вратили само битне податке уместо детаљних, нефилтрираних излаза, вратили смо контекст елиминисао је буку која је трошила драгоцене токене контекста. Резултат је да Цлауде Цоде одржава кохерентне, продуктивне разговоре за знатно дуже сесије \у2014 омогућавајући сложене,"}},{"@типе":"Куестион","наме":"Да ли ова оптимизација функционише са платформама као што је Меваиз?","аццептедАнсвер":"тект" Меваиз је пословни ОС са 207 модула почевши од 19 УСД/месечно који се ослања на ефикасну аутоматизацију вештачке интелигенције на целој платформи. Оптимизовани МЦП излази значе да радни ток уз помоћ вештачке интелигенције у оквиру алата као што је Меваиз на апп.меваиз.цом ради брже и поузданије, пошто сваки сачувани токен преводи директно у дуже продуктивне пословне сесије. оператионс"}},{"@типе":"Питање","наме":"Могу ли да применим ове технике оптимизације МЦП-а на своје пројекте?","аццептедАнсвер":{"@типе":"Одговор","тект":"Да, основни принципи \у2014 минимизирање оптерећења одговора, враћање само скупа4 захтеваних података су прослеђивање у02 поља, универзално применљиво без обзира да ли правите прилагођене МЦП сервере или интегришете алате треће стране са Цлауде Цоде-ом, провера излаза ваших алата за непотребну опширност је једина оптимизација са највећим утицајем коју можете да урадите да бисте проширили "}}]}.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime