Paradox silného modelu: kdy GPT-4 odpoví hůře než slabší alternativa

"Použij nejlepší model" zní jako rozumná rada. Pro část úloh je správná. Pro jinou část je to drahý zvyk.

V praxi se opakovaně stává zvláštní věc. Silnější model napíše uhlazenější odpověď, ale méně použitelnou. Je opatrnější, ale ne přesnější. Nebo naopak souhlasí s chybným předpokladem uživatele, zatímco slabší model odpoví prostěji a trefí problém lépe.

To není důkaz, že škálování nefunguje. Je to důkaz, že "výkon" u LLM není jednorozměrný žebříček.

Rámec tvrzení

Co článek tvrdí: Silnější LLM model nemusí být lepší volbou pro každý úkol. Výkon modelu je vícerozměrný — capability a behavior jsou oddělené vrstvy. Výběr modelu podle role v pracovním postupu je efektivnější než univerzální žebříček.

Na čem to stojí: Ouyang et al. (2022) o instrukčním doladění, Bai et al. (2022) o Constitutional AI, Perez et al. (2022) o evaluaci chování modelů, Liu et al. (2023) o práci s dlouhým kontextem.

Kde je to zjednodušení: Článek zobecňuje z kvalitativních pozorování, ne ze systematických benchmarků. Rozlišení „capability vs. behavior" je užitečná heuristika, ale hranice mezi nimi není ostrá. Konkrétní příklady „kde slabší model vyhrává" jsou ilustrativní, ne empiricky kvantifikované.

Problém není ve slově "lepší". Problém je v tom, co tím myslíte

Když řekneme, že model je silnější, často mícháme dohromady několik různých vlastností:

výkon v benchmarcích,
kvalitu uvažování na komplexních úlohách,
práci s dlouhým kontextem,
schopnost držet formát,
bezpečnostní chování,
ochotu odpovědět na hraniční, ale legitimní dotaz,
stylistickou plynulost.

Model může být výborný v některých bodech a průměrný nebo frustrující v jiných. To není chyba marketingu. To je přirozený důsledek toho, že trénink i alignment optimalizují více cílů najednou.

Uživatel pak vidí paradox: "silnější" model působí lépe, ale v mém konkrétním úkolu dopadl hůře.

Ve skutečnosti narazil na nesoulad mezi modelem a rolí.

Capability vs. behavior: proč velký výkon ještě neznamená vhodné chování

U LLM je užitečné oddělit dvě vrstvy:

Capability znamená, co model dovede při vhodném zadání a za vhodných podmínek. Tedy jeho potenciál.

Behavior znamená, jak se model typicky chová v reálné interakci: jak moc je opatrný, jak reaguje na nejasnost, jak ochotně oponuje, jak často odmítne, jak moc "uhlazuje" konflikt.

Právě na úrovni chování často vzniká paradox silného modelu.

Silnější model může mít vyšší schopnosti, ale jeho výchozí chování může být pro konkrétní úkol méně vhodné. Například:

příliš opatrný při brainstormingu,
příliš verbózní při rigidním formátu,
příliš vstřícný k chybnému zadání,
příliš ochotný produkovat diplomatický kompromis místo ostré kritiky.

To je důvod, proč článek Je AI model expert, nebo interpolátor? řeší nejen znalosti, ale i typ odpovědi, který vlastně od modelu chcete.

RLHF a preference tuning: když zlepšení vytvoří novou slepou skvrnu

Velká část moderních modelů prochází alignmentem a preference tuningem. Cíl je legitimní: model má být užitečnější, bezpečnější a lépe komunikovat s lidmi.

Jenže každá optimalizace mění chování systému. Pokud model silně optimalizujete na "helpfulness", může někdy začít potvrzovat uživatelovy předpoklady místo toho, aby je rozporoval. Pokud silně optimalizujete na "harmlessness", může odmítat i úkoly, které jsou legitimní, ale nešťastně formulované.

To je přesně typ situace, kdy slabší nebo méně restriktivně naladěný model dá praktičtější výsledek.

Důležité je nepopsat to jako "horší alignment". Spíš jako jinou cílovou funkci. V některých scénářích chcete přísnost. V jiných potřebujete ostřejší kritickou analýzu bez nadměrného odmítání.

Anthropic popisuje Constitutional AI jako explicitní rámec pro alignment hodnot a bezpečnosti. OpenAI a další výrobci používají jiné kombinace instrukčního doladění a preference učení. Tyto rozdíly se pak promítají do každodenního chování modelů, ne jen do laboratorních benchmarků.

Proto se v praxi vyplatí testovat "jak se model chová v mé práci", ne jen "jaké má pořadí v žebříčku".

Kde slabší model překvapivě vyhrává

Nejde o senzaci. Jde o třídy úloh, kde je výhoda silného modelu menší než cena jeho vedlejších efektů.

1. Rigidní transformace a stručné přepisy

Potřebujete převést text do přesného formátu, zkrátit ho na jasný seznam nebo přepsat styl bez přidávání interpretace.

Silnější model někdy "pomáhá navíc". Doplní vysvětlení, vyhladí konfliktní jazyk nebo změní prioritu informace. Slabší model může být poslušnější právě proto, že méně interpretuje.

2. Úkoly citlivé na přehnané odmítání

Některé legitimní dotazy vypadají riskantně jen povrchově. Třeba bezpečnostní audit interního procesu, analýza hrozeb nebo scénáře red teamingu pro obranu.

Silnější, opatrněji naladěný model může přejít do režimu odmítnutí příliš brzy. Slabší model někdy odpoví přímočařeji, a tím je paradoxně užitečnější.

3. Kritická role v diskusi

Pokud potřebujete ostrého kritika, diplomatický model může být nevhodný. Bude hledat vyváženost tam, kde potřebujete explicitně rozbít slabý argument. To je přesně motivace článku Tvůrce a kritik.

4. Nízkonákladové iterace

Při rychlém prototypování není vždy racionální posílat každou iteraci na nejdražší model. Slabší model může udělat hrubou práci (varianty, skeleton, formát), zatímco silný model použijete až na kritické kroky.

Paradox tedy často není o kvalitě samotné odpovědi, ale o ekonomice pracovního postupu. To už jsme řešili v Ekonomice ověřování AI.

Kde silnější model vyhrává a proč to není rozpor

Aby byl argument poctivý, je potřeba říct i opačnou část.

Silnější model typicky vyhrává tam, kde úloha kombinuje několik nároků zároveň:

delší kontext,
více kroků uvažování,
syntézu protichůdných omezení,
nuance ve formulaci,
bezpečnostně citlivé hranice.

Zde se vyšší schopnosti projeví zřetelněji a vedlejší efekty alignmentu už nejsou dominantním problémem.

Příklad: komplexní plán s více omezeními, kde je důležitá struktura, konzistence a schopnost držet více proměnných naráz. Slabší model často ztratí jednu podmínku nebo sklouzne k obecné radě. Silnější model mívá lepší "pracovní paměť" pro strukturu úkolu, i když stále může selhat na faktech.

Proto paradox silného modelu není argument proti škálování. Je to argument proti slepému výchozímu nastavení.

Neříká "nepoužívejte silné modely". Říká "nepoužívejte silný model jako univerzální kladivo".

Největší chyba v praxi: vybírat model podle ega místo podle role

Spousta týmů dělá tichý, ale drahý omyl. Vyberou "nejlepší" model a pak se ho snaží donutit dělat všechny role:

generátor nápadů,
kritik,
sumarizátor,
verifikátor citací,
operativní přepisovač,
rozhodovací podpora.

To je pohodlné, ale metodicky slabé.

Lepší otázka zní: jaké role v tomto pracovním postupu skutečně máme?

Například:

Tvůrce: generuje varianty, snese vyšší diverzitu.
Kritik: hledá slabá místa, má být přísný a explicitní.
Verifikátor: požaduje zdroje, odlišuje tvrzení od evidence.
Sumarizátor: drží strukturu a převádí výstup do rozhodnutelné podoby.

Jeden model může zvládnout dvě role dobře. Všechny čtyři jen výjimečně.

Tato logika založená na rolích je přenositelná i mimo CrossChat, ale v nástroji s orchestrací pracovního postupu je snazší ji opakovat a měřit. Proto dává smysl použít třeba průvodce výběrem modelu podle role místo univerzálního žebříčku.

Není to celé jen problém promptu?

To je dobrá námitka. Často ano.

Špatný prompt dokáže zhoršit i výborný model a naopak dobrý prompt vytáhne překvapivě použitelný výsledek ze slabšího modelu. Pokud porovnáváte modely bez kontroly promptu, testujete spíš způsob promptování než model.

Jenže ani dobrý prompt nesmaže systémové rozdíly:

trénovací data,
architekturu,
alignment politiky,
výchozí chování při odmítání,
typickou míru přitakávání uživateli (sycophancy),
práci s dlouhým kontextem.

Proto má smysl dělat dva kroky odděleně:

Nejprve srovnat modely na férovém promptu.
Pak rozhodnout, který model je vhodný pro konkrétní roli v pracovním postupu.

Tohle oddělení mimochodem pomáhá i při interpretaci neshod mezi modely, které popisuje Proč modely nesouhlasí.

Praktický postup: jak paradox využít místo toho, abyste s ním bojovali

Pokud nechcete jen teoretickou poučku, tady je použitelný rámec:

1. Definujte typy úloh, které děláte opakovaně

Ne "potřebujeme AI". Konkrétně:

sumarizace poznámek ze schůzek,
návrh obchodního e-mailu,
kritika návrhu,
ověření faktických tvrzení,
návrh struktury dokumentu,
revize rizik.

2. Určete roli a kritérium úspěchu

Například u kritika je úspěch "najde chybu", ne "napíše hezky". U sumarizátoru je úspěch "nic důležitého nevynechá", ne "přidá originální nápad".

3. Otestujte aspoň dva modely na stejném malém setu

Stačí malý interní set reprezentativních úloh. Nehledejte absolutní pravdu. Hledejte vzorce chování.

4. Přidejte záložní pravidlo

Když kritik vrací příliš jemné výhrady, eskalujte na jiný model. Když generátor produkuje chaos, přepněte na konzervativnější model. Pracovní postup je důležitější než první volba.

5. Měřte náklady času a ceny spolu s kvalitou

Nejlepší model pro jednu odpověď nemusí být nejlepší model pro celý proces.

To je podstata paradoxu silného modelu v jedné větě.

Závěr

Silný model může být horší než slabší alternativa, aniž by to odporovalo tomu, že je obecně schopnější.

Rozpor mizí ve chvíli, kdy přestanete hledat univerzální žebříček a začnete navrhovat role, cíle a kontrolní kroky. Pak se z paradoxu stane výhoda: silný model použijete tam, kde skutečně přináší hodnotu, a slabší tam, kde je rychlejší, levnější nebo vhodněji naladěný.

CrossChat tento přístup produktizuje přes role a workflow. Ale princip je jednoduchý a přenositelný: nevybírejte model podle prestiže. Vybírejte ho podle práce, kterou má udělat.

Zdroje

Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155. DOI: 10.48550/arXiv.2203.02155
Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. DOI: 10.48550/arXiv.2212.08073
Perez, E. et al. (2022). Discovering Language Model Behaviors with Model-Written Evaluations. arXiv:2212.09251. DOI: 10.48550/arXiv.2212.09251
Liu, N. F. et al. (2023). Lost in the Middle: How Language Models Use Long Contexts. arXiv:2307.03172. DOI: 10.48550/arXiv.2307.03172

Historie úprav

Koncept: Codex + GPT-5.3-Codex Verze 1: Codex + GPT-5.3-Codex

Jazyková revize (2026-02-25, Codex + GPT-5): upravena stylistika, zpřesněny vazby a omezeny zbytečné anglicismy při zachování odborných pojmů. Kvalitativní audit (2026-03-23, Claude Code + Claude Opus 4.6): přidán Rámec tvrzení, ověřeny zdroje, jazyková úprava.