Je AI model expert, nebo sofistikovaný interpolátor? Záleží na odpovědi

Lékař, který nikdy neviděl vaši vzácnou nemoc, ji přesto dokáže diagnostikovat ze symptomů. Umí identifikovat vzor mimo jeho přímou zkušenost. Interpolátor by ji uhádnul statisticky z podobných známých případů — a často by se zmýlil.

Když se zeptáte AI modelu, dostanete odpověď. Ale jak model k odpovědi dospěl? Aplikoval pravidla, která extrahoval z trénovacích dat a zobecnil mimo ně? Nebo statisticky interpoloval mezi podobnými příklady, které viděl během tréninku?

Pro většinu otázek to nevíte. Odpověď vypadá stejně plynule, ať už model skutečně rozumí problému, nebo jen věrohodně predikuje další slova podle vzorů z tréninku.

Tato otázka není akademická. Určuje, jakým typům AI odpovědí můžete důvěřovat — a které vyžadují ověření. Expert generalizuje. Když medicínský AI model vidí novou kombinaci symptomů, extrahuje princip z předchozích případů a aplikuje ho na tento specifický případ. Interpolátor predikuje. Když vidí novou kombinaci symptomů, najde nejpravděpodobnější diagnózu podle statistické podobnosti s viděnými případy.

Problém: současné LLM modely dělají obojí. Některé typy otázek vyřeší generalizací — extrapolací abstraktního pravidla mimo viděná data. Jiné interpolací — statistickou predikcí mezi viděnými příklady. A protože generalizace a interpolace vypadají z venku stejně (plynulá odpověď na otázku), uživatel nemá jak rozpoznat, který mechanismus model použil.

Tento článek analyzuje fundamentální rozdíl mezi expertizou (schopnost generalizovat mimo trénovací distribuci) a interpolací (sofistikované uhádnutí mezi viděnými příklady). Argumentuje, že většina LLM použití spočívá na interpolaci, ne expertize — a že důsledky tohoto rozlišení určují, jak AI nástroje integrovat do rozhodování s vysokým rizikem.

Rámec tvrzení

Co článek tvrdí: LLM modely primárně interpolují mezi viděnými příklady, ne generalizují abstraktní pravidla; škálování zlepšuje interpolaci dramaticky, ale generalizaci pouze mírně; rozlišení mezi generalizací a interpolací určuje, kterým AI výstupům důvěřovat.

Na čem to stojí: Zhang et al. (2017) o generalizaci vs. memorování; Geirhos et al. (2020) o zkratkách v učení neuronových sítí; Chollet (2019) o měření inteligence jako abstraktním uvažování; benchmark GSM8K (Cobbe et al., 2021).

Kde je to zjednodušení: Hranice mezi generalizací a interpolací není ostrá; novější modely s chain-of-thought vykazují lepší uvažování, než článek naznačuje; tvrzení „většina odpovědí je interpolace" není kvantifikováno; dichotomie expert vs. interpolátor je zjednodušující.

Co je generalizace a proč jde mimo trénovací data

Generalizace znamená extrakci abstraktního pravidla z konečného počtu příkladů a jeho aplikaci na neviděné instance. To umožňuje řešit problémy, které nebyly v trénovacích datech.

Generalizace je schopnost extrahovat princip, který platí šířeji než příklady, ze kterých byl odvozen. Pokud dítě vidí deset stromů a naučí se koncept "strom", dokáže identifikovat jedenáctý strom, i když vypadá jinak než všech deset předchozích. To je generalizace — abstraktní pravidlo "co dělá strom stromem" překračuje konkrétní viděné instance.

Matematický příklad: Pokud vás někdo učí aritmetiku na příkladech 2 + 3 = 5, 7 + 1 = 8, 10 + 4 = 14, můžete odvodit pravidlo sčítání a aplikovat ho na 38 + 127. Nikdy jste tento konkrétní příklad neviděli, ale rozumíte principu. Toto je generalizace mimo trénovací distribuci — oblast, kterou viděné příklady pokrývají.

Medicínský příklad ukazuje sílu generalizace. Lékař vidí pacienta s kombinací symptomů, kterou nikdy předtím neviděl. Ale rozumí patofyziologii — jak symptomy vznikají ze základního mechanismu. Dokáže diagnostikovat, i když přesná kombinace nebyla v jeho zkušenosti, protože pracuje s abstraktním modelem nemoci, ne databází případů.

Pokud AI model skutečně generalizuje, dokáže řešit nové typy problémů mimo trénovací data — extrapolace. Pokud pouze interpoluje, dokáže řešit jen variace na viděné problémy — statistická predikce mezi známými body. Rozdíl je fundamentální.

Kde LLM skutečně generalizují? Zero-shot uvažování na nové typy úloh — GPT-3 zvládlo několik úloh, které nikdy nevidělo během tréninku, bez jediného příkladu. Abstraktní analogie — přenos principu z jedné domény do druhé ("Jak princip z medicíny aplikovat na byznys?"). Chain of Thought uvažování — rozklad nového problému na dílčí problémy pomocí pravidel, která model extrahoval z tréninku.

Ale většina LLM odpovědí není založena na generalizaci. Je založena na interpolaci.

Co je interpolace a proč většina AI odpovědí je založena na ní

Interpolace je statistická predikce mezi viděnými datovými body. Sofistikovaná, ale fundamentálně omezená na prostor, který trénovací data pokrývají.

Interpolace znamená predikovat hodnotu mezi známými body pomocí statistického vzoru. Pokud vás někdo učí 2 + 2 = 4, 3 + 3 = 6, 5 + 5 = 10, můžete uhádnout 4 + 4 = 8 interpolací mezi viděnými příklady. Není třeba rozumět pravidlu sčítání — stačí rozpoznat vzor "stejné číslo + stejné číslo = dvojnásobek".

LLM jsou trénovány na predikci dalšího tokenu (next-token prediction) — tedy předpověď dalšího slova v sekvenci. Dobrá predikce znamená najít statistický vzor v trénovacích datech. Pokud se model učí na milionech vět typu "Francie je země v Evropě", "Německo je země v Evropě", naučí se vzor "X je země v Evropě" a dokáže predikovat "Itálie je země v Evropě". To vypadá jako znalost geografie, ale je to interpolace vzorů.

Konkrétní příklad ilustruje mechanismus. Dotaz "Co je hlavní město Francie?" GPT-4 odpoví "Paříž". Vypadá to, že model "ví" geografii. Ale mechanismus je statistický: věty typu "Paříž, hlavní město Francie" se objevily v trénovacích datech tisíckrát. Model nevidí mapu, nerozumí koncept "hlavní město", jen predikuje nejpravděpodobnější token po "hlavní město Francie je".

Interpolace funguje skvěle, dokud otázka leží v prostoru, který trénovací data pokrývají. Když se zeptáte na běžnou geografii ("hlavní město Francie"), interpolace stačí — odpověď leží v hustě pokryté části trénovací distribuce. Když se zeptáte na okrajový případ mimo pokrytí (vzácná nemoc, neobvyklý právní precedent, kontraintuitivní fakt), model interpoluje věrohodně — ale často špatně.

Proč je většina odpovědí interpolace? Trénovací distribuce pokrývá většinu běžných otázek hustě. Miliony příkladů na podobné otázky. Model se naučí statistický vztah mezi běžnými vstupy a výstupy. To stačí pro velkou část každodenních dotazů. Jakmile ale otázka leží mimo hustě pokrytou oblast, model začne interpolovat mimo trénovací oblast a halucinuje.

Vypadá to jako znalost, ale je to rozpoznávání vzorů. A rozpoznávání vzorů selhává, když vzor nebyl v datech.

Proč z venku vypadají stejně — a jak to testovat

Plynulá, autoritativní odpověď je kompatibilní s generalizací i interpolací. Uživatel potřebuje diagnostické testy, aby rozlišil, který mechanismus model použil.

Když model odpoví na otázku, výsledkem je text. Plynulý, gramaticky perfektní, stylisticky koherentní. Tento výstup nevypadá jinak, pokud model generalizoval (aplikoval abstraktní pravidlo) nebo interpoloval (predikoval statisticky). Oba mechanismy produkují stejně vypadající text. Žádná metadata neříkají "tato odpověď byla interpolace".

Konkrétní test odhalí rozdíl: otázka mimo trénovací distribuci (out-of-distribution). Pokud se zeptáte "Kolik je 38 + 127?" (aritmetika mimo malá čísla často viděná v tréninku), model buď správně aplikuje pravidlo sčítání (generalizace), nebo uhádne pravděpodobné číslo podle vzorů (interpolace). Odpověď "165" vypadá stejně plynule v obou případech.

Ale pokud se zeptáte "Kolik je 3847 + 12938?" (větší čísla mimo běžnou distribuci), model může dát špatnou odpověď. To je signál, že interpoloval místo generalizace. Pokud model skutečně rozumí aritmetice (generalizuje pravidlo), velikost čísel je irelevantní. Pokud jen interpoluje vzory viděných příkladů, větší čísla jsou mimo jeho pokrytí.

Adversariální příklad ukazuje diagnostický postup. Dotaz "Jaké je hlavní město Maďarska?" → Model odpoví "Budapešť" (správně). Toto může být generalizace (rozumí konceptu hlavního města) nebo interpolace (viděl větu "Budapešť je hlavní město Maďarska" v datech).

Diagnostický test: "Jaké je druhé největší město Maďarska?" Pokud model odpoví správně (Debrecín), pravděpodobně má širší znalost maďarské geografie — generalizuje koncept maďarských měst mimo hlavní město. Pokud halucinuje (vymyslí věrohodné maďarské jméno města), pravděpodobně interpoloval první odpověď bez skutečného porozumění.

Praktický test pro jakoukoli odbornou otázku: Pokud AI model odpoví, položte dvě navazující otázky. (1) "Proč?" — test porozumění mechanismu. (2) "Co by se stalo, pokud by X bylo jiné?" — test schopnosti uvažování mimo první odpověď. Expert generalizuje na obě. Interpolátor selže alespoň na jedné.

Model, který říká "Paříž je hlavní město Francie" a pak vysvětlí "protože to je administrativní centrum, kde sídlí vláda", pravděpodobně rozumí konceptu hlavního města. Model, který řekne "protože to je nejznámější město Francie", interpoloval — použil věrohodné, ale mechanicky nesprávné zdůvodnění.

Jaké typy otázek vyžadují generalizaci — a jaké stačí interpolace

Ne všechny otázky vyžadují generalizaci. Některé spadají do hustě pokryté části trénovací distribuce — interpolace stačí a funguje spolehlivě. Taxonomie otázek určuje, kdy AI výstupu důvěřovat.

Existují tři kategorie otázek podle pokrytí a potřeby generalizace.

Kategorie A — Hustě pokryté, interpolace stačí

Faktické otázky na mainstreamové znalosti. "Kdo napsal Hamlet?", "Jaký je vzorec pro plochu kruhu?", "Co je hlavní město Francie?" Tréninková data obsahují tisíce příkladů těchto otázek a odpovědí. Model interpoluje mezi viděnými instancemi — a to stačí, protože správná odpověď leží v hustě pokryté oblasti.

Spolehlivost: často vysoká. Pokud se zeptáte více různých modelů, často odpoví stejně a správně. Důvod: všichni interpolují ve stejné hustě pokryté části distribuce.

Praktické použití: obecné faktické dotazy, běžné definice, mainstreamové návody. Jeden model stačí, ověření není kritické.

Kategorie B — Řídce pokryté, interpolace riskantní

Specializované doménové znalosti. "Jaká je diferenciální diagnostika pro tuto vzácnou nemoc?", "Jaký precedent existuje pro tento neobvyklý právní případ?", "Jak interpretovat tento okrajový případ v daňovém právu?"

Tréninková data obsahují málo příkladů nebo žádné. Model interpoluje věrohodně, ale mimo oblast s dostatečným pokrytím — halucinace je pravděpodobná. Odpověď zní autoritativně, ale může být statisticky uhádnutá místo fakticky správná.

Spolehlivost: často nízká. Pokud se zeptáte více různých modelů, často dostanete různé odpovědi — každý interpoluje jinak, protože pokrytí je řídké.

Praktické použití: doménově specifické otázky, vzácné případy, specializované znalosti. Dva nebo tři nezávislé modely, porovnání odpovědí. Pokud nesouhlasí, ověřte přes externí zdroj.

Kategorie C — Vyžadují uvažování mimo viděné příklady

Vícekrokové uvažování, kde dílčí kroky nejsou v tréninku přítomny jako celek. "Kombinuj koncept A z medicíny s principem B ze statistiky a aplikuj na nový případ", "Navrhni řešení pro problém, který má prvky z tří různých domén".

Vyžaduje generalizaci — extrakci abstraktních pravidel a jejich kombinaci. Interpolace selže, protože celá uvažovací cesta není v datech. Model musí abstrahovat princip z jedné domény a aplikovat ho na druhou. Pokud jen interpoluje, vygeneruje věrohodné, ale logicky chybné uvažování.

Spolehlivost: velmi proměnlivá, závisí na schopnosti modelu generalizovat. Některé modely mají lepší uvažování (např. lepší Chain of Thought než jiné). Ale i nejlepší modely selhávají na opravdu nových kombinacích.

Praktické použití: komplexní analytické úlohy, nové problémy vyžadující syntézu z více domén. Důvěřuj pouze tehdy, pokud můžeš ověřit kroky uvažování. Expertní revize je povinná.

Praktický příklad ilustruje kategorii. "Jak léčit diabetes?" (Kategorie A, spolehlivé — interpolace v hustě pokryté oblasti). "Jak léčit kombinaci diabetes + tato vzácná autoimunitní nemoc?" (Kategorie B, ověř — interpolace v řídce pokryté oblasti). "Navrhni nový terapeutický protokol pro pacienta s unikátní kombinací symptomů" (Kategorie C, vyžaduje generalizaci — expert review povinný).

Paradox škálování — větší modely interpolují lépe, ne více generalizují

Škálování (více parametrů, více dat) zlepšuje interpolaci dramaticky, ale generalizaci pouze mírně. Proto jsou větší modely spolehlivější na běžných otázkách, ale stále selhávají na okrajových případech.

Intuice říká: větší model = lepší porozumění = více generalizace. Realita: větší model = lepší pokrytí trénovací distribuce = lepší interpolace. Generalizace škáluje pomaleji než interpolace.

GPT-3 (175B parametrů) vs. GPT-2 (1.5B parametrů) ilustruje tento efekt. GPT-3 je výrazně přesnější na běžných otázkách — má větší kapacitu zapamatovat si více vzorů a pokrýt více trénovací distribuce. Dokáže interpolovat v hustší síti viděných příkladů. Ale na otázkách mimo trénovací distribuci (uvažování mimo viděné příklady, kontraintuitivní fakta) je rozdíl menší.

Důvod: GPT-3 interpoluje v hustší síti bodů, ale stále interpoluje. Generalizace — schopnost odvozovat abstraktní pravidla — vyžaduje jiný mechanismus než prosté škálování parametrů. Více parametrů znamená větší kapacitu pro zapamatování, ne nutně lepší abstrakci.

Konkrétní srovnávací test (benchmark) ukazuje limit škálování. GSM8K (matematické slovní úlohy pro základní školu) ukazuje velké rozdíly mezi generacemi modelů a trénovacími recepty. Může to vypadat jako "generalizace" — ale na mnoha úlohách je model stále nejlepší popsat jako velmi silný interpolátor s výraznými režimy selhání mimo hustě pokryté oblasti.

Ale když testujete adverzariální varianty (změň čísla, změň kontext, stejný základní princip), přesnost dramaticky klesá. Model se naučil interpolovat mezi viděnými matematickými vzory ("Johny má X jablek, dá Y kamarádovi, kolik mu zbyde?"), ne matematiku jako abstraktní systém. Změň "jablka" na "auta" a "kamarád" na "sourozenec" — stejný princip, jiný povrchový vzor — a model selhává častěji.

Škálování je pokrok. Ale není to cesta k AGI nebo k "modelu, který rozumí". Je to cesta k lepšímu interpolátoru — pokrývá více trénovací distribuce, dělá méně chyb na běžných otázkách. Ale okrajové případy, kde vyžadujete generalizaci mimo viděná data, zůstávají problematické i u největších modelů.

Proč na tom záleží? Pokud spoléháte na AI v profesionálním kontextu (právo, medicína, byznys), typicky řešíte okrajový případ — ne běžné otázky (ty znáte nebo snadno vyhledáte). Právě tam, kde potřebujete generalizaci, škálování nepomáhá dost. GPT-5 bude lepší interpolátor než GPT-4. Ale stále to bude interpolátor.

Důsledky pro použití AI v kritických situacích

Pokud AI primárně interpoluje místo toho, aby generalizovala, rozhodnutí s vysokým rizikem vyžadují mechanismy, které kompenzují limity interpolace. Diverzifikace modelů, externí ověření, člověk v rozhodovací smyčce (human-in-the-loop).

Interpolátor je užitečný nástroj, pokud víte, že je to interpolátor. Problém nastává, když se s ním zachází jako s expertem — důvěřujete mu v kontextech, kde interpolace selhává.

Tři strategie pro práci s AI jako interpolátorem, ne expertem.

Strategie 1 — Diverzifikace modelů

Různé modely mají různá tréninková data → interpolují v různých oblastech. GPT-4 měl jiný korpus než Claude 3.5. Gemini má přístup k jiným zdrojům než oba předchozí. Jejich pokrytí se nepřekrývá zcela.

Pokud dva modely nesouhlasí, pravděpodobně alespoň jeden interpoluje mimo svou pokrytou oblast. Jeden má správnou odpověď v datech, druhý ne — interpoluje do oblasti, kde nemá dostatečné pokrytí. Shoda zvyšuje důvěru (oba interpolují správně nebo oba generalizovali). Neshoda je varovný signál.

Prakticky: Pro otázky se středním a vysokým rizikem použij minimálně dva nezávislé modely. Pokud se shodnou, je to pravděpodobně bezpečnější. Pokud nesouhlasí, zkoumej proč — často odhalíš, že otázka spadá do okrajového případu, kde jeden model nemá pokrytí.

Strategie 2 — Externí ověření

Pokud model interpoluje správně, jeho odpověď by měla být ověřitelná přes primární zdroj (dokument, databáze, expert). Pokud interpoluje špatně, ověření to odhalí.

Žádání citací nutí model strukturovat odpověď kolem ověřitelných tvrzení. I když model halucinuje citace (a často halucinuje), nucení k citacím strukturuje výstup způsobem, který se kontroluje snáz než volný text bez referencí.

Prakticky: Pro otázky s vysokým rizikem požaduj "provide sources for each claim". Model buď vrátí správné zdroje (interpoloval správně v pokryté oblasti), nebo vymyšlené citace (interpoloval špatně mimo pokrytí). Druhé je snazší odhalit než obecné tvrzení bez citací.

Strategie 3 — Expertní lidská revize

Pro kategorie s vysokým rizikem (právo, medicína, finance) prochází AI výstup expertní revizí. Expert netestuje každý detail, ale posuzuje uvažování — zda AI odpověď dává smysl z hlediska základního principu.

Interpolátor může generovat věrohodnou, ale mechanicky chybnou odpověď. Zní přesvědčivě, ale porušuje princip, který není viditelný v povrchových vzorech. Expert to zachytí, protože pracuje s abstraktním modelem, ne databází viděných případů.

Prakticky: AI vygeneruje návrh odpovědi. Expert zreviduje uvažování. Pokud dává smysl, pokračuj. Pokud ne, AI pravděpodobně interpolovala mimo pokrytí — návrh odmítni a hledej jiný přístup.

Platformy jako CrossChat implementují strategii 1 nativně. Vícemodelový pracovní postup automaticky diverzifikuje přes různé interpolační prostory (GPT-4 + Claude + Gemini mají různá data). Consensus score je metrika, která signalizuje, zda modely interpolují ve shodě (vysoké skóre), nebo jeden z nich pravděpodobně interpoluje mimo pokrytí (nízké skóre).

Praktický závěr

1. Kategorizuj otázky před použitím AI. Hustě pokryté mainstreamové znalosti → interpolace je spolehlivá, jeden model stačí. Řídce pokryté doménové znalosti → interpolace je riskantní, ověř přes druhý model nebo externí zdroj. Vícekrokové uvažování mimo viděné příklady → vyžaduje generalizaci, důvěřuj pouze s expertní revizí.

2. Testuj, zda model generalizuje nebo interpoluje. Polož navazující otázky: "Proč?" (test porozumění mechanismu), "Co by se stalo, pokud by X bylo jiné?" (test uvažování mimo první odpověď). Expert generalizuje na obě. Interpolátor selže, protože celá uvažovací cesta není v jeho datech.

3. Škálování není řešení okrajových případů. GPT-5 bude přesnější než GPT-4 na běžných otázkách (lepší interpolace), ale okrajové případy vyžadující generalizaci zůstanou problematické. Větší model pokrývá více trénovací distribuce, ale stále interpoluje. Neočekávej, že větší model vyřeší problém uvažování mimo trénovací distribuci.

4. Zacházej s AI jako interpolátorem, ne expertem. Návrhy řešení, návrhy hypotéz, návrhy diagnóz — a ověřuj je. Model je nástroj pro generování kandidátů, ne arbitr pravdy. Rozhodnutí s vysokým rizikem vyžadují expertní lidskou revizi nebo vícemodelovou křížovou kontrolu. Interpolátor je užitečný, ale není to expert.

Zdroje

Zhang, C. et al. (2017). Understanding Deep Learning Requires Rethinking Generalization. ICLR 2017. — Klasická studie o generalizaci vs. memorization v neuronových sítích.
Geirhos, R. et al. (2020). Shortcut Learning in Deep Neural Networks. Nature Machine Intelligence, 2(11). — Proč modely interpolují místo generalizují: učí se shortcuts místo underlying principu.
Cobbe, K. et al. (2021). Training Verifiers to Solve Math Word Problems. arXiv:2110.14168. — GSM8K benchmark jako test matematického uvažování a generalizace.
Hendrycks, D. & Gimpel, K. (2017). A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. ICLR 2017. — Jak detekovat, kdy model je mimo trénovací distribuci.
Chollet, F. (2019). On the Measure of Intelligence. arXiv:1911.01547. — Argument, že abstraktní uvažování (generalizace) je jádrem inteligence, ne pattern matching.

Historie úprav

Koncept: Claude Code + Anthropic Sonnet 4.6 Verze 1: Claude Code + Anthropic Sonnet 4.6 Verze 2: Codex + GPT-5.2

Jazyková revize (2026-02-25, Codex + GPT-5): upravena stylistika a mluvnické vazby; omezeny zbytečné anglicismy a zpřesněna terminologie. Kvalitativní audit (2026-03-23, Claude Code + Claude Opus 4.6): přidán Rámec tvrzení, ověřeny zdroje, jazyková úprava.