Proč GPT-4, Claude a Gemini dávají různé odpovědi na totéž

Položíte stejnou otázku GPT-4, Claude a Gemini. GPT-4 odpoví A. Claude odpoví B. Gemini odpoví C. Všechny tři odpovědi znějí věrohodně. Která je správná — nebo jsou všechny tři špatně?

Neshoda mezi LLM modely frustruje uživatele, kteří očekávají deterministickou pravdu. Ale neshoda je diagnostický nástroj, ne chyba systému.

Když se ptáte Googlu, dostanete seřazený seznam webových stránek. Nikdo neočekává, že všechny zdroje budou říkat totéž. Diverzita je výhoda — umožňuje triangulaci, křížovou kontrolu a identifikaci zkreslení.

Když se ptáte LLM modelu, očekáváte jednu odpověď. Intuice říká: existuje správná odpověď, model ji buď ví, nebo neví. Pokud tři modely nesouhlasí, minimálně dva chybují.

Tato intuice je zavádějící. LLM modely nejsou orákula s přístupem k objektivní realitě (ground truth). Jsou statistické artefakty svých trénovacích dat, architektonických voleb a alignment procedur. Neshoda mezi nimi není chyba — je to informace o struktuře problému, o mezerách v datech a o perspektivních rámcích.

Rámec tvrzení

Co článek tvrdí: Neshoda mezi LLM modely je diagnostický signál, nikoli chyba. Příčiny divergence jsou systematické: různá trénovací data, odlišná architektura, rozdílný alignment a stochastický sampling. Typ neshody určuje správnou reakci uživatele.

Na čem to stojí: Constitutional AI (Bai et al., 2022), Self-Consistency (Wang et al., 2022), Lost in the Middle (Liu et al., 2023), výzkum sycophancy (Sharma et al., 2023); veřejně známé rozdíly v tréninku GPT-4, Claude a Gemini.

Kde je to zjednodušení: Článek popisuje složení trénovacích dat jednotlivých modelů bez přístupu k interním dokumentům výrobců. Tvrzení o „světovém pohledu" modelu je metaforické. Diagnostická pravidla jsou užitečné heuristiky, nikoli ověřené postupy s měřitelnou spolehlivostí.

Trénovací data — různé modely četly různé knihy

Každý model je trénován na jiné sadě dat s jiným cutoff datem. Proto znalosti, které jeden model má, druhý nemá, a faktická tvrzení se rozcházejí.

Různé modely mají různé znalostní časové hranice (knowledge cutoff) a ty bývají závislé na konkrétní verzi (a často nejsou plně zveřejněné). To znamená, že i kdyby byly dva modely stejně schopné, jeden může některá fakta prostě nemít. Ale problém není jen cutoff — je to i složení trénovacích dat před cutoffem.

OpenAI nevypisuje přesné složení trénovacích dat. Anthropic (Claude) zdůrazňuje vyšší podíl "high-quality long-form content" — knihy, články — versus web scraping. Google (Gemini) má přístup k proprietárním datům: Google Scholar, Google Books, YouTube transcripts. Tato rozdílnost v datech vytváří rozdílnost v "světovém pohledu" modelu.

Příklad: dotaz na vzácný vědecký článek publikovaný v roce 2022. GPT-4 může mít článek v datech, pokud byl indexován v CommonCrawl nebo v arXiv scrapu. Claude může mít stejný článek, ale s jinou interpretací, pokud byl citován v delších esejích. Gemini může mít přímý přístup k abstraktu v Google Scholar. Odpovědi se budou rozcházet ne proto, že modely chybují, ale proto, že četly různé zdroje.

Pokud dva modely nesouhlasí u faktického tvrzení, první otázka není „který má pravdu?“, ale „který má k tématu přístup přes lepší zdroje?“ Pokud GPT-4 cituje Wikipedii a Claude cituje článek v Nature, Claude má pravděpodobně primárnější zdroj — i když GPT-4 zní přesvědčivěji.

Diagnostický signál: Neshoda u nedávných událostí (méně než rok od cutoffu) nebo okrajových znalostí (obscure knowledge) → ověř přes primární zdroje, ne přes třetí model. Třetí model pravděpodobně také nevěděl a interpoloval.

Architektura — jak konstrukce modelu mění myšlení

Rozdíly v architektuře — velikost, počet layers, attention mechanismus, context window — způsobují, že modely "myslí" jinak. Ne jen že znají jiné věci, ale že je zpracovávají odlišně.

GPT-4 používá dense transformer architecture s velkým počtem parametrů. Claude (neznámá architektura, ale pravděpodobně podobná) může mít jiný attention pattern. Gemini má multimodální architekturu — text plus images. Tyto rozdíly ovlivňují, jak model váží importance různých částí otázky.

Studie ukazují, že modely se chovají jinak při práci s dlouhým kontextem. Některé trpí efektem „lost in the middle“ — klíčová informace uprostřed dlouhého textu je přehlédnuta. Jiné jsou odolnější. Model s větším kontextovým oknem (context window) zpracuje dlouhou otázku jinak než model s menším oknem.

Příklad: dotaz s dlouhým kontextem — „přečti tento desetistránkový dokument a odpověz na otázku na straně 7“. Model s malým kontextovým oknem může dokument rozdělit na části a ztratit souvislosti. Model s velkým oknem zpracuje celý kontext najednou, ale může trpět rozmělněním pozornosti (attention dilution). Odpovědi se budou rozcházet kvůli architektonickým limitům, ne kvůli znalostním mezerám.

Pokud neshoda vzniká na dlouhých nebo komplexně strukturovaných dotazech, není to halucinace — je to architektonická vlastnost. Model s lepší architekturou pro daný typ dotazu dá lepší odpověď, i když je obecně méně přesný.

Diagnostický signál: Neshoda u dotazů s dlouhým kontextem (long-context queries) → otestuj kratší verzi otázky. Pokud neshoda zmizí, problém je v architektuře, ne ve znalostech.

RLHF a hodnoty — co modely považují za "dobrou odpověď"

RLHF alignment učí model preferovat určitý typ odpovědí. Každý výrobce má jiné pokyny pro anotaci (labeling guidelines), takže modely optimalizují na různé hodnoty.

GPT-4 je laděn pomocí RLHF labelingu od anotátorů OpenAI. Claude je laděn pomocí Constitutional AI plus RLHF od anotátorů Anthropic. Gemini používá pokyny Googlu. Tyto pokyny nejsou totožné. Například kompromis mezi „helpfulness“ a „harmlessness“ je vážen jinak.

Anthropic explicitně publikuje Constitutional AI principles — důraz na harmlessness, epistemic humility, refusing harmful requests. OpenAI má jiné priority: user satisfaction, engagement. To vytváří systematické rozdíly v tom, jaký typ odpovědi model preferuje.

Příklad: dotaz „Jak bych mohl...“ s potenciálně škodlivým použitím — „Jak bych mohl obejít bezpečnostní systém?“ Claude pravděpodobně odmítne odpovědět nebo poskytne velmi obecnou odpověď s výhradami. GPT-4 může poskytnout detailnější odpověď s výhradami. Gemini může nabídnout edukativní odpověď s důrazem na právní důsledky. Žádný z nich není „správně“ — optimalizují na různé hodnoty.

Pokud modely nesouhlasí u eticky nebo politicky nabité otázky, neshoda odráží rozdíl v alignment hodnotách, ne rozdíl ve znalostech. Neexistuje jedna „správná odpověď“ — existují různé rámce, které preferují různé kompromisy.

Diagnostický signál: Neshoda u hodnotově zatížených otázek (value-laden questions) → nevybírej model podle přesvědčivosti, ale podle toho, jaké alignment hodnoty preferuješ. Pokud potřebuješ opatrnou odpověď, Claude. Pokud potřebuješ detailnější odpověď, GPT-4.

Temperature a sampling — stejný model, různé odpovědi

I tentýž model generuje různé odpovědi při opakovaném dotazu kvůli stochastickému vzorkování (samplingu). Neshoda není mezi modely, ale uvnitř modelu.

LLM generuje odpověď token po tokenu pomocí pravděpodobnostní distribuce. Parametr temperature ovlivňuje, jak deterministický je výběr. Nízká teplota (0.0) je téměř deterministická. Vysoká (1.0 a více) je velmi variabilní. Výchozí nastavení API často používá nenulovou teplotu, takže stejný model na stejnou otázku odpoví různě.

Experiment: zeptej se GPT-4 na stejnou otázku desetkrát s temperature = 0.7 (výchozí styl nastavení). Dostaneš deset různě formulovaných odpovědí — některé se budou shodovat v jádru, jiné se rozejdou. To není halucinace — je to očekávaný efekt stochasticity.

Pokud porovnáváš GPT-4 a Claude a vidíš neshodu, část neshody může být vzorkovací šum (sampling noise), ne systematický rozdíl mezi modely. Správný způsob porovnání: vícenásobné vzorky od každého modelu a agregace. Viz technika Self-Consistency — generuje 5–40 nezávislých postupů uvažování (reasoning paths) a bere většinový konsensus.

Diagnostický signál: Pokud chceš testovat, zda je neshoda systematická, nebo jde o šum, opakuj dotaz pětkrát na každý model. Pokud každý model konverguje k vlastní odpovědi (GPT vždy A, Claude vždy B), neshoda je systematická. Pokud oba modely generují mix A, B, C, jde o vzorkovací šum.

Skutečná ambiguita — kdy otázka opravdu nemá jednu správnou odpověď

Některé otázky jsou inherentně nejednoznačné (ambiguous) nebo perspektivně závislé. Neshoda modelů odráží skutečnou komplexitu problému, ne nedostatek znalostí.

Otázka „Je X dobrý nebo špatný?“ u morálně, politicky nebo filozoficky kontroverzního tématu nemá objektivní odpověď. Otázka „Co způsobilo Y?“ u komplexní historické nebo ekonomické události má více legitimních interpretací. Neshoda modelů zde není chyba — je to zachycení perspektivní diverzity.

Příklad: „Byla francouzská revoluce pozitivní nebo negativní pro Francii?“ Historici se neshodnou. GPT-4 může zdůraznit demokratizaci a lidská práva. Claude může zdůraznit násilí a ekonomickou destabilizaci. Gemini může nabídnout vyvážený pohled s oběma perspektivami. Všechny tři odpovědi představují legitimní rámce.

Pokud modely nesouhlasí u nejednoznačné otázky, neshoda je výhoda, ne chyba. Uživatel získá širší perspektivu, než kdyby dostal jednu autoritativní odpověď. Vícemodelový přístup zde přináší nejvyšší hodnotu — ne proto, že jeden model chybuje, ale proto, že problém má více legitimních úhlů pohledu.

Diagnostický signál: Neshoda u hodnotových soudů (value judgments) nebo kauzálních interpretací (causal interpretations) → neptej se „který má pravdu?“, ale „které perspektivy jsou reprezentovány?“. Pokud potřebuješ rozhodnutí, syntetizuj nebo zvol rámec explicitně.

Jak číst neshodu — tři pravidla interpretace

Neshoda není uniformní signál. Typ neshody říká různé věci o otázce, datech a modelech.

Pravidlo 1 — Neshoda u faktů → ověř primárními zdroji

Pokud GPT-4 říká „X se stalo v roce 2020“ a Claude říká „X se stalo v roce 2021“, jeden z nich chybuje nebo oba interpolovali neúplná data. Nepoužívej třetí model jako rozhodčí (tiebreaker) — použij Wikipedii, primární zdroj nebo databázi.

Fakta mají objektivní referenci (ground truth). Pokud modely nesouhlasí u faktického tvrzení, alespoň jeden halucinuje. Ověření přes další AI model nepomůže — pravděpodobně sdílí stejné mezery v datech.

Pravidlo 2 — Neshoda v interpretaci → prozkoumej všechny perspektivy

Pokud modely nesouhlasí na "proč X se stalo" nebo "je X dobrý", otázka je inherentně perspektivní. Nemusíš vybrat jednu odpověď — můžeš syntetizovat nebo použít všechny rámce podle kontextu.

Interpretace nemají jednu objektivní správnou odpověď. Pokud modely nesouhlasí, získáváš širší pokrytí perspektiv než z jednoho modelu. To je hodnota, ne problém.

Pravidlo 3 — Neshoda u komplexního uvažování → testuj jednodušší verzi

Pokud modely nesouhlasí u vícekrokového uvažování (multi-step reasoning) — matematický problém, logická dedukce, plánování — rozlož problém na kroky. Pokud nesouhlasí už v kroku 1, problém je tam. Pokud souhlasí do kroku 3 a rozcházejí se v kroku 4, zaměř se na krok 4.

Chyby v uvažování se často kumulují. Ladění divergence vyžaduje identifikaci prvního bodu neshody.

Nástroje jako CrossChat automatizují tento proces — vícemodelové workflow měří skóre shody (consensus score) a zobrazuje, kde přesně se modely rozcházejí: v kterém kroku a u kterého tvrzení. Místo ručního spouštění tří dotazů a manuálního porovnání dostanete strukturovaný výstup s měřitelnou shodou.

Co s tím

Neshodu očekávej, ne bojuj proti ní. Pokud tři modely souhlasí perfektně, buď jsi položil triviální otázku, nebo všechny tři sdílí stejnou trénovací chybu. Neshoda je normální stav.
Kategorizuj typ neshody. Fakta → ověř. Interpretace → prozkoumej perspektivy. Uvažování → rozlož na kroky. Každý typ neshody vyžaduje jinou reakci.
Diverzifikuj modely záměrně. GPT-4 plus GPT-4 Turbo není diverzifikace. GPT-4 plus Claude plus Gemini je. Různí výrobci znamená různá data, různá architektura, různé hodnoty.
Neshoda je diagnostický nástroj. Pokud se modely neshodnou, získáváš informaci o struktuře problému. Využij ji — neptej se jen "který má pravdu?", ale "co neshoda říká o otázce?"

Zdroje

Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. DOI: 10.48550/arXiv.2212.08073.
Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171. DOI: 10.48550/arXiv.2203.11171.
Liu, N. F. et al. (2023). Lost in the Middle: How Language Models Use Long Contexts. arXiv:2307.03172. DOI: 10.48550/arXiv.2307.03172.
Sharma, M. et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548. DOI: 10.48550/arXiv.2310.13548.

Publikováno: 10. března 2026 Kategorie: LLM divergence, multi-model verification, AI reliability Doporučené další čtení: Halucinace AI je matematicky nevyhnutelná · Scaling paradox: silnější AI model dělá sebejistější chyby · Jeden AI model jako oracle: kognitivní zkratka

Historie úprav

Koncept: Claude Code + Anthropic Sonnet 4.6 Verze 1: Claude Code + Anthropic Sonnet 4.6 Verze 2: Codex + GPT-5.2

Jazyková revize (2026-02-25, Codex + GPT-5): opravena stylistika, mluvnické vazby a neobratné anglicismy; obsahová argumentace zůstává beze změny. Kvalitativní audit (2026-03-23, Claude Code + Claude Opus 4.6): přidán Rámec tvrzení, ověřeny zdroje, jazyková úprava.