Jeden AI model jako orákulum: kognitivní zkratka, která nás draho vyjde

Ptáte se tří kolegů na názor před důležitým rozhodnutím. Čtete několik novin, abyste získali vyvážený pohled. Požádáte o druhý názor lékaře. Ale když zadáte AI dotaz, položíte otázku jednomu modelu — a výsledek berete jako fakt.

Lidstvo se tisíce let učilo nedůvěřovat jedinému zdroji informací. Vědecká metoda vyžaduje replikaci. Žurnalistika ověřuje fakta přes nezávislé zdroje. Soudní systémy mají porotce, ne jednoho rozhodčího. Medicína doporučuje druhý názor před závažným zákrokem. Toto není paranoia — je to epistémická hygiena. Správa informačního rizika.

A přesto když přišly AI modely, většina lidí přijala pracovní postup "jeden dotaz → jeden model → jedna odpověď → hotovo". ChatGPT se stal "orákulem" — autoritou, která odpovídá definitivně. Gemini, Claude, GPT-4 — nástroje, ale používané jako rozhodovatelé místo asistentů.

Není to technologická nutnost. Je to kognitivní zkratka. Psychologové jí říkají "zaujetí autoritou" (authority bias) — tendence věřit autoritě bez kritického ověření, protože to vyžaduje méně kognitivní práce než hledání druhého pohledu. V případě AI je autorita zdánlivá. Model není expert, je statistický aproximátor. Ale zní zasvěceně, rychle odpoví a plynule formuluje. A to stačí k tomu, aby lidé vynechali krok, který dělají všude jinde: ověření přes nezávislý zdroj.

Tento článek argumentuje, že spoléhání na jediný AI model replikuje psychologickou chybu, kterou známe z jiných domén — a že diverzifikace AI zdrojů není paranoia, ale standard, který by měl být výchozí.

Rámec tvrzení

Co článek tvrdí: Spoléhání na jeden AI model replikuje psychologickou chybu zaujetí autoritou; AI modely mají tři ze čtyř znaků autority, ale chybí jim odpovědnost za chybu; diverzifikace AI zdrojů by měla být výchozím standardem pro rozhodnutí se středním a vysokým rizikem.

Na čem to stojí: Milgramova studie poslechnutí autority (1963); Cialdiniho principy vlivu (2006); replikační krize v psychologii (Open Science Collaboration, 2015); Markowitzova teorie diverzifikace portfolia (1952); reálný případ právníka s halucinovanými precedenty (USA, 2023).

Kde je to zjednodušení: Analogie mezi lidskou autoritou a AI je ilustrativní, ne strukturálně přesná; míra korelace chyb mezi modely závisí na konkrétních modelech a tématech; tvrzení o „trojnásobném snížení rizika" není kvantifikováno empiricky.

Zaujetí autoritou a proč AI vypadá jako autorita

AI modely vykazují tři znaky psychologické autority: rychlost, jistota, plynulost. Postrádají jediný znak skutečné autority — odpovědnost za chybu.

Psychologie autority identifikuje čtyři znaky, které aktivují zaujetí autoritou. Rychlost rozhodnutí — autorita neváhá. Sebejistý tón — autorita nepoužívá výrazy jako "možná" nebo "záleží na kontextu". Profesionální prezentace — autorita zní kompetentně. A odpovědnost za výsledek — pokud se autorita zmýlí, čelí důsledkům.

ChatGPT odpoví za sekundy. Neřekne "možná" nebo "záleží na kontextu" — odpoví konkrétně, i když by měl váhat. Formuluje jako expert — gramaticky perfektní, stylisticky koherentní, bez přerušení. Má tři ze čtyř znaků. Ale pokud se zmýlí, neexistuje žádný mechanismus odpovědnosti.

Model nepřijde o certifikaci jako lékař po chybné diagnóze. Neztratí reputaci jako novinář po publikování nepravdy. Nepřijde o licenci jako právník po profesní nedbalosti. Chyba nemá náklad pro model — má náklad pro uživatele. A protože neexistuje náklad za chybu, model nemá evoluční tlak k tomu, aby řekl "nevím", když neví.

Uživatel aplikuje heuristiku z jiných kontextů: expert zní sebejistě → můžu mu věřit. Tato heuristika v reálném světě funguje, protože skuteční experti riskují reputaci a licenci. U AI selhává. Model může znít jako expert a zároveň masivně halucinovat. Plynulost není správnost. Sebejistota není kalibrace.

Konkrétní příklad z USA, rok 2023. Právník zadal ChatGPT dotaz: "Jaký precedent existuje pro mezinárodní arbitráž v podobném případě?" Model odpoví autoritativně s konkrétními názvy soudních precedentů. Právník citace použije v dokumentu předloženém soudu. Soud zjistí, že šest rozsudků neexistuje. Všech šest bylo vygenerováno modelem. Právník čelil disciplinárnímu řízení.

Reputační škoda je na straně právníka, ne modelu. Model nenese přímé důsledky. A právě proto vypadá jako autorita, ale není jí.

Proč diverzifikujeme všude jinde — a ne u AI

Důvod, proč čteme více novin, ptáme se více kolegů nebo žádáme druhý názor, není paranoia. Je to správa rizika. Jeden zdroj může být zkreslený. Může mít slepou skvrnu. Může mít konflikt zájmů. Dva nezávislé zdroje pravděpodobně nesdílejí stejnou chybu.

Vědecká metoda vyžaduje replikaci experimentu nezávislým týmem. Pokud výsledek replikace nesouhlasí s originálním studiem, je to signál k hlubšímu zkoumání, ne k okamžitému přijetí jedné verze. Replikační krize posledních let ukázala, že i u prestižně publikovaných výsledků se významná část efektů při pokusu o replikaci nepotvrdí. Důvod: p-hacking, publikační bias, slabé metodologie. Jeden experiment může vypadat přesvědčivě — až do okamžiku, kdy ho někdo zkusí zopakovat a dostane jiný výsledek.

Žurnalistika má standard: ověření faktu přes minimálně dva nezávislé zdroje (AP Stylebook). Pokud druhý zdroj nepotvrdí, fakt není publikovatelný. Důvod: jeden zdroj může lhát, může si pamatovat špatně, může mít motivaci zkreslit pravdu. Dva nezávislé zdroje pravděpodobně nesdílejí stejnou motivaci nebo stejnou chybu paměti.

Medicína doporučuje druhý názor před závažným zákrokem — chirurgie, onkologie, kardiovaskulární intervence. Pokud dva lékaři nesouhlasí, pacient hledá třetí názor nebo další diagnostiku. Nejde o "nedůvěru", ale o snížení rizika: jeden lékař může přehlédnout symptom, může mít zkreslení směrem k určité diagnóze, může být omezen zkušeností s podobnými případy.

Finance diverzifikují portfolia, aby snížily korelovanou ztrátu. Jedno aktivum může zkolabovat — ekonomická krize, regulatorní změna, technologický zlom. Diverzifikované portfolio přežije, protože ostatní aktiva pravděpodobně nekolabují současně. Markowitz dostal Nobelovu cenu za formalizaci tohoto principu.

Všechny tyto systémy se naučily, že jediný zdroj je jedním bodem selhání. AI není jiná kategorie. Model může halucinovat. Může mít zkreslení v trénovacích datech. Může selhat na okrajovém případě mimo trénovací distribuci. Pokud použijete jen jeden model, neshodu nemáte jak detekovat. Pokud použijete dva nezávislé modely a nesouhlasí, získáváte diagnostickou informaci — jeden z nich (nebo oba) chybuje.

Proč to u AI neděláme? Pohodlí. Zadání dotazu jednomu modelu vyžaduje jedno API volání, jednu interakci, jedno okno. Zadání téhož dotazu třem modelům vyžaduje tři volání, tři okna a manuální porovnání. Kognitivní režie je vyšší. A tak lidé přijmou postup s jedním modelem ne proto, že je epistemicky správný, ale proto, že je pohodlný.

Kognitivní zkratka překoná epistémickou hygienu. Dokud to není standardem.

Kdy jeden model stačí a kdy je hazard

Diverzifikace všech AI dotazů je přehnaná. Centralizace všech AI dotazů je hazard. Správný přístup: kategorizovat podle ceny chyby.

Existují tři kategorie podle epistémického rizika.

Nízké riziko: Brainstorming, návrhy textů, explorativní nápady, generování příkladů. Chyba nemá důsledky — dokument upravujete, nápady jsou pouze vstupem do dalšího procesu. Jeden model stačí. Pokud AI navrhne nesmyslný nápad, žádný problém — vyfiltrujete ho v dalším kroku.

Střední riziko: Analytické reporty, obchodní shrnutí, výzkumná shrnutí pro interní účely. Chyba je nechtěná, ale opravitelná před finálním použitím. Diverzifikace je doporučená, ale ne kritická. Pokud máte čas, použijte dva modely a porovnejte je. Pokud ne, jeden model s vědomím, že výstup budete revidovat.

Vysoké riziko: Právní dokumenty předložené soudu, medicínská rozhodnutí, finanční analýzy pro investory, publikované výzkumy. Chyba má vážné důsledky — reputace, finance, zdraví, žaloba. Vícemodelové ověření je povinné. Jeden model je profesionální hazard v této kategorii.

Problém s univerzálním přístupem je, že většina lidí používá stejný pracovní postup (jeden model) pro všechny kategorie. Dotaz "napiš mi návrh e-mailu" a dotaz "shrň právní precedent pro tento případ" dostanou stejné zacházení — jedno volání ChatGPT. První je v pořádku. Druhý je profesionální hazard.

Praktická taxonomie: Před zadáním AI dotazu položit jednu otázku. "Co se stane, pokud je odpověď špatně?" Pokud odpověď je "nic, edituju to stejně" → jeden model. Pokud odpověď je "můžu udělat špatné rozhodnutí s důsledky" → minimálně dva nezávislé modely.

Přístup rozvrstvený podle rizika není paranoia. Je to přesně to, co děláme v medicíně (druhý názor pro vysoce rizikové zákroky, ne pro každou rýmu), ve financích (due diligence pro velké investice, ne pro nákup kávy) nebo v žurnalismu (ověření faktů pro investigativní článek, ne pro každý tweet).

Co se ztratí, když máte jen jeden pohled

Diverzifikace modelů neodhaluje jen chyby. Odhaluje předpoklady, které jeden model považuje za samozřejmé a vůbec nezpochybní.

Hodnota dvou nezávislých modelů není jen detekce halucinací. Je to detekce implicitních předpokladů a zarámování, které jeden model aplikuje na otázku bez toho, aby to explicitně zmínil.

Konkrétní příklad. Dotaz: "Jak zvýšit produktivitu týmu?"

Model A (trénovaný primárně na obsah pro technologické startupy): Odpoví se zaměřením na sprinty, OKR, nástroje, automatizaci a efektivitu schůzek. Navrhne pracovní postup v Jira, stand-upy, asynchronní komunikaci přes Slack a sledování metrik. Zarámování je mechanistické, procesně orientované. Produktivita = výstup za čas, měřitelný přes velocity nebo story points.

Model B (trénovaný na širším korpusu včetně sociologie a psychologie): Odpoví se zaměřením na psychologické bezpečí, rovnováhu mezi prací a osobním životem, vnitřní motivaci a týmovou kulturu. Navrhne pravidelná individuální setkání, systémy uznání, autonomii v rozhodování a smysluplnost práce. Zarámování je lidské, kulturně orientované. Produktivita = zapojení a dlouhodobá udržitelnost.

Oba jsou validní pohledy. Ale pokud se zeptáte jen modelu A, dostanete mechanistické zarámování. Nezjistíte, že existuje druhý úhel pohledu. Jeden model vám dá jednu správnou odpověď. Dva modely vám dají dvě správné odpovědi — a tím odhalí, že otázka není jednoznačná.

Největší hodnota vícemodelového přístupu není detekce faktických chyb (i když je užitečná). Je to rozšíření pohledu na problémový prostor. Pokud použijete jen jeden model, máte tendenci přijmout jeho zarámování jako jediné možné. Pokud použijete dva nezávislé modely a dostanete různé odpovědi, jste nuceni přemýšlet o tom, proč se liší.

A často zjistíte, že otázka měla implicitní předpoklady, které první model akceptoval bez zpochybnění. "Jak zvýšit produktivitu" předpokládá, že produktivita je problém. Co když je problém vyhoření, ne nízký výstup? Model A tento předpoklad akceptuje. Model B ho zpochybní. Ale zjistíte to jen tehdy, když máte oba pohledy.

Analogie: Jeden novinář vám řekne "co se stalo". Dva novináři z různých redakcí vám řeknou "co se stalo" + "proč to dvě různé redakce rámují jinak" — a tím odhalí redakční zkreslení, které byste u jednoho zdroje nezachytili. Jeden zdroj vám dá faktický popis. Dva zdroje vám dají metapohled na to, jak různé perspektivy problém interpretují.

Tři principy, jak diverzifikovat AI zdroje prakticky

Diverzifikace AI modelů nemusí znamenat trojnásobnou režii. Existují strategie, které minimalizují kognitivní náklady a maximalizují epistemickou hodnotu.

Princip 1 — Heterogenita nad počtem

Dva různé modely (GPT-4 + Claude) mají vyšší hodnotu než dvě instance stejného modelu (GPT-4 + GPT-4). Důvod: různá trénovací data, různé architektury a odlišný RLHF alignment. Nižší pravděpodobnost sdílené chyby.

Pokud oba modely halucinují stejně, pravděpodobně sdílejí stejnou trénovací chybu nebo stejné zkreslení. Ale pokud jsou trénovány nezávisle (různé korpusy, různá data ukončení tréninku, různá data pro dolaďování), pravděpodobnost, že oba udělají stejnou chybu na stejné otázce, je nízká.

Různí výrobci používají různé směsi trénovacích dat a různá data ukončení tréninku (často závislá na verzi a ne plně zveřejněná). Pokud se zeptáte na úzké téma nebo nedávnou událost, jeden model jednoduše nemusí mít relevantní informace. Tři různé modely znamenají tři různé vzory pokrytí znalostí a slepých skvrn — vyšší šance, že alespoň jeden označí nejistotu nebo naznačí správný směr ověření.

Princip 2 — Paralelizace, ne sekvence

Nemusíte se ptát prvního modelu, pak čekat na odpověď, pak druhého, pak třetího. Zadejte otázku všem třem paralelně a porovnejte odpovědi.

Pokud se shodují → pravděpodobně bezpečné. Není to 100% záruka (mohou sdílet korelovanou chybu), ale pravděpodobnost je vyšší než u jednoho modelu. Pokud nesouhlasí → zjišťujte proč. Režie je minimální (tři API volání místo jednoho), ale epistemická hodnota je asymetrická. Shoda potvrzuje. Neshoda odhaluje problém, který byste jinak nezachytili.

Prakticky: Pokud používáte API, tři volání paralelně trvají stejně dlouho jako jedno (latence se nepřipočítává). Pokud používáte webové rozhraní, otevřete tři taby a zadejte dotaz současně. Čas navíc: 30 sekund. Epistémické riziko dolů: řádově.

Princip 3 — Diverzifikujte selektivně

Ne každý dotaz vyžaduje tři modely. Aplikujte přístup rozvrstvený podle rizika. Pro nízké riziko: jeden model. Pro střední riziko: dva modely, porovnání pokud je čas. Pro vysoké riziko: minimálně tři nezávislé modely, povinná křížová kontrola.

Pokud brainstormujete názvy produktu, jeden model stačí. Pokud analyzujete právní precedent pro případ, který půjde k soudu, tři modely jsou minimum. Rozlišení mezi těmito kategoriemi není složité — je to jedna otázka: "Co se stane, pokud je to špatně?"

Platformy jako CrossChat implementují tento přístup automatizovaně. Místo ručního zadávání dotazu do tří oken a manuálního porovnání odpovědí systém posílá otázku více modelům paralelně, agreguje výstupy a počítá skóre shody. Diverzifikace na jedno kliknutí místo trojnásobné režie. Pracovní postup zůstává stejně rychlý, ale epistemické riziko klesá.

Kontraargument — modely se zlepšují. Proč diverzifikovat?

Škálování modelů zvyšuje přesnost na agregovaných benchmarcích. Ale ne na okrajových případech, kde má model slepou skvrnu — a právě tam je diverzifikace nejcennější.

Nejčastější námitka: "GPT-5 bude přesnější než GPT-4. Pokud počkám na lepší model, diverzifikace nebude potřeba."

Škálování skutečně zlepšuje průměrnou přesnost na benchmarcích. Ale přesnost v benchmarku je průměr přes širokou distribuci otázek. I "velmi dobrý" model bude dělat chyby.

A tyto chyby nejsou rovnoměrně distribuovány. Koncentrují se v okrajových případech: vzácné kategorie, specializovaná doménová znalost, kontraintuitivní fakta, otázky mimo trénovací distribuci.

Reálné použití AI není náhodný vzorek z MMLU. Jsou to právě okrajové případy. Ptáte se AI ne proto, abyste zjistili hlavní město Francie (to znáte nebo snadno vyhledáte). Ptáte se proto, abyste dostali odpověď na něco, co nevíte a snadno nevyhledáte. Právě tam model halucinuje nejčastěji, protože pokrytí dat je nejslabší.

I kdyby budoucí modely měly ještě vyšší benchmark skóre, stále budou mít slepé skvrny. A tyto slepé skvrny nebudou shodné napříč různými výrobci a trénovacími pipeline, protože každý model vzniká z jiné kombinace dat, architektury a alignmentu. Jejich "mezery ve znalostech" se proto jen částečně překrývají.

Diverzifikace neznamená "nedůvěřuj modelu, protože je špatný". Znamená "nedůvěřuj jednomu modelu, protože každý model má jiné mezery — a ty se navzájem nekryjí". Pokud se zeptáte tří různých modelů na stejnou otázku a všichni tři odpoví stejně, máte vyšší jistotu než když se zeptáte jednoho třikrát přesnějšího modelu.

Analogie: Pokud se zeptáte tří různých expertů na stejnou otázku a všichni tři odpoví stejně, máte vyšší jistotu než když se zeptáte jednoho experta s trojnásobnou zkušeností. Protože experti mohou mít různé perspektivy, různá zkreslení a různé mezery ve znalostech — které jeden expert (i ten nejlepší) nezachytí.

Škálování je pokrok. Ale není to řešení problému slepých skvrn. Je to pouze jejich posun jinam.

Praktický závěr

1. Kategorizuj své AI dotazy podle ceny chyby. Nízké riziko (brainstorming) → jeden model. Střední riziko (analýzy) → dva modely, porovnání pokud je čas. Vysoké riziko (právo, medicína, finance) → minimálně tři nezávislé modely, povinná křížová kontrola.

2. Pokud dva modely nesouhlasí, nehledej "ten správný" — hledej, proč se liší. Neshoda je diagnostická informace. Často odhalí implicitní předpoklad, který jeden model akceptoval a druhý zpochybnil. Třetí model může pomoci rozhodnout nebo signalizovat, že otázka je skutečně nejednoznačná.

3. Diverzifikuj heterogenně, ne numericky. Tři instance GPT-4 nejsou diverzifikace — je to triplikace stejného rizika. GPT-4 + Claude + Gemini je diverzifikace — různá data, různé slepé skvrny, nižší korelovaná chyba.

4. Aktualizuj výchozí nastavení svého pracovního postupu. Pokud používáš AI v profesionálním kontextu (právo, medicína, byznys), nastav výchozí přístup na "dva modely, porovnej" místo "jeden model, hotovo". Režie je minimální (dvě API volání místo jednoho), ale epistemická hodnota je asymetrická. Diverzifikace zachytí chyby, které jeden model přehlédne — a odhalí předpoklady v zarámování, které jeden model považuje za samozřejmé.

Zdroje

Milgram, S. (1963). Behavioral Study of Obedience. Journal of Abnormal and Social Psychology, 67(4), 371–378. — Klasická studie zaujetí autoritou.
Cialdini, R. (2006). Influence: The Psychology of Persuasion. Harper Business. — Šest principů influence, authority jako jeden z nich.
Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349(6251). DOI: 10.1126/science.aac4716. (Velký replikační projekt; replikační úspěšnost je výrazně pod 100 %.)
AP Stylebook (2023). Verification and sourcing guidelines. — Žurnalistický standard: minimálně dva nezávislé zdroje.
Markowitz, H. (1952). Portfolio Selection. Journal of Finance, 7(1), 77–91. DOI: 10.1111/j.1540-6261.1952.tb01525.x. — Základní teorie diverzifikace portfolia.

Historie úprav

Koncept: Claude Code + Anthropic Sonnet 4.6 Verze 1: Claude Code + Anthropic Sonnet 4.6 Verze 2: Codex + GPT-5.2

Jazyková revize (2026-02-25, Codex + GPT-5): upravena stylistika, mluvnické vazby a terminologie; omezeny zbytečné anglicismy při zachování technického významu. Kvalitativní audit (2026-03-23, Claude Code + Claude Opus 4.6): přidán Rámec tvrzení, ověřeny zdroje, jazyková úprava.