5 signálů, že AI odpovědi nemůžete věřit — ani když zní jistě

Plynulý text a sebejistý tón nejsou důkaz správnosti. U AI jsou to přesně metriky, které nekorelují s pravdivostí. Po týdnech teorie o tom, proč AI chybuje, přichází praktický checklist: pět signálů, které lze identifikovat v každé odpovědi bez přístupu k primárním zdrojům.

Naučíte se rozlišit odpovědi, které si zaslouží důvěru, od odpovědí, kde je ověření nutné. Žádné speciální nástroje — jen pozornost ke správným věcem.

Rámec tvrzení

Co článek tvrdí: Existuje pět rozpoznatelných signálů nespolehlivé AI odpovědi: přesná čísla bez citací, odpověď nezávislá na otázce, neschopnost říct „nevím", rozpor s jiným modelem a absence výhrad. Tyto signály lze identifikovat bez přístupu k primárním zdrojům. Plynulost a sebejistota AI nekorelují s pravdivostí.

Na čem to stojí: TruthfulQA benchmark (Lin et al., 2021), výzkum citační přesnosti LLM (Wang et al., 2025; Rooein et al., 2024), InstructGPT/RLHF analýza (Ouyang et al., 2022) a kritika plynulosti jako metriky (Bender et al., 2021).

Kde je to zjednodušení: Článek prezentuje pět signálů jako univerzálně platné, ale jejich spolehlivost se liší podle domény a modelu. Mechanismus RLHF je popsán zjednodušeně; novější metody (RLAIF, constitutional AI) mohou zmírňovat popsané problémy. Tvrzení „přesná čísla jsou nejčastější forma halucinace" je obtížně ověřitelné bez kvantitativní studie.

Přesná čísla bez citací

Přesná čísla jsou nejčastější forma halucinace a nejsnáze ověřitelná.

Proč AI generuje přesná čísla? Trénovací data obsahují spoustu číselných tvrzení — statistiky, výsledky studií, průzkumy. Model se naučil, že „přesné číslo = odborná odpověď“. Když model neví přesný výsledek, interpoluje z podobných čísel v trénovacích datech a vytvoří číslo, které zní věrohodně.

Jak signál rozpoznat: "dle studie dosahuje Y přesnosti 73,4 %", přesné datum "rozhodnutí X bylo přijato 14. března 2019", nebo statistika bez uvedení, kde číslo pochází. Jakékoli přesné číslo bez zdroje je varovný signál.

Jak reagovat: Zeptejte se: "Uveďte autory, rok a název publikace, kde toto číslo najdu." Pokud model neodpoví nebo odpověď je vágní ("výzkumy obecně ukazují..."), číslo je pravděpodobně halucinované nebo vytržené z kontextu.

Příklad: Model uvádí "výzkum z roku 2023 ukázal, že 67 % firem implementovalo AI do svých procesů." Bez citace je toto číslo nevěrohodné — neznamená to, že je špatné, ale bez zdroje ho nelze použít v dokumentu nebo rozhodnutí.

Odpověď nezávisí na konkrétní otázce

Pokud model odpoví téměř stejně na otázku i její opak, neodpovídal na obsah — generoval "typickou odpověď na tento typ otázky."

Mechanismus: Model rozpozná typ otázky (strategie, hodnocení, analýza) a generuje šablonovou odpověď pro tento typ. Konkrétní obsah — váš projekt, váš dokument, vaše situace — zpracuje jen povrchně.

Jak signál rozpoznat: Reformulujte otázku na opak nebo přidejte specifický detail a porovnejte odpovědi. Pokud odpověď zůstane téměř identická, model neodpovídal na obsah.

Příklad testu: "Je tato byznys strategie realistická?" → Odpověď: "Záleží na tržních podmínkách, zvažte financování, zákazníky..." Pak: "Je tato strategie nerealistická?" → Téměř stejná odpověď s podobnými body. Signál: model nepřečetl váš dokument, generoval obecnou šablonu.

Jak reagovat: Explicitně odkazujte na konkrétní detaily z kontextu: "Odpověz výlučně na základě následujícího dokumentu. Cituj konkrétní věty, které podporují tvůj závěr." Pak sledujte, zda model tyto citace skutečně použil.

Neschopnost říct "nevím"

Model, který nikdy neprojeví nejistotu nebo neodmítne odpovědět, optimalizuje na sebejistost — ne na pravdivost.

Mechanismus: RLHF trénink (Reinforcement Learning from Human Feedback) odměňuje odpovědi, které lidští hodnotitelé označí jako „helpful“ (užitečné). Vágní „nevím“ je vnímáno jako neužitečné, i když je správné. Model se naučil, že sebejistá odpověď = dobrá odpověď — bez ohledu na to, zda jde o znalost nebo extrapolaci.

Jak signál rozpoznat: Položte otázku, na kterou model nemůže znát odpověď. Proprietární data vaší firmy, interní informace, velmi nedávné události, osobní detaily, které jste nesdělili. Pokud model odpovídá s jistotou — nedůvěřujte.

Test: "Co přesně říkal ředitel vaší firmy na interní poradě minulý měsíc?" Správná odpověď je "Tuto informaci nemám." Jakákoli jiná odpověď je halucinace nebo přiznání, že model odhaduje.

Jak reagovat: Explicitně vyžádat vyjádření nejistoty: "Pokud si nejste jistí, řekněte to. Ohodnoťte svou jistotu na stupnici 1–5." Modely, které dokážou svou jistotu kalibrovat, jsou obecně spolehlivější než ty, které vždy odpovídají s maximální sebejistotou.

Přímý rozpor s jiným modelem

Neshoda mezi dvěma modely u faktického tvrzení je silný signál, že alespoň jeden z nich chybuje.

Mechanismus: Pokud dvě nezávislé jazykové modely, trénované na překrývajících se datech, dospějí k opačným faktickým tvrzením, alespoň jeden interpoloval z neúplných nebo zkreslených dat. Oba samozřejmě mohou sdílet stejnou chybu — viz skupinové myšlení AI — ale neshoda je přinejmenším jasný signál k prověření.

Jak signál rozpoznat: Položte stejnou faktickou otázku dvěma různým modelům (GPT-4 a Claude, nebo Claude a Gemini). Neshoda na konkrétních číslech, datech nebo faktickém tvrzení je červená vlajka.

Důležité omezení: Pokud oba modely souhlasí, neznamená to automaticky, že mají pravdu. Mohou sdílet stejnou chybu ze sdílených trénovacích dat. Shoda je mírný signál podpory — ne důkaz.

Jak reagovat: Neshoda = signál k ověření primárním zdrojem. Nesnažte se určit „který má pravdu“ dotazem třetího modelu — třetí model může sdílet chybu jednoho ze dvou, nebo mít svou vlastní. Ověřujte ve Wikipedii, odborných databázích a primárních dokumentech.

Příklad: GPT-4 říká "zákon X vstoupil v platnost v roce 2019", Claude říká "v roce 2021." Neshoda je jasná — ověřte primárním zdrojem, nejlépe textem samotného zákona nebo databází legislativy.

Absence výhrad u komplexních otázek

Komplexní otázky mají komplexní odpovědi. Model, který na ně odpovídá bez jakýchkoli výhrad nebo alternativních pohledů, pravděpodobně zjednodušuje.

Mechanismus: Plynulé, jednoznačné odpovědi jsou v RLHF tréninku odměňovány — hodnotitelé je označují jako „helpful“ a „clear“ (tedy jasné). Model se naučil, že výhrady a podmíněné závěry jsou vnímány jako méně užitečné, i když jsou epistemicky poctivější.

Jak signál rozpoznat: U otázek zahrnujících hodnoty, obchodní rozhodnutí, kauzální analýzu historických událostí, nebo politiku — odpověď bez výhrad je podezřelá. Reálný svět je podmíněný a kontextuální.

Příklad: "Je mikromanagement vždy špatný?" Správná odpověď zahrnuje kontextuální nuance (v krizové situaci, u nových zaměstnanců, u bezpečnostně kritických procesů se mikromanagement uplatňuje jinak). Jednoznačné "ano, vždy škodí" je zjednodušení. Jednoznačné "ne, záleží na kontextu" bez konkrétního vymezení toho kontextu je taky málo.

Jak reagovat: Explicitně vyžádat protipohled: "Uveďte také tři argumenty pro opačný závěr." Nebo použijte multi-model přístup, kde různé modely dostanou různé perspektivy k argumentaci.

Co nejsou signály nespolehlivosti

Kratší odpověď není nespolehlivější. Přesná krátká odpověď je lepší než rozsáhlá halucinace. Délka neříká nic o fakticitě.

Formálně nebo odborně znějící text neznamená faktickou přesnost. Halucinace mají tendenci znít sebejistě a formálně — to je část jejich problému. Čím přesvědčivěji halucinace zní, tím nebezpečnější je.

Rychlost odpovědi neříká nic. Model odpovídá okamžitě ať halucinuje nebo ne. Latence API je latence sítě — ne hloubka uvažování.

Checklist pěti signálů

| Signál | Co hledat | Jak reagovat | |--------|-----------|--------------| | Přesná čísla bez citací | Statistiky, procenta, data bez zdroje | Vyžádat přesnou citaci (autor, rok, publikace) | | Odpověď nezávisí na otázce | Totéž na otázku i protiotázku | Odkazovat na konkrétní detaily, vyžádat citace z textu | | Neschopnost říct "nevím" | Jistá odpověď na neověřitelnou otázku | Testovat otázkou na proprietární informaci | | Rozpor s jiným modelem | Odlišné faktické claimy u dvou modelů | Ověřit primárním zdrojem, ne třetím modelem | | Absence výhrad | Jednoznačná odpověď na komplexní otázku | Vyžádat protiargumenty, použít více perspektiv |

Hodnotit AI odpovědi vyžaduje jiné heuristiky než hodnotit lidské experty. Plynulost, sebejistota a délka jsou u AI irelevantní metriky. Pět signálů z tohoto checklistu jsou jejich funkční náhradou.

Vícemodelové přístupy, kde každou odpověď prochází více modelů a jejich neshody jsou viditelné, automatizují identifikaci čtvrtého signálu. Nástroje jako CrossChat tyto neshody kvantifikují jako výsledek shody (consensus score) — takže nemusíte ručně porovnávat výstupy z několika oken.

Zdroje

Lin, S. et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. arXiv:2109.07958. DOI: 10.48550/arXiv.2109.07958.
Wang, H. et al. (2025). An automated framework for assessing how well LLMs cite relevant medical references. Nature Communications. DOI: 10.1038/s41467-025-58551-6.
Rooein, D. et al. (2024). SourceCheckup: Detecting reference hallucinations in large language models. arXiv:2402.02008. DOI: 10.48550/arXiv.2402.02008.
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155. DOI: 10.48550/arXiv.2203.02155. (InstructGPT / RLHF baseline.)
Bender, E. et al. (2021): "On the Dangers of Stochastic Parrots" — FAccT 2021; plynulost vs. pravdivost v LLM

Historie úprav

Koncept: Claude Code + Anthropic Sonnet 4.6 Verze 1: Claude Code + Anthropic Sonnet 4.6 Verze 2: Codex + GPT-5.2

Jazyková revize (2026-02-25, Codex + GPT-5): upraveny formulace, doplněna jazyková čistota a sjednocena terminologie; význam checklistu beze změn. Kvalitativní audit (2026-03-23, Claude Code + Claude Opus 4.6): přidán Rámec tvrzení, ověřeny zdroje, jazyková úprava.