Mnoho AI citací není podpořeno zdrojem. Jak to ověřit
Postup pro ověření AI citací: jak požádat o přesný citát, křížová kontrola přes druhý model a jak rozlišit nepodpoření od vymyšlení zdroje.
AI model vám dá citaci. Zní věrohodně: autoři, rok, název publikace. Ale studie v Nature Communications (2025) o citování v medicínském kontextu uvádí, že 50–90 % odpovědí není plně podpořeno citovanými zdroji, a že i v režimu s webovým vyhledáváním může být přibližně 30 % jednotlivých tvrzení nepodpořených. Citace existuje. Studii najdete. Ale studie neříká to, co AI tvrdí.
Tento článek nabízí konkrétní ověřovací postup — bez přístupu k plnému textu, s veřejně dostupnými nástroji.
Naučíte se rozlišit tři typy citačního selhání, aplikovat čtyřkrokový ověřovací postup a identifikovat varovné signály dříve, než citaci použijete v dokumentu nebo rozhodnutí.
Rámec tvrzení
- Co článek tvrdí: Většina AI citací není plně podpořena zdrojem; existují tři odlišné typy citačního selhání (nepodpořené, vytržené z kontextu, vymyšlené); čtyřkrokový ověřovací postup je replikovatelný bez speciálních nástrojů.
- Na čem to stojí: Studie Wang et al. (2025) v Nature Communications o citování v medicíně; výzkum Rooein et al. (2024) o detekci halucinovaných referencí; obecně známé principy ověřování zdrojů.
- Kde je to zjednodušení: Statistiky 50--90 % a 30 % pocházejí z konkrétního medicínského kontextu a nemusejí platit obecně; čtyřkrokový postup předpokládá dostupnost abstraktu, což neplatí pro všechny obory.
Tři typy citačního selhání
Před ověřováním je nutné vědět, co přesně hledat. Citace AI modelu selhává třemi způsoby — a každý vyžaduje jiný ověřovací postup.
Typ A — Nepodpořené tvrzení: Citace existuje a je reálná, ale citovaný zdroj neříká to, co AI tvrdí. Model správně identifikoval relevantní zdroj, ale chybně popsal jeho obsah nebo vytáhl závěry, které v textu nejsou. Toto je častý typ selhání u citacemi „podložených“ odpovědí.
Typ B — Vytržení z kontextu: Citace skutečně říká Y, ale v kontextu "pokud platí X" nebo "v omezeném experimentálním prostředí za podmínek Z." AI uvádí Y jako obecně platné. Technicky "citace existuje" — fakticky zavádějící.
Typ C — Vymyšlená citace: Autoři, název publikace nebo rok jsou vymyšleny. Méně časté u novějších modelů s přístupem k internetu, ale stále reálné u modelů bez webového vyhledávání (web search). Snadno odhalitelné ověřením existence zdroje.
Proč na rozlišení záleží: Typ C je odhalitelný bez přístupu k textu (stačí Google Scholar). Typy A a B vyžadují alespoň abstrakt.
Krok 1: Ověř, zda citovaný zdroj vůbec existuje
Prvním krokem je kontrola Typu C — zda zdroj vůbec existuje.
Vezměte název práce přesně tak, jak ho AI uvedlo, a vyhledejte na Google Scholar (scholar.google.com), Semantic Scholar (semanticscholar.org), nebo PubMed (pro vědecké práce z medicíny a biologie). Pro knihy použijte Google Books nebo WorldCat.
Pokud nenajdete přesnou shodu, zkuste vyhledat autory a rok zvlášť — AI někdy zkomolí název, ale autoři a rok jsou správné. Nebo zkuste klíčová slova z titulu.
Pokud ani kombinace autora, roku a klíčových slov nevedou k reálné citaci — zdroj je pravděpodobně vymyšlený (Typ C). Citaci nepoužívejte. Nekombinujte s dalším AI modelem pro "ověření" — oba modely mohou sdílet stejné vymyšlené reference ze sdílených trénovacích dat.
Varovný signál: Rok publikace je novější než knowledge cutoff modelu (citace z "budoucnosti") nebo velmi specifické detaily, které jsou ale nenalezitelné (neexistující časopis, neexistující autor s jinak věrohodným jménem).
Krok 2: Požádej AI o přesný citát a stránku
Pokud zdroj existuje, přejděte na ověření Typů A a B — zda AI správně popsal jeho obsah.
Přeptejte se modelu: "Uveďte přesný citát (doslova, v uvozovkách) z tohoto zdroje, který podporuje vaše tvrzení. Uveďte číslo stránky nebo oddílu, kde ho najdu."
Pokud model přesný citát poskytne: zaznamenejte ho. Přesný text v uvozovkách by měl být v zdroji doslova nalezitelný — i v abstraktu nebo volně dostupném výtahu.
Pokud model přesný citát neposkytne nebo odpovídá vágně ("autor argumentuje, že...", "studie ukazuje..."): toto je varovný signál. Model pravděpodobně obsah přesně nezná — citaci interpoloval z jiných zdrojů nebo z obecné znalosti o tématu.
Proč tento krok funguje: Model, který zdroj skutečně "viděl" v trénovacích datech, dokáže typicky uvést konkrétní věty nebo alespoň přesné klíčové výsledky. Model, který citaci extrapoloval, to nedokáže — dokáže jen parafrázovat to, co "by tam mělo být."
Krok 3: Křížová kontrola přes druhý model
Pro ověření Typů A a B bez přístupu k plnému textu: požádat jiný model o nezávislé zhodnocení tvrzení.
Vezměte původní tvrzení (bez zmínky o citaci) a položte ho druhému modelu: "Je toto tvrzení [X] fakticky správné? Jakými konkrétními zdroji ho dokážete podpořit nebo zpochybnit?"
Pokud druhý model cituje stejný zdroj se stejnou interpretací: mírný signál podpory. Ale pozor — oba modely mohly sdílet stejné chybné pochopení ze sdílených trénovacích dat (viz C02 o skupinovém myšlení). Shoda dvou modelů není důkaz.
Pokud druhý model cituje odlišný zdroj nebo se s tvrzením neztotožní: jasný signál k opatrnosti.
Pokud druhý model tvrzení zpochybní s konkrétními argumenty nebo proticitacemi: pravděpodobně Typ A nebo B — tvrzení není podpořeno tak, jak AI tvrdí.
Důležité omezení: Křížová kontrola přes druhý model je pomocný krok, ne finální ověření. Na vysoce specializovaných nebo nových tématech mohou oba modely sdílet stejnou mezeru v datech. Křížová kontrola nevylučuje korelované zkreslení (bias).
Krok 4: Ověřit abstrakt
Pro Typy A a B je nejspolehlivější ověření přes dostupný abstrakt.
Abstrakt většiny vědeckých publikací je veřejně dostupný na Google Scholar nebo PubMed — i bez předplatného. Konferenční příspěvky (ICLR, NeurIPS, ACL) mají plné texty na arXiv.
Porovnejte AI tvrzení s abstraktem: Říká abstrakt totéž? Je tvrzení v abstraktu podmíněné nebo omezené na specifické podmínky? Pokud abstrakt tvrzení nepodporuje — Typ A nebo B potvrzen. Citaci nepoužívejte, nebo ji použijte s výslovnou výhradou.
Pokud abstrakt tvrzení podporuje: Přijměte citaci s přiměřenou mírou důvěry — ale vězte, že abstrakt zachycuje hlavní závěry, ne kontext a nuance. Pro kritická rozhodnutí je potřeba plný text.
Příklad: AI tvrdí, že "studie X zjistila Y efekt u pacientů se Z diagnózou." Abstrakt říká: "V pilotní studii s 23 účastníky jsme pozorovali tendenci k Y za podmínek A a B, výsledky nejsou statisticky signifikantní." To není totéž tvrzení (claim) — je to Typ B (vytržení z kontextu).
Varovné signály — shrnutí
Tato kombinace je zvlášť nebezpečná: přesné číslo + neexistující nebo nenalezitelný zdroj + model není schopen uvést přesný citát. Všechny tři najednou téměř jistě indikují halucinaci.
Méně zřejmý signál: Model uvede citaci ihned, bez zaváhání, i na velmi specializované nebo nedávné téma. Skutečná znalost konkrétní studie by měla být vzácnější — přílišná plynulost citačního procesu je suspektní.
Ověřovací flowchart
AI poskytlo citaci
↓
Krok 1: Existuje zdroj? (Google Scholar, PubMed)
NE → Typ C: vymyšlená citace → nepoužívat
ANO → pokračovat
↓
Krok 2: Přesný citát a stránka?
VÁGNÍ → varovný signál, zvýšená opatrnost
PŘESNÝ → zaznamenat a porovnat s dostupným textem
↓
Krok 3: Křížová kontrola přes druhý model
NESHODA → zvýšená opatrnost, přejít na krok 4
SHODA → mírný signál podpory, přejít na krok 4
↓
Krok 4: Abstrakt dostupný?
ANO + podporuje → citaci lze použít s přiměřenou důvěrou
ANO + nepodporuje → Typ A nebo B → nepoužívat (nebo s výslovnou výhradou)
NE → použít s výhradou "nepodpořeno ověřením abstraktu"
Závěr
Nepodpořené citace nejsou argument proti AI. Jsou argument pro systematický ověřovací postup. Čtyři kroky z tohoto článku jsou replikovatelné pro jakoukoli AI citaci, s jakýmkoli modelem, bez speciálních nástrojů.
Klíč je rozlišit tři typy selhání a aplikovat přiměřený postup pro každý: Typ C odhalíte Googlem za minutu. Typy A a B vyžadují abstrakt nebo cross-check — ale i ten je dostupný zdarma pro většinu vědecké literatury.
Vícemodelové přístupy, kde více modelů hodnotí stejné tvrzení nezávisle, automatizují krok 3. Nástroje jako CrossChat aplikují křížovou kontrolu strukturovaně — pokud modely nesouhlasí u faktického tvrzení, výsledek shody (consensus score) to zobrazí explicitně.
Zdroje
- Wang, H. et al. (2025). An automated framework for assessing how well LLMs cite relevant medical references. Nature Communications. DOI: 10.1038/s41467-025-58551-6.
- Rooein, D. et al. (2024). SourceCheckup: Detecting reference hallucinations in large language models. arXiv:2402.02008. DOI: 10.48550/arXiv.2402.02008.
- Maynez, J. et al. (2020). On Faithfulness and Factuality in Abstractive Summarization. ACL 2020. DOI: 10.18653/v1/2020.acl-main.173.
Historie úprav
Koncept: Claude Code + Anthropic Sonnet 4.6 Verze 1: Claude Code + Anthropic Sonnet 4.6 Verze 2: Codex + GPT-5.2
Jazyková revize (2026-02-25, Codex + GPT-5): upravena stylistika, zpřesněna terminologie a omezeny anglicismy; ověřovací postup zůstává beze změny. Kvalitativní audit (2026-03-23, Claude Code + Claude Opus 4.6): přidán Rámec tvrzení, ověřeny zdroje, jazyková úprava.