Mnoho AI citací není podpořeno zdrojem. Jak to ověřit

AI model vám dá citaci. Zní věrohodně: autoři, rok, název publikace. Ale studie v Nature Communications (2025) o citování v medicínském kontextu uvádí, že 50–90 % odpovědí není plně podpořeno citovanými zdroji, a že i v režimu s webovým vyhledáváním může být přibližně 30 % jednotlivých tvrzení nepodpořených. Citace existuje. Studii najdete. Ale studie neříká to, co AI tvrdí.

Tento článek nabízí konkrétní ověřovací postup — bez přístupu k plnému textu, s veřejně dostupnými nástroji.

Naučíte se rozlišit tři typy citačního selhání, aplikovat čtyřkrokový ověřovací postup a identifikovat varovné signály dříve, než citaci použijete v dokumentu nebo rozhodnutí.

Rámec tvrzení

Co článek tvrdí: Většina AI citací není plně podpořena zdrojem; existují tři odlišné typy citačního selhání (nepodpořené, vytržené z kontextu, vymyšlené); čtyřkrokový ověřovací postup je replikovatelný bez speciálních nástrojů.

Na čem to stojí: Studie Wang et al. (2025) v Nature Communications o citování v medicíně; výzkum Rooein et al. (2024) o detekci halucinovaných referencí; obecně známé principy ověřování zdrojů.

Kde je to zjednodušení: Statistiky 50--90 % a 30 % pocházejí z konkrétního medicínského kontextu a nemusejí platit obecně; čtyřkrokový postup předpokládá dostupnost abstraktu, což neplatí pro všechny obory.

Tři typy citačního selhání

Před ověřováním je nutné vědět, co přesně hledat. Citace AI modelu selhává třemi způsoby — a každý vyžaduje jiný ověřovací postup.

Typ A — Nepodpořené tvrzení: Citace existuje a je reálná, ale citovaný zdroj neříká to, co AI tvrdí. Model správně identifikoval relevantní zdroj, ale chybně popsal jeho obsah nebo vytáhl závěry, které v textu nejsou. Toto je častý typ selhání u citacemi „podložených“ odpovědí.

Typ B — Vytržení z kontextu: Citace skutečně říká Y, ale v kontextu "pokud platí X" nebo "v omezeném experimentálním prostředí za podmínek Z." AI uvádí Y jako obecně platné. Technicky "citace existuje" — fakticky zavádějící.

Typ C — Vymyšlená citace: Autoři, název publikace nebo rok jsou vymyšleny. Méně časté u novějších modelů s přístupem k internetu, ale stále reálné u modelů bez webového vyhledávání (web search). Snadno odhalitelné ověřením existence zdroje.

Proč na rozlišení záleží: Typ C je odhalitelný bez přístupu k textu (stačí Google Scholar). Typy A a B vyžadují alespoň abstrakt.

Krok 1: Ověř, zda citovaný zdroj vůbec existuje

Prvním krokem je kontrola Typu C — zda zdroj vůbec existuje.

Vezměte název práce přesně tak, jak ho AI uvedlo, a vyhledejte na Google Scholar (scholar.google.com), Semantic Scholar (semanticscholar.org), nebo PubMed (pro vědecké práce z medicíny a biologie). Pro knihy použijte Google Books nebo WorldCat.

Pokud nenajdete přesnou shodu, zkuste vyhledat autory a rok zvlášť — AI někdy zkomolí název, ale autoři a rok jsou správné. Nebo zkuste klíčová slova z titulu.

Pokud ani kombinace autora, roku a klíčových slov nevedou k reálné citaci — zdroj je pravděpodobně vymyšlený (Typ C). Citaci nepoužívejte. Nekombinujte s dalším AI modelem pro "ověření" — oba modely mohou sdílet stejné vymyšlené reference ze sdílených trénovacích dat.

Varovný signál: Rok publikace je novější než knowledge cutoff modelu (citace z "budoucnosti") nebo velmi specifické detaily, které jsou ale nenalezitelné (neexistující časopis, neexistující autor s jinak věrohodným jménem).

Krok 2: Požádej AI o přesný citát a stránku

Pokud zdroj existuje, přejděte na ověření Typů A a B — zda AI správně popsal jeho obsah.

Přeptejte se modelu: "Uveďte přesný citát (doslova, v uvozovkách) z tohoto zdroje, který podporuje vaše tvrzení. Uveďte číslo stránky nebo oddílu, kde ho najdu."

Pokud model přesný citát poskytne: zaznamenejte ho. Přesný text v uvozovkách by měl být v zdroji doslova nalezitelný — i v abstraktu nebo volně dostupném výtahu.

Pokud model přesný citát neposkytne nebo odpovídá vágně ("autor argumentuje, že...", "studie ukazuje..."): toto je varovný signál. Model pravděpodobně obsah přesně nezná — citaci interpoloval z jiných zdrojů nebo z obecné znalosti o tématu.

Proč tento krok funguje: Model, který zdroj skutečně "viděl" v trénovacích datech, dokáže typicky uvést konkrétní věty nebo alespoň přesné klíčové výsledky. Model, který citaci extrapoloval, to nedokáže — dokáže jen parafrázovat to, co "by tam mělo být."

Krok 3: Křížová kontrola přes druhý model

Pro ověření Typů A a B bez přístupu k plnému textu: požádat jiný model o nezávislé zhodnocení tvrzení.

Vezměte původní tvrzení (bez zmínky o citaci) a položte ho druhému modelu: "Je toto tvrzení [X] fakticky správné? Jakými konkrétními zdroji ho dokážete podpořit nebo zpochybnit?"

Pokud druhý model cituje stejný zdroj se stejnou interpretací: mírný signál podpory. Ale pozor — oba modely mohly sdílet stejné chybné pochopení ze sdílených trénovacích dat (viz C02 o skupinovém myšlení). Shoda dvou modelů není důkaz.

Pokud druhý model cituje odlišný zdroj nebo se s tvrzením neztotožní: jasný signál k opatrnosti.

Pokud druhý model tvrzení zpochybní s konkrétními argumenty nebo proticitacemi: pravděpodobně Typ A nebo B — tvrzení není podpořeno tak, jak AI tvrdí.

Důležité omezení: Křížová kontrola přes druhý model je pomocný krok, ne finální ověření. Na vysoce specializovaných nebo nových tématech mohou oba modely sdílet stejnou mezeru v datech. Křížová kontrola nevylučuje korelované zkreslení (bias).

Krok 4: Ověřit abstrakt

Pro Typy A a B je nejspolehlivější ověření přes dostupný abstrakt.

Abstrakt většiny vědeckých publikací je veřejně dostupný na Google Scholar nebo PubMed — i bez předplatného. Konferenční příspěvky (ICLR, NeurIPS, ACL) mají plné texty na arXiv.

Porovnejte AI tvrzení s abstraktem: Říká abstrakt totéž? Je tvrzení v abstraktu podmíněné nebo omezené na specifické podmínky? Pokud abstrakt tvrzení nepodporuje — Typ A nebo B potvrzen. Citaci nepoužívejte, nebo ji použijte s výslovnou výhradou.

Pokud abstrakt tvrzení podporuje: Přijměte citaci s přiměřenou mírou důvěry — ale vězte, že abstrakt zachycuje hlavní závěry, ne kontext a nuance. Pro kritická rozhodnutí je potřeba plný text.

Příklad: AI tvrdí, že "studie X zjistila Y efekt u pacientů se Z diagnózou." Abstrakt říká: "V pilotní studii s 23 účastníky jsme pozorovali tendenci k Y za podmínek A a B, výsledky nejsou statisticky signifikantní." To není totéž tvrzení (claim) — je to Typ B (vytržení z kontextu).

Varovné signály — shrnutí

Tato kombinace je zvlášť nebezpečná: přesné číslo + neexistující nebo nenalezitelný zdroj + model není schopen uvést přesný citát. Všechny tři najednou téměř jistě indikují halucinaci.

Méně zřejmý signál: Model uvede citaci ihned, bez zaváhání, i na velmi specializované nebo nedávné téma. Skutečná znalost konkrétní studie by měla být vzácnější — přílišná plynulost citačního procesu je suspektní.

Ověřovací flowchart

AI poskytlo citaci
       ↓
Krok 1: Existuje zdroj? (Google Scholar, PubMed)
  NE → Typ C: vymyšlená citace → nepoužívat
  ANO → pokračovat
       ↓
Krok 2: Přesný citát a stránka?
  VÁGNÍ → varovný signál, zvýšená opatrnost
  PŘESNÝ → zaznamenat a porovnat s dostupným textem
       ↓
Krok 3: Křížová kontrola přes druhý model
  NESHODA → zvýšená opatrnost, přejít na krok 4
  SHODA → mírný signál podpory, přejít na krok 4
       ↓
Krok 4: Abstrakt dostupný?
  ANO + podporuje → citaci lze použít s přiměřenou důvěrou
  ANO + nepodporuje → Typ A nebo B → nepoužívat (nebo s výslovnou výhradou)
  NE → použít s výhradou "nepodpořeno ověřením abstraktu"

Závěr

Nepodpořené citace nejsou argument proti AI. Jsou argument pro systematický ověřovací postup. Čtyři kroky z tohoto článku jsou replikovatelné pro jakoukoli AI citaci, s jakýmkoli modelem, bez speciálních nástrojů.

Klíč je rozlišit tři typy selhání a aplikovat přiměřený postup pro každý: Typ C odhalíte Googlem za minutu. Typy A a B vyžadují abstrakt nebo cross-check — ale i ten je dostupný zdarma pro většinu vědecké literatury.

Vícemodelové přístupy, kde více modelů hodnotí stejné tvrzení nezávisle, automatizují krok 3. Nástroje jako CrossChat aplikují křížovou kontrolu strukturovaně — pokud modely nesouhlasí u faktického tvrzení, výsledek shody (consensus score) to zobrazí explicitně.

Zdroje

Wang, H. et al. (2025). An automated framework for assessing how well LLMs cite relevant medical references. Nature Communications. DOI: 10.1038/s41467-025-58551-6.
Rooein, D. et al. (2024). SourceCheckup: Detecting reference hallucinations in large language models. arXiv:2402.02008. DOI: 10.48550/arXiv.2402.02008.
Maynez, J. et al. (2020). On Faithfulness and Factuality in Abstractive Summarization. ACL 2020. DOI: 10.18653/v1/2020.acl-main.173.

Historie úprav

Koncept: Claude Code + Anthropic Sonnet 4.6 Verze 1: Claude Code + Anthropic Sonnet 4.6 Verze 2: Codex + GPT-5.2

Jazyková revize (2026-02-25, Codex + GPT-5): upravena stylistika, zpřesněna terminologie a omezeny anglicismy; ověřovací postup zůstává beze změny. Kvalitativní audit (2026-03-23, Claude Code + Claude Opus 4.6): přidán Rámec tvrzení, ověřeny zdroje, jazyková úprava.