Jak ověřit faktické tvrzení pomocí tří AI modelů: postup
Krok za krokem: jak formulovat ověřovací dotazy, vybrat tři AI modely a číst jejich neshodu při ověřování faktického tvrzení.
AI model řekl, že něco je pravda. Druhý model to zopakoval. To stále není ověření.
Dva modely mohou sdílet stejnou trénovací chybu, stejný popularizovaný omyl nebo stejné vágní rámování otázky. Přesto má práce se třemi modely velkou hodnotu: pomáhá rychle odhalit neshodu, slabá místa formulace a místa, kde musíte eskalovat na primární zdroj.
Tenhle postup není náhradou ověřování faktů (fact-checkingu). Je to praktický filtr, který vám pomůže rozhodnout, kdy je odpověď použitelná a kdy je riziková.
Rámec tvrzení
- Co článek tvrdí: Práce se třemi AI modely pomáhá odhalit neshody a slabá místa odpovědí. Nezávislé dotazování s různým rámováním zvyšuje informační hodnotu. Strukturovaný postup (normalizace tvrzení, podtvrzení, tabulka shody) nahrazuje intuitivní čtení výstupů.
- Na čem to stojí: Chain-of-Verification (Dhuliawala et al., 2023), Self-Consistency (Wang et al., 2022/2023), výzkum nevyhnutelnosti halucinací (Xu et al., 2024) a obecné principy analytické diverzifikace zdrojů.
- Kde je to zjednodušení: Článek předpokládá, že tři modely poskytují dostatečnou diverzitu perspektiv; ve skutečnosti mohou sdílet trénovací data a slepé skvrny. Postup neřeší, jak volit konkrétní modely ani jak hodnotit kvalitu jejich zdrojů.
Kdy tenhle postup použít
Použijte ho, když:
- pracujete s faktickým tvrzením,
- nemáte hned přístup k primárnímu zdroji,
- potřebujete rychle posoudit riziko halucinace,
- výstup má dopad na rozhodnutí, text nebo komunikaci.
Nepoužívejte ho jako finální arbitráž u vysoce rizikových témat. Tam je primární zdroj povinný.
Dobrá mentální zkratka: tři modely vám pomohou najít otázky, ne definitivní pravdu.
Co přesně ověřujete: nejdřív normalizujte tvrzení
Nejčastější chyba je ověřovat neurčitou větu. Například:
„Studie ukázala, že AI výrazně zlepšuje produktivitu.“
To není jedno tvrzení. Je to směs několika tvrzení:
- jaká studie,
- jaká AI,
- jaká produktivita,
- v jaké populaci,
- proti jaké baseline,
- jak bylo zlepšení měřeno.
Než se zeptáte modelů, přepište tvrzení do ověřitelné podoby.
Místo neurčitého tvrzení použijte strukturu:
- subjekt (kdo/co),
- výrok (co přesně tvrdí),
- podmínky (kdy, kde, v jakém kontextu),
- evidence očekávaná k ověření (studie, dokumentace, zákon, release notes).
Tím snížíte riziko, že modely budou souhlasit jen proto, že každý odpovídá na jinou otázku.
Krok 1: Rozdělte tvrzení na podtvrzení
Jedno komplexní tvrzení rozdělte na několik menších. Každé podtvrzení by mělo být ověřitelné samostatně.
Příklad (obecný, bez konkrétních čísel):
- Existuje daná studie nebo zdroj?
- Týká se skutečně tématu, které citujete?
- Podporuje závěr, který z ní vyvozujete?
- Platí závěr pro váš kontext, nebo jen pro specifickou experimentální podmínku?
Tohle dělení má zásadní výhodu. Když se modely neshodnou, uvidíte, na které části se neshoda láme. A to je mnohem cennější než binární "pravda/nepravda".
Podobně pracuje i princip Chain of Verification: rozložit odpověď na ověřovací otázky a nespoléhat na jeden hladký výstup.
Krok 2: Zeptejte se tří modelů nezávisle (bez přenosu odpovědí)
Tady se rozhoduje kvalita celého postupu.
Co znamená „bez přenosu odpovědí“ (leakage)
Neukazujte druhému a třetímu modelu odpověď prvního modelu. Neříkejte: "Jiný model tvrdí X, souhlasíš?"
Tím byste z modelu udělali spíš hodnotitele cizí odpovědi než nezávislý zdroj perspektivy.
Lepší je položit všem modelům stejný problém, ale mírně odlišně formulovaný prompt, aby nekopírovaly stejné rámování otázky.
Praktický vzor promptu
Použijte tři varianty:
- Varianta A (přímá): "Ověř toto tvrzení a uveď, co je třeba zkontrolovat."
- Varianta B (skeptická): "Předpokládej, že tvrzení může být zavádějící. Kde by mohl být problém?"
- Varianta C (editor): "Rozděl tvrzení na ověřitelné části a u každé napiš, jaký typ zdroje by ji potvrdil."
Nejde o to modely zmanipulovat k neshodě. Jde o to dát jim různé úhly, které odhalí slepou skvrnu ve formulaci.
Krok 3: Vynucujte citace, definice a míru jistoty
Pokud se modelu zeptáte jen "je to pravda?", často dostanete plynulou, ale špatně auditovatelnou odpověď.
Lepší je vyžádat tři věci explicitně:
1. Zdroj nebo typ zdroje
Ne vždy potřebujete přesný DOI hned v prvním kroku. Ale potřebujete vědět, zda model tvrdí, že existuje:
- vědecká studie,
- produktová dokumentace,
- oficiální statistika,
- právní text,
- sekundární článek.
2. Definici klíčových pojmů
Modely často souhlasí jen proto, že každý používá jinou definici slova jako "produktivita", "přesnost" nebo "bezpečnost".
3. Míru jistoty + důvod nejistoty
Nechoďte po čísle typu "8/10" jako po pravdě. Hodnotné je vysvětlení nejistoty:
- chybí zdroj,
- tvrzení je příliš obecné,
- záleží na doméně,
- dochází ke směšování korelace a kauzality.
Tento krok vám často odhalí nespolehlivost dříve, než vůbec dojde na primární zdroj. To navazuje na signály popsané v 5 signálech nespolehlivosti AI.
Krok 4: Porovnejte výstupy a hledejte body divergence
Teď nepátrejte po tom, kdo „vyhrál“. Hledejte strukturu neshody.
Doporučený způsob čtení:
- Shoda na rozkladu tvrzení: dobré znamení, že otázka je formulovaná dostatečně přesně.
- Neshoda na definicích: problém bývá ve formulaci, ne nutně ve faktech.
- Shoda bez zdrojů: vysoké riziko falešného pocitu jistoty.
- Jeden model uvádí výhradu, ostatní ne: potenciálně nejcennější signál, který nesmíte zahodit.
- Každý model řeší jinou část: vraťte se a zpřesněte tvrzení.
Prakticky pomáhá jednoduchá tabulka se sloupci:
- podtvrzení,
- Model A,
- Model B,
- Model C,
- shoda/neshoda,
- co eskalovat.
Tahle tabulka je často užitečnější než dlouhý souvislý text. Umožní vám rozhodnout, co dál udělat, místo abyste jen četli tři stylisticky odlišné odpovědi.
Krok 5: Rozhodněte, zda publikovat, podržet, nebo eskalovat
Na konci nepotřebujete filozofický závěr. Potřebujete operativní rozhodnutí.
Použijte jednoduché tři stavy:
1. Pravděpodobně použitelné (dočasně)
Modely se shodují na podtvrzeních, uvádějí konzistentní typy zdrojů a identifikují stejné výhrady. Stále to není finální ověření faktů, ale tvrzení může jít do pracovního návrhu s označením k pozdějšímu ověření.
2. Nejisté — držet
Modely se rozcházejí v definicích, rozsahu (scope) nebo v tom, co tvrzení přesně znamená. Tady je chyba často v otázce nebo v příliš široké formulaci. Nejdřív přeformulujte.
3. Pravděpodobná halucinace nebo nepodložené tvrzení
Modely nedokážou dodat konzistentní zdrojový rámec, pletou si pojmy nebo každý uvádí jiný příběh. V takové chvíli tvrzení nepoužívejte, dokud ho neověříte v primárním zdroji.
Tohle rozhodnutí vám ušetří hodně času. Místo nekonečného dotazování modelů víte, kdy workflow ukončit a přepnout na skutečný zdroj.
Nejčastější chyby (a proč bolí)
Použití třetího modelu jako soudce pravdy
Třetí model není arbitr. Je to další perspektiva se svými limity. Když ho použijete jako "rozhodni, kdo má pravdu", jen přesouváte důvěru, ne ověřování.
Stejný leading prompt pro všechny modely
Pokud všem třem podsunete stejný rámec, dostanete falešný konsensus. Diverzita modelů nepomůže, když je otázka zamkne do stejné interpretace.
Zaměnění stylistické shody za faktickou shodu
Tři modely mohou použít jiná slova a přitom se shodovat na podstatě. A naopak mohou znít podobně, ale mluvit o různých věcech. Čtěte obsah, ne tón.
Ověřování celého odstavce místo rizikového tvrzení
Čím širší text ověřujete, tím víc šumu získáte. Začněte nejrizikovější větou nebo číslem.
Rychlý přehled: 5min ověření se třemi modely
- Přepiš tvrzení do jedné přesné věty.
- Rozděl ho na 2-4 podtvrzení.
- Pošli ho třem modelům nezávisle (různé framingy, stejný cíl).
- Vyžádej si zdrojový typ, definice, výhrady.
- Zapiš body shody/neshody do tabulky.
- Rozhodni: pracovní návrh / podržet / eskalace na primární zdroj.
To je vše. Disciplína je důležitější než složitost.
Závěr
Tři AI modely vám neřeknou, co je pravda. Ale velmi dobře vám ukážou, kde se odpověď rozpadá, kde je tvrzení neurčité a kde hrozí halucinace.
To je přesně důvod, proč multi-model přístup dává smysl: ne jako náhrada primárních zdrojů, ale jako filtr a diagnostika nejistoty. V CrossChat se tenhle proces dá zrychlit workflow a porovnáním výstupů na jednom místě. Stejnou metodu ale zvládnete i ručně, pokud dodržíte disciplínu nezávislého dotazování.
Zdroje
- Dhuliawala, S. et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. arXiv:2309.11495. DOI: 10.48550/arXiv.2309.11495
- Xu, Z. et al. (2024). Hallucination is Inevitable: An Innate Limitation of Large Language Models. arXiv:2401.11817. DOI: 10.48550/arXiv.2401.11817
- Wang, X. et al. (2022/2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171. DOI: 10.48550/arXiv.2203.11171
Historie úprav
Koncept: Codex + GPT-5.3-Codex Verze 1: Codex + GPT-5.3-Codex
Jazyková revize (2026-02-25, Codex + GPT-5): zlepšena stylistika, sjednocena terminologie a omezeny anglicismy; postup a význam zůstávají zachovány. Kvalitativní audit (2026-03-23, Claude Code + Claude Opus 4.6): přidán Rámec tvrzení, ověřeny zdroje, jazyková úprava.