Lékař, který nikdy neviděl vaši vzácnou nemoc, ji přesto dokáže diagnostikovat ze symptomů. Umí identifikovat vzor mimo jeho přímou zkušenost. Interpolátor by ji uhádnul statisticky z podobných známých případů — a často by se zmýlil.
Ptáte se tří kolegů na názor před důležitým rozhodnutím. Čtete několik novin, abyste získali vyvážený pohled. Požádáte o druhý názor lékaře. Ale když zadáte AI dotaz, položíte otázku jednomu modelu — a výsledek berete jako fakt.
Položíte stejnou otázku GPT-4, Claude a Gemini. GPT-4 odpoví A. Claude odpoví B. Gemini odpoví C. Všechny tři odpovědi znějí věrohodně. Která je správná — nebo jsou všechny tři špatně?
Leden 2024. Výzkumný tým nepublikoval nový benchmark ani metodu, která snižuje halucinace o dalších X %. Publikoval matematický důkaz: LLM jako obecný řešitel bude halucinovat vždy — bez ohledu na velikost modelu, kvalitu tréninku nebo množství dat.