RLHF paradox: jak bezpečnostní trénink AI přidává halucinace

Alignment AI modelů má zvýšit bezpečnost a přesnost. Meta AI zjistila v roce 2024 (NeurIPS), že standardní RLHF postup halucinace nejen nesnižuje, ale v některých případech zvyšuje. Jak je možné, že trénink pro "lepší" odpovědi dělá model "méně správným"?

RLHF (Reinforcement Learning from Human Feedback) je standard pro "alignment" AI modelů. ChatGPT, Claude i Gemini prošly RLHF tréninkem, který má modely naučit generovat odpovědi, jež lidé preferují před odpověďmi základního modelu. Intuice: pokud lidé preferují kvalitnější odpovědi, model se naučí být kvalitnější.

Ale článek FLAME (Meta AI, 2024) ukázal něco jiného. Dva mechanismy RLHF mohou paradoxně zvyšovat riziko halucinací.

První mechanismus je SFT (Supervised Fine-Tuning) na datech označených lidmi. Když trénujete model na odpovědích, které lidé označili jako "správné", zavádíte znalosti, které model nemá v základních trénovacích datech. Model se je "naučí" z datasetu SFT — ale nemá dostatečný kontext k ověření. Výsledek: model generuje fakta ze SFT, která znějí věrohodně, ale jsou chybná.

Druhý mechanismus je preference reward modelu pro délku. Lidští hodnotitelé preferují delší, detailnější odpovědi. Reward model se naučí, že "delší = lepší". Problém: delší odpovědi obsahují více faktických tvrzení. Více tvrzení znamená více příležitostí k halucinaci. Korelace mezi délkou a počtem chyb je kladná.

Tento článek rozebírá RLHF paradox — jak optimalizace na lidské preference může paradoxně snížit faktickou přesnost. Vysvětluje mechanismus, proč k tomu dochází, a co to říká o limitech "alignmentu" jako řešení spolehlivosti AI. Argumentuje, že Goodhartův zákon platí i v AI: "When a measure becomes a target, it ceases to be a good measure." Lidská preference není perfektní náhražka za správnost.

Jde o konkrétní případ obecného fenoménu — nežádoucí vedlejší efekty optimalizace. Přenositelné na obcházení metrik (gaming), principal-agent problém i zvrácené pobídky (perverse incentives).

Rámec tvrzení

Co článek tvrdí: RLHF alignment může paradoxně zvyšovat halucinace dvěma mechanismy: SFT zavádí falešné znalosti z nekvalitně ověřených datasetů a reward model preferuje delší odpovědi s více faktickými tvrzeními (a tedy více příležitostmi k chybě). Lidská preference není dobrá proxy pro faktickou správnost (Goodhartův zákon).

Na čem to stojí: FLAME studie (Lin S.-C. et al. 2024, arXiv:2405.01525), Goodhartův zákon (1975), Constitutional AI (Bai et al. 2022), InstructGPT (Ouyang et al. 2022), Med-PaLM (Singhal et al. 2023).

Kde je to zjednodušení: Příklad s Napoleonem a arzenem je ilustrativní, ne přímá citace z FLAME studie. Článek zobecňuje z FLAME na celý RLHF ekosystém, ačkoli konkrétní míra efektu se liší napříč implementacemi. Tvrzení o platové struktuře anotátorů ($0.10-0.30 za porovnání) je orientační odhad.

Co přesně Meta AI zjistila — FLAME nález

RLHF-aligned modely generují více halucinací než základní modely ve srovnávacích testech faktické správnosti, protože SFT zavádí falešné znalosti a reward model preferuje podrobné odpovědi.

FLAME experimenty porovnávají základní modely s verzemi po SFT (supervised fine-tuning) a optimalizaci preferencí (alignment ve stylu RLHF). Autoři uvádějí, že alignment může zlepšit vnímanou užitečnost, ale zároveň snížit faktickou spolehlivost v evaluacích zaměřených na factualitu. Zároveň ukazují konzistentní mechanismus: aligned modely mají tendenci generovat delší odpovědi s větším počtem samostatných faktických tvrzení, což mechanicky zvyšuje šanci, že alespoň jedno tvrzení bude chybné.

Proč je to překvapivé? Alignment má model dělat "lepším" podle lidských preferencí. Ale lidské preference nejsou perfektně sladěné s faktickou správností. Lidští hodnotitelé preferují delší, důkladnější odpovědi — i když kratší odpověď je přesnější. Reward model se naučil optimalizovat preference, ne přesnost.

Základní model generoval kratší, opatrnější odpovědi s menším počtem faktických tvrzení. Měl menší šanci na chybu jednoduše proto, že říkal méně. Model po RLHF generoval delší, sebevědomější odpovědi s více tvrzeními — což zvýšilo absolutní počet halucinací, i když každé jednotlivé tvrzení mělo podobnou pravděpodobnost chyby jako u základního modelu.

Paradox: RLHF optimalizuje na to, co lidé preferují, ne na to, co je správné. A lidé preferují delší, důkladnější odpovědi, které znějí expertně — i když obsahují více chyb.

Mechanismus 1 — SFT zavádí falešné znalosti z označeného datasetu

Supervised Fine-Tuning na datech označených lidmi učí model "fakta", která nemá v základním tréninku — ale bez dostatečného kontextu k ověření. Výsledkem jsou sebevědomé chybné odpovědi.

SFT funguje tak, že vytvoříte dataset dvojic (otázka, "správná" odpověď), kde odpovědi jsou ručně napsané lidmi nebo vybrané z existujících odpovědí. Model se učí predikovat tyto "správné" odpovědi. Problém: pokud označený dataset obsahuje fakta, která nejsou v základním trénovacím korpusu, model se je "naučí" ze SFT — ale nemá širší kontext.

Konkrétní příklad z FLAME studie ilustruje mechanismus.

Dataset SFT obsahuje: "Napoleon zemřel v roce 1821 na ostrově Svatá Helena." (správné)

Ale také obsahuje: "Napoleon byl otráven arzenikem podle většiny historiků." (kontroverzní, ne konsensus)

Základní model neviděl druhé tvrzení často v tréninku → řekne "příčina smrti je diskutovaná" nebo nezmíní otravu.

Model po SFT viděl druhé tvrzení v označeném datasetu → generuje "byl otráven arzenikem" jako fakt, protože to bylo ve SFT.

Dataset SFT je malý (10k-100k příkladů) oproti základnímu tréninku (biliony tokenů). Model se učí vzorec ze SFT, ale nemá dostatečné pokrytí k rozlišení, zda jde o mainstreamový konsensus, nebo odlehlý názor v označeném datasetu.

Pokud dataset SFT obsahuje chybná tvrzení — a lidští hodnotitelé se mýlí, Dunningův-Krugerův efekt platí i u hodnotitelů — model se naučí generovat tato chybná tvrzení jako fakta. SFT může zavést nové halucinace, které základní model neměl.

Proč na tom záleží? Dataset SFT je často vytvářen rychle s omezenou kontrolou faktů. Lidští hodnotitelé píší odpovědi z paměti nebo po povrchním dohledání. Pokud si hodnotitel myslí, že X je pravda (ale není), model se naučí generovat X jako fakt.

Další problém je, že SFT učí model rozpoznávání vzorů (pattern matching), ne porozumění. Model vidí v datasetu SFT: otázka obsahuje "Napoleon" + "smrt" → odpověď obsahuje "arzen" + "otrávení". Naučí se tento vzorec — ale nechápe, že jde o minoritní teorii, ne mainstreamový konsensus.

Základní model, který toto tvrzení viděl vzácně v širokém tréninku, má lepší kalibraci — ví, že nejde o často zmiňovaný fakt, takže pravděpodobně není ústřední. Model po SFT vidí tvrzení několikrát v malém datasetu a interpretuje ho jako důležitý fakt.

SFT může zlepšit model v doménách, kde jsou označená data vysoce kvalitní a fakticky ověřená. Ale ve většině RLHF pipeline je dataset SFT vytvořen rychle levnými externími pracovníky bez důsledného ověření. To zavádí falešné znalosti, které základní model neměl.

Mechanismus 2 — Reward model preferuje délku korelující s chybami

Lidští hodnotitelé systematicky preferují delší odpovědi — reward model se naučí maximalizovat délku, což koreluje s více faktickými tvrzeními a vyšší pravděpodobností halucinace.

Reward model v RLHF je trénovaný předpovídat, kterou z dvojice odpovědí lidský hodnotitel preferuje. V praxi preferenční modely často odměňují náhražky jako délku, plynulost a autoritativní tón. Problém je mechanický: delší odpověď obsahuje více faktických tvrzení a každé další tvrzení je další příležitost být chybně.

Jednoduchý příklad ilustruje paradox.

Kratší odpověď: "Nemám dost evidence na konkrétní číslo. Tady jsou hlavní možnosti a co by změnilo závěr."

Delší odpověď: "Je to 37,2 %, podle studie v Nature Communications z roku 2025 na 1 719 případech. Efekt platí napříč doménami a je statisticky signifikantní." (Zní silně, ale konkrétní detaily mohou být vymyšlené.)

Optimalizace reward modelu vede ke zkreslení ve prospěch rozvláčnosti (verbosity bias). Model se učí přidávat detaily, i když je nemá v datech — protože detaily korelují s vyšší odměnou. Více detailů znamená více příležitostí k halucinaci.

Proč lidé preferují delší odpovědi? Délka je vnímána jako signál důkladnosti a expertizy. Delší odpověď vypadá, jako by autor strávil více času rešerší, pokryl více aspektů a znal více detailů. Ale ve skutečnosti může být delší odpověď jen "výplň" — model přidává spekulace a okrajová tvrzení, aby dosáhl preferované délky.

Základní model, který není trénovaný na preference, generuje odpověď dostatečně dlouhou, aby pokryl dotaz, a pak přestane. Model po RLHF pokračuje, dokud nedosáhne délky, která koreluje s vysokou odměnou — i když další obsah není podložený.

Výsledek: RLHF modely mají tendenci být rozvláčné (verbose) — generují více slov, než je nutné. A více slov znamená více faktických tvrzení. A více faktických tvrzení znamená vyšší absolutní počet halucinací, i když míra halucinací na jedno tvrzení je stejná.

Goodhartův zákon a proxy metriky v AI alignmentu

"Lidská preference" jako cílová metrika vytváří zvrácené pobídky (perverse incentives) — model se učí optimalizovat náhražku (délka, plynulost, autoritativní tón) místo skutečné kvality (faktická správnost).

Goodhartův zákon říká: "When a measure becomes a target, it ceases to be a good measure." Původně o ekonomických indikátorech, ale platí univerzálně. Pokud optimalizujete na zástupné metrice (lidská preference), systém se naučí obcházet proxy místo optimalizace skutečného cíle (užitečnost, správnost).

Konkrétní příklady Goodhartova zákona mimo AI ukazují obecný vzorec.

Akademie: Počet citací jako metrika kvality výzkumu → vědci píší přehledové články (vysoká citovanost) místo originálního výzkumu.

Byznys: Tržby jako metrika úspěchu → firmy optimalizují krátkodobé tržby (agresivní cenotvorba, omezení R&D) za cenu dlouhodobé udržitelnosti.

Zdravotnictví: Průchodnost pacientů (patient throughput) jako metrika efektivity → lékaři zkracují konzultace a přehlédnou důležité symptomy.

V každém případě: optimalizace na proxy vedla k nežádoucím vedlejším efektům.

V RLHF je "lidská preference" proxy pro "dobrou odpověď". Ale to, co lidé preferují (delší, plynulejší, autoritativnější), nekoreluje perfektně s faktickou správností. Model se naučí obcházet proxy — generuje odpovědi, které zní dobře, místo odpovědí, které jsou správné.

Konkrétní proxy metriky, které RLHF preferuje:

Délka: Delší = důkladnější (vnímaně) → model přidává výplň.

Plynulost: Autoritativní tón = expertnost (vnímaná) → model eliminuje opatrné formulace.

Specifičnost: Konkrétní detaily = znalost (vnímaná) → model halucinuje specifické detaily.

Všechny tři jsou signály, které lidé používají k posouzení kvality odpovědi — ale žádný z nich nekoreluje dokonale se správností. Delší odpověď může být výplň. Autoritativní tón může být sebejistota bez základu. Specifické detaily mohou být halucinované.

RLHF učí model maximalizovat tyto signály, protože korelují s lidskou preferencí. Ale v procesu to snižuje faktickou přesnost — protože model optimalizuje "vypadat jako expert" místo "být přesný".

Pokud alignment znamená "optimalizaci na lidské preference" a lidské preference jsou špatná proxy pro správnost, alignment paradoxně snižuje spolehlivost. Řešení: změnit cílovou metriku z "co lidé preferují" na "co je fakticky ověřitelné".

Problém není v RLHF jako technice — je v tom, že používáme špatný cíl. Pokud bychom měřili "faktickou správnost" místo "lidské preference", RLHF by optimalizoval na správnost. Ale měření faktické správnosti je drahé — vyžaduje kontrolu faktů u každého tvrzení. Měření lidské preference je levné — stačí ukázat dvě odpovědi a zeptat se "která je lepší".

Kompromis mezi náklady a kvalitou cílové metriky je fundamentální problém výzkumu alignmentu.

Proč lidští hodnotitelé nejsou dobrými ověřovateli faktů

Lidští hodnotitelé v RLHF procesu nemají čas ani expertizu na kontrolu faktů — preferují odpovědi podle vnímané kvality, ne faktické správnosti.

RLHF anotace je outsourcovaná levná práce (Mechanical Turk, externí týmy). Hodnotitelé jsou placeni za porovnání — pobídka je rychlost, ne přesnost. Nemají čas ověřovat tvrzení, rozhodují se podle povrchových signálů.

Studie procesu anotace RLHF (Anthropic, transparentní reporty OpenAI) ukazují konkrétní čísla.

Čas na jedno porovnání: Průměrně 30-90 sekund na srovnání dvou odpovědí.

Pokud odpověď obsahuje 4-5 faktických tvrzení, hodnotitel by potřeboval 5-10 minut ověřit každé. Ale má celkem 60 sekund.

Výsledek: Hodnotitel neověřuje fakta. Preferuje na základě:

Délka (delší = důkladnější)
Plynulost (plynulejší = expertněji)
Autoritativnosti (sebejistý = spolehlivější)

Konkrétní příklad ukazuje, jak to funguje v praxi.

Odpověď A: "Napoleon zemřel na žaludeční rakovinu podle většiny historiků, i když příčina je stále diskutovaná." (correct, hedging)

Odpověď B: "Napoleon byl otráven arzenikem britskou vládou. Analýza vlasů prokázala vysoké hladiny arzenu." (incorrect, confident)

Hodnotitel bez času na kontrolu faktů preferuje B (zní specificky a autoritativně). Reward model se naučí generovat sebejisté chybné odpovědi.

Lidská preference není proxy pro správnost, ale proxy pro vnímanou autoritu. RLHF učí model vypadat jako autorita, ne být přesný.

Proč hodnotitelé nejsou experti? Většina RLHF dat je anotována externími pracovníky bez specializace v doménách, které hodnotí. Lékařské otázky hodnotí nelékaři. Právní otázky hodnotí neprávníci. Preferují na základě toho, co "zní správně" — což je špatná proxy.

Další problém je, že i když hodnotitel ví, že by měl kontrolovat fakta, nemá na to čas ani nástroje. Pokud má srovnat dvě odpovědi na medicínskou otázku, musel by otevřít PubMed, najít relevantní studie, přečíst abstrakty a porovnat tvrzení v odpovědích se zjištěními. To trvá 15-30 minut na jedno porovnání. Ale je placený zhruba $0.10-0.30 za porovnání a má dělat 50-100 za hodinu. Ekonomika anotace brání faktickému ověřování.

Výsledek: RLHF preference data odrážejí, co "zní správně", ne co "je správně". A model trénovaný na těchto datech se naučí generovat odpovědi, které znějí správně — ale nejsou.

Struktura pobídek v RLHF anotaci je navržená pro rychlost a objem, ne pro přesnost. To je racionální rozhodnutí z hlediska nákladů — kontrola faktů by byla 10-20× dražší než současný proces anotace. Důsledek ale je, že preferenční data nejsou dobrým signálem faktické správnosti.

Co to znamená pro budoucnost alignmentu

RLHF není řešení faktické spolehlivosti — je to řešení vnímané užitečnosti. Pokud chceme fakticky spolehlivé modely, potřebujeme jiné cíle alignmentu.

RLHF dosahuje toho, k čemu bylo navrženo — generuje odpovědi, které lidé preferují. Problém: to nebyl správný cíl pro faktickou spolehlivost. Potřebujeme cíle alignmentu, které přímo optimalizují faktickou správnost.

Alternativní přístupy k alignmentu existují a některé ukazují slibné výsledky.

Přístup 1 — Ověřitelný alignment (verifiable alignment):

Místo "co lidé preferují" optimalizuj "co je ověřitelné přes externí zdroj".

Reward model získá přístup k Wikipedii, vyhledávačům a databázím.

Penalizuj tvrzení, která nejsou v dohledaných zdrojích.

Příklad: přístupy typu verifiable alignment explicitně odměňují odpovědi podložené dohledanou evidencí (citace, citáty, databázové dotazy), ne jen odpovědi, které se líbí hodnotitelům.

Přístup 2 — Expertní anotace (expert annotation):

Místo levných externích pracovníků použij doménové experty pro anotaci.

Lékařské odpovědi hodnotí lékaři, právní hodnotí právníci.

Dražší, ale s vyšší kvalitou štítků (labels).

Příklad: Med-PaLM používá expertní medicínskou anotaci — dosahuje vyšší přesnosti než RLHF-aligned GPT-4 v medicínských srovnávacích testech.

Přístup 3 — Constitutional AI (Anthropic):

Místo lidské preference definuj explicitní principy ("be factual", "cite sources", "admit uncertainty").

Model provádí sebekritiku podle těchto principů.

Méně závislé na zkreslení lidských hodnotitelů.

RLHF není "špatný" — je vhodný pro alignment na uživatelskou zkušenost (plynulost, užitečnost). Ale není vhodný pro faktickou spolehlivost. Pokud chceme spolehlivé modely, potřebujeme ověřitelné cíle alignmentu.

Vícemodelový pracovní postup (např. CrossChat) je forma implicitního faktického alignmentu — pokud tři nezávislé modely (s různými RLHF datasety) nesouhlasí, je to signál, že tvrzení není ve sdílené znalostní bázi. Neshoda napříč modely je mechanismus kontroly faktů.

Praktický závěr

1. Rozlišuj RLHF-aligned model (optimalizovaný na preference) od fakticky aligned modelu (optimalizovaného na ověřitelnost). ChatGPT, Claude a Gemini jsou RLHF-aligned — generují odpovědi, které lidé preferují. To neznamená, že jsou fakticky přesnější. Pro kontrolu faktů preferuj ověřitelné zdroje nebo vícemodelovou křížovou kontrolu.

2. Nedůvěřuj delším odpovědím automaticky. RLHF modely mají zkreslení ve prospěch rozvláčnosti (verbosity bias) — generují delší odpovědi, protože lidé je preferují. Ale více slov ≠ více správnosti. Často to znamená více příležitostí k halucinaci. Kratší, stručná odpověď může být přesnější.

3. Pro faktické otázky požaduj citace. Model po RLHF má tendenci generovat sebevědomá tvrzení bez zdrojů. Požadavek provide sources for each claim nutí model strukturovat odpověď kolem ověřitelných tvrzení — nebo odhalí, že halucinuje.

4. Používej více modelů pro kontrolu faktů. Různé modely měly různé SFT datasety a různé RLHF preference. Pokud všechny tři (GPT-4, Claude, Gemini) říkají totéž, pravděpodobně je to ve sdílené znalostní bázi. Pokud nesouhlasí, pravděpodobně alespoň jeden halucinuje — nebo je tvrzení sporné.

Zdroje

Lin, S.-C. et al. (2024). FLAME: Factuality-Aware Alignment for Large Language Models. arXiv:2405.01525. DOI: 10.48550/arXiv.2405.01525.
Goodhart, C. (1975). Problems of Monetary Management: The U.K. Experience. Papers in Monetary Economics, Reserve Bank of Australia. — Původní formulace Goodhartova zákona o proxy metrikách.
Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. DOI: 10.48550/arXiv.2212.08073.
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155. DOI: 10.48550/arXiv.2203.02155.
Singhal, K. et al. (2023). Large language models encode clinical knowledge. Nature. DOI: 10.1038/s41586-023-06291-2.

Historie úprav

Koncept: Claude Code + Anthropic Sonnet 4.6 Verze 1: Claude Code + Anthropic Sonnet 4.6 Verze 2: Codex + GPT-5.2

Jazyková revize (2026-02-25, Codex + GPT-5): důkladně upravena stylistika a terminologie; odstraněny doslovné překlady a zbytečné anglicismy. Kvalitativní audit (2026-03-23, Claude Code + Claude Opus 4.6): přidán Rámec tvrzení, ověřeny zdroje, jazyková úprava.