Self-Consistency: proč 20 odpovědí překoná jednu nejlepší
Jak technika Self-Consistency zvyšuje přesnost odpovědí LLM agregací více postupů uvažování a kdy se ji vyplatí použít.
Požádejte model o řešení matematické úlohy. Dostanete odpověď. Pak ho požádejte znovu mnohokrát (třeba dvacetkrát). Zaznamenejte nejčastější výsledek. Přesnost může skokově vyrůst — ne změnou modelu, ale agregací více pokusů.
V práci Wang et al. (Self-Consistency, ICLR 2023) má základní varianta Chain-of-Thought + greedy decoding na GSM8K přesnost 56,5 %, zatímco self-consistency (většinové hlasování přes více vzorkovaných postupů uvažování) dosahuje 74,4 % na PaLM-540B (Table 2). Studie v hlavních výsledcích vzorkuje 40 cest; „dvacetkrát“ je tady intuitivní mentální model pro princip „opakuj a hlasuj“, ne přesné experimentální nastavení.
Rámec tvrzení
- Co článek tvrdí: Generování více odpovědí a výběr nejčastějšího výsledku (majority voting) systematicky překonává jedinou odpověď u faktických a logických úloh. Zlepšení na GSM8K činí +17,9 procentního bodu. Princip funguje analogicky jako moudrost davů nebo vědecká replika.
- Na čem to stojí: Wang et al. (ICLR 2023) s konkrétními výsledky na GSM8K, SVAMP, AQuA a StrategyQA; Galtonova demonstrace agregace (1907); obecné statistické principy konvergence při nezávislých chybách.
- Kde je to zjednodušení: Článek předpokládá nezávislost chyb mezi vzorky, což u jednoho modelu nemusí platit (korelované halucinace). Analogie s porotou a vědeckou replikou zjednodušuje podmínky, za kterých agregace skutečně funguje. Nákladová analýza (20x cena) je zjednodušená -- v praxi závisí na délce odpovědí a modelu.
Intuice říká: nejlepší odpověď je ta nejpečlivěji uvážená. Jeden dobrý pokus překoná dvacet průměrných. To platí pro lidské experty — neurochirurg operuje jednou, architekt navrhne jeden most. Pro LLM modely tato intuice selhává.
Wang et al. (ICLR 2023) demonstrovali, že generování mnoha různých způsobů uvažování (reasoning paths) a výběr nejčastějšího výsledku systematicky překonává jediný pokus typu best-of-1 — o 17,9 procentního bodu na matematickém srovnávacím testu GSM8K. Technika se jmenuje Self-Consistency (SC) a její princip je překvapivě jednoduchý.
Mechanismus Self-Consistency: jak většinové hlasování překoná best-of-1
Self-Consistency funguje na principu agregace nezávislých způsobů uvažování. Čím více cest vede ke stejnému výsledku, tím vyšší je pravděpodobnost, že výsledek je správný.
Postup je konkrétní a replikovatelný. Krok 1: Vygenerujte N odpovědí na tutéž otázku s nenulovou teplotou (temperature > 0 zajišťuje variabilitu — každý pokus jde trochu jinou cestou). Krok 2: Každá odpověď projde vlastním způsobem uvažování k výsledku. Různé cesty mohou vést ke stejnému nebo různému výsledku. Krok 3: Sečtěte výsledky. Výsledek, který se vyskytuje nejčastěji, je finální odpověď (většinové hlasování). Žádné vážení, žádný výběr „nejlepší“ odpovědi — čistá agregace.
Wang et al. testovali SC na třech kategoriích: matematickém uvažování (GSM8K, SVAMP, AQuA), symbolickém uvažování a commonsense uvažování. Zlepšení bylo konzistentní — nešlo o efekt specifický pro jeden typ úlohy.
Konkrétní příklady z paperu:
- GSM8K, PaLM-540B: 56,5 % (CoT prompting + greedy decode) → 74,4 % (self-consistency), +17,9 pp (Table 2).
- GSM8K, GPT-3 code-davinci-002: 60,1 % → 78,0 %, +17,9 pp (Table 2).
Klíčový postřeh: správný způsob uvažování k výsledku je stabilnější než nesprávný. Jestliže model „ví“, jak problém vyřešit, pravděpodobně dospěje ke stejnému výsledku různými způsoby. Jestliže halucinuje, každá cesta vede jinam — rozptyl je vysoký a žádný výsledek nedominuje.
SC využívá strukturu distribuovaného selhání halucinací. Halucinace jsou "rozptýlené" — každá vede jinam. Správné odpovědi jsou "soustředěné" — konvergují k jednomu výsledku. Majority voting tento rozdíl explicitně využívá.
Proč to funguje: statistická mechanika agregace
Self-Consistency není trikovou technikou. Je to aplikace statistického principu, který funguje daleko mimo AI.
Představte si 20 nezávislých odhadů počtu skleněných kuliček v nádobě. Průměr odhadů překoná odhad jakéhokoli jednotlivce — i nejlepšího. Tento fenomén ("moudrost davů") empiricky zdokumentoval Francis Galton už v roce 1907, když analyzoval veletržní soutěž v odhadu váhy a ukázal, že agregace může být překvapivě přesná i když jednotlivé odhady šumí.
Matematické zdůvodnění pro LLM: pokud model generuje správnou odpověď s pravděpodobností p > 0,5 (větší než náhoda), a chyby jsou distribuovány nezávisle (každá halucinace míří jinam), pak agregace N vzorků konverguje ke správné odpovědi s pravděpodobností blížící se 1 pro rostoucí N. Klíčový předpoklad: nezávislost chyb.
Příklad z praxe: Datum historické události. Model odpoví "1847" v 12 z 20 pokusů, "1849" v 5 pokusech, "1851" v 3 pokusech. SC vybere 1847. Na základě dominance výsledku víte, že odpověď je pravděpodobně spolehlivá.
Bonus — distribuce jako signál jistoty: pokud by odpovědi byly rovnoměrně distribuovány (5/5/5/5), SC by signalizoval vysokou nejistotu odpovědi. SC nejen zlepšuje přesnost — generuje i kalibrovanou míru jistoty jako vedlejší produkt.
Kdy Self-Consistency přináší největší benefit
SC přináší největší přínos na úlohách s vysokou variancí odpovědí jednoho modelu — tedy tam, kde model „ví“ odpověď, ale někdy halucinuje cestu k ní.
SC funguje výborně na matematických a logických problémech s jasnou správnou odpovědí, faktických otázkách s ověřitelnou odpovědí, a multi-step reasoning (plánování, dedukce, kauzální analýza). Na GSM8K (matematické slovní úlohy) SC přineslo +17,9 pp (Table 2). Na StrategyQA (commonsense reasoning) přineslo +6,4 pp na GPT-3 code-davinci-002 (Table 3).
SC přináší menší přínos nebo nefunguje na otevřených kreativních úlohách (neexistuje „správná“ odpověď pro hlasování), hodnotových úsudcích (distribuce výsledků není soustředěná u pravdy) a otázkách vyžadujících extrémně specializované znalosti, kde model halucinuje konzistentně.
Praktická heuristika: pokud vaše otázka má jednu správnou odpověď, která by měla být konzistentní (matematika, fakta, logika), SC je cenná technika. Pokud otázka vyžaduje kreativitu nebo perspektivní hodnocení, SC není vhodná. Pokud nevíte: vygenerujte 5 odpovědí a sledujte distribuci. Vysoký rozptyl = SC nepomůže. Nízký rozptyl = SC může pomoci, ale pravděpodobně ji nepotřebujete.
Náklady a kompromisy — kdy SC není praktická
SC je výpočetně a finančně nákladnější než single-query přístup, a kompromisy jsou reálné.
20 vzorků = 20× více API volání = 20× vyšší cena a latence. Pro aplikace v reálném čase (chatbot, živá asistence) je SC nepraktická. Pro analytické úlohy, kde přesnost převažuje nad rychlostí, je kompromis přijatelný a kalkulovatelný.
V analýzách v paperu platí, že více vzorkovaných způsobů uvažování typicky zvyšuje přesnost, ale s klesajícím marginálním benefitem (viz Figure 8). Prakticky je to “knoflík”: za vyšší cenu a latenci kupujete vyšší přesnost.
Kdy je cena ospravedlnitelná: rozhodnutí s vysokými důsledky a výrazně asymetrickou cenou chyby (medicínská diagnóza, právní analýza, bezpečnostní posouzení). Na triviálních otázkách je SC zbytečně složitá.
Alternativa pro nízko-nákladové prostředí: požádat model o explicitní self-consistency check: "Vypočítejte výsledek dvěma různými způsoby a ověřte, zda se shodují." Méně robustní než statistická SC, ale prakticky nulové dodatečné náklady.
Self-Consistency jako lidský princip — od vědy k právu
Agregace nezávislých odhadů jako epistemický princip není AI-specifická technika. Je to metodologický základ nejdůležitějších lidských rozhodovacích procesů.
Vědecká replika je SC pro experimenty: pokud výsledek experimentu nelze zopakovat, pravděpodobně šlo o šum nebo chybu. Protokol pro repliku je přesně SC: opakuj měření, zkontroluj, zda výsledky konvergují. Galtonův vůl fungoval proto, že 800 odhadů bylo skutečně nezávislých — každý návštěvník odhadoval sám, bez viditelnosti odhadů ostatních.
Meta-analýza je SC pro studie: agregace výsledků více studií překoná spoléhání na jednu. Právě proto je meta-analýza nejvyšší formou medicínské evidence. Soudní porota je SC pro faktuální úsudek: 12 nezávislých hodnotitelů, kteří musejí dospět ke shodě, je robustnější než jeden soudce.
Implikace: SC není AI trik — je to aplikace principu, který lidé používají v kontextech, kde na správnosti záleží nejvíce. Pokud věříte vědecké replice, máte důvod věřit SC na faktickém uvažování. Pokud věříte, že porota je robustnější než jeden soudce, máte důvod preferovat agregaci více pokusů před jedním.
Limity SC: korelované chyby a halucinační konsensus
SC selhává, pokud chyby modelů nejsou distribuovány nezávisle — tedy pokud model systematicky halucinuje totéž ve všech vzorcích.
SC předpokládá, že chyby jsou rozptýlené: každá halucinace míří jinam, správná odpověď dominuje svou četností. Pokud model konzistentně halucinuje totéž (sdílený bias v trénovacích datech), voting zesílí halucinaci místo korekce. 20 z 20 vzorků shodujících se na špatné odpovědi je sebejistá halucinace, ne pravda.
Kdy hrozí konzistentní halucinace: témata s nedostatečnou reprezentací v trénovacích datech, události po časové hranici znalostí modelu (knowledge cutoff), příliš specifická tvrzení, kde model neví nic a konzistentně interpoluje.
Obrana: sledujte distribuci SC výsledků. Pokud je shoda výrazně vysoká (18/20) na otázce, kde byste čekali nízkou shodu (komplexní, okrajové téma), pravděpodobně jde o konzistentní halucinaci — ne o potvrzení správnosti. Doplňujte SC o externí ověření u tvrzení s vysokými důsledky.
Praktický závěr
Self-Consistency je jednoduchá technika s překvapivě silnými výsledky. Čtyři principy pro aplikaci:
Použij SC na faktické a na uvažování náročné dotazy. Matematika, logika, faktické otázky — generuj 5–10 odpovědí a vezmi výsledek s nejvyšší četností. Tři základní nástroje stačí: opakované dotazy, záznam výsledků, většinové hlasování.
Čti distribuci jako kalibrovanou jistotu. Vysoká shoda (8/10 souhlasí) = vysoká jistota. Rovnoměrná distribuce (3/3/2/2) = skutečná nejistota. Nejen výsledek — i distribuce je informace.
Nekombinuj SC s kreativními úlohami. Na otázkách bez objektivně správné odpovědi SC nemá co agregovat. Voting funguje jen pokud existuje "pravda", ke které správné výsledky konvergují.
Sleduj anomálie. Výrazně vysoký konsensus na okrajovém nebo nejistém tématu je varovný signál konzistentní halucinace — ne potvrzení správnosti. Přidejte externální ověření.
CrossChat implementuje Self-Consistency jako volitelný workflow parametr — nastavitelný počet vzorků a vizualizace distribuce výsledků. Místo ručního spouštění 20 dotazů a manuální agregace dostanete strukturovaný výstup s rozložením odpovědí a výslednou hodnotou shody.
Zdroje
- Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171. DOI: 10.48550/arXiv.2203.11171. (Zavádí self-consistency; reportuje zlepšení na GSM8K.)
- Cobbe, K. et al. (2021). Training Verifiers to Solve Math Word Problems. arXiv:2110.14168. DOI: 10.48550/arXiv.2110.14168. (Popisuje GSM8K a verifikátory pro slovní úlohy.)
- Galton, F. (1907). Vox Populi. Nature 75, 450-451. DOI: 10.1038/075450a0. (Raná empirická demonstrace přesnosti agregace.)
- Surowiecki, J. (2004). The Wisdom of Crowds. (Kniha; ISBN: 978-0385503860.)
Evidence Map (Wang et al., arXiv:2203.11171)
- Table 1: Porovnání agregačních strategií na PaLM-540B (GSM8K obsahuje čísla 56,5 a 74,4 pod greedy decode vs majority vote).
- Table 2: Hlavní výsledky pro aritmetiku. GSM8K: PaLM-540B 56,5 → 74,4 (+17,9 pp); GPT-3 code-davinci-002 60,1 → 78,0 (+17,9 pp).
- Table 3: Commonsense/symbolické úlohy. StrategyQA: GPT-3 code-davinci-002 73,4 → 79,8 (+6,4 pp).
- Table 9: Robustnost vůči promptům na GSM8K (PaLM-540B).
- Figure 8: Přesnost vs. počet vzorkovaných reasoning paths (PaLM-540B).
Historie úprav
Koncept: Claude Code + Anthropic Sonnet 4.6 Verze 1: Claude Code + Anthropic Sonnet 4.6 Verze 2: Codex + GPT-5.2
Jazyková revize (2026-02-25, Codex + GPT-5): opraveny překlepy a mluvnické tvary, zpřesněna stylistika a omezeny zbytečné anglicismy; bez změny významu. Kvalitativní audit (2026-03-23, Claude Code + Claude Opus 4.6): přidán Rámec tvrzení, ověřeny zdroje, jazyková úprava.