CrossChatby SurveysAI
Pilíř „Eseje a úvahy“

AI skupinové myšlení: kdy konsensus modelů není pravda, ale echo

Analýza podmínek, kde AI konsensus selhává: sdílená trénovací data, korelované chyby, RLHF alignment — kdy je neshoda cennější než shoda.

Pět modelů souhlasí. To zní jako silná odpověď. Ale co když všech pět bylo trénováno na stejných datech a sdílí stejnou slepou skvrnu? Souhlas a pravda nejsou totéž — a vícemodelový konsensus není imunní vůči skupinovému myšlení.

Skupinové myšlení (groupthink) popsal sociální psycholog Irving Janis v roce 1972 na základě analýzy amerických politických selhání. Skupiny složené z inteligentních, kompetentních lidí dospívaly k katastrofálně špatným rozhodnutím, protože sdílely rámec, hodnotový systém a touhu po soudržnosti. Přesunout tento fenomén do světa AI je méně skok, než vypadá.

LLM modely nejsou izolované systémy. Jsou produkty sdílené kulturní produkce — trénované na překrývajících se datech, přizpůsobené podobnými procesy, hodnocené lidmi s podobným kulturním pozadím. Tato esej analyzuje mechanismy AI skupinového myšlení a kdy je neshoda cennější než souhlas.

Rámec tvrzení

  • Co článek tvrdí: Konsensus více AI modelů není spolehlivý ukazatel pravdy; sdílená trénovací data a RLHF alignment vytvářejí korelované chyby; neshoda modelů je často cennější informace než shoda.
  • Na čem to stojí: Janisova teorie skupinového myšlení (1972); Bender et al. (2021) o systematických zkresleních v Common Crawl; Bai et al. (2022) a Ouyang et al. (2022) o vlivu RLHF na chování modelů; Condorcetův teorém poroty (1785).
  • Kde je to zjednodušení: Míra překryvu trénovacích dat mezi komerčními modely není veřejně známá; analogie s lidským skupinovým myšlením je ilustrativní; Perez et al. (2022) je zmíněn bez plné citace v seznamu zdrojů.

Sdílená trénovací data jako základ skupinové slepoty

Modely trénované na překrývajících se datech sdílejí systematické mezery. Konsensus v oblasti těchto mezer není informace — je to amplifikovaný omyl.

Common Crawl — základ většiny LLM tréninků — je odrazem toho, co lidé v angličtině zveřejnili na internetu do určitého data. Témata nedostatečně zastoupená v online anglické literatuře jsou podreprezentována u všech modelů, které na Common Crawl trénují. Minoritní jazyky, lokální kultury, specializované obory, nedávný vývoj — to vše má v trénovacích datech menší váhu.

Bender et al. (2021) identifikovali systematická zkreslení v Common Crawl: nadreprezentaci anglicky píšících, vzdělaných, technicky gramotných uživatelů ze specifických geografických oblastí. Modely trénované na těchto datech sdílejí podobné implicitní předpoklady o světě. Výzkum Perez et al. (2022) ukázal, že větší modely mají tendenci tato zkreslení posilovat, ne snižovat.

Příklad: Konzultujete AI panel o lokálních regulatorních podmínkách v méně dokumentované jurisdikci. Všech pět modelů souhlasí. Proč? Protože všech pět má v trénovacích datech stejné — nebo žádné — informace o daném tématu. Konsensus neznamená správnost. Znamená sdílenou mezeru v datech.

Konsensus je nejméně informativní přesně tam, kde ho nejvíce potřebujete: na okrajích trénovacích dat, kde standardní zdroje mlčí a modely si informace musí domyslet.

RLHF alignment — jak bezpečnostní trénink homogenizuje odpovědi

RLHF (Reinforcement Learning from Human Feedback) standardizuje hodnotové soudy modelů. A hodnotové soudy lidských hodnotitelů jsou kulturně a demograficky podmíněné.

RLHF trénink využívá hodnocení lidských anotátorů, kteří vybírají "lepší" z dvojice odpovědí. Tito hodnotitelé jsou typicky anglicky mluvící, s vyšším vzděláním, ze specifických geografických oblastí. Jejich preference formují, co modely považují za "dobrou odpověď." Jejich hodnotové rámce se prostřednictvím tréninku stávají hodnotovými rámci modelu.

Článek Anthropic Constitutional AI (Bai et al., 2022) explicitně dokumentuje, jak hodnoty zabudované do RLHF ovlivňují chování modelu. OpenAI InstructGPT (Ouyang et al., 2022) přiznává, že hodnotitelé nemusejí nutně vědět, co je "pravda" — pouze co je "užitečné". Záměna užitečnosti za pravdivost je systematická chyba zabudovaná do procesu.

Příklad — hodnotová otázka: "Je právo na soukromí důležitější než bezpečnost?" Modely trénované na podobných RLHF hodnoceních budou mít podobné implicitní hodnotové rámce. Konsensus pěti modelů na tuto otázku neodráží objektivní odpověď — odráží hodnotový konsensus jejich tvůrců a hodnotitelů.

Na otázkách, kde "správnost" závisí na hodnotách, RLHF alignment garantuje homogenitu odpovědí — ne jejich pravdivost.

Kdy konsensus zvyšuje spolehlivost — a kdy ji snižuje

Konsensus je cenný informační signál pouze u otázek, kde mají modely skutečně nezávislé přístupy. U ostatních typů otázek je konsensus irelevantní nebo zavádějící.

Konsensus modelů je smysluplný, pokud mají modely pro dané téma různá trénovací data, jejich odpovědi vznikají různými mechanismy a otázka je faktická a ověřitelná. Konsensus je nesmyslný nebo škodlivý, pokud modely sdílejí trénovací mezery, otázka je hodnotová nebo perspektivní, nebo všechny modely sdílejí korelované zkreslení.

| Typ otázky | Sdílené trénovací mezery? | Konsensus jako signál | |-----------|--------------------------|----------------------| | Faktická, dobře dokumentovaná | Ne (různé zdroje, různá data ukončení tréninku) | Silný — potvrzen z různých perspektiv | | Faktická, okrajově dokumentovaná | Ano (společné mezery) | Slabý — amplifikovaný sdílený omyl | | Hodnotová / etická | Ano (RLHF alignment) | Zavádějící — kulturní homogenita | | Interpretační / kauzální | Částečně | Neutrální — kombinovat s analýzou neshody |

Před interpretací konsensu jako "silné odpovědi" si položte otázku: "Mají tyto modely skutečně různé perspektivy na toto téma?" Pokud ne, konsensus je echo — ne signál.

Kdy je neshoda cennější než souhlas

Neshoda modelů u fakticky bohatých nebo hodnotově zatížených otázek je pozitivní signál — říká, že problém má skutečnou komplexitu nebo že modely mají skutečně různé perspektivy.

Konsensus jako výchozí cíl je špatná optimalizační funkce pro epistemické hledání. Vědecký pokrok přichází přes neshodu a falsifikaci, ne přes souhlas. Einstein nesouhlasil s etablovanou fyzikou — a měl pravdu. Barry Marshall nesouhlasil s konsensem o žaludečních vředech — a měl pravdu. Neshoda s konsensem neznamená chybu.

Condorcetův teorém poroty dokazuje, že agregace nezávislých hlasů zvyšuje pravděpodobnost správného rozhodnutí — ale pouze pokud jsou rozhodnutí skutečně nezávislá a přesnost každého voliče je nadpoloviční. Klíčové slovo je "nezávislá". Pokud jsou rozhodnutí korelovaná, agregace situaci zhoršuje.

Příklad — obchodní rozhodnutí: "Měli bychom vstoupit na tento trh?" Pět modelů souhlasí s "ano". Je to skutečný konsensus, nebo echo sdílených trénovacích dat o tomto segmentu? Pokud jeden model říká "ne" s odlišnými argumenty, tento odlehlý hlas pravděpodobně zachycuje perspektivu, kterou zbývající čtyři přehlížejí.

Před konvergencí ke konsensu explicitně hledejte neshodu. Odlehlý model není chyba k přehlédnutí — je to potenciální zdroj slepé skvrny, kterou konsensus přehlíží.

Není vícemodelový přístup přesto lepší než přístup s jedním modelem?

Ano — ale podmíněně.

Vícemodelový přístup snižuje idiosynkratické chyby jednoho modelu. Každý model má jedinečné způsoby selhávání — specifická slepá místa v trénovacích datech, specifické artefakty RLHF alignmentu. Agregace přes více modelů průměruje tyto idiosynkratické chyby, pokud jsou skutečně nezávislé. Výsledek je robustnější než spoléhání se na jeden model.

Vícemodelový přístup ale neodstraní korelované chyby sdílené více modely — v nejhorším případě je zesílí kvůli efektu konsensu. Pět modelů, které sebejistě tvrdí totéž nepravdivého, je horších než jeden model, který sám sebe zpochybňuje.

Syntéza: Vícemodelový přístup je nejcennější, když je diverzita modelů skutečná — různí výrobci, různá trénovací data, různé alignment filozofie. Je méně cenný, když jsou modely strukturálně podobné. Nejsilnější strategie: přidat do panelu model s explicitně oponující rolí — ďáblova advokáta, jehož úloha je zpochybňovat konsensus ostatních. Viz Multi-Agent Debate (A02) jako implementace tohoto principu.

Závěr

Vícemodelový přístup je lepší než přístup s jedním modelem — ale "lepší" je relativní a podmíněné.

Konsensus více modelů není pravda. Je to signál o stavu trénovacích dat a alignment procedur. Na dobře dokumentovaných faktických otázkách je konsensus cenný. Na hodnotových nebo okrajově dokumentovaných otázkách může konsensus amplifikovat sdílenou slepou skvrnu.

Epistemická pojistka vícemodelového přístupu funguje pouze tehdy, pokud modely přinášejí skutečně různé perspektivy. Pokud sdílejí trénovací data a alignment hodnoty, nesou společná rizika — ne nezávislá. A diverzifikace funguje jen tehdy, když jsou rizika nezávislá.

Efektivní implementace tohoto principu vyžaduje záměrné sestavení panelu modelů — různí výrobci, různé škály, explicitní adversariální role. Platforma jako CrossChat to strukturuje automaticky, ale principy platí i pro manuální použití.

Zdroje

  • Janis, I. L. (1972): "Victims of Groupthink" — základní analýza skupinového myšlení v politických rozhodnutích
  • Bender, E. et al. (2021): "On the Dangers of Stochastic Parrots" — FAccT 2021; zkreslení v datech Common Crawl
  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. DOI: 10.48550/arXiv.2212.08073.
  • Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155. DOI: 10.48550/arXiv.2203.02155.
  • Perez, E. et al. (2022). Discovering Language Model Behaviors with Model-Written Evaluations. arXiv:2212.09251. DOI: 10.48550/arXiv.2212.09251. — Větší modely mohou posilovat existující zkreslení.
  • Condorcetův teorém jury (1785): podmínky, za nichž agregace nezávislých hlasů zlepšuje rozhodnutí

Historie úprav

Koncept: Claude Code + Anthropic Sonnet 4.6 Verze 1: Claude Code + Anthropic Sonnet 4.6 Verze 2: Codex + GPT-5.2

Jazyková revize (2026-02-25, Codex + GPT-5): upravena stylistika, sjednocena terminologie a opraveny překlepy; omezeny zbytečné anglicismy. Kvalitativní audit (2026-03-23, Claude Code + Claude Opus 4.6): přidán Rámec tvrzení, ověřeny zdroje, doplněna chybějící reference Perez et al. (2022), jazyková úprava.

Sdílet článek