Multi-Agent Debate: co se stane, když AI modely nesouhlasí

Dva modely dostanou stejnou otázku. Jeden odpovídá A, druhý popírá A a argumentuje pro B. Místo slepé uličky začnou iterativně revidovat pozice — každý model vidí argumenty protivníka a musí reagovat. Po několika kolech mohou konvergovat ke kvalitnější odpovědi, než jakou vygeneroval kterýkoli z nich samostatně.

Intuice říká, že nesouhlasící modely jsou problémem. Správná odpověď je jedna — jeden z nich chybuje, nebo oba. Multi-Agent Debate (MAD) tuto intuici obrací na hlavu. Ve výzkumu Du et al. (2023) probíhala mezi modely iterativní debata: každý model viděl odpovědi ostatních a mohl svou pozici revidovat. V řadě nastavení tento typ strukturované oponentury zlepšuje fakticitu a uvažování oproti jednorázové odpovědi.

Adversariální tlak, který vypadá jako problém, funguje jako mechanismus korekce. Tento článek rozebírá, proč.

Rámec tvrzení

Co článek tvrdí: Iterativní debata mezi modely (Multi-Agent Debate) snižuje halucinace a zlepšuje fakticitu oproti jednorázové odpovědi. Heterogenní modely od různých výrobců přinášejí lepší výsledky než homogenní sady. Adversariální tlak funguje analogicky k vědeckému recenznímu řízení nebo soudnímu kontradiktornímu procesu.

Na čem to stojí: Du et al. (2023) -- experimenty s iterativní debatou mezi modely; Dhuliawala et al. (2023) -- Chain-of-Verification jako příbuzný princip; Nemeth et al. (2001) -- psychologický výzkum role ďáblova obhájce.

Kde je to zjednodušení: Článek prezentuje MAD jako obecně účinnou techniku, ale konkrétní míra zlepšení závisí na typu úlohy a volbě modelů. Analogie s recenzním řízením a porotou zjednodušuje -- modely nemají motivaci ani odpovědnost jako lidé. Tvrzení o TruthfulQA jsou obecná, bez citace konkrétních čísel.

Jak MAD funguje: tři fáze iterativní debaty

Multi-Agent Debate není simultánní generace několika odpovědí a jejich průměrování. Je to iterativní protokol se strukturovanými fázemi.

Fáze 1 — Nezávislá odpověď: Každý model generuje svou odpověď na otázku bez viditelnosti toho, co řekli ostatní. Tato fáze zajišťuje, že počáteční pozice jsou skutečně nezávislé — neovlivněné odpovědí jiného modelu.

Fáze 2 — Adversariální revize: Každý model vidí odpovědi ostatních a musí reagovat. Může přijmout argument protivníka a revidovat svou pozici, odmítnout ho s vysvětlením proč, nebo předložit modifikovanou syntézu. Klíčové je, že model musí svou pozici explicitně odůvodnit — nestačí říct "souhlasím", musí vysvětlit proč.

Fáze 3 — Opakování: Fáze 2 se opakuje dokud modely nekonvergují (dosáhnou shodné odpovědi) nebo nedosáhnou stanoveného limitu kol.

Du et al. reportují, že shoda může v průběhu kol růst a že debata může překonat jednoduché baseline typu "vygeneruj mnoho odpovědí a odhlasuj" v některých úlohách. Rozdíl není v počtu pokusů — je ve struktuře interakce.

Příklad: Modelům položíme faktický dotaz s nejasnou odpovědí. Model A říká rok 1956, model B říká rok 1958. V debatě B předloží argument — odkaz na konkrétní databázi nebo logiku dedukce. Model A musí buď obhájit své tvrzení konkrétními protiargumenty, nebo ho revidovat. Výsledkem není průměr (1957), ale iterativně odůvodněná odpověď s explicitním zdůvodněním.

Pro funkční MAD jsou klíčové: explicitní kola revize, viditelnost argumentů (ne jen závěrů), a jasný mechanismus ukončení.

Proč adversariální tlak snižuje halucinace

Halucinace v LLM přetrvávají bez vnější oponentury. Když model generuje odpověď sám pro sebe, nemá mechanismus pro detekci vlastní nejistoty. Generuje tok slov s nejvyšší pravděpodobností — ne s nejvyšší fakticitou. Sebejistota a přesnost jsou ve výstupech LLM částečně oddělené.

Adversariální partner tento mechanismus mění. Pokud model B předloží protidůkaz k tvrzení modelu A, model A musí buď obhájit své tvrzení explicitními argumenty (a tím odhalit slabiny, pokud existují), nebo pozici revidovat. Mechanismus je analogický recenznímu řízení ve vědeckém publikování: autor, který musí obhájit tvrzení před skeptickým recenzentem, identifikuje slabiny, které by jinak přehlédl.

Dhuliawala et al. (Chain-of-Verification / CoVe) ukazují, že strukturované ověřovací otázky snižují faktické chyby v několika nastaveních. MAD operuje na podobném principu — protivníkovy námitky fungují jako externální verifikační tlak.

Klíčový postřeh: adversariální tlak nesnižuje halucinace tím, že by modely „naučil pravdu“. Snižuje je tím, že odhaluje nepodloženost. Model může stále halucinovat, ale s menší pravděpodobností promítne halucinaci do finální odpovědi, pokud musel projít adversariální revizí.

Konkrétní příklad: Tvrzení o výzkumné studii. Model A tvrdí: „Studie X zjistila Y s vysokou jistotou.“ Model B se ptá: „V jakém roce byla studie publikována? Byl to randomizovaný kontrolovaný pokus, nebo observační studie?“ Model A musí buď doplnit podpůrné detaily (a tím tvrzení posílit), nebo odhalit, že detaily nezná. Bez adversariálního tlaku by tvrzení prošlo nezpochybněno.

Heterogenní vs. homogenní debatéři — proč na složení záleží

MAD s identickými modely vytváří ozvěnovou komoru. Skutečný přínos pochází z modelů se skutečně různými přístupy k problému.

Intuice říká: více stejně dobrých modelů = lepší výsledek. Výzkum ukazuje jinak. Pokud debatují dvě instance GPT-4, obě mají podobná trénovací data, podobné RLHF (Reinforcement Learning from Human Feedback) hodnoty a podobnou architekturu. Jejich „neshoda“ v prvním kole je spíš vzorkovací šum než skutečná perspektivní divergence. Rychle konvergují k průměrné odpovědi GPT-4, ne k pravdě.

Du et al. porovnali homogenní debaty (stejná rodina modelů) s heterogenními (různé rodiny modelů). Heterogenní konfigurace byla na faktických úlohách obecně silnější. Různé modely mají různé slepé skvrny — co jeden přehlédne kvůli trénovacím datům nebo zkreslení v alignmentu RLHF, druhý zachytí.

Příklad — etická otázka: GPT-4 a Claude mají odlišné alignment preference. Claude je obecně opatrný, GPT-4 bývá více orientovaný na užitečnost odpovědi. V heterogenní debatě Claude předloží obavy, které by GPT-4 podhodnotil, a naopak GPT-4 navrhne praktické aspekty, které Claude zvažuje méně. Výsledek pokryje více relevantních perspektiv.

Pro implementaci MAD platí: volba modelů není zanedbatelný detail — je to klíčové designové rozhodnutí. Princip je jednoduchý: maximalizuj epistémickou diverzitu debatérů, ne jejich průměrné hodnocení v srovnávacích testech. Různý výrobce je lepší než různá škála stejného výrobce.

Kdy debata konverguje ke správné odpovědi — a kdy ne

MAD nefunguje všude. Na určitých typech problémů generuje sebepodporující omyl místo korekce.

MAD funguje výborně na faktických otázkách s ověřitelnými tvrzeními, logickém odvozování, matematických úlohách a analýze s jasnými kritérii.

MAD funguje špatně na hodnotových úsudcích (kde neexistuje „správná“ odpověď v smyslu ověřitelné pravdy), otázkách vyžadujících proprietární nebo velmi specializovanou znalost a — nejkritičtěji — na problémech, kde všechny dostupné modely sdílejí korelované zkreslení.

TruthfulQA srovnávací test (navržený tak, aby testoval odolnost vůči rozšířeným omylům) ukázal v některých reportech méně konzistentní zlepšení při debatě než na čistých matematických úlohách. Proč? Protože rozšířené omyly jsou přítomné v trénovacích datech mnoha modelů. Pokud všichni debatéři sdílejí stejný omyl, debata konverguje k sebejistě prezentovanému omylu — ne k pravdě.

Příklad korelovaného zkreslení: ptáme se na vědecký konsensus, který je v populárních zdrojích systematicky zkreslený. Všech pět debatérů sdílí zkreslenou verzi z trénovacích dat. Debata skončí u sebejistého, ale špatného závěru. Nemá kdo tento omyl zpochybnit.

MAD je nástroj pro snížení náhodné variance a idiosynkratických chyb jednoho modelu. Není nástroj pro korekci systematického biasu sdíleného všemi modely. Pro detekci sdíleného biasu potřebujete externální verifikaci.

MAD mimo AI — adversariální tlak v lidských procesech

Multi-Agent Debate reprodukuje princip, který lidé dlouho používají v nejdůležitějších rozhodovacích kontextech.

Vědecké recenzní řízení je strukturovaná debata: autor předloží tvrzení, recenzent předloží námitky, autor reviduje nebo obhájí. Funguje proto, že recenzent má motivaci najít slabiny — ne potvrdit závěry autora. Soudní kontradiktorní řízení je MAD v právním kontextu: obhájce i prokurátor předkládají nejsilnější verzi svého pohledu a protistrana hledá slabiny v argumentaci. Výsledek je robustnější než jednostranné posouzení.

Due diligence v akvizicích funguje stejně: bull case tým argumentuje pro příležitost, bear case tým hledá rizika. Jejich argumentace je strukturovaná debata — výsledkem je komplexnější obraz než kdyby posuzoval jen jeden tým.

Psychologický výzkum tento princip potvrzuje. Nemeth et al. (2001) demonstrovali, že skupiny s explicitním „ďáblovým obhájcem“ (devil's advocate) — členem, jehož úloha je zpochybňovat závěry ostatních — dosahují lepší kvality rozhodnutí. Efekt není v tom, že ďáblův obhájce má pravdu. Je v tom, že nutí ostatní explicitně formulovat a obhájit předpoklady, které by jinak zůstaly implicitní.

Přidání adversariálního modelu do AI workflow — modelu, jehož explicitní úloha je zpochybňovat tvrzení ostatních — je digitální ekvivalent role ďáblova obhájce. Nejefektivnější není model s nejsilnějšími vlastními argumenty, ale model, který systematicky hledá slabiny v argumentech ostatních.

Limity MAD: latence, cena a skupinové myšlení

MAD je efektivní technika, ale má reálné kompromisy.

Latence: Tři kola debaty znamenají minimálně 3× více API volání. Pro aplikace v reálném čase — chatboty, živou asistenci — je MAD nepraktická. Pro analytické úlohy, kde přesnost převažuje nad rychlostí, je dodatečná zátěž ospravedlnitelná.

Náklady: Více kol debaty znamená více tokenů a vyšší cenu. Na fakticky bohatých úlohách, kde MAD přináší benefit, je cena za zlepšení přesnosti kalkulovatelná. Na jednoduchých otázkách benefit nepokrývá náklady.

Skupinové myšlení: Nejzásadnější limit. Pokud modely sdílejí korelované zkreslení, debata ho posiluje místo korekce. MAD potřebuje skutečně heterogenní debatéry — stejná architektura s různou teplotou (temperature) nestačí.

MAD je nejcennější pro analytické úlohy s ověřitelnými tvrzeními, prostorem pro iteraci a tolerancí k latenci. Není univerzálním vylepšením přístupu s jedním modelem.

Praktický závěr

Multi-Agent Debate není složitá technika — je to strukturovaná iterativní výměna argumentů. Čtyři principy pro aplikaci:

Identifikuj vhodné úlohy. Faktické otázky s konkrétními tvrzeními, analytické úlohy s ověřitelnými závěry, rozhodnutí s vysokou cenou chyby a tolerancí k latenci. Ne hodnotové úsudky, ne interakce v reálném čase.

Maximalizuj heterogenitu debatérů. Různí výrobci modelů, různé škály. GPT-4 + Claude + Gemini překoná tři instance GPT-4 — protože skutečná diverzita perspektiv závisí na různosti trénovacích dat a filozofií alignmentu.

Sleduj konvergenci, ne jen závěr. Pokud modely konvergují rychle a jednohlasně na okrajové otázce — buď jde o triviální případ, nebo sdílejí korelovaný bias. Rychlá jednohlasná debata je varovný signál.

Odděl typ neshody. Faktická neshoda v debatě přidá hodnotu. Hodnotová neshoda zobrazí perspektivy, ale "správný výsledek" neexistuje jako ověřitelná pravda. Každý typ vyžaduje jiný způsob interpretace.

Nástroje jako CrossChat implementují adversariální workflow strukturovaně — Multi-Agent Debate je k dispozici jako předdefinovaný pracovní postup, kde heterogenní modely procházejí iterativními koly argumentace a výsledek zobrazuje historii revizí pozic spolu s výsledkem shody.

Zdroje

Du, Y. et al. (2023). Improving Factuality and Reasoning in Language Models through Multiagent Debate. arXiv:2305.14325. DOI: 10.48550/arXiv.2305.14325.
Dhuliawala, S. et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. arXiv:2309.11495. DOI: 10.48550/arXiv.2309.11495.
Nemeth, C. J. et al. (2001). The liberating role of conflict in group creativity. Journal of Personality and Social Psychology.
Lin, S. et al. (2021). TruthfulQA: Measuring How Models Mimic Human Falsehoods. arXiv:2109.07958. DOI: 10.48550/arXiv.2109.07958.
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. arXiv:2203.02155. DOI: 10.48550/arXiv.2203.02155. (InstructGPT / RLHF baseline.)

Historie úprav

Koncept: Claude Code + Anthropic Sonnet 4.6 Verze 1: Claude Code + Anthropic Sonnet 4.6 Verze 2: Codex + GPT-5.2

Jazyková revize (2026-02-25, Codex + GPT-5): zpřesněna stylistika, opraveny mluvnické vazby a nahrazeny zbytečné anglicismy; věcný obsah beze změn. Kvalitativní audit (2026-03-23, Claude Code + Claude Opus 4.6): přidán Rámec tvrzení, ověřeny zdroje, jazyková úprava.