Project 8: Multi-Agent Debate and Consensus

Build a system where multiple agents propose solutions, debate conflicts, and converge on a consensus result.

Quick Reference

Attribute	Value
Difficulty	Level 4: Expert
Time Estimate	16–24 hours
Language	Python or JavaScript
Prerequisites	Projects 2–7, evaluation basics
Key Topics	debate protocols, consensus, evidence tracking

Learning Objectives

By completing this project, you will:

Orchestrate multiple agent roles with distinct prompts.
Run structured debate rounds with rebuttals.
Define consensus rules and tie-breakers.
Track evidence for claims and disagreements.
Evaluate consensus quality vs single-agent baselines.

The Core Question You’re Answering

“How can multiple agents reduce hallucinations by challenging each other’s claims?”

The goal is not just multiple answers, but evidence-backed convergence.

Concepts You Must Understand First

Concept	Why It Matters	Where to Learn
Ensemble reasoning	Reduces single-model bias	Evals research
Debate protocols	Structure disagreement	Multi-agent papers
Consensus rules	Avoid deadlock	Distributed systems basics
Evidence tracking	Verifies claims	RAG grounding

Theoretical Foundation

Debate as Verification

Agent A -> Proposal
Agent B -> Critique
Agent C -> Counterexample
Consensus -> Evidence-backed result

Debate is a verification step, not just a brainstorming tool.

Project Specification

What You’ll Build

A debate system where agents propose, rebut, and converge on a final answer with explicit evidence.

Functional Requirements

Agent pool with role prompts
Debate rounds with rebuttals
Evidence tracking per claim
Consensus engine (vote/judge/confidence)
Metrics vs baseline agent

Non-Functional Requirements

Deterministic replay of debate logs
Bounded rounds to control cost
Transparent reasoning traces

Real World Outcome

Example consensus output:

{
  "final_answer": "Solution B",
  "evidence": ["doc_12", "doc_19"],
  "dissent": "Agent C disagreed on claim 2"
}

Architecture Overview

┌──────────────┐   proposals   ┌──────────────┐
│ Agent Pool   │──────────────▶│ Debate Engine│
└──────┬───────┘                └──────┬───────┘
       │ evidence                        │
       ▼                                 ▼
┌──────────────┐                 ┌──────────────┐
│ Evidence Log │◀───────────────│ Consensus    │
└──────────────┘                 └──────────────┘

Implementation Guide

Phase 1: Agent Pool (4–6h)

Create 3–5 agent roles
Checkpoint: distinct answers generated

Phase 2: Debate Rounds (5–8h)

Implement rebuttals + critique
Checkpoint: disagreements logged

Phase 3: Consensus + Metrics (5–8h)

Add consensus rules and evaluation
Checkpoint: consensus improves accuracy

Common Pitfalls & Debugging

Pitfall	Symptom	Fix
Groupthink	all agents agree	diversify prompts
Endless debate	no resolution	enforce round limits
No evidence	unverifiable claims	require sources

Interview Questions They’ll Ask

How do you prevent debate from becoming circular?
What consensus rule works best for high-stakes tasks?
How do you measure whether debate improves accuracy?

Hints in Layers

Hint 1: Start with two agents and majority vote.
Hint 2: Add rebuttals with citations.
Hint 3: Introduce judge model for tie-breaks.
Hint 4: Log evidence to verify claims.

Learning Milestones

Multiple Voices: agents generate distinct proposals.
Evidence Bound: disagreements reference sources.
Reliable Consensus: accuracy improves over baseline.

Submission / Completion Criteria

Minimum Completion

3 agents + single debate round

Full Completion

Consensus engine + evidence log

Excellence

Confidence-weighted consensus
Debate visualization

This guide was generated from project_based_ideas/AI_AGENTS_LLM_RAG/AI_AGENTS_PROJECTS.md.