Modellwahl ist eine Messfrage

—Frage

Welches KI-Modell sollte eine konkrete Aufgabe bearbeiten?

Ein einzelner Modellname erwies sich in meiner Arbeit als unzureichende Antwort. Ein Modell war stark beim Erklären und teuer bei Routineaufgaben. Ein anderes löste einfache Coding-Aufgaben zuverlässig, brach jedoch bei bestimmten Ausgabeformaten ein. Aktuelle Recherche erforderte einen Pfad mit Websuche. Bei Code zählte vor allem, ob die Tests bestanden wurden.

Die Forschungsfrage wurde dadurch präziser:

Lässt sich Modellwahl als messbare, auditierbare und korrigierbare Systementscheidung organisieren?

Daraus entstand Ivy Conductor. Das System sitzt als Entscheidungsschicht vor den aufgerufenen Modellen. Es ordnet eine Aufgabe ein, wählt Modell, Workflow und Werkzeuge, speichert die Entscheidung und führt das evaluierte Ergebnis in die weitere Auswahl zurück. Die großen Modelle selbst werden dabei nicht trainiert.

Der vorliegende Text prüft diese eng gefasste These. Er prüft noch nicht, ob Conductor generell besser arbeitet als ein starkes Einzelmodell. Der dafür geplante Vergleich ist offen.

—Setup

Eine Episode beschreibt Aufgabe, Kontext und Evaluationsbedingungen. Ein Run ist die Ausführung einer Episode mit einem Modell- oder Workflow-Arm. Eine binäre Auswertung zählt als bestanden, wenn der hinterlegte Evaluator den Run mit mindestens 0,999 bewertet. Bei Code kommen Tests in einer Docker-Sandbox zum Einsatz. Andere Suites verwenden deterministische Regeln oder spezifizierte Judges.

Abbildung 1: Der Messkreislauf. Capability-Grenzen beschränken unpassende Aktionen; die Policy wählt innerhalb des zulässigen Raums.

Methodischer Rahmen

Umgebung: Hetzner-Ausführung, OpenRouter-Modellpool, aktivierte Docker-Sandbox.
Metriken: binäre Passrate, Kosten, Latenz und Fehler; dieser Artikel konzentriert sich auf Passrate und Kosten.
Intervalle: 95-%-Wilson-Intervalle in den ausgewerteten Berichten E-0007 und E-0013.
Interne Stoppschwelle: mindestens 300 binäre Auswertungen und Intervallbreite höchstens 0,12.
Paarvergleich: McNemar-Test bei identischen Aufgaben und binären Ergebnissen.
Evidenzklassen: gemessen, live beobachtet, implementiert und geplant.

Die Stoppschwelle ist eine interne Betriebsregel. Sie ist kein allgemein anerkannter wissenschaftlicher Reifegrad. Zudem dokumentiert E-0007 die Zahl der Auswertungen, aber keine vollständige Clusterstruktur aus einzigartigen Aufgaben, Wiederholungen und Modellarmen. Die Wilson-Intervalle sind daher als deskriptive Präzisionsangabe innerhalb dieses Evaluationssystems zu lesen. Da anhand der Intervallbreite gestoppt wurde, handelt es sich außerdem nicht um eine formal sequenziell adjustierte Confidence Sequence.

Runtime-Learning-Stack

Neben dem manuellen Entwicklungs-Decision-Log erzeugt Conductor im Betrieb ein eigenes Runtime-Logging. Produktive Ausführungspfade protokollieren Routingentscheidungen mit gewähltem Modell, Workflow, Confidence, Erklärung sowie Kontext- und Evidenzmetadaten. Ausgeführte Modell- oder Workflow-Schritte werden als Ausführungsprotokolle mit technischen Laufdaten wie Tokens, Kosten, Latenz, Status und Feedback-Bezügen festgehalten. Reine Entscheidungs-Endpunkte können optional persistiert werden; deshalb ist das Runtime-Log nicht als pauschale Zählung jedes möglichen API-Aufrufs zu lesen.

Gelernt wird erst, wenn ein Qualitätssignal vorliegt: etwa durch Replay-Evaluation, Gold-Test, automatische Evaluation oder menschliches Feedback. Daraus entstehen aggregierte Lernstatistiken pro Kontext und Handlungsoption. Sie erfassen Anzahl der bewerteten Updates, Qualität, Kosten, Latenz und einen daraus abgeleiteten Reward. Conductor lernt dabei nicht nur Modell- und Workflow-Arme, sondern auch Tool-Nutzung, Compute-Budget, Modalität, Kontextkompression, RAG/Memory und Aktualitätsbedarf als eigene Routing-Dimensionen.

Ein internes Dashboard aggregiert diese Signale für Monitoring, Fehleranalyse, Kostenkontrolle und Benchmark-Fortschritt. Es ist ein operatives Werkzeug, keine öffentliche Live-Evidenzquelle. Öffentliche Darstellungen zeigen deshalb keine Rohprompts, Outputs, Nutzerkontexte, Live-Zähler, konkrete Kostenkanäle oder vollständigen Modellmix.

Das Live-Dashboard von Ivy Conductor: aktuelle Agent-Flows, Token-Verbrauch, Tool-Aufrufe und Live-Modellverteilung. Diese Betriebszahlen sind live beobachtet und nicht mit den kontrollierten Experimentwerten aus E-0007 und E-0013 zu verwechseln.

Ein zweiter Screenshot zeigt den Modell-Mix und die Reward-Verteilung über die letzten 14 Tage aus Sicht des internen Dashboards.

Modellverteilung und Reward-Lage über die letzten 14 Tage. Bandit-Stats, durchschnittliche Qualität, Kosten und Latenz pro Modell, aus dem internen Monitoring-Snapshot. Öffentlich nur als Architekturbeispiel, ohne Live-Werte.

—Beobachtung

Im Evidenzlauf E-0007 vom 27. Juni 2026 erreichten vier Fokus-Suites die interne Stoppschwelle. Factuality kam auf 304 bestandene von 505 Auswertungen, Grounding auf 359 von 549, LiveCodeBench auf 107 von 306 und Multimodal auf 94 von 305. Der dokumentierte OpenRouter-Verbrauch der beiden abschließenden ASAP-Läufe lag zusammen bei rund 0,95 US-Dollar. Dieser Betrag umfasst weder Entwicklung noch Betrieb oder frühere Experimente.

Abbildung 2: Punktschätzer und 95-%-Wilson-Intervalle aus E-0007. Die Grafik zeigt Suite-Ergebnisse, keine paarweisen Modellvergleiche.

Ein zweiter Befund entstand durch einen Fehler. In E-0009 bevorzugte die Meta-Policy zunächst einen Arm mit sehr kleiner Stichprobe und scheinbar perfektem Reward. Nach einer Bayes-Schrumpfung zum Kontextmittel und dem Entfernen eines Human-Vote-Lecks wechselte sie auf einen Arm mit breiterer Evidenz. Das dokumentierte Holdout-Delta gegenüber der Bandit-Auswahl änderte sich von -0,015 auf 0,0000. Dieser Wert zeigt hier die Reproduktion der Bandit-Auswahl, keinen eigenständigen Qualitätsgewinn.

E-0013 verglich sechs Modelle auf 40 identischen Hard-Coding-Aufgaben je Arm. GLM 5.2 erreichte 15,0 Prozent Pass@1, DeepSeek v4-pro und Claude Sonnet 4.6 jeweils 12,5 Prozent. GPT-5.5 und Kimi K2.7-code lagen bei null Prozent. Die Intervalle waren breit und die Nullwerte verlangen ein Output- und Evaluator-Audit.

Abbildung 3: Pass@1 und mittlere Kosten pro Run aus E-0013. Alle Modellstände und Preise beziehen sich auf Juni 2026.

GLM 5.2 gegen GPT-5.5 ergab McNemar p=0,0312. Bei sechs Armen entstehen 15 mögliche Paarvergleiche. Unter einer einfachen Bonferroni-Korrektur läge die Schwelle bei 0,0033. Das Ergebnis ist damit explorativ und hält diese Mehrfachvergleichskorrektur nicht.

—Bewertung

Der stärkste bisherige Befund ist die überprüfbare Entscheidungsschicht. Modellwahl wird als Hypothese behandelt: Ein Ergebnis kann sie bestätigen, ihre Sicherheit reduzieren oder eine andere Auswahl nahelegen.

Das ist praktisch relevant. Ein einzelner guter Wert bei kleinem N führte zu einer Fehlentscheidung, die durch Schrumpfung korrigiert wurde. Ein früherer Vergleich produzierte Nullwerte, weil dem Service-User der Zugriff auf den Docker-Socket fehlte. Teilweise korrekter Code wurde dadurch als fehlgeschlagen gewertet. Seit der Ursachenanalyse gehört der Sandbox-Zugriff zum Deployment-Check.

Beide Fälle zeigen, weshalb eine Rangliste allein wenig aussagt. Aussagekraft entsteht erst aus Messkette, Unsicherheit, Audit-Trail und dokumentierten Gegenbelegen. Das manuelle Entwicklungs-Decision-Log reicht bis D-0087 und enthält auch überholte Bau- und Methodikentscheidungen. Es ist kein Runtime-Protokoll jedes Conductor-Calls. Die Kennung D-0018 ist doppelt vergeben, was die Nachvollziehbarkeit nicht verhindert, aber bereinigt werden sollte.

Aussage	Evidenzstatus am 30.06.2026
Routingpfad ist implementiert und auditierbar	belegt durch Code, Entwicklungs-Decision-Log, Runtime-Protokolle und Live-Verifikation
Vier Fokus-Suites erreichten die interne Präzisionsregel	gemessen in E-0007
Günstigere Arme können kontextabhängig konkurrenzfähig sein	exploratives Signal aus E-0013
Orchestrierung schlägt starke Einzelmodelle	offen, E-0010 ohne Ergebnis
Runtime-Lernsignale zeigen generelle Qualitätssteigerung	offen, Monitoring ist keine Wirkungsmessung

—Grenzen

Die Ergebnisse erlauben keine universelle Modellrangfolge. Suite-N sind keine nachgewiesenen Zahlen unabhängiger Aufgaben. Abhängigkeiten durch wiederholte Episoden oder mehrere Modellarme wurden im Abschlussbericht nicht clusteradjustiert ausgewiesen. Auch Runtime-Metriken wie Runs, Kosten, Latenz, Feedback und interne Rewards sind Monitoring- und Lernsignale; sie beweisen für sich allein keine allgemeine Überlegenheit des Routings.

Die interne Dokumentation nennt teils 99-%-Intervalle, während E-0007 und E-0013 mit 95 % berichten. Dieser Artikel übernimmt die Werte der jeweiligen Primärberichte. Ein Folgeprotokoll muss das Niveau vor dem Lauf einheitlich festlegen.

E-0010, der geplante matched Vergleich mit mindestens 300 Aufgaben je Arm, enthält weiterhin keine Ergebnisse. E-0013 hat n=40 je Arm, breite Intervalle und unkorrigierte Paarvergleiche. Die Research-Suite meldet offenen Prüfbedarf bei Seeds und Bewertungslogik. Modellnamen, Preise und Providerverhalten sind eine Momentaufnahme aus Juni 2026.

Auch die Reproduzierbarkeit ist begrenzt: Befehle, Konfiguration und Experimentberichte sind dokumentiert, die vollständigen Rohdatenbanken und serverseitigen Laufartefakte sind diesem Artikel jedoch nicht als öffentliches Replikationspaket beigefügt. Der Bericht E-0013 wird im Quell-Repository zudem durch eine bestehende .gitignore-Regel ausgeschlossen und ist daher noch nicht versioniert. Sein geprüfter SHA-256 sowie die verwendeten Grafikdaten sind im internen Quellenmanifest eingefroren.

—Nächster Schritt

Der nächste Haupttest ist der offene matched Vergleich: identische Aufgaben, ausreichendes N je Arm, vorab registrierte Hypothesen, festgelegtes Intervallniveau und korrigierte Mehrfachvergleiche. Der Hard-Coding-Lauf wird mit größerer Stichprobe wiederholt. Vorher werden die Null-Ergebnisse auf Extraktion, Ausgabeformat und Sandboxeffekte geprüft.

Für die Suite-Scorecards sollte das Replikationspaket künftig eindeutige Task-IDs, Wiederholungen, Modellarme, Seeds, Rohurteile und Kosten enthalten. Clusteradjustierte Auswertungen oder eine taskbasierte Aggregation würden die statistische Einheit klarer machen. Für adaptives Stoppen wäre eine formal sequenziell gültige Methode geeigneter als ein gewöhnliches Wilson-Intervall.

Erst danach lässt sich die stärkere Frage beantworten: In welchen Kontexten erzeugt die Entscheidungsschicht einen messbaren Vorteil, und wo genügt ein einzelnes, gut gewähltes Modell?

—Quellenregister

Interne Primärquellen (liegen im internen Conductor-Repository und im eingefrorenen Quellenmanifest, nicht öffentlich verlinkt):

E-0007: ASAP-Evidenzlauf (27. Juni 2026)
E-0009: Full-Learning-Lauf (28. Juni 2026)
E-0010: offener Frontier-Matched-H2H (Setup dokumentiert, ohne Ergebnisse)
E-0013: Value-Coding-H2H (29. Juni 2026)
Entwicklungs-Decision-Log D-0001 bis D-0087
Methodik: Benchmark- und Statistik-Strategie
Methodik: ASAP und sequenzielles Stoppen
Portables Quellenmanifest mit Commit-Ständen und SHA-256-Prüfsummen

Externe Referenzen: keine für diese Fassung. Der Artikel stützt sich ausschließlich auf interne Evidenzläufe, Entwicklungs-Decision-Records und freigegebene Beschreibungen des Runtime-Learning-Stacks.