Node.js - Bernd Zuther | Software Architect

Die Landschaft der künstlichen Intelligenz hat sich von rein reaktiven Sprachmodellen hin zu proaktiven, autonomen Agenten gewandelt, die komplexe Aufgabenketten über verschiedene Plattformen hinweg koordinieren können. In diesem Kontext stellt OpenClaw eine der fortschrittlichsten Open-Source-Lösungen dar, die als persönlicher KI-Assistent fungiert und auf eigenen Endgeräten betrieben wird. Der Bedarf an spezialisierten Multi-Agenten-Umgebungen resultiert aus der Erkenntnis, dass ein einzelnes, monolithisches System oft an seine Grenzen stößt, wenn es gleichzeitig kreative Texte verfassen, Code analysieren und komplexe Recherchen durchführen soll. Die tiefe Integration des eigenständigen Hermes Agent Frameworks in die OpenClaw-Architektur ermöglicht es, spezialisierte Subagenten zu schaffen, die über eigene, sich selbst verbessernde Lernschleifen verfügen.

Die Evolution und Philosophie von OpenClaw

Die Entstehungsgeschichte von OpenClaw ist eng mit der Vision von Peter Steinberger verknüpft, einem österreichischen Entwickler, der das System ursprünglich im November 2025 unter dem Namen Clawdbot veröffentlichte. Die Software leitet sich von einem früheren Assistenten namens Clawd (später Molty) ab, dessen Benennung eine Hommage an die Claude-Modelle von Anthropic darstellte. Nach markenrechtlichen Auseinandersetzungen und einer kurzen Phase als Moltbot wurde das Projekt schließlich in OpenClaw umbenannt, wobei die metaphorische Verbindung zur Krabbe beibehalten wurde. OpenClaw versteht sich heute als ein plattformübergreifendes System, das auf macOS, Linux und Windows (via WSL2) lauffähig ist und als zentrales Gateway für eine Vielzahl von Messaging-Kanälen dient.

Im Gegensatz zu kommerziellen „Walled Garden“-Lösungen legt OpenClaw großen Wert darauf, dass der Kontext und die Fähigkeiten des Agenten auf dem Computer des Nutzers verbleiben. Diese lokale Kontrolle ermöglicht es, Agenten zu hacken, zu modifizieren und an eigene Bedürfnisse anzupassen, ohne auf die Infrastruktur großer Tech-Giganten angewiesen zu sein. Die Architektur basiert auf einem Gateway-Daemon, der als Kontrollinstanz fungiert und die Kommunikation zwischen den Kanälen – wie WhatsApp, Telegram, Slack oder Discord – und den im Hintergrund agierenden Laufzeitumgebungen steuert.

Technisches Fundament und Systemvoraussetzungen

Die technische Basis von OpenClaw bilden TypeScript und Node.js, wobei aktuelle Versionen wie Node 24 für die Entwicklung von Fähigkeiten empfohlen werden. Das System ist modular aufgebaut und nutzt ein Gateway-Modell, das als zentrales Nervensystem fungiert.

Systemkomponente	Anforderung / Spezifikation
Laufzeitumgebung	Node.js 22.16+ (Node 24 empfohlen)
Betriebssystem	macOS, Linux, Windows (via WSL2)
RAM-Bedarf	Mindestens 1 GB für den Gateway-Betrieb
Programmiersprachen	TypeScript (Kern), JavaScript/TypeScript (Skills)
Lizenzierung	MIT License

Das Gateway verwaltet nicht nur das Routing von Nachrichten, sondern koordiniert auch die Arbeitsbereiche der Agenten und führt konfigurierbare Herzschlag-Zyklen (Heartbeats) aus, um geplante Aufgaben zu triggern. Diese Struktur erlaubt es, dass mehrere isolierte Agenten innerhalb desselben Gateway-Prozesses koexistieren, was die Grundlage für komplexe Multi-Agenten-Szenarien bildet. Mit über 245.000 GitHub-Sternen (Stand Frühjahr 2026) gehört OpenClaw zu den am schnellsten wachsenden Open-Source-Infrastrukturprojekten überhaupt.

Grundlagen der Multi-Agenten-Umgebung in OpenClaw

Ein Multi-Agenten-Setup in OpenClaw bedeutet nicht einfach nur, mehrere Instanzen desselben Assistenten laufen zu lassen. Vielmehr geht es darum, vollkommen isolierte „Gehirne“ zu schaffen, die jeweils über eigene Arbeitsbereiche, Gedächtnisse, Authentifizierungsprofile und Werkzeuge verfügen. Diese Isolation wird durch die Verzeichnisstruktur und die Sitzungsverwaltung im Gateway technisch erzwungen.

Jeder Agent wird durch ein Verzeichnis unter ~/.openclaw/workspace/ definiert, in dem die Identitätsdateien in Markdown hinterlegt sind. In einer Multi-Agenten-Umgebung können verschiedene Agenten-IDs an unterschiedliche Kanäle oder sogar an verschiedene Konten innerhalb desselben Kanals gebunden werden.

Agenten-Typen und Interaktionsmuster

Innerhalb des OpenClaw-Ökosystems haben sich zwei primäre Muster für die Verwaltung mehrerer Agenten herausgebildet: persistente Agenten und Subagenten. Persistente Agenten sind langlebige Identitäten, die meist direkt einem Kommunikationskanal zugeordnet sind. Subagenten hingegen sind aufgabenorientierte Instanzen, die dynamisch für einen spezifischen Auftrag erzeugt werden und nach Abschluss der Aufgabe oft archiviert oder gelöscht werden.

Merkmal	Persistente Agenten	Subagenten (Spawns)
Lebensdauer	Langlebig, oft permanent aktiv	Kurzlebig, aufgabenbezogen
Bindung	Direkt an Kanäle (z.B. Telegram-Bot)	Indirekt über einen Orchestrator
Gedächtnis	Persistent in `MEMORY.md` und Sitzungshistorie	Oft zustandslos, Kontext wird im Prompt übergeben
Zweck	Haupt-Interaktionspunkt für Nutzer	Spezialisierte Fachaufgaben (Recherche, Code-Fix)

Ein effizientes System nutzt oft einen Orchestrator-Agenten, der die primäre Kommunikation übernimmt und bei Bedarf spezialisierte Subagenten für parallele Aufgaben spawnt. Dieses Muster wird als „Hub-and-Spoke“ bezeichnet und erlaubt es, die Stärken verschiedener Systeme gezielt einzusetzen.

Integration des Hermes Agent Frameworks über ACP

Wenn es um den gezielten Einsatz von Subagenten geht, ist es entscheidend, zwischen einem einfachen Sprachmodell und einem vollwertigen Framework zu unterscheiden. Das von Nous Research entwickelte Hermes Agent Framework basiert auf Python (ab Version 3.11) und zeichnet sich durch seine „Self-improving learning loop“ aus, bei der der Agent seine Fähigkeiten über die Zeit selbstständig evaluiert und anpasst.

Um dieses externe Framework nahtlos als Subagent in OpenClaw einzubinden, kommt das Agent Client Protocol (ACP) zum Einsatz. ACP ist ein offener Standard, der es OpenClaw ermöglicht, mit externen Agenten-Runtimes via asynchronem JSON-RPC über stdio zu kommunizieren.

Das Zusammenspiel von OpenClaw und Hermes Agent

Anstatt den Hermes Agent als isolierten Bot laufen zu lassen, übernimmt OpenClaw die Rolle des Orchestrators und Routings, während Hermes die eigentliche Aufgabenbewältigung übernimmt.

ACP Server Modus: Das Hermes Agent Framework bietet nativ den Modus hermes acp (bzw. python -m acp_adapter) an. Dieser startet einen lokalen ACP-Server.
Delegation via OpenClaw: Wenn ein OpenClaw-Hauptagent eine Aufgabe delegieren möchte, nutzt er das sessions_spawn Werkzeug mit dem speziellen Parameter runtime: "acp" und der agentId: "hermes".
Execution Loop: OpenClaw leitet die Aufgabe über die ACP-Bridge an den Hermes Agenten weiter. Der Hermes Agent führt dann seine eigene autonome „Agentic Loop“ (inklusive Werkzeugaufrufen wie read_file oder execute_code) völlig unabhängig in seinem Python-Environment aus.

Dieser hybride Ansatz vereint das Beste aus beiden Welten: Die exzellente Multi-Channel-Konnektivität und Sitzungsverwaltung von OpenClaw mit der forschungsorientierten, lernenden Ausführungslogik von Hermes.

Technische Umsetzung: Das Spawning-System

Das Herzstück der Delegation in OpenClaw ist das Werkzeug sessions_spawn. Es ermöglicht dem Orchestrator-Agenten, eine neue, isolierte Sitzung für eine Hintergrundaufgabe zu starten und an das Hermes Agent Framework zu übergeben.

Syntax und Parameter von sessions_spawn

Für die Einbindung des Hermes Agenten nutzt der Orchestrator eine spezifische Konfiguration von sessions_spawn.

Parameter	Datentyp	Beschreibung
`task`	String	Die genaue Aufgabenbeschreibung für den Subagenten (erforderlich).
`agentId`	String	Die Ziel-ID, im Fall von Hermes-Subagenten z.B. `"hermes"`.
`runtime`	String	Muss zwingend auf `"acp"` gesetzt werden, um die Hermes-Python-Umgebung über das Agent Client Protocol anzusteuern.
`taskName`	String	Ein optionaler stabiler Bezeichner für die spätere gezielte Steuerung (Format: `[a-z][a-z0-9_]{0,63}`).
`label`	String	Ein menschlich lesbares Label zur Nachverfolgung in den Logs.
`runTimeoutSeconds`	Number	Zeitlimit für die Ausführung der Aufgabe.

Ein entscheidender Vorteil von sessions_spawn ist, dass es asynchron arbeitet. Der aufrufende Agent erhält sofort eine Run-ID zurück und kann mit sessions_yield warten, bis das Ergebnis des Hermes-Subagenten vorliegt. Sobald der Subagent seine Aufgabe abgeschlossen hat, wird das Ergebnis automatisch im Chat-Kanal des Nutzers verkündet, sofern dies nicht explizit unterdrückt wird.

Hierarchische Steuerung und Tiefenbegrenzung

OpenClaw implementiert eine strikte Richtlinie für die Berechtigungen von Agenten basierend auf ihrer Schachtelungstiefe. Ein Agent auf der ersten Ebene (Orchestrator) erhält Zugriff auf Sitzungswerkzeuge wie sessions_spawn, subagents, sessions_list und sessions_history, um seine Kinder zu verwalten. Agenten auf tieferen Ebenen (Leaf-Worker) wird der Zugriff auf diese mächtigen Werkzeuge standardmäßig verweigert, um unkontrollierte Kaskaden von Agenten-Spawns zu verhindern. Zusätzlich wird beim Aufruf von sessions_spawn die Liste subagents.allowAgents strikt durchgesetzt, sodass ein Agent nur Subagenten mit IDs starten darf, die ihm in der Konfiguration explizit erlaubt wurden.

Dateibasierte Konfiguration der Agenten-Identitäten

Die Steuerung der nativen OpenClaw-Rollen erfolgt über Markdown-Dateien im jeweiligen Agenten-Workspace. Diese Architektur ermöglicht es, das Verhalten der Agenten ohne Code-Anpassungen zu definieren, was als „vibe coding“ bezeichnet wird.

Die Rolle von SOUL.md und AGENTS.md

Die Datei SOUL.md fungiert als das „Charakterblatt“ des Agenten. Sie definiert die Persönlichkeit, die Werte, den Tonfall und die Verhaltensgrenzen. Ohne eine SOUL.md agiert der Agent wie ein generisches Sprachmodell ohne persistente Identität.

Die Datei AGENTS.md hingegen enthält operationale Anweisungen für die Zusammenarbeit zwischen Agenten. Sie steht in der Hierarchie über der SOUL.md und definiert beispielsweise Eskalationsregeln oder Formate für die interne Kommunikation.

Datei	Primärer Zweck	Enthaltene Informationen
`IDENTITY.md`	Öffentlicher Ausweis	Name, Agent-ID, Rolle, Avatar-Metadaten.
`SOUL.md`	Innere Einstellung	Tonfall, ethische Grenzen, Kommunikationsstil.
`AGENTS.md`	Kollaborationsregeln	Routing-Instruktionen, Interaktionsprotokolle.
`TOOLS.md`	Fähigkeiten	Liste der erlaubten Integrationen und CLI-Helfer.
`MEMORY.md`	Wissensbasis	Kuratiertes Langzeitwissen und wichtige Fakten.

Ein wichtiger Aspekt beim Spawning von Subagenten ist, dass der Orchestrator beim Aufruf von sessions_spawn alle notwendigen Kontextinformationen explizit in den task-Prompt packen muss, da Subagenten nicht automatisch die volle Historie des Nutzers erben.

Management und Orchestrierung: Das „Hub-and-Spoke“ Muster

Für fortgeschrittene Anwender, die eine komplexe Umgebung mit mehreren Subagenten aufbauen möchten, hat sich das „Hub-and-Spoke“ oder „Specialist Swarm“ Muster bewährt. In diesem Szenario gibt es einen menschlichen Nutzer, der mit einem Orchestrator-Agenten interagiert. Dieser Orchestrator delegiert Aufgaben an eine Reihe spezialisierter Subagenten (darunter auch Hermes-Instanzen), die jeweils unterschiedliche Rollen einnehmen.

Ein typischer Schwarm könnte aus folgenden Rollen bestehen:

Researcher: Nutzt Web-Suche und Datenextraktion, um Fakten zu sammeln.
Hermes-Coder: Analysiert Code-Basen über die ACP-Schnittstelle und schlägt Korrekturen vor.
Validator/Tester: Überprüft die Ergebnisse der anderen Agenten auf Fehler oder Inkonsistenzen.

Dieses Setup verhindert unkontrollierte Schleifen und sorgt für eine zielgerichtete Bearbeitung der Aufgaben. Zudem wird eine „Model Arbitrage“ ermöglicht, bei der für die Orchestrierung ein hochleistungsfähiges Cloud-Modell verwendet wird, während spezialisierte Hermes-Agenten kostengünstig lokal arbeiten.

Werkzeuge zur Verwaltung der Arbeitsbereiche

Bei einer wachsenden Anzahl von Subagenten wird es mühsam, die Konsistenz der Markdown-Dateien über alle Workspaces hinweg sicherzustellen. Hier greift die Community auf das Open-Source-Werkzeug openclaw-multi-agent-tool zurück, welches von CDNsun bereitgestellt wird.

Synchronisation mit dem openclaw-multi-agent-tool

Dieses CLI-Tool (ein Bash-Skript) scannt die verschiedenen Arbeitsbereiche unter ~/.openclaw/ und vergleicht die Dateiinhalte via md5sum. Es erstellt eine übersichtliche, farblich markierte Tabelle, die auf einen Blick zeigt, welche Agenten über identische oder unterschiedliche Versionen von SOUL.md oder AGENTS.md verfügen.

Das Skript bietet zudem eine nützliche -p Funktion, um sichere Push-Befehle zu generieren, mit denen Änderungen an einer „Master-Datei“ (z.B. SOUL-all.md) konsistent auf alle Agenten-Workspaces übertragen werden können, ohne sich auf oft unzuverlässige Symlinks verlassen zu müssen.

Sicherheit und Sandboxing in Multi-Agenten-Systemen

Da autonome Agenten über weitreichende Berechtigungen verfügen können, ist Sicherheit ein zentrales Thema. OpenClaw bietet hierfür granulare Steuerungsmöglichkeiten über Docker-Isolierung.

Sandbox-Modus	Beschreibung	Empfohlener Einsatz
`off`	Werkzeuge laufen direkt auf dem Host-System des Gateways	Vertrauenswürdiger Hauptagent
`non-main`	Nur Sitzungen außerhalb der Hauptkonversation (Subagenten, Gruppen) werden in Sandboxes gesperrt	Standard-Sicherheitslevel für externe Subagenten
`all`	Jede Sitzung läuft zwingend im Container	Hochsicherheitsumgebungen

Darüber hinaus kann der Scope der Sandbox entweder pro Sitzung (session), pro Agent (agent) oder als geteilter Container (shared) definiert werden. Spezifische Befehle lassen sich über tools.deny-Listen für einzelne Agenten sperren.

Überwachung und Fehlerbehebung

Ein komplexes Multi-Agenten-System erfordert eine lückenlose Überwachung der Aktivitäten. OpenClaw protokolliert alle Vorgänge im Gateway-Log (tail -f ~/.openclaw/gateway.log) und speichert den Status von Läufen in einer SQLite-Datenbank.

Über Chat-Befehle wie /subagents oder /status kann der Nutzer einsehen, welche Agenten gerade aktiv sind. Falls ein Hermes-Subagent in eine Endlosschleife gerät, kann er über /subagents kill gestoppt werden.

Ein bekanntes Problem in der SQLite-Datenbank (task_runs) ist, dass das Feld agent_id bei Subagenten-Spawns oftmals leer bleibt, was die Zuordnung von Tasks erschwert. Als robuster Workaround lässt sich die Identität zuverlässig aus dem child_session_key extrahieren, der das Format agent:<agentId>:subagent:<uuid> nutzt.

Zusammenfassung und Ausblick

Der Aufbau einer Multi-Agenten-Umgebung mit OpenClaw und dem spezialisierten Hermes Agent Framework ist ein mächtiges Vorhaben. Durch die Nutzung der Agent Client Protocol (ACP) Schnittstelle in Kombination mit dem sessions_spawn Werkzeug wird OpenClaw zu einem extrem fähigen Orchestrator, der die autonomen, selbstlernenden Fähigkeiten von Hermes-Agenten als Sub-Prozesse steuert.

Dieser „Best of Both Worlds“-Ansatz – OpenClaw für Routing, Governance und Multi-Channel-Konnektivität, Hermes Agent für spezialisierte, forschungsnahe Execution-Loops – repräsentiert die Spitze der aktuellen Open-Source KI-Architekturen. Zusammen mit Tools wie dem openclaw-multi-agent-tool zur Workspace-Pflege und strikten Docker-Sandbox-Regeln lassen sich so extrem robuste, hochgradig automatisierte digitale Ökosysteme aufbauen.

Schlagwort: Node.js

Die Architektur autonomer Multi-Agenten-Systeme: Integration von Hermes Agent in das OpenClaw-Ökosystem