Adversarial Resilience Learning // Universität Oldenburg

Leitbild

Unsere Forschung zielt darauf ab, lernende Agentensysteme zu schaffen, die geeignet sind, kritische nationale Infrastrukturen zu kontrollieren. Unser Anliegen ist es, menschliche Bediener zu unterstützen: Unsere Agenten lernen aus dem Wissen von Domänenexperten und geben Verhaltensgarantien. Sie beziehen bekannte gute Steuerungen mit ein. Unsere Agenten können unvorhersehbaren Ereignissen ("schwarzer Schwan") begegnen, von Prognoseabweichungen bis hin zu Cyberangriffen, und kritische Infrastrukturen widerstandsfähig machen. Unser Ziel ist es, den Stand der Technik im Bereich des tiefen Verstärkungslernens, des neuroevolutionären Verstärkungslernens, des Offline-Lernens und des erklärbaren Verstärkungslernens so weit voranzutreiben, dass eine verallgemeinerte Agentenarchitektur den KI-Experten im Tagesgeschäft überflüssig macht: Sie soll es ermöglichen, diesen Agenten in kritischen Infrastrukturen zur Unterstützung von Fachexperten einzusetzen.

Forschungsfragen

Autocurricula für KRITIS

Der Kern unserer Methodik ist ein Autocurriculum: Während des Trainings wird unser Agent immer mit einem exakten Gegenspieler gepaart. Dies erleichtert die Erkundung und begünstigt die Entwicklung robusterer Strategien. Der Aufbau des Autocurriculums als methodische Grundlage für das Erlernen resilienter Strategien für komplexe Cyber-Physical Systems ist die Quelle unseres Namens, Adversarial Resilience Learning.

Wenn Sie mehr wissen möchten, empfehlen wir Ihnen die folgende Publikation:

Lars Fischer, Jan-Menno Memmen, Eric MSP Veith, and Martin Tröschel. “Adversarial Resilience Learning — Towards Systematic Vulnerability Analysis for Large and Complex Systems.” ENERGY 2019, The Ninth International Conference on Smart Grids, Green Communications and IT Energy-aware Technologies (2019).

Offline Deep Reinforcement Learning

Deep Reinforcement Learning ist ressourcenintensiv. Vor allem wenn es um komplexe kritische Infrastrukturen geht, können Simulationen eine Menge Rechenleistung verbrauchen. Es ist jedoch bereits eine Menge Fachwissen vorhanden. Agenten sollten dieses nicht neu entdecken müssen. Unsere Forschung ermöglicht es Agenten, aus bereits modellierten Anwendungsfällen und Missbrauchsfällen zu lernen.

Wenn Sie mehr wissen möchten, empfehlen wir Ihnen die folgende Veröffentlichung:

Veith, Eric MSP, Arlena Wellßow, and Mathias Uslar. "Learning new attack vectors from misuse cases with deep reinforcement learning." Frontiers in Energy Research 11 (2023): 1138446.

eXplainable Reinforcement Learning

Deep reinforcement learning agents are still largely a black box. Whether an agent has learned a sensible strategy or simply got “lucky” during tests because the simulation setup provided supportive situations that are easy to exploit, cannot be validated by simulation alone. Even large-scale simulation setups still leave a trace of doubt, especially when the agent is transferred into another, real environment. This precondition makes it unfit for deployment in critical infrastructures. Our research advances the state of the art to seamlessly provide equivalent representations of DRL policy networks, which make the agent analyzable and enable us to give behavioral guarantees, or verify the effect of our autocurriculum setup.

If you’d like to know more, we suggest the following publication:

Logemann, Torben, and Eric MSP Veith. "NN2EQCDT: Equivalent Transformation of Feed-Forward Neural Networks as DRL Policies into Compressed Decision Trees." COGNITIVE 2023 : The Fifteenth International Conference on Advanced Cognitive Technologies and Applications. vol 15 (2023): 94-100.

Neuroevolutionary Deep Reinforcement Learning

Jeder Algorithmus im Bereich des maschinellen Lernens oder des Verstärkungslernens hat seine Hyperparameter, und auch für das Deep Reinforcement Learning muss ein neuronales Netz aufgebaut werden. Alles hängt von der jeweiligen Aufgabe und Umgebung ab. Wir stellen uns ein System vor, bei dem kein Forscher oder DRL-Experte für die Feinabstimmung der Hyperparameter eines Agenten und der von ihm verwendeten Lernalgorithmen erforderlich ist - dies sollte automatisch geschehen.

Dieser Teil unserer Forschung steckt noch in den Kinderschuhen.

Erweiterte Agentenarchitektur

Die genannten Module müssen auf sinnvolle Weise miteinander interagieren, ohne dass es zu störenden Nebeneffekten kommt. Eine allumfassende Architektur ist das Herzstück der Forschung zum Adversarial Resilience Learning. Sie hat zwei Hauptmerkmale: Ein Discriminator verfolgt die Effizienz bestehender Regeln (z. B. aus dem NN2EQCDT-Algorithmus) und die DRL-Politik, so dass der Agent auf unbekannte Situationen reagieren und die Leistungsfähigkeit des Deep Reinforcement Learning nutzen kann, ohne dabei auf Garantien verzichten zu müssen. Zweitens bilden der Regelextraktor, der Regelspeicher und die Regelpolitik einen vollständigen Zyklus, in dem der Agent gelernte Strategien kodiert, sie überprüfen kann und sie sogar in einem einfachen Rehearsal-Ansatz verwenden kann, um katastrophalem Vergessen entgegenzuwirken.

Wenn Sie mehr wissen möchten, empfehlen wir Ihnen die folgende Publikation:

Veith, Eric MSP. "An architecture for reliable learning agents in power grids." The Thirteenth International Conference on Smart Grids, Green Communications and IT Energy-aware Technologies (2023). pp. 13–16.

Software

Wir erstellen freie/libre Open-Source-Software! Die Referenzimplementierung unserer Agentenarchitektur wird vollständig offen entwickelt.

https://gitlab.com/arl2/arl

Wir sind auch Teil des Kernentwicklungsteams von palaestrAI, einem Trainingsgelände für autonome Agenten und dem Rahmen für fundierte Experimente, die wir zur Überprüfung unserer Behauptungen nutzen.

https://gitlab.com/arl2/arl

Sprache wechseln

Change Language

Hell-/Dunkelmodus

Light mode / Dark mode

Adversarial Resilience Learning

Dr.-Ing. Eric Veith

Department für Informatik (» Postanschrift)

Lehrveranstaltungen