Starcraft2 Pros vs AlphaStar

Starcraft 2 Pros vs Deepminds AlphaStar - KI gewinnt gegen Menschheit

Die von Googles Tochterunternhemen DeepMind entwickelte künstliche Intelligenz AlphaStar hat einen neuen Meilenstein in der KI-Entwicklung erreicht. In einer Reihe von Spielen gegen professionelle menschliche Starcraft 2 Spieler, konnte AlphaStar überzeugen. 10 Spiele in Folge gewann die neue KI bereits im Dezember gegen Team Liquids Grzegorz “MaNa” Komincz und Dario “TLO” Wünsch, jeder der Spieler trat in jeweils 5 Spielen an.
Im Januar wurde dann noch ein Match gegen „MaNa“ gespielt, und die künstliche Intelligenz AlphaStar konnte von der Menschheit geschlagen werden. Das Match im Londoner Hauptsitz von DeepMind konnte live auf YouTube oder Switch verfolgt werden.

Die ebenfalls von Deepmind entwickelte KI AlphaGo konnte 2017 bereits den Weltranglistenerste Ke Jie im Brettspiel Go mit 3:0. Go galt als das Brettspiel, das für eine KI am schwersten zu meistern sein. Nachdem nun dieser Schritt gemacht war blickten die Entwickler von künstlicher Intelligenz bereits auf die nächst logische Herausforderung, Computer-Strategiespiele. Die Schwierigkeit liegt insbesondere darin, dass anders als bei Brettspielen der KI die Bewegung der menschlichen Gegner überwiegend nicht bekannt ist und es muss in Echtzeit reagiert werden.

Obwohl es bei Videospielen wie Atari, Mario, Quake III Arena Capture the Flag und Dota 2 bedeutende Erfolge gab, haben die KI-Techniken bisher Schwierigkeiten gehabt, mit der Komplexität von StarCraft umzugehen. Die besten Ergebnisse wurden durch die manuelle Herstellung von Hauptelementen des Systems, durch erhebliche Einschränkungen der Spielregeln, durch übermenschliche Fähigkeiten der KI-Systeme oder durch das Spielen auf vereinfachten Karten ermöglicht. Selbst mit diesen Modifikationen ist kein System annähernd an die Fähigkeiten professioneller Spieler herankommen. Im Gegensatz zu früheren KIs spielt AlphaStar das gesamte Spiel von StarCraft II mit einem tiefen neuronalen Netzwerk (deep neural network), das direkt aus den Rohdaten des Spiels trainiert wird, indem es supervised learning und reinforcement learning durchführt.

AlphaStar verwendet zudem einen neuartigen Multi-Agenten-Lernalgorithmus. Das neuronale Netzwerk wird zunächst durch supervised learning (dt. überwachtes Lernen) aus anonymisierten gespielten menschlichen Starcraft 2 Partien trainiert. Dies ermöglichte es AlphaStar, durch Nachahmung die grundlegenden Mikro- und Makrostrategien zu lernen. Dieser anfängliche Agent besiegte die in Starcraft eingebauten Computergegner, auf der höchsten Stufe „Elite“, in 95% der Spiele.
Nachdem mehrere Agenten trainiert wurden werden diese dann verwendet, um einen Multi-Agent Verstärkungs-Lernprozess zu starten. In einer Liga treten dann die Agenten in einen Konkurrenzkampf an. Neue Agenten wurden dynamisch in die Liga aufgenommen, und Agenten die schlecht performten und somit die unteren Plätze der Tabelle belegten, entfernt; jeder Agent lernt dann aus Spielen gegen andere Agenten. Diese neue Form des Trainings nimmt die Ideen des population-based and multi-agent reinforcement learning auf und schafft einen Prozess, der den große strategische Vielfalt des StarCraft-Spiels kontinuierlich erkundet und gleichzeitig sicherstellt, dass jeder KI-Agent gegen die stärksten Strategien gut abschneidet und nicht vergisst, wie man frühere Strategien besiegt. Wer darüber wissen möchte und dem englischen mächtig ist, dem sei an dieser Stelle sehr der Blog-Beitrag des AlphaStar-Teams auf deepmind.com ans Herz gelegt.

Dem Spieler Dario “TLO” Wünsch ist neben dem hervorragenden Mikromanagement von AlphaStar aufegfallen, dass die KI jedes Match anders gestaltet. Das ist dadurch zu erklären, dass das DeepMind Team bei jedem neuen Match auch einen neuen KI-Agenten eingesetzt hat, genauer die stärksten Agenten, die sich in der AlphaStar internen Liga durchgesetzt hatten. So war es für die menschlichen Gegner kaum möglich Erfahrungen über die KI im nächsten Match zu nutzen. Das bedeutet aber auch, das die unterschiedlichen AlphaStar Agenten ein breites Spektrum von Spielweisen und Strategien erlernt haben und diese auch Effizient und ohne grobe Schwächen einsetzen können.

[vcex_spacing size="10px"]

Die StarCraft-Kommentatoren, die bereits einige an hochklassigen Partiern zwischen menschlichen Spielern kommentiert hatten, beschrieben AlphaStars Spiel teilweise als „phänomenal“ und „übermenschlich“. In StarCraft 2 beginnen die Spieler auf verschiedenen Seiten derselben Karte, bevor sie eine Basis aufbauen, eine Armee trainieren und in das Territorium des Feindes eindringen. AlphaStar überzeugte besonders im Mikromanagement, also effektiv und schnell bauen und Truppen kontrollieren. Das ein Computer im Micromanagement schneller ist scheint logisch zu sein, allerdings wurde AlphaStar einigen extra Regelungen unterworfen, etwa das nicht mehr Klicks pro Minute gemacht werden dürfen als es einem menschlichen Spieler möglich ist. AlphaStar wurde auf 300 Klicks pro Minute limitiert, was im unteren Bereich von Profi Spielern liegt. Dafür konnte die KI jedoch die gesamte Karte betrachten (nur die Bereiche die bereits von AlphaStar aufgedeckt sind), der menschliche Spieler muss erst manuell zum gewünschten Kartenausschnitt navigieren. Die DeepMind Forscher waren der Meinung das dieser Umstand kein Vorteil sei, da die KI sich nur auf einen einzigen Teil der Karte konzentriert, allerdings kam es im Verlaufe des Spiels dazu, das AlphaStar gleichzeitig in drei verschiedenen Teilbereichen der Karte Einheiten effektiv im Kampf steuerte. Dieser Umstand wurde für das Finalspiel verändert, AlphaStar hatte nun auch nur einen beschränkten Ausschnitt der Karte zur Verfügung und „MaNa“ konnte einen Sieg erreichen.

[vcex_spacing size="10px"]

Auf seinem Youtube Channel hat Team Liquid’s Grzegorz “MaNa” Komincz die insgesamt 6 Spiel nochmal aus seiner Sicht dargestellt. Aus seiner Sicht war AlphaStar sehr stark, besonders der Umstand, das der KI keine Fehler unterlaufen. “MaNa” unterliefen in fast jedem Match ein paar kleiner Fehler im Makromanagement, die AlphaStar nicht unterliefen. Auch der Umstand, das AlphaStar in jedem Spiel einen anderen strategischen Ansatz verfolgte ließ „MaNa“ nervös werden. In den ersten 5 Spielen war dann noch das exzellente Mikromanagement der Einheiten im Kampf. Für das Match im Januar kritisierte „MaNa“ bei dem DeepMind-Team die „ausgezoomt“ Sicht der KI auf die Karte. Die Kritik wurde anerkannt und der neue Agent, der im Live übertragenen Januar-Spiel angetreten ist, war auf dieselbe Sicht der Karte beschränkt, die auch dem menschlichen Spieler zur Verfügung steht.

[vcex_spacing size="10px"]

Vor dem Endspiel haben sich „TLO“ und „MaNa“ über die beste strategische vorgensweise ausgetauscht. Beiden ist aufgefallen, das bis dahin alle KI-Agenten aus den vorherigen 10 Spielen an grundlegenden leichten Einheiten festhalten und auf ihr ausgezeichnetes Mikromanagement vertrauen. Diesen Umstand wollte MaNa ausnutzen und, ähnlich wie in Match 4, durch weniger Fehler, eine defensive Taktik und dann später durch eine bessere Auswahl von Einheiten gewinnen. Genau das geschah dann auch, „MaNa“ konnte sich zu Beginn des Spiels halten und baute sehr Effizient sehr starke Einheiten. AlphaStar machte auch einen Fehler, der in den ersten 10 Spielen nicht vorkam, und ließ sich durch eine fliegende Einheit unnötigerweise im eigenen Lager immer wieder ärgern.

Die menschlichen Profis waren aufgrund der kreativen Spielweise DeepStars fasziniert und es soll beiden auch viel für die eigene Entwicklung gebracht haben. DeepStar fühlte sich teilweise wie ein menschlicher Spieler an, es wurden aber immer wieder strategische Entscheidungen getroffen, die so von menschlichen Spielern selten gemacht werden, aber sehr effektiv werden. AlphaStar hat auch mehr Arbeiter genutzt als bei den Pros sonst üblich, das verschafft Alpha-Star eine sehr stabile Wirtschaft und diese Strategie wird wohl auch in Zukunft von menschlichen Spielern mehr genutzt werden.

[vcex_spacing size="10px"]

Quelle Beitragsbild: deepmind.com