OpenAI Five ist ein Computerprogramm von OpenAI, das das 5-vs.-5-MOBA Dota 2 spielt. Sein erster öffentlicher Auftritt fand 2017 statt, als es live in einem 1-vs.-1-Match gegen den Profispieler Dendi vorgeführt wurde, der gegen es verlor. Im darauffolgenden Jahr war das System so weit fortgeschritten, dass es als komplettes Team von fünf Spielern auftreten konnte und begann, gegen professionelle Teams zu spielen und diese zu besiegen.

Durch die Wahl eines so komplexen Spiels wie Dota 2 zur Untersuchung des maschinellen Lernens glaubte OpenAI, die Unvorhersehbarkeit und Kontinuität in der realen Welt genauer erfassen und so allgemeinere Problemlösungssysteme konstruieren zu können. Die Algorithmen und der Code von OpenAI Five wurden schließlich von einem anderen neuronalen Netzwerk übernommen, das sich in der Entwicklung des Unternehmens befand und eine physische Roboterhand steuerte. OpenAI Five wurde mit anderen ähnlichen Fällen verglichen, in denen künstliche Intelligenz (KI) gegen Menschen spielte und sie besiegte, wie AlphaStar im Videospiel StarCraft II, AlphaGo im Brettspiel Go und Deep Blue im Schach.

Geschichte

Bearbeiten

Die Entwicklung der für die Bots verwendeten Algorithmen begann im November 2016. OpenAI entschied sich für Dota 2, ein wettbewerbsfähiges 5-vs.-5-Videospiel, als Basis, da es auf der Live-Streaming-Plattform Twitch beliebt ist, Linux nativ unterstützt und über eine Anwendungsprogrammierschnittstelle (API) verfügt.[1]

Bevor das Team zu einem Fünferteam wurde, fand die erste öffentliche Demonstration bei The International 2017 im August statt, dem jährlichen ersten Meisterschaftsturnier für das Spiel, bei dem Dendi, ein ukrainischer Profispieler, gegen einen OpenAI-Bot in einem Live-Einzelmatch verlor.[2][3] Nach dem Match erklärte CTO Greg Brockman, dass der Bot zwei Wochen lang in Echtzeit gegen sich selbst gespielt und gelernt habe und dass die Lernsoftware ein Schritt in Richtung der Entwicklung von Software sei, die komplexe Aufgaben bewältigen könne, „wie ein Chirurg“.[4][5] OpenAI verwendete eine Methode namens „Reinforcement Learning“, da die Bots im Laufe der Zeit lernen, indem sie monatelang hunderte Male am Tag gegen sich selbst spielen, wobei sie für Aktionen wie das Töten eines Gegners und das Zerstören von Türmen belohnt werden.[6][7]

Im Juni 2018 wurde die Fähigkeit der Bots so erweitert, dass sie als vollständiges Team von fünf Spielern zusammenspielen und Teams aus Amateur- und semiprofessionellen Spielern besiegen konnten.[8][9][10] Bei The International 2018 spielte OpenAI Five in zwei Spielen gegen professionelle Teams, eines gegen das in Brasilien ansässige paiN Gaming und das andere gegen ein All-Star-Team aus ehemaligen chinesischen Spielern.[11] Obwohl die Bots beide Spiele verloren, betrachtete OpenAI es als erfolgreiches Unterfangen und gab an, dass das Spielen gegen einige der besten Spieler in Dota 2 es ihnen ermöglichte, ihre Algorithmen für zukünftige Spiele zu analysieren und anzupassen.[12] Die letzte öffentliche Demonstration der Bots fand im April 2019 statt, als sie bei einem Live-Event in San Francisco eine Best-of-Three-Serie gegen den Champion von The International 2018, OG, gewannen.[13] Im selben Monat fand ein viertägiges, öffentliches Online-Event statt, bei dem die Bots gegeneinander antraten.[14] Dort spielten die Bots in 42.729 öffentlichen Spielen und gewannen 99,4 % dieser Spiele.[15]

Architektur

Bearbeiten

Jeder OpenAI Five-Bot ist ein neuronales Netzwerk, das eine einzelne Schicht mit einem LSTM mit 4096 Einheiten[16] enthält, die den aktuellen Spielzustand beobachtet, der aus der API des Dota-Entwicklers gewonnen wird. Das neuronale Netzwerk führt Aktionen über zahlreiche mögliche Aktionsköpfe aus (ohne menschliche Daten), und jeder Kopf hat eine Bedeutung. Zum Beispiel die Anzahl der Ticks, um eine Aktion zu verzögern, welche Aktion auszuwählen ist - die X- oder Y-Koordinate dieser Aktion in einem Raster um die Einheit. Darüber hinaus werden die Aktionsköpfe unabhängig voneinander berechnet. Das KI-System betrachtet die Welt als eine Liste von 20.000 Zahlen und führt eine Aktion durch, indem es eine Liste von acht Aufzählungswerten ausführt. Außerdem wählt es verschiedene Aktionen und Ziele aus, um zu verstehen, wie jede Aktion zu kodieren und die Welt zu beobachten ist.[17]

OpenAI Five wurde als Allzweck-Trainingssystem für verstärkendes Lernen auf der „Rapid“-Infrastruktur entwickelt. Rapid besteht aus zwei Schichten: Es bringt Tausende von Rechnern in Gang und hilft ihnen, miteinander zu „reden“, und auf einer zweiten Schicht läuft Software. Bis 2018 hat OpenAI Five rund 180 Jahre an Spielen im Bereich des Reinforcement Learning gespielt, die auf 256 GPUs und 128.000 CPU-Kernen,[18] unter Verwendung der Proximal Policy Optimization, einer Policy-Gradienten-Methode, ausgeführt wurden.[19][20]

Vergleichstabelle
OpenAI 1v1 bot (2017) OpenAI Five (2018)
CPUs 60,000 CPU Kerne (Microsoft Azure) 128,000 präemptive CPU Kerne (Google Cloud Platform, GCP)
GPUs 256 K80 GPUs (Azure) 256 P100 GPUs (GCP)
Gesammelte Erfahrung ~300 Jahre pro Tag ~180 Jahre pro Tag
Beobachtungsfeld ~3.3kB ~36.8kB
Schnappschüsse pro Sekunde 10 7.5
Batchgröße 8,388,608 Beobachtungen 1,048,576 Beobachtungen
Batches pro Minute ~20 ~60

Vergleich mit anderen KI-Systemen

Bearbeiten

Vor OpenAI Five wurden bereits andere KI-Experimente und -Systeme erfolgreich gegen Menschen eingesetzt, z. B. Jeopardy! mit Watson, Schach mit Deep Blue und Go mit AlphaGo.[21][22][23] Im Vergleich zu anderen Spielen, bei denen KI-Systeme gegen menschliche Spieler eingesetzt wurden, unterscheidet sich Dota 2 wie folgt:[24]

Langfristige Betrachtung: Die Bots laufen mit 30 Bildern pro Sekunde bei einer durchschnittlichen Spielzeit von 45 Minuten, was 80.000 Ticks pro Spiel ergibt. OpenAI Five beobachtet jedes vierte Bild und erzeugt so 20.000 Züge. Zum Vergleich: Schach endet in der Regel vor 40 Zügen, während Go vor 150 Zügen endet.

Teilweise beobachteter Zustand des Spiels: Die Spieler und ihre Verbündeten können nur die Karte direkt um sich herum sehen. Der Rest der Karte ist von einem Kriegsnebel bedeckt, der die gegnerischen Einheiten und ihre Bewegungen verbirgt. Um Dota 2 zu spielen, muss man also auf der Grundlage dieser unvollständigen Daten Schlüsse ziehen und vorhersagen, was der Gegner zur gleichen Zeit tun könnte. Im Vergleich dazu sind Schach und Go „Vollinformationsspiele“, da sie keine Elemente vor dem gegnerischen Spieler verbergen.[25]

Kontinuierlicher Aktionsraum: Jeder spielbare Charakter in einem Dota 2-Spiel, ein sogenannter Held, kann Dutzende von Aktionen ausführen, die entweder auf eine andere Einheit oder eine Position abzielen. Die OpenAI Five-Entwickler lassen den Raum für 170.000 mögliche Aktionen pro Held. Ohne die ständigen Aspekte des Spiels mitzuzählen, gibt es durchschnittlich ~1.000 gültige Aktionen pro Tick. Zum Vergleich: Die durchschnittliche Anzahl der Aktionen beim Schach beträgt 35 und beim Go 250.

Kontinuierlicher Beobachtungsraum: Dota 2 wird auf einer großen Karte mit zehn Helden, fünf pro Team, sowie Dutzenden von Gebäuden und Einheiten von Nicht-Spieler-Charakteren (NPC) gespielt. Das OpenAI-System beobachtet den Zustand eines Spiels über die Bot-API der Entwickler in Form von 20.000 Zahlen, die alle Informationen darstellen, zu denen ein Mensch Zugang haben darf. Ein Schachbrett wird durch etwa 70 Listen dargestellt, während ein Go-Brett etwa 400 Aufzählungen hat.

Aufnahme durch die Öffentlichkeit

Bearbeiten

Die OpenAI Five wurden von der KI-, Technologie- und Videospielgemeinde allgemein anerkannt. Microsoft-Gründer Bill Gates sprach von einer „großen Sache“, da ihre Siege „Teamwork und Zusammenarbeit“ erforderten.[26][27] Der Schachspieler Garry Kasparow, der 1997 gegen die KI Deep Blue verlor, erklärte, dass die Bots trotz ihrer Niederlage bei The International 2018 schließlich „das Ziel erreichen werden, und zwar früher als erwartet“.[28]

In einem Gespräch mit MIT Technology Review bezeichneten KI-Experten das OpenAI Five-System ebenfalls als bedeutende Errungenschaft, da sie anmerkten, dass Dota 2 ein „extrem kompliziertes Spiel“ sei, so dass selbst der Sieg gegen nicht-professionelle Spieler beeindruckend sei.[29] PC Gamer schrieb, dass ihre Siege gegen professionelle Spieler ein bedeutendes Ereignis im Bereich des maschinellen Lernens seien.[30] Im Gegensatz dazu schrieb Motherboard, dass der Sieg aufgrund der vereinfachten Heldenpools auf beiden Seiten sowie der Tatsache, dass die Bots direkten Zugriff auf die API hatten, im Gegensatz zur Verwendung von Computer Vision zur Interpretation der Pixel auf dem Bildschirm, „im Grunde genommen Betrug“ war.[31] The Verge schrieb, dass die Bots ein Beweis dafür waren, dass der Ansatz des Unternehmens zum Reinforcement Learning und seine allgemeine Philosophie über KI „Meilensteine hervorbringt“.[32]

Im Jahr 2019 stellte DeepMind einen ähnlichen Bot für Starcraft II vor, AlphaStar. Wie OpenAI Five nutzte AlphaStar Verstärkungslernen und Selbstspiel. The Verge berichtet, dass „das Ziel dieser Art von KI-Forschung nicht nur darin besteht, Menschen in verschiedenen Spielen zu besiegen, nur um zu beweisen, dass es möglich ist. Vielmehr geht es darum, zu beweisen, dass hochentwickelte KI-Software mit genügend Zeit, Mühe und Ressourcen den Menschen in praktisch jeder kognitiven Herausforderung schlagen kann, sei es ein Brettspiel oder ein modernes Videospiel.“ Sie fügten hinzu, dass die Siege von DeepMind und OpenAI auch ein Beweis für die Leistungsfähigkeit bestimmter Anwendungen des verstärkenden Lernens sind.[33]

OpenAI hoffte, dass die Technologie auch außerhalb des digitalen Bereichs Anwendung finden könnte. Im Jahr 2018 konnten sie dieselben Algorithmen für das verstärkte Lernen und den Trainingscode von OpenAI Five für Dactyl wiederverwenden, eine menschenähnliche Roboterhand mit einem neuronalen Netzwerk, das für die Manipulation physischer Objekte entwickelt wurde.[34] 2019 löste Dactyl den Rubik-Würfel.[35]

Bearbeiten

Einzelnachweise

Bearbeiten
  1. OpenAI: OpenAI Five. In: openai.com/five. Abgerufen am 10. Oktober 2018 (englisch).
  2. Vlad Savov: My favorite game has been invaded by killer AI bots and Elon Musk hype. In: The Verge. 14. August 2017, abgerufen am 25. Juli 2018 (englisch).
  3. Blair Hanley Frank: OpenAI's bot beats top Dota 2 player so badly that he quits. In: Venture Beat. Archiviert vom Original am 12. August 2017; abgerufen am 12. August 2017 (englisch).
  4. OpenAI: Dota 2. In: blog.openai.com. 11. August 2017, abgerufen am 12. August 2017 (englisch).
  5. OpenAI: More on Dota 2. In: blog.openai.com. 16. August 2017, abgerufen am 16. August 2017 (englisch).
  6. Jeremy Kahn: A Bot Backed by Elon Musk Has Made an AI Breakthrough in Video Game World In: Bloomberg.com, 25. Juni 2018. Abgerufen am 27. Juni 2018 (englisch). 
  7. Bill Gates says gamer bots from Elon Musk-backed nonprofit are 'huge milestone' in A.I. In: CNBC. 28. Juni 2018, abgerufen am 28. Juni 2018 (englisch).
  8. OpenAI: OpenAI Five Benchmark. In: blog.openai.com. 18. Juli 2018, abgerufen am 25. August 2018 (englisch).
  9. James Vincent: AI bots trained for 180 years a day to beat humans at Dota 2. In: The Verge. 25. Juni 2018, abgerufen am 27. Juni 2018 (englisch).
  10. Vlad Savov: The OpenAI Dota 2 bots just defeated a team of former pros. In: The Verge. 6. August 2018, abgerufen am 7. August 2018 (englisch).
  11. Katyanna Quach: Game over, machines: Humans defeat OpenAI bots once again at video games Olympics. In: The Register. Abgerufen am 25. Juni 2018 (englisch).
  12. OpenAI: The International 2018: Results. In: blog.openai.com. 24. Juni 2018, abgerufen am 25. Juni 2018 (englisch).
  13. Kyle Wiggers: OpenAI Five defeats professional Dota 2 team, twice. In: Venture Beat. 13. April 2019, abgerufen am 13. April 2019 (englisch).
  14. Nick Statt: OpenAI's Dota 2 AI steamrolls world champion e-sports team with back-to-back victories In: The Verge, Vox Media, 13. April 2019. Abgerufen am 15. April 2019 (englisch). 
  15. Kyle Wiggers: OpenAI's Dota 2 bot defeated 99.4% of players in public matches. In: Venture Beat. 22. April 2019, abgerufen am 22. April 2019 (englisch).
  16. Dota 2 with Large Scale Deep Reinforcement Learning. In: OpenAI. Abgerufen am 29. September 2024 (englisch).
  17. OpenAI: OpenAI Five. In: blog.openai.com. 25. Juni 2018, abgerufen am 25. Juni 2018 (englisch).
  18. Why are AI researchers so obsessed with games? In: QUARTZ. 4. Juni 2018, abgerufen am 4. Juni 2018 (englisch).
  19. OpenAI: OpenAI Five. In: blog.openai.com. 25. Juni 2018, abgerufen am 25. Juni 2018 (englisch).
  20. H. M. Sommer, D. Kaiser, E. Drack: pH and bicarbonate excretion in the rat parotid gland as a function of salivary rate. In: Pflugers Archiv: European Journal of Physiology. Band 355, Nr. 4, 2. April 1975, ISSN 0031-6768, S. 353–360, doi:10.1007/BF00579856, PMID 1707.
  21. Adam Gabbatt: IBM computer Watson wins Jeopardy clash, 17. Februar 2011 (englisch). 
  22. Chess grandmaster Garry Kasparov on what happens when machines 'reach the level that is impossible for humans to compete'. In: Business Insider. Abgerufen am 29. Dezember 2017 (englisch).
  23. DeepMind's Go-playing AI doesn't need human help to beat us anymore. In: Verge. 18. Oktober 2017, abgerufen am 18. Oktober 2017 (englisch).
  24. OpenAI: OpenAI Five. In: blog.openai.com. 27. Juni 2018, abgerufen am 25. Juni 2018 (englisch).
  25. Will Knight: A team of AI algorithms just crushed humans in a complex computer game. In: MIT Tech Review. 25. Juni 2018, abgerufen am 25. Juni 2018 (englisch).
  26. Bill Gates says gamer bots from Elon Musk-backed nonprofit are 'huge milestone' in A.I. In: CNBC. 28. Juni 2018, abgerufen am 28. Juni 2018 (englisch).
  27. Bill Gates hails 'huge milestone' for AI as bots work in a team to destroy humans at video game 'Dota 2'. In: Business Insider. Abgerufen am 27. Juni 2018 (englisch).
  28. Garry Kasparov's Twitter. 24. August 2018, abgerufen am 24. August 2018 (englisch).
  29. Will Knight: A team of AI algorithms just crushed humans in a complex computer game. In: MIT Tech Review. 25. Juni 2018, abgerufen am 25. Juni 2018 (englisch).
  30. Morgan Park: How the OpenAI Five tore apart a team of Dota 2 pros In: PC Gamer, 11. August 2018. Abgerufen am 25. Mai 2020 (englisch). 
  31. Matthew Gault: OpenAI Is Beating Humans at 'Dota 2' Because It's Basically Cheating In: Vice, 17. August 2018. Abgerufen am 25. Mai 2020 (englisch). 
  32. Nick Statt: OpenAI's Dota 2 AI steamrolls world champion e-sports team with back-to-back victories In: The Verge, Vox Media, 13. April 2019. Abgerufen am 15. April 2019 (englisch). 
  33. Nick Statt: DeepMind's StarCraft 2 AI is now better than 99.8 percent of all human players In: The Verge, 30. Oktober 2019. Abgerufen am 25. Mai 2020 (englisch). 
  34. OpenAI, Marcin Andrychowicz, Bowen Baker, Maciek Chociej, Rafal Jozefowicz, Bob McGrew, Jakub Pachocki, Arthur Petron, Matthias Plappert, Glenn Powell, Alex Ray, Jonas Schneider, Szymon Sidor, Josh Tobin, Peter Welinder, Lilian Weng, Wojciech Zaremba: Learning Dexterous In-Hand Manipulation. 2018, doi:10.48550/ARXIV.1808.00177 (github.io [PDF; abgerufen am 15. Oktober 2024]).
  35. A. Lun, D. Strauss: [The significance of oxygen transport function in preserved erythrocytes for patients]. In: Zeitschrift Fur Arztliche Fortbildung. Band 69, Nr. 19, 1. Oktober 1975, ISSN 0044-2178, S. 1001–1008, PMID 1910.