Reduktions-Operator
In der Informatik bezeichnet ein Reduktions-Operator (englisch: Reduction Clause) einen Operator, welcher oft in der parallelen Programmierung eingesetzt wird, um Elemente eines Arrays auf ein einzelnes Ergebnis zu reduzieren. Reduktions-Operatoren sind assoziativ und häufig (aber nicht immer) kommutativ.[1][2][3] Die Reduktion von Mengen ist ein wichtiger Bestandteil von Programmiermodellen wie MapReduce, in welchen ein Reduktions-Operator auf alle Elemente angewendet wird, bevor sie reduziert werden. Andere parallele Algorithmen benutzen Reduktions-Operatoren als primäre Operationen, um komplexere Probleme zu lösen. Viele dieser Operatoren können auch benutzt werden, um Daten auf alle Prozessoren zu verteilen.
Theorie
BearbeitenEin Reduktions-Operator kann dabei helfen, ein Problem in viele Teilprobleme aufzuteilen, indem die Lösungen der Teilprobleme genutzt werden, um das finale Ergebnis zu erhalten. Sie ermöglichen es, bestimmte serielle Operationen parallel auszuführen und dadurch die Anzahl der notwendigen Berechnungsschritte zu reduzieren. Ein Reduktions-Operator speichert die Ergebnisse der Teilprobleme in einer privaten Kopie der Variable. Diese privaten Kopien werden am Ende zu einer gemeinsamen Kopie zusammengeführt.
Ein Operator ist ein Reduktions-Operator, falls
- er ein Array auf einen einzelnen Wert reduzieren kann[1] und
- das finale Ergebnis aus den Teilergebnissen erhalten werden kann.[1]
Diese beiden Voraussetzungen sind für kommutative und assoziative Operatoren erfüllt, welche auf alle Elemente des Arrays angewendet werden.
Beispiele hierfür sind die Addition und Multiplikation sowie bestimmte logische Operatoren (und, oder etc.).
Ein Reduktions-Operator kann in konstanter Zeit auf eine Menge
von Vektoren mit jeweils Elementen angewendet werden. Das Ergebnis der Operation ist die Kombination der Elemente
und muss nach der Ausführung bei einem designierten Prozessor gespeichert werden. Wenn das Ergebnis auf allen Prozessoren zur Verfügung stehen soll, wird dies oft Allreduce genannt. Ein optimaler sequenzieller Linearzeit-Algorithmus für Reduktion kann nach und nach von vorne nach hinten angewendet werden, wobei jeweils zwei Vektoren mit dem Ergebnis der Operation auf diese Vektoren ersetzt werden, wobei die Menge der Vektoren jedes Mal um eins reduziert wird. Hierfür werden Schritte benötigt. Sequenzielle Algorithmen sind nicht schneller als Linearzeit-Algorithmen, parallele Algorithmen hingegen können die Laufzeit verkürzen.
Beispiel
BearbeitenGegeben sei ein Array . Die Summe des gesamten Arrays kann seriell berechnet werden, indem das Array sequenziell auf eine einzelne Summe mit Hilfe des '+' Operators reduziert wird. Startet man von vorne, ergibt sich folgende Berechnung:
Da '+' sowohl assoziativ als auch kommutativ ist, ist '+' ein Reduktions-Operator. Daher kann diese Reduktion auch parallel auf mehreren Kernen erfolgen, wobei jeder Kern nur die Summe einer Teilmenge des Arrays berechnet und der Reduktions-Operator diese Teilergebnisse zusammenführt. Mit Hilfe eines Binärbaums können auf 4 Kernen jeweils , , und berechnet werden. Daraufhin können zwei Kerne und berechnen und am Ende berechnet ein einzelner Kern . Mit 4 Kernen kann die Summe also in statt Schritten berechnet werden, wie es bei dem seriellen Algorithmus der Fall ist. Der Algorithmus berechnet , was auf Grund der Assoziativität der Addition dem gleichen Ergebnis entspricht. Die Kommutativität wäre wichtig, wenn es einen Hauptkern gäbe, welcher die Teilaufgaben auf andere Kerne verteilt, da hierbei die Teilergebnisse in unterschiedlicher Reihenfolgen zurückkommen könnten. Die Eigenschaft der Kommutativität würde hier garantieren, dass das Ergebnis weiterhin das Gleiche ist.
Gegenbeispiel
BearbeitenMatrixmultiplikation ist kein Reduktions-Operator, da diese Operation nicht kommutativ ist. Würden die Kerne ihre Teilergebnisse in beliebiger Reihenfolge zurückgeben, wäre das Endergebnis höchstwahrscheinlich falsch. Allerdings ist Matrixmultiplikation assoziativ, weshalb das Endergebnis korrekt ist, wenn man dafür sorgt, dass die Teilergebnisse in der richtigen Reihenfolge sind. Dies ist bei der Benutzung von Binärbäumen der Fall.
Algorithmen
BearbeitenBinomial-Baum Algorithmen
BearbeitenBezüglich der parallelen Algorithmen gibt es hauptsächlich zwei Modelle, die Parallel Random Access Machine als eine Erweiterung des Arbeitsspeichers mit gemeinsamen Speicher zwischen den Kernen und Bulk Synchronous Parallel Computers, bei welchen die Kerne kommunizieren und synchronisiert werden. Beide Modelle haben unterschiedliche Effekte auf die Zeitkomplexität, weshalb hier beide vorgestellt werden.
PRAM-Algorithmus
BearbeitenDieser Algorithmus nutzt eine weit verbreitete Methode, wobei eine Zweierpotenz ist. Eine Umkehrung wird häufig genutzt um die Elemente zu verteilen.[4][5][6]
- for to do
- for to do in parallel
- if is active then
- if bit of is set then
- set to inactive
- else if
- if bit of is set then
- if is active then
- for to do in parallel
Der binäre Operator für Vektoren ist elementweise definiert, sodass
- .
Der Algorithmus beruht außerdem auf den Annahmen, dass am Anfang für alle gilt und dass die Kerne genutzt werden. In jeder Iteration wird die Hälfte der Kerne inaktiv, diese tragen nicht mehr zur Berechnung bei. Die Animation zeigt eine Visualisierung des Algorithmus mit Addition als Operator. Senkrechte Linien stellen die Kerne dar, in welchen die Berechnung der Elemente auf der Linie berechnet werden. Unten sind die acht Elemente der Eingabe dargestellt. Jeder Schritt in der Animation entspricht einem parallelen Schritt in der Ausführung des Algorithmus. Ein aktiver Kern wendet den Operator auf ein für ihn lokal verfügbares Element sowie an, wobei der kleinste Index mit ist, sodass im aktuellen Schritt inaktiv wird. und sind nicht notwendigerweise Teil der Eingabe, da diese Speicherstellen überschrieben und für vorher berechnete Ausdrücke wiederverwendet werden. Um die Kerne untereinander zu koordinieren ohne weiteren Aufwand durch Kommunikation zwischen ihnen zu verursachen, macht sich der Algorithmus die Indexierung der Kerne durch bis zunutze. Jeder Kern macht von seinem -ten least significant bit abhängig, ob er inaktiv wird oder den Operator auf sein eigenes Element sowie das Element mit dem Index, bei welchem das -te last significant bit nicht gesetzt ist, anwendet. Das zugrundeliegende Schema hierfür ist ein Bionomial-Baum, daher der Name des Algorithmus.
Am Ende das Algorithmus liegt das Ergebnis nur vor. Für eine Allreduce-Operation muss das Ergebnis allen Kernen vorliegen, was durch einen anschließenden Broadcast ermöglicht wird. Die Anzahl der Kerne sollte eine Zweierpotenz sein, ansonsten kann die Anzahl bis zur nächsten Zweierpotenz aufgefüllt werden. Es gibt Algorithmen, welche speziell auf diesen Fall zugeschnitten sind.[7]
Laufzeitanalyse
BearbeitenDie äußerste Schleife wird Mal ausgeführt. Die Zeit für jeden parallelen Durchlauf liegt in , da jeder Kern entweder zwei Vektoren kombiniert oder inaktiv wird. Daher gilt für die parallele Zeit . Um Schreib-Lese-Konflikte zu vermeiden, kann Exclusive Read, Exclusive Write verwendet werden. Für den Speedup gilt
- ,
daher gilt für die Effizienz
- .
Die Effizienz leidet unter der Tatsache, dass in jedem Schritt die Hälfte aller Kerne inaktiv wird, d. h. im Schritt sind Kerne aktiv.
Verteilte Speicher Algorithmen
BearbeitenIm Gegensatz zu den PRAM-Algorithmen, teilen sich die Kerne hier keinen gemeinsamen Speicher. Daher müssen die Daten explizit zwischen den Kernen ausgetauscht werden, wie der folgende Algorithmus zeigt.
- for to do
- for to do in parallel
- if is active then
- if bit of is set then
- send to
- set to inactive
- else if
- receive
- if bit of is set then
- if is active then
- for to do in parallel
Der einzige Unterschied zu der PRAM Version von oben liegt in der Verwendung von expliziten Primitiven für die Kommunikation. Das Prinzip bleibt jedoch das gleiche.
Laufzeitanalyse
BearbeitenDie Kommunikation zwischen den Kernen verursacht etwas Overhead. Eine einfache Analyse des Algorithmus nutzt das BSP-Modell und beachtet die notwendige Zeit , um einen Datenaustausch zu initiieren sowie die notwendige Zeit , um ein Byte Daten zu senden. Die resultierende Laufzeit ist dann , wobei Elemente eines Vektors die Größe haben.
Pipeline Algorithmus
BearbeitenFür die verteilte Speicher Modelle kann es Sinn ergeben, die Daten in Form einer Pipeline auszutauschen. Dies gilt insbesondere, wenn klein im Vergleich zu ist. Normalerweise teilen lineare Pipelines die Daten in kleinere Teile auf und verarbeiten diese stufenweise. Im Gegensatz zu den Bionomial-Baum Algorithmen macht sich der Pipeline Algorithmus die Tatsache zunutze, dass Vektoren nicht untrennbar sind: Der Operator kann auch auf einzelne Elemente anwendet werden.[8]
- for to do
- for to do in parallel
- if
- send to
- if
- receive from
- if
- for to do in parallel
Es ist wichtig, dass das Senden und Empfangen gleichzeitig ausgeführt wird, damit der Algorithmus korrekt funktioniert. Das Ergebnis befindet sich am Ende in . Die Animation zeigt die Ausführung des Algorithmus auf Vektoren der Größe 4 mit 5 Kernen. Zwei Schritte in der Animation entsprechen einem Schritt in der parallelen Ausführung.
Laufzeitanalyse
BearbeitenDie Anzahl der Schritt in der parallelen Ausführung beträgt , es braucht Schritte, bis der letzte Kern sein erstes Element erhält und weitere Schritte, bis alle Elemente angekommen sind. Im BSP-Modell beträgt die Laufzeit daher , wobei die Größe eines Vektors in Bytes ist.
Auch wenn ein fester Wert ist, so ist es möglich, Elemente von Vektoren logisch zu gruppieren und dadurch zu reduzieren. Zum Beispiel kann eine Probleminstanz mit Vektoren der Länge vier gelöst werden, indem die Vektoren in ihre ersten und letzten beiden Elemente aufgeteilt werden, welche dann immer gemeinsam gesendet und verrechnet werden. In diesem Fall werden in jedem Schritt doppelt so viele Daten gesendet, allerdings hat sich die Anzahl der Schritte etwa auf die Hälfte verringert. ist also halbiert, während die Größe in Bytes gleich bleibt. Die Laufzeit für diesen Ansatz hängt also von ab, was optimiert werden kann, wenn und bekannt sind. Es ist optimal für
- ,
wobei angenommen wird, dass dies in einem kleineren resultiert, welches das ursprüngliche teilt.
Anwendungen
BearbeitenReduktion ist eine der wichtigsten kollektiven Operationen im Message Passing Interface, wo die Leistung des genutzten Algorithmus wichtig ist und ständig für verschiedene Anwendungsfälle ausgewertet wird.[9] Operatoren können als Parameter für MPI_Reduce
und MPI_Allreduce
verwendet werden, wobei der Unterschied darin liegt, ob das Ergebnis am Ende in allen oder nur einem Kern vorliegt.
Für MapReduce sind effiziente Reduktions-Algorithmen wichtig, um große Datensätze zu verarbeiten, auch in großen Clustern.[10][11]
Manche parallele Sortieralgorithmen nutzen Reduktionen um große Datensätze zu verarbeiten.[12]
Literatur
Bearbeiten- Rohit Chandra: Parallel Programming in OpenMP. Morgan Kaufmann, 2001, ISBN 1-55860-671-8, S. 59–77.
- Yan Solihin: Fundamentals of Parallel Multicore Architecture. CRC Press, 2016, ISBN 978-1-4822-1118-4, S. 75.
Weblinks
Bearbeiten- Reduction Clause, Reference to reduction clause
Einzelnachweise
Bearbeiten- ↑ a b c Solihin
- ↑ Chandra p. 59
- ↑ Murray Cole: Bringing skeletons out of the closet: a pragmatic manifesto for skeletal parallel programming. In: Parallel computing. 30. Jahrgang, 2004, S. 393.
- ↑ Amotz Bar-Noy, Shlomo Kipnis: Broadcasting multiple messages in simultaneous send/receive systems. In: Discrete Applied Mathematics. 55. Jahrgang, Nr. 2, 1994, S. 95–105, doi:10.1016/0166-218x(94)90001-9.
- ↑ Eunice E. Santos: Optimal and Efficient Algorithms for Summing and Prefix Summing on Parallel Machines. In: Journal of Parallel and Distributed Computing. 62. Jahrgang, Nr. 4, 2002, S. 517–543, doi:10.1006/jpdc.2000.1698.
- ↑ P. Slater, E. Cockayne, S. Hedetniemi: Information Dissemination in Trees. In: SIAM Journal on Computing. 10. Jahrgang, Nr. 4, 1. November 1981, ISSN 0097-5397, S. 692–701, doi:10.1137/0210052.
- ↑ Rolf Rabenseifner, Jesper Larsson Träff: More Efficient Reduction Algorithms for Non-Power-of-Two Number of Processors in Message-Passing Parallel Systems. In: Lecture Notes in Computer Science. Band 3241. Springer, Berlin, Heidelberg 2004, ISBN 978-3-540-23163-9, Recent Advances in Parallel Virtual Machine and Message Passing Interface, S. 36–46, doi:10.1007/978-3-540-30218-6_13 (englisch).
- ↑ A. Bar-Noy, S. Kipnis: Designing broadcasting algorithms in the postal model for message-passing systems. In: Mathematical Systems Theory. 27. Jahrgang, Nr. 5, 1. September 1994, ISSN 0025-5661, S. 431–452, doi:10.1007/BF01184933 (englisch).
- ↑ Jelena Pješivac-Grbović, Thara Angskun, George Bosilca, Graham E. Fagg, Edgar Gabriel, Jack J. Dongarra: Performance analysis of MPI collective operations. In: Cluster Computing. 10. Jahrgang, Nr. 2, 1. Juni 2007, ISSN 1386-7857, S. 127–143, doi:10.1007/s10586-007-0012-0 (englisch).
- ↑ Ralf Lämmel: Google's MapReduce programming model — Revisited. In: Science of Computer Programming. 70. Jahrgang, Nr. 1, 2008, S. 1–30, doi:10.1016/j.scico.2007.07.001 (englisch).
- ↑ Hermes Senger, Veronica Gil-Costa, Luciana Arantes, Cesar A. C. Marcondes, Mauricio Marín, Liria M. Sato, Fabrício A.B. da Silva: BSP cost and scalability analysis for MapReduce operations. In: Concurrency and Computation: Practice and Experience. 28. Jahrgang, Nr. 8, 10. Juni 2016, ISSN 1532-0634, S. 2503–2527, doi:10.1002/cpe.3628 (englisch).
- ↑ Michael Axtmann, Timo Bingmann, Peter Bingmann, Christian Schulz: Practical Massively Parallel Sorting. 27th ACM Symposium on Parallelism in Algorithms and Architectures. In: Proceedings of the 27th ACM Symposium on Parallelism in Algorithms and Architectures. 24. Oktober 2014, S. 13–23, doi:10.1145/2755573.2755595 (englisch).