XGBoost

XGBoost
Basisdaten
Entwickler	XGBoost Community
Erscheinungsjahr	2014
Aktuelle Version	2.1.3 ; (26. November 2024)
Betriebssystem	Linux, macOS, Windows
Programmiersprache	C++
Kategorie	Maschinelles Lernen
Lizenz	Apache License 2.0
	https://xgboost.ai/

XGBoost^[2] (eXtreme Gradient Boosting) ist eine Open-Source-Softwarebibliothek, die ein Gradient-Boosting-Verfahren für die Programmiersprachen C++, Java, Python,^[3] R,^[4] Julia,^[5] Perl^[6] und Scala zur Verfügung stellt. Es funktioniert mit den Betriebssystemen Linux, Windows^[7] und macOS^[8] sowohl auf einer einzelnen Maschine als auch auf verteilten Verarbeitungsframeworks wie Apache Hadoop, Apache Spark, Apache Flink und Dask.^[9]^[10] Das Framework stellt eine „skalierbare, portierbare und verteilte Gradient Boosting (GBM, GBRT oder GBDT) Bibliothek“ bereit.

XGBoost hat im Jahr 2016 viel Popularität und Aufmerksamkeit erlangt, da es der Algorithmus der Wahl für viele Siegerteams von Wettbewerben für maschinelles Lernen ist.^[11]

Geschichte

XGBoost wurde ursprünglich als Forschungsprojekt von Tianqi Chen im Rahmen der Distributed-(Deep) Machine-Learning-Common (DMLC)-Gruppe gestartet. Anfänglich war es eine Terminalanwendung, die mithilfe einer libsvm-Konfigurationsdatei konfiguriert werden konnte.^[12] Es wurde in den Kreisen der ML-Wettbewerbe bekannt, nachdem es in der Siegerlösung der Higgs Machine Learning Challenge verwendet worden war.^[13] Bald darauf wurden die Python- und R-Pakete erstellt, und XGBoost hat nun Paketimplementierungen für Java, Scala, Julia, Perl und andere Sprachen. Dies machte die Bibliothek für mehr Entwickler zugänglich und trug zu ihrer Popularität in der Kaggle-Gemeinschaft bei, wo sie bisher für eine große Anzahl von Wettbewerben verwendet wurde.^[11]

Es wurde bald in eine Reihe anderer Pakete integriert, um die Nutzung in den jeweiligen Communities zu erleichtern. Für Python-Nutzer wurde es nun in scikit-learn und für R-Nutzer in das caret-Paket integriert.^[14] Es kann auch in Datenfluss-Frameworks wie Apache Spark, Apache Hadoop und Apache Flink unter Verwendung der abstrahierten Rabit^[15] und XGBoost4J integriert werden.^[16] XGBoost ist auch auf OpenCL für FPGAs verfügbar.^[17] Eine effiziente, skalierbare Implementierung von XGBoost wurde von Tianqi Chen und Carlos Guestrin veröffentlicht.^[18]

Mit dem XGBoost-Modell wird zwar oft eine höhere Genauigkeit als mit einem einzelnen Entscheidungsbaum erreicht, aber die eigentliche Interpretierbarkeit von Entscheidungsbäumen geht dabei verloren. So ist es beispielsweise trivial, den Weg eines Entscheidungsbaums zu verfolgen, aber es ist viel schwieriger, die Wege von Hunderten oder Tausenden von Bäumen zu verfolgen. Um sowohl Leistung als auch Interpretierbarkeit zu erreichen, ermöglichen einige Modellkomprimierungstechniken die Umwandlung eines XGBoost in einen einzigen „wiedergeborenen“ Entscheidungsbaum, der dieselbe Entscheidungsfunktion approximiert.^[19]

Merkmale

Zu den wichtigsten Merkmalen von XGBoost, die es von anderen Gradient-Boosting-Algorithmen unterscheiden, gehören:^[20]^[21]^[22]

clevere „Bestrafung“ von Bäumen
proportionale Schrumpfung der Blattknoten
Newton-Boosting
zusätzlicher Randomisierungsparameter
Implementierung auf einzelnen, verteilten Systemen und Out-of-Core-Berechnungen
automatische Auswahl von Merkmalen

Algorithmus

XGBoost arbeitet als Newton-Raphson-Verfahren im Funktionsraum, im Gegensatz zum Gradient Boosting, das als Gradientenabstieg im Funktionsraum arbeitet. In der Verlustfunktion wird eine Taylor-Approximation zweiter Ordnung verwendet, um die Verbindung zum Newton-Raphson-Verfahren herzustellen.

Ein allgemeiner unregulierter XGBoost-Algorithmus ist:

Eingabe: Trainingsmenge $\{(x_{i},y_{i})\}_{i=1}^{N}$ , eine differenzierbare Verlustfunktion $L(y,F(x))$ , eine Anzahl von schwachen Lernern $M$ und eine Lernrate $\alpha$ .

Algorithmus:

Modell mit einem konstanten Wert initialisieren:
${\hat {f}}_{(0)}(x)={\underset {\theta }{\arg \min }}\sum _{i=1}^{N}L(y_{i},\theta ).$
Für m = 1 zu M:
1. Berechnung des Gradienten (1. Ableitung) und der Hesse-Matrix (2. Ableitung):
  ${\hat {g}}_{m}(x_{i})=\left[{\frac {\partial L(y_{i},f(x_{i}))}{\partial f(x_{i})}}\right]_{f(x)={\hat {f}}_{(m-1)}(x)}.$
  
  ${\hat {h}}_{m}(x_{i})=\left[{\frac {\partial ^{2}L(y_{i},f(x_{i}))}{\partial f(x_{i})^{2}}}\right]_{f(x)={\hat {f}}_{(m-1)}(x)}.$
2. Anpassen eines Basis-Learners (oder schwachen Lerners, z. B. Baum) unter Verwendung der Trainingsmenge $\displaystyle \left\{x_{i},-{\frac {{\hat {g}}_{m}(x_{i})}{{\hat {h}}_{m}(x_{i})}}\right\}_{i=1}^{N}$ durch Lösen des nachstehenden Optimierungsproblems:
  ${\hat {\phi }}_{m}={\underset {\phi \in \mathbf {\Phi } }{\arg \min }}\sum _{i=1}^{N}{\frac {1}{2}}{\hat {h}}_{m}(x_{i})\left[-{\frac {{\hat {g}}_{m}(x_{i})}{{\hat {h}}_{m}(x_{i})}}-\phi (x_{i})\right]^{2}.$
  
  ${\hat {f}}_{m}(x)=\alpha {\hat {\phi }}_{m}(x).$
3. Modell updaten:
  ${\hat {f}}_{(m)}(x)={\hat {f}}_{(m-1)}(x)+{\hat {f}}_{m}(x).$
Ergebnis ${\hat {f}}(x)={\hat {f}}_{(M)}(x)=\sum _{m=0}^{M}{\hat {f}}_{m}(x).$

Auszeichnungen

John Chambers Award (2016)^[23]
HEP meets ML Award (2016)^[24]

Einzelnachweise

↑ Release 2.1.3. 26. November 2024 (abgerufen am 29. November 2024).
↑ GitHub project webpage. In: GitHub. Juni 2022; abgerufen im 1. Januar 1.
↑ Python Package Index PYPI: xgboost. Abgerufen am 1. August 2016.
↑ CRAN package xgboost. Abgerufen am 1. August 2016.
↑ Julia package listing xgboost. Archiviert vom Original am 18. August 2016; abgerufen am 1. August 2016. Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2
↑ CPAN module AI::XGBoost. Abgerufen am 9. Februar 2020.
↑ Installing XGBoost for Anaconda in Windows. In: IBM. Abgerufen am 1. August 2016.
↑ Installing XGBoost on Mac OSX. In: IBM. Abgerufen am 1. August 2016.
↑ Dask Homepage. Abgerufen im 1. Januar 1
↑ Distributed XGBoost with Dask — xgboost 1.5.0-dev documentation. In: xgboost.readthedocs.io. Abgerufen am 15. Juli 2021.
↑ ^a ^b XGBoost - ML winning solutions (incomplete list). In: GitHub. Abgerufen am 1. August 2016.
↑ Story and Lessons Behind the Evolution of XGBoost. nttrungmt-wiki, abgerufen am 10. Juni 2022 (englisch).
↑ Higgs Boson Machine Learning Challenge, auf kaggle.com
↑ A Short Introduction to the caret Package, auf cran.rstudio.com/
↑ Rabit - Reliable Allreduce and Broadcast Interface. In: GitHub. Abgerufen am 1. August 2016.
↑ XGBoost4J. Abgerufen am 1. August 2016.
↑ XGBoost on FPGAs. In: GitHub. Abgerufen am 1. August 2019.
↑ Tianqi Chen, Carlos Guestrin: XGBoost: A Scalable Tree Boosting System. 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Hrsg.: Balaji Krishnapuram, Mohak Shah, Alexander J. Smola, Charu C. Aggarwal, Dou Shen, Rajeev Rastogi. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, August 13-17, 2016. ACM, 2016, S. 785–794, doi:10.1145/2939672.2939785 (englisch).
↑ Omer Sagi, Lior Rokach: Approximating XGBoost with an interpretable decision tree. In: Information Sciences. 572. Jahrgang, Nr. 2021, 2021, S. 522–542, doi:10.1016/j.ins.2021.05.055.
↑ Rohith Gandhi: Gradient Boosting and XGBoost. In: Medium. 24. Mai 2019, abgerufen am 4. Januar 2020 (englisch).
↑ Boosting algorithm: XGBoost. In: Towards Data Science. 14. Mai 2017, archiviert vom Original am 6. April 2022; abgerufen am 4. Januar 2020 (englisch). Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2
↑ Tree Boosting With XGBoost – Why Does XGBoost Win "Every" Machine Learning Competition? In: Synced. 22. Oktober 2017, abgerufen am 4. Januar 2020 (amerikanisches Englisch).
↑ John Chambers Award Previous Winners. Abgerufen am 10. Juni 2022.
↑ HEP meets ML Award. Abgerufen am 10. Juni 2022.

[_f42744f5ec32d402-1] Release 2.1.3. 26. November 2024 (abgerufen am 29. November 2024).

[source-code-2] GitHub project webpage. In: GitHub. Juni 2022; abgerufen im 1. Januar 1.

[xgboost-python-3] Python Package Index PYPI: xgboost. Abgerufen am 1. August 2016.

[xgboost-cran-4] CRAN package xgboost. Abgerufen am 1. August 2016.

[xgboost-julia-5] Julia package listing xgboost. Archiviert vom Original am 18. August 2016; abgerufen am 1. August 2016. Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2

[xgboost-perl-6] CPAN module AI::XGBoost. Abgerufen am 9. Februar 2020.

[xgboost-windows-7] Installing XGBoost for Anaconda in Windows. In: IBM. Abgerufen am 1. August 2016.

[xgboost-macos-8] Installing XGBoost on Mac OSX. In: IBM. Abgerufen am 1. August 2016.

[Dask-docs-9] Dask Homepage. Abgerufen im 1. Januar 1

[10] Distributed XGBoost with Dask — xgboost 1.5.0-dev documentation. In: xgboost.readthedocs.io. Abgerufen am 15. Juli 2021.

[xgboost-competition-winners-11] XGBoost - ML winning solutions (incomplete list). In: GitHub. Abgerufen am 1. August 2016.

[12] Story and Lessons Behind the Evolution of XGBoost. nttrungmt-wiki, abgerufen am 10. Juni 2022 (englisch).

[13] Higgs Boson Machine Learning Challenge, auf kaggle.com

[14] A Short Introduction to the caret Package, auf cran.rstudio.com/

[rabit-15] Rabit - Reliable Allreduce and Broadcast Interface. In: GitHub. Abgerufen am 1. August 2016.

[xgboost4j-16] XGBoost4J. Abgerufen am 1. August 2016.

[xgboost_FPGA-17] XGBoost on FPGAs. In: GitHub. Abgerufen am 1. August 2019.

[paper-18] Tianqi Chen, Carlos Guestrin: XGBoost: A Scalable Tree Boosting System. 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Hrsg.: Balaji Krishnapuram, Mohak Shah, Alexander J. Smola, Charu C. Aggarwal, Dou Shen, Rajeev Rastogi. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, August 13-17, 2016. ACM, 2016, S. 785–794, doi:10.1145/2939672.2939785 (englisch).

[19] Omer Sagi, Lior Rokach: Approximating XGBoost with an interpretable decision tree. In: Information Sciences. 572. Jahrgang, Nr. 2021, 2021, S. 522–542, doi:10.1016/j.ins.2021.05.055.

[20] Rohith Gandhi: Gradient Boosting and XGBoost. In: Medium. 24. Mai 2019, abgerufen am 4. Januar 2020 (englisch).

[21] Boosting algorithm: XGBoost. In: Towards Data Science. 14. Mai 2017, archiviert vom Original am 6. April 2022; abgerufen am 4. Januar 2020 (englisch). Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2

[22] Tree Boosting With XGBoost – Why Does XGBoost Win "Every" Machine Learning Competition? In: Synced. 22. Oktober 2017, abgerufen am 4. Januar 2020 (amerikanisches Englisch).

[john-chambers-23] John Chambers Award Previous Winners. Abgerufen am 10. Juni 2022.

[hep-meets-ml-24] HEP meets ML Award. Abgerufen am 10. Juni 2022.

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[1]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

XGBoost

Basisdaten
Entwickler	XGBoost Community
Erscheinungsjahr	2014
Aktuelle Version	2.1.3^[1] (26. November 2024)
Betriebssystem	Linux, macOS, Windows
Programmiersprache	C++
Kategorie	Maschinelles Lernen
Lizenz	Apache License 2.0
https://xgboost.ai/