Softmax-Funktion

In der Mathematik ist die sogenannte Softmax-Funktion oder normalisierte Exponentialfunktion^[1]^:198 eine Verallgemeinerung der logistischen Funktion, die einen $K$ -dimensionalen Vektor $\mathbf {z}$ mit reellen Komponenten in einen $K$ -dimensionalen Vektor $\sigma (\mathbf {z} )$ ebenfalls als Vektor reeller Komponenten in den Wertebereich $(0,1)$ transformiert, wobei sich die Komponenten zu $1$ aufsummieren. Der Wert $1$ kommt nur im Sonderfall $K=1$ vor. Die Funktion ist gegeben durch:

\sigma :\mathbb {R} ^{K}\to \left\{z\in \mathbb {R} ^{K}\mid z_{i}\geq 0,\sum _{i=1}^{K}z_{i}=1\right\}

\sigma (\mathbf {z} )_{j}={\frac {e^{z_{j}}}{\sum _{k=1}^{K}e^{z_{k}}}}

für j = 1, …, K.

In der Wahrscheinlichkeitstheorie kann die Ausgabe der Softmax-Funktion genutzt werden, um eine kategoriale Verteilung – also eine Wahrscheinlichkeitsverteilung über $K$ unterschiedliche mögliche Ereignisse – darzustellen. Tatsächlich entspricht dies der gradient-log-Normalisierung der kategorialen Wahrscheinlichkeitsverteilung. Somit ist die Softmax-Funktion der Gradient der LogSumExp-Funktion.

Die Softmax-Funktion wird in verschiedenen Methoden der Multiklassen-Klassifikation verwendet, wie bspw. bei der multinomialen logistischen Regression (auch bekannt als Softmax-Regression)^[1]^:206–209^[2], der multiklassen-bezogenen linearen Diskriminantenanalyse, bei naiven Bayes-Klassifikatoren und künstlichen neuronalen Netzen^[3]. Insbesondere in der multinomialen logistischen Regression sowie der linearen Diskriminantenanalyse entspricht die Eingabe der Funktion dem Ergebnis von $K$ distinkten linearen Funktionen, und die ermittelte Wahrscheinlichkeit für die $j$ -te Klasse gegeben ein Stichprobenvektor $x$ und einem Gewichtsvektor $w$ entspricht:

P(y=j\mid \mathbf {x} )={\frac {e^{\mathbf {x} ^{\mathsf {T}}\mathbf {w} _{j}}}{\sum _{k=1}^{K}e^{\mathbf {x} ^{\mathsf {T}}\mathbf {w} _{k}}}}

Dies kann angesehen werden als Komposition von $K$ linearen Funktionen $\mathbf {x} \mapsto \mathbf {x} ^{\mathsf {T}}\mathbf {w} _{1},\ldots ,\mathbf {x} \mapsto \mathbf {x} ^{\mathsf {T}}\mathbf {w} _{K}$ und der Softmax-Funktion (wobei $\mathbf {x} ^{\mathsf {T}}\mathbf {w}$ das innere Produkt von $\mathbf {x}$ und $\mathbf {w}$ bezeichnet). Die Ausführung ist äquivalent zur Anwendung eines linearen Operators definiert durch $\mathbf {w}$ bei Vektoren $\mathbf {x}$ , so dass dadurch die originale, möglicherweise hochdimensionale Eingabe in Vektoren im $K$ -dimensionalen Raum $\mathbb {R} ^{K}$ transformiert wird.

Zusammenhang zur Logit-Funktion

Bei der binären logistischen Regression benötigt man zur vollständigen Beschreibung lediglich die Wahrscheinlichkeit einer Klasse: $P(Y=1)=1-P(Y=0)$ . Für zwei Klassen ist die Softmax-Funktion:

\sigma (\mathbf {z} )_{j}={\frac {e^{z_{j}}}{e^{z_{1}}+e^{z_{2}}}}

für j = 1, 2 und

\sigma (\mathbf {z} )_{2}=1-\sigma (\mathbf {z} )_{1}

.

Da die $z_{j}$ um eine beliebige Konstante verschoben werden können ohne das Ergebnis zu ändern, gilt:

\sigma (\mathbf {z} )_{1}={\frac {e^{z_{1}}}{e^{z_{1}}+e^{z_{2}}}}={\frac {e^{z_{1}}}{e^{z_{1}}+e^{z_{2}}}}\underbrace {\frac {e^{-z_{2}}}{e^{-z_{2}}}} _{1}={\frac {e^{z_{1}}e^{-z_{2}}}{e^{z_{1}}e^{-z_{2}}+1}}={\frac {e^{\tilde {z}}}{e^{\tilde {z}}+1}}=\operatorname {logit} ^{-1}({\tilde {z}}),

mit ${\tilde {z}}=z_{1}-z_{2}$ und der Inversen der Logit-Funktion.

Alternativen

Softmax erzeugt Wahrscheinlichkeitsvorhersagen welche über ihrem Träger dicht besetzt sind. Andere Funktionen wie sparsemax oder $\alpha$ -entmax können benutzt werden, wenn dünn besetzte Wahrscheinlichkeitsvorhersagen erzeugt werden sollen^[4].

Einzelnachweise

↑ ^a ^b Christopher M. Bishop: Pattern Recognition and Machine Learning. Springer, 2006.
↑ Computer Science Department: Unsupervised Feature Learning and Deep Learning Tutorial. Stanford University, abgerufen am 30. Januar 2019 (englisch).
↑ Sophia Tamm: Einführung in neuronale Netze. In: Seminar Maschinelles Lernen - Dr. Zoran Nikolić. Universität Köln, 30. Mai 2019, abgerufen am 24. Mai 2022.
↑ Speeding Up Entmax, Maxat Tezekbayev, Vassilina Nikoulina, Matthias Gallé, Zhenisbek Assylbekov https://arxiv.org/abs/2111.06832v3

[bishop-1] Christopher M. Bishop: Pattern Recognition and Machine Learning. Springer, 2006.

[2] Computer Science Department: Unsupervised Feature Learning and Deep Learning Tutorial. Stanford University, abgerufen am 30. Januar 2019 (englisch).

[3] Sophia Tamm: Einführung in neuronale Netze. In: Seminar Maschinelles Lernen - Dr. Zoran Nikolić. Universität Köln, 30. Mai 2019, abgerufen am 24. Mai 2022.

[4] Speeding Up Entmax, Maxat Tezekbayev, Vassilina Nikoulina, Matthias Gallé, Zhenisbek Assylbekov https://arxiv.org/abs/2111.06832v3

[1]

[2]

[3]

[4]