Kontrastives Lernen
Kontrastives Lernen (englisch: Contrastive Learning) ist eine Methode des maschinellen Lernens, bei der ein Modell lernen soll, ähnliche und unähnliche Merkmale in Datensätzen zu unterscheiden. Das Ziel ist es, eine Repräsentation (Einbettung) der Daten zu erstellen, die die Ähnlichkeiten und Unterschiede zwischen den Merkmalen der Daten optimal abbildet.
Kontrastives Lernen wird in Computer Vision sowie Natural Language Processing verwendet.
Beispiele für gängige Verlustfunktionen beim kontrasitiven Lernen sind der Contrastive Loss, der Triplett Loss sowie Verallgemeinerungen, wie der Multiple Negative Ranking Loss.
Contrastive Loss
BearbeitenDer Contrastive Loss[1][2][3] vergleicht gepaarte Daten auf ihre Ähnlichkeit hin: Wenn ein Paar ähnliche Objekte enthält, sollten diese ähnlich eingebettet sein, wenn die Objekte des Paars unähnlich sind, sollten sie möglichst unterschiedlich eingebettet sein. Der Contrastive Loss optimiert die Einbettungen (engl. embeddings) der Objekte, um dieses Kriterium zu erfüllen.
Triplett loss
BearbeitenDer triplett Loss[2][3] ist eine Methode, den Raum der Einbettungen noch weiter zu strukturieren. Ziel ist es, die Einbettungen ähnlicher Objekte zusammenzuführen und unähnlicher Objekte weiter zu trennen. Hierbei werden 3-Tupel von Objekten betrachtet, bestehend aus einem Anker, einem positiven Beispiel und einem negativen Beispiel (anchor, positive, negative). Die Verlustfunktion optimiert die Einbettungen der Objekte so, dass die Ähnlichkeit zwischen dem Anker und dem positiven Beispiel kleiner ist als die Ähnlichkeit zwischen dem Ankerbild und dem negativen Beispiel.
Mathematisch ist der Triplett Loss zwischen dem Anker A, Positivbeispiel P und Negativbeispiel N definiert als:
wobei ein Ähnlichkeitsmaß wie beispielsweise die Kosinus-Ähnlichkeit oder der euklidische Abstand ist, das Margin zwischen positiven und negativen Beispielen ist und die Funktion, welche zur Erzeugung der Einbettungen benutzt wird.
Anwendungen
BearbeitenKontrastives Lernen findet z. B. bei Direct Preference-based Policy Optimization Anwendung, wobei große Sprachmodelle an die Vorlieben von Menschen angepasst werden ohne auf Reinforcement Learning zurückzugreifen[4].
Einzelnachweise
Bearbeiten- ↑ R. Hadsell, S. Chopra, Y. LeCun: Dimensionality Reduction by Learning an Invariant Mapping. In: 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06). IEEE, doi:10.1109/cvpr.2006.100.
- ↑ a b Elgendy, M. (2020). Deep Learning for Vision Systems. USA: Manning. ISBN 978-1-61729-619-2, Seiten 410 ff, google books
- ↑ a b Crowley, M., Ghodsi, A., Ghojogh, B., Karray, F. (2023). Elements of Dimensionality Reduction and Manifold Learning. Deutschland: Springer International Publishing. Seiten 537 ff, Google books
- ↑ Direct Preference-based Policy Optimization without Reward Modeling Gaon An, Junhyeok Lee, Xingdong Zuo, Norio Kosaka, Kyung-Min Kim, Hyun Oh Song, https://arxiv.org/abs/2301.12842