Ein U-Net ist ein Convolutional Neural Network, das für die biomedizinische Bildsegmentierung am Institut für Informatik der Universität Freiburg[1] entwickelt wurde. Das Netzwerk basiert auf einem vollständigen Convolutional Neural NetworkConvolutional Neural Network,[2] dessen Architektur modifiziert und erweitert wurde, um mit weniger Training-Bildern auszukommen und eine präzisere Segmentierung zu erreichen. Die Segmentierung eines Bildes von 512 x 512 Bildpunkten dauert auf einem modernen Grafikprozessor weniger als eine Sekunde.
Die U-NET-Architektur wird auch dazu verwendet, um in Diffusion Models eine iterative Rauschunterdrückung zu implementieren.[3] Diese Technologie ist in vielen modernen Bilderzeugungsmodellen enthalten, wie etwa DALL-E und Midjourney.
Beschreibung
BearbeitenDie Architektur des U-Net stammt vom sogenannten “fully convolutional network” ab und wurde von Long, Shelhamer, and Darrell 2014 vorgeschlagen.[2]
Die Hauptidee besteht darin, ein übliches contracting network mit aufeinander folgenden Schichten zu ergänzen, in denen Pooling-Operationen durch Upsampling ersetzt werden. Somit erhöhen diese Schichten die Auflösung der Ausgabe. Ein nachfolgender convolutional layer kann damit lernen, eine präziseren Ausgabe auf Grundlage dieser Information zu erzeugen.
- ↑ Ronneberger O, Fischer P, Brox.T (2015). „U-Net: Convolutional Networks for Biomedical Image Segmentation“.
- ↑ a b Shelhamer E, Long J, Darrell T: Fully Convolutional Networks for Semantic Segmentation. In: IEEE Transactions on Pattern Analysis and Machine Intelligence. 39. Jahrgang, Nr. 4, November 2014, S. 640–651, doi:10.1109/TPAMI.2016.2572683, PMID 27244717, arxiv:1411.4038 (englisch).
- ↑ Ho, Jonathan 2020 „Denoising Diffusion Probabilistic Models“
[[Kategorie:Albert-Ludwigs-Universität Freiburg]]