Ein U-Net ist ein Convolutional Neural Network, das für die biomedizinische Bildsegmentierung am Institut für Informatik der Universität Freiburg[1] entwickelt wurde. Das Netzwerk basiert auf einem vollständigen Convolutional Neural NetworkConvolutional Neural Network,[2] dessen Architektur modifiziert und erweitert wurde, um mit weniger Training-Bildern auszukommen und eine präzisere Segmentierung zu erreichen. Die Segmentierung eines Bildes von 512 x 512 Bildpunkten dauert auf einem modernen Grafikprozessor weniger als eine Sekunde.

Die U-NET-Architektur wird auch dazu verwendet, um in Diffusion Models eine iterative Rauschunterdrückung zu implementieren.[3] Diese Technologie ist in vielen modernen Bilderzeugungsmodellen enthalten, wie etwa DALL-E und Midjourney.

Beschreibung

Bearbeiten

Die Architektur des U-Net stammt vom sogenannten “fully convolutional network” ab und wurde von Long, Shelhamer, and Darrell 2014 vorgeschlagen.[2]

Die Hauptidee besteht darin, ein übliches contracting network mit aufeinander folgenden Schichten zu ergänzen, in denen Pooling-Operationen durch Upsampling ersetzt werden. Somit erhöhen diese Schichten die Auflösung der Ausgabe. Ein nachfolgender convolutional layer kann damit lernen, eine präziseren Ausgabe auf Grundlage dieser Information zu erzeugen.

  1. Ronneberger O, Fischer P, Brox.T (2015). „U-Net: Convolutional Networks for Biomedical Image Segmentation“.
  2. a b Shelhamer E, Long J, Darrell T: Fully Convolutional Networks for Semantic Segmentation. In: IEEE Transactions on Pattern Analysis and Machine Intelligence. 39. Jahrgang, Nr. 4, November 2014, S. 640–651, doi:10.1109/TPAMI.2016.2572683, PMID 27244717, arxiv:1411.4038 (englisch).
  3. Ho, Jonathan 2020 „Denoising Diffusion Probabilistic Models“

[[Kategorie:Albert-Ludwigs-Universität Freiburg]]