Copy-On-Write

Das Copy-On-Write-Verfahren (kurz COW bzw. CoW genannt, englisch wörtlich für „Kopieren-beim-Schreiben“) ist in der Datenverarbeitung eine Optimierungsmethode zur Vermeidung unnötiger Kopien und Kopiervorgänge, beispielsweise zwischen Prozessen unter unixartigen Systemen, insbesondere bei oder nach einem fork-Systemaufruf.

Verfahren
1. Eine Datei wird erstellt
2. Eine Kopie nutzt dieselben Datenblöcke
3. Nur veränderte Datenblöcke werden neu geschrieben
4. Nur veränderte Datenblöcke werden neu geschrieben

Die Grundidee des Verfahrens ist, dass identische Daten mehrerer – anfangs ebenfalls identischer – Dateien nur einmal vorhanden sein müssen. Erstellt man also ein Duplikat einer vorhandenen Datei, so muss der Inhalt des Duplikats nicht gespeichert werden. Es genügt, den neuen Dateinamen und den Ablageort im Dateisystem vorzumerken. Erst wenn eine der duplizierten Dateien verändert wird, also einen neuen Inhalt bekommt, müssen die veränderten Datenblöcke bzw. gegebenenfalls die gesamte Datei getrennt gespeichert werden.^[1] Der Kopie wird zwar eine eigene Inode zugewiesen, die darin gespeicherten Zeigerstrukturen, welche auf die Datenblöcke zeigen, stimmen allerdings mit denen des Originals überein. Erst bei Veränderung einer der Datenblöcke wird für die Änderung ein neuer Datenblock verwendet und der entsprechende Zeiger neu gesetzt. Bei nicht geänderten Datenblöcken können weiterhin die originalen Blöcke referenziert bleiben.

Hauptspeicher

Wenn der Kernel eine Speicherseite im Adressraum eines anderen Prozesses verfügbar machen muss, ist es nicht nötig, die Daten tatsächlich zu kopieren oder ein weiteres Mal im Hauptspeicher anzulegen, wenn die Daten lediglich ausgelesen, aber nicht beschrieben werden. Es genügt, wenn erst einmal die beiden Prozesse auf ein und dieselbe Speicherseite zugreifen. Erst wenn einer der beiden Prozesse die Daten zu ändern versucht, müssen diese tatsächlich (und dann auch nur teilweise) kopiert werden, da sich die Inhalte der Speicherseiten dann unterscheiden.

Dies wird auf modernen Hauptprozessoren meist mit Hilfe von Paging realisiert, wobei die beiden Prozesse auf die gleiche Speicherseite zugreifen. Sowohl im Adressraum des Besitzers des Originals als auch in dem des Besitzers der Kopie wird dieser gemeinsame Speicherbereich als „nur lesbar“ markiert. Findet ein Schreibzugriff statt, wird das Betriebssystem informiert, so dass dieses vor dem tatsächlichen Schreibzugriff die betroffene Speicherseite durch eine tatsächliche Kopie ersetzen kann.

Dateisystem

Bei Dateisystemen bedeutet Copy-On-Write, dass geänderte Blöcke nicht überschrieben, sondern zunächst vollständig an einen freien Platz kopiert werden.^[2] Danach werden Verweise auf den Block in den Metadaten aktualisiert. Copy-On-Write ermöglicht transaktionsbasierende Dateisysteme, die unter anderem ohne Verzögerung Speicherabbilder (oder Schnappschüsse derselben) anlegen können. Alte Metadaten und Blöcke werden dabei nicht gelöscht, sondern dem jeweiligen Speicherabbild zugeordnet.

ZFS, Btrfs, APFS^[3], NILFS, Bcachefs sowie XFS^[4] sind bekannte Vertreter von Dateisystemen, die auf Copy-on-Write bauen.

Einzelnachweise

↑ Ralph Tandetzky: cow_ptr – Der Smartpointer für Copy-On-Write. In: Informatik Aktuell: Entwicklung / Programmiersprachen. Alkmene Verlags- und Mediengesellschaft mbH, 19. September 2017, abgerufen am 28. November 2018: „Copy-On-Write bedeutet, dass beim Kopieren einer Datenstruktur X ‚unter der Haube‘ nur ein Pointer (oder eine Referenz) auf die internen Daten weitergereicht wird. Eine echte und tiefe Kopie der eigentlichen Daten wird dabei erst dann durchgeführt, wenn eine Instanz von X ihre internen Daten verändert.“
↑ Copy-on-Write. In: ITwissen.info. DATACOM Buchverlag GmbH, 2018, abgerufen am 28. November 2018: „Copy-on-Write, was für ‚Kopieren beim Schreiben‘ steht, werden dann Kopien angefertigt, wenn ein Benutzer Kopien verändert hat.“
↑ Stefan Luber: Was ist Copy-on-Write (CoW)? 27. April 2023, abgerufen am 4. Juli 2023.
↑ Michael Larabel: XFS Copy-On-Write Support Being Improved, Always CoW Option. In: Phoronix. 19. Februar 2019, abgerufen am 6. Juli 2023 (englisch).

Siehe auch

Deduplikation

[1] Ralph Tandetzky: cow_ptr – Der Smartpointer für Copy-On-Write. In: Informatik Aktuell: Entwicklung / Programmiersprachen. Alkmene Verlags- und Mediengesellschaft mbH, 19. September 2017, abgerufen am 28. November 2018: „Copy-On-Write bedeutet, dass beim Kopieren einer Datenstruktur X ‚unter der Haube‘ nur ein Pointer (oder eine Referenz) auf die internen Daten weitergereicht wird. Eine echte und tiefe Kopie der eigentlichen Daten wird dabei erst dann durchgeführt, wenn eine Instanz von X ihre internen Daten verändert.“

[2] Copy-on-Write. In: ITwissen.info. DATACOM Buchverlag GmbH, 2018, abgerufen am 28. November 2018: „Copy-on-Write, was für ‚Kopieren beim Schreiben‘ steht, werden dann Kopien angefertigt, wenn ein Benutzer Kopien verändert hat.“

[3] Stefan Luber: Was ist Copy-on-Write (CoW)? 27. April 2023, abgerufen am 4. Juli 2023.

[4] Michael Larabel: XFS Copy-On-Write Support Being Improved, Always CoW Option. In: Phoronix. 19. Februar 2019, abgerufen am 6. Juli 2023 (englisch).

[1]

[2]

[3]

[4]