Benutzer:Dirk123456/Baustellenbaustelle 001/Baustelle-D/Baustelle-D.23

„

“

Informationgehalt, Bits und Bytes

{Anker|Dirk123456.2021-0310.infogeh-bits-bytes}Hallo, in diesem Beitrag geht es mir (Dirk123456) um die Darstellung des Ausdrucks „Informationgehalt“ und seine Bedeutung. ßß[#Dirk123456.2021-0310.infogeh-bits-bytes.Ende|↓zum Ende des Beitrags↓]ßß

{Anker|Dirk123456.2021-0310.infogeh-bits-bytes.001}ßßGegenwärtiger Zustand:

Das Wort „Informationsgehalt“ im Zusammenhang mit Genomgrößen kann mit „Wikiblame“ (http://wikipedia.ramselehof.de/) seit dem 22. Dez. 2004 im Artikel gefunden werden (diff=prev&oldid=3774013). Gegenwärtig wird zum Thema „Informationgehalt“ im Abschnitt „Genomgrößen“ (oldid=209379579#Genomgrößen) ein Beitrag zitiert (Referenz 12.: „Information content of DNA bei Panda's Thumb“), der vom 22. Oktober 2008 stammt und auf pandasthumb.org archiviert wurde. So, wie ich das erkenne, handelt sich bei diesem Beitrag um die persönlichen Betrachtungen von jemandem mit dem Kontonamen „PvM“; echte Belege, wie sie seit einiger Zeit in der Wikipedia gefordert werden (WP:BLG), fehlen dort. Der Beitrag ist also eher nicht zitierbar (wenngleich die Urheberrechte unbedenklich sind: „... The Panda’s Thumb and original authors — Content provided under Creative Commons BY-NC-ND License 4.0“). Übersetzt steht im „Post“ von „PvM“ ungefähr Folgendes:

„Der Informationsgehalt von DNA ist viel schwieriger zu bestimmen, als nur die Anzahl der Basenpaare zu betrachten und mit 2 zu multiplizieren, um die Größe in Bits zu erhalten (daran denken, dass jede Stelle bis zu 4 verschiedene Nukleotide oder 2 Bits haben kann). Dieser Ansatz kann uns jedoch eine Schätzung nullter Ordnung der maximal möglichen Informationen liefern, die in dieser Sequenz gespeichert werden können, die für das menschliche Genom mit 3 Milliarden Basenpaaren 6 Milliarden Bits oder 750 Mbytes betragen würde.“

In der englischen Wikipedia findet man im Artikel „Genome“ keinen „information content“ oder Ähnliches (weder belegt noch unbelegt).

{Anker|Dirk123456.2021-0310.infogeh-bits-bytes.002}ßßEinige Berechnungen und Betrachtungen:

Die Zahlen (im englischen „Post“: „... with 3 billion base pairs would amount to 6 billion bits or 750 Mbytes“) sähen also so aus: 3e+09; 6e+09; und 750 * Mbytes. Was „Mbytes“ in diesem Fall sein soll, ergibt sich durch folgende Gleichungen:

1 Mbyte = 6e+09 / 750 = 8e+06 Bits.

Da ein Byte aus 8 Bits besteht, gilt Folgendes:

1 Mbyte = 8e+06 / 8 = 1.000.000 Bytes = 1 Megabyte.

Es wurden bei „The Panda’s Thumb" also dezimale Einheiten verwendet („Kilo“: 10³; „Mega“: 10⁶).

Man kann genauere Zahlen nehmen (z. B. 3,27 Milliarden bzw. 3,27e+09 Basenpaare und 6,54 Milliarden bzw. 6,54e+09 Bits) und zusätzlich binäre Einheiten verwenden („Kibibyte“: 1 KiB = 2¹⁰ = 1024 Bytes; „Mebibyte“: 1 MiB = 2²⁰ = 1048576 Bytes), wie dass im Artikel „Genom“ gemacht wurde. Dann ergibt sich Folgendes:

6,54e+09 Bits = (6,54e+09 / 8) Bytes = 8,18e+08 Bytes;

8,18e+08 Bytes = (8,18e+08 / 1e+06) Megabytes = 818 Megabytes;

8,18e+08 Bytes = (8,18e+08 / 1048576) Mebibytes = 780,11 Mebibytes.

Anzumerken ist, dass die Abkürzungen Mbytes, MB, Mb, Mbp und MiB und Ähnliches nicht konsequent unterschieden werden. Vor allen MB und Mb sind mehrdeutig. Bspw. findet bei manchen Betriebssystemen auch so etwas: „3,32 MB (3.485.565 Bytes)“; es gibt hier also eine Abkürzung (MB), die den Faktor 1000 (10³) suggeriert, während die Berechnung mit dem Faktor 1024 (2¹⁰) läuft: 3485565 / (1024*1024) = 3,32. (‑; Das ist dann wahrscheinlich ein „May‑be‑Byte“! ;‑)

Die Betrachtung zum „Informationsgehalt“ beginnt mit den Kombinationsmöglichkeiten: ein Schalter mit vier Zuständen, wie eine Nukleobase an einer bestimmten Stelle {A; C; T; G}, hätte die gleiche Ergebnismenge, wie zwei Schalter mit zwei Zuständen, also zwei benachbarten Bits {00; 01; 10; 11}. Da also

4^{(Anzahl_der_Basenpaare)} = 2^{(2 * Anzahl_der_Basenpaare)}

gelten würde, könnte man

Anzahl_imaginärer_Bits = (2 * Anzahl_der_Basenpaare)

gleichsetzen, was wohl auch stimmt. Allerdings wird im Weiteren nicht mehr weiter danach gefragt, wie viele Möglichkeiten sich daraus ergeben, sondern wie viel Platz der Code einnimmt.

Es gibt hier eigentlich zwei Aspekte, die man vermutlich gezielter ansprechen müsste: A, die „verschlüsselnde Datenmenge“ und B, die „verschlüsselte Datenmenge“. Für 3e+09 als Anzahl der Basenpaare im Genom ergäbe sich Folgendes:

A = (2 * 3e+09) Bits

B = 2^{(2 * Anzahl_der_Basenpaare)} Möglichkeiten

Für mich ist B, die „verschlüsselte Datenmenge“, dichter an der Bedeutung des Wortes „Informationsgehalt“ als A. Es lohnt sich aber nicht, die Betrachtung fortzusetzen, da es Theoriefindung wäre (WP:TF), wenn man so etwas im Artikel unterbringen wollte, ohne einen guten Beleg zu haben.

Sollte ich mich irren und der „Post“ von „PvM“ aus dem Jahre 2008 wäre ein echter Beleg laut WP:BLG, müsste man wohl auch nah bei der Quelle bleiben und das Beispiel mit 3 Milliarden Basenpaaren, 6 Milliarden Bits und 750 MBytes „Informationsgehalt“ zitieren, statt eine eigene Berechnung mit z. B. 3,27 Milliarden Basenpaaren, 6,54 Milliarden Bits und /(818|780|780,11) (MB|MiB)/ anzuführen. (Etwas weiter oben werden weder 3 Mrd., noch 3,28 Mrd., sondern 3,1 Milliarden Basenpaare für das menschliche Genom zitiert.)

{Anker|Dirk123456.2021-0310.infogeh-bits-bytes.003}ßßDer Abschnitt „Genomgröße“ als Ganzes:

Der Abschnitt „Genomgröße“ besteht gegenwärtig (oldid=209379579#Genomgrößen) aus fünf Absätzen mit einer Tabelle zwischen den ersten zwei und den letzten drei Absätzen. Die letzten drei Absätze (3. bis 5. Absatz) enthalten das Thema oder befinden sich in der Nachbarschaft des entsprechenden Textes und werden deshalb im Folgenden betrachtet.

{Anker|Dirk123456.2021-0310.infogeh-bits-bytes.004}ßßDritter Absatz:

Stand 2020 hat das haploide Genom einer menschlichen Zelle eine Länge von etwa 3,1 Milliarden Basenpaaren.[Referenz 11. in oldid=209379579]

Bei einem diploiden Genom und einer Länge von 0,34 nm pro Basenpaar ergibt sich damit in jedem Zellkern eine Gesamtlänge von 2,1 Metern DNA.

Der erste Satz könnte – für sich genommen – weggelassen werden, da bereits eine gleiche Referenz in der Tabelle darüber vorliegt („Beispiele für Genomgrößen“, Referenz 10. in oldid=209379579). Der zweite Satz hat keine eigenen Referenzen, bezieht sich aber auf den ersten Satz; also auch auf dessen Referenz. Diese Referenz bzw. Website, „[Human assembly and gene annotation.] Abgerufen am 2. März 2021.“ (Referenz-Nummern 10. und 11. in oldid=209379579), enthält keine Streckenlängen-Angaben für DNA (weder „nm“ für einzelne Basenpaare, noch Meter für DNA-Stränge). Sollte jemand ein Zitat finden, wie lang menschliche Zellkern-DNA wäre, wenn man sie außerhalb des Zellkerns abwickeln würde, wäre es auch angebracht, die dort angegeben Zahlen zu zitieren. Die doppelte Referenz mit den Referenz-Nummern 10. und 11. in oldid=209379579 (Wikitext: <ref>{{Internetquelle |url=https://www.ensembl.org/Homo_sapiens/Info/Annotation |titel=Human assembly and gene annotation |abruf=2021-03-02}}</ref>) ist zwar aktuell („Genebuild last updated/patched Aug 2020“ | „Ensembl release 103 - February 2021 © EMBL-EBI“), enhält aber mehrere Angaben zur Genomgröße („Base Pairs 3,096,649,726“ | „Golden Path Length 3,096,649,726“ | „contig length total 3.4 Gb.“ | „chromosome length total 3.1 Gb (excluding haplotypes).“), wobei sich keine dieser Angaben auf das Volumen, das Gewicht, die Masse oder die Länge des Genoms als Wegstrecke bezieht.

{Anker|Dirk123456.2021-0310.infogeh-bits-bytes.005}ßßVierter Absatz:

Ein Basenpaar auf einem DNA-Strang hat theoretisch einen Informationsgehalt von 2 bit, da es 22 = 4 Zustände (A/T/G/C) annehmen kann.
Mit etwa 3,27 Milliarden Basenpaaren hätte das Genom des Menschen demnach einen maximal möglichen Informationsgehalt von 6,54 Milliarden bit oder 818 MiB.
Der tatsächliche Informationsgehalt liegt vermutlich deutlich darunter, da große Teile der DNA nichtcodierende Sequenzen aufweisen, die allerdings zumindest teilweise regulatorische Funktionen haben.[Referenz 12. in oldid=209379579]

Hier fällt z. B. auf, dass 22 = 4 nicht schlüssig wirkt, dass vorn vom Basenpaar die Rede ist und hinten die vier Zustände einzelner Basen angegeben werden. Zusammen mit den weiter oben angegeben Punkten zu Bits und Bytes schlage ich vor, die Aussagen viel allgemeiner zu formulieren und die Referenz als Beispiel eines Versuchs zu zitieren.

Textvorschlag: „Es ist naheliegend, die vier Zustände, die einzelne Basen-Position auf dem DNA-Strang einnehmen können (A/T/C/G), hinsichtlich der zwei Zustände, die ein Bit einnehmen kann (0 und 1), umrechnen zu wollen, um sich so dem „Informationsgehalt“ des Genoms als Ganzes zu nähern. Das wird gelegentlich versucht (z. B.:[Zitat]); allerdings ist es deutlich schwerer, den tatsächlichen Informationsgehalt zu bestimmen.“

{Anker|Dirk123456.2021-0310.infogeh-bits-bytes.006}ßßFünfter Absatz:

Ein Vergleich der Genomgröße mit der Komplexität und dem Organisationsgrad des Organismus ergibt keinen klaren Zusammenhang.[Referenz 13. in oldid=209379579]
So haben Schwanzlurche größere Genome als Reptilien, Vögel und Säugetiere. Lungenfische und Knorpelfische haben größere Genome als Echte Knochenfische, und innerhalb von Taxa wie den Blütenpflanzen oder Protozoen variiert die Genomgröße in hohem Maß. Dies wird als „C-Wert-Paradoxon“ bezeichnet.
Die größte DNA-Menge weisen einfache Eukaryoten wie einige Amöben sowie die Urfarne mit rund einer Billion Basenpaaren auf. Diese Arten enthalten einzelne Gene als tausendfache Kopien und lange nicht proteincodierende Abschnitte.

Unter der hier angegebenen Referenz 13. (in oldid=209379579) wird auf eine Materialsammlung verknüpft, die zwar im Download-Bereich der Universität Mainz öffentlich verfügbar ist, aber eher als Ergänzung für Vorlesungen gedacht sein dürfte („Folien“ im PDF-Format, Datei Molgen3.pdf). Es geht in der zitierten Material-Sammlung als auch im entsprechenden Absatz (im Abschnitt „Genomgröße“) um das „C-Wert-Paradoxon“. Die Materialsammlung ist keine einzelne Arbeit zum Vergleich von Genomgrößen mit der Komplexität und dem Organisationsgrad des Organismus, greift aber auf zitierbare Information zurück beinhaltet nichts offensichtlich Falsches und sollte daher als Referenz ausreichend sein.

{Anker|Dirk123456.2021-0310.infogeh-bits-bytes.Ende}ßßPlan:

Der dritte Absatz im Abschnitt „Genomgrößen" des Artikels „Genom“ soll entfernt werden (gegenwärtig oldid=209379579#Genomgrößen).
Der vierte Absatz im Abschnitt „Genomgrößen" des Artikels „Genom“ soll gekürzt und allgemeiner formuliert werden. ßß[#Dirk123456.2021-0310.infogeh-bits-bytes|↑zum Anfang des Beitrags↑]ßß

MfG --~~

Umsetzung

u3f-m4f-k5d-b6n

{Anker|Dirk123456.2021-0310.Umsetzung}Umsetzung im Artikel

Der oben genannte Plan (siehe ßß[#Dirk123456.2021-0310.infogeh-bits-bytes.Ende]ßß) wurde mit drei Edits umgesetzt (→Vorbereitung →Umsetzung →Ergebnis).

Vorher – oldid=209379579 – 2021-03-02T18:00:29 Elrond Diskussion Beiträge 18.881 Bytes 0 →Genomgrößen: 6,54 Milliarden bit sind rund 818 MiB.
- Vorbereitung – oldid=209656663 – 2021-03-10T16:00:43 Dirk123456 Diskussion Beiträge K 19.301 Bytes +420 →Genomgrößen: Planungskommentare eingefügt; (siehe Diskussion:Genom#Informationgehalt, Bits und Bytes).
- Umsetzung – oldid=209657234 – 2021-03-10T16:19:54 Dirk123456 Diskussion Beiträge 18.787 Bytes −514 →Genomgrößen: Planungskommentare umgesetzt; (siehe Diskussion:Genom#Informationgehalt, Bits und Bytes)).
- Vergleich von Zwischenversionen mit Planungskommentaren (Vorbereitung―Umsetzung) – diff=209657234&oldid=209656663
Ergebnis – https://de.wikipedia.org/w/index.php?title=Genom&oldid=209657442 – 2021-03-10T16:26:42 Dirk123456 Diskussion Beiträge K 18.334 Bytes −453 →Genomgrößen: Planungskommentare entfernt; (siehe Diskussion:Genom#Informationgehalt, Bits und Bytes).
Vergleich ohne Planungskommentare (Vorher―Ergebnis) – diff=209657442&oldid=209379579

--~~

Antwort auf Skopiens Beitrag

Antwort von Skopien auf Umsetzung im Artikel

Ehrlich gesagt finde ich den Versuch, einen Informationsgehalt des Genoms angeben zu wollen relativ sinnfrei. Wir wissen ja das zum Beispiel die dritte Base im Code weniger Informationsgehalt hat als die ersten beiden. Wie soll das dann berechnet werden? Oder der Gehalt von repetitiven Sequenzen? Das kann man als akademische Rechenübung wohl durchführen, aber mehr auch nicht. Die Länge der DNA in einem Zellkern finde ich dagegen schon interessant. Denn das macht deutlich, wie gut die verpackt sein muss. Die Länge von Länge von 0,34 nm pro Basenpaar ist eigentlich allgemein bekannt, das dürfte in jedem Genetik-Lehrbuch drin stehen (habe gerade keins da). Siehe auch Desoxyribonukleinsäure#Die_Doppelhelix. Oder hier: We also confront the serious challenge of DNA packaging. Each human cell contains approximately 2 meters of DNA if stretched end-to-end; yet the nucleus of a human cell, which contains the DNA, is only about 6 μm in diameter.. Skopien (Diskussion) 23:44, 10. Mär. 2021 (CET)

--

{Anker|Dirk123456.2021-0312.n5x-z8w}Hallo @Skopien, vielen Dank für die prompte Antwort und für das Zitat zu den zwei Metern DNA!

Allgemeine Fragen: Es geht bei solchen Fragen, wie dem „Informationsgehalt“, unter anderem vielleicht um eine allgemeine Frage: „Wie viel braucht man, um was zu erreichen?“ Solche Fragen wurden in der Biologie immer mal wieder gestellt und mehr oder weniger gut beantwortet: könnte eine Riesenlibelle auch heute leben oder braucht sie 35 % Sauerstoff; wie groß können Käfer werden; wie hoch ein Baum? Es gibt dann auch noch brisante Fragen, z. B.: wie viel mehr Wald würde man für die Assimilation des antropogenen Kohlendioxids benötigen; welches Hirnvolumen reicht für Intelligenz? Auch die Genomgröße hat das Potenzial für brisante Fragen. Als man Chromosomen zählen konnte, kam wohl sofort die Frage auf, wie es sein kann, dass einige Affen mehr von den Dingern haben, als das bei Menschen der Fall ist (dafür habe ich keinen Beleg – gehörter Vortrag).

Informationsgehalt: Eine konkrete Form der Frage „Wie viel braucht man, um was zu erreichen?“ ist diejenige nach dem Informationsgehalt von DNA, z. B.: „Wieviel DNA braucht man (oder welche Genomgröße braucht man), um einen Menschen zu erschaffen?“ Du hast natürlich recht, dass der Versuch, einen Informationsgehalt des Genoms angeben zu wollen, relativ sinnfrei erscheint, wenn man die erschwerenden Fakten realisiert (degenerierte Codons, Introns, regulatorische Sequenzen, Epigenetik und so weiter). Es ist sinnfrei im Sinne von hoffnungslos. Nichtsdestotrotz werden solche Fragen gestellt. Ich habe meine eigenen und zusätzlichen Berechnungsbeispiele (siehe ßß[#Dirk123456.2021-0310.infogeh-bits-bytes.002|↑Einige Berechnungen und Betrachtungen↑]ßß) in der Diskussion nicht deshalb dargestellt, weil ich der Theoriefindung (WP:TF) Vortrieb verschaffen wollte, sondern weil ich die Verhältnisse im Artikel kommentieren wollte (IST-Zustand bis einschließlich oldid=209379579).

In der „Normalansicht“, also der Ansicht, die Lesende beim Betrachten eines Artikels vorfinden, wurde der Quelle „Information content of DNA bei Panda's Thumb“ zu unterschiedlichen Zeiten unterschiedliche Zahlen zugeordnet. Egal, welche Zahlen in Bezug zum „Informationsgehalt“ richtig wären, die Quelle wird nur dann richtig zitiert, wenn man hinschreibt, was dort steht.

Hinzuschreiben, was dort steht, ist bei der besagten „Quelle“ (unter The Panda's Thumb) relativ einfach, weil der Inhalt sich seit dem 22. Oktober 2008 nicht geändert hat; es gab am 26. Oktober 2008 noch einen ergänzenden Kommentar. Weiterhin bestehen keine Einschränkungen durch das Urheberecht. (Das erwähne ich, weil ich in der englischen Wikipedia hatte ich schon einmal Probleme bekam, nachdem ich mich dort sehr wörtlich an einer Quelle orientiert hatte – „too close paraphrasing“; die Quelle war zwar unbeschränkt lesbar, hatte aber möglicherweise ein ungeeignetes Copyright.)

Allerdings kann man den Text nicht direkt „abschreiben“, sondern muss ihn übersetzen. Das trifft auch auf sprachliche Besonderheiten zu, z. B. auf die unterschiedliche Nutzung von ähnlichen Zahlwörtern im Englischen und Deutschen (de:"Milliarde"= 1E+09 = en:"billion" ≠ de:"Billion"= 1E+12) und die Punkte und Kommas in Zahlen sind ebenfalls ein Elend. Selbst mehr oder weniger international genutzte Bezeichnungen für Einheiten bereiten Schwierigkeiten, da „MB“ eben mehrdeutig verwendet wird. (‑; Den Witz mit dem „May‑be‑Byte“ bringe ich jetzt nicht noch mal! Ups, doch ... ;‑)

Ich stelle mir selbst auch die Frage, ob bereits meine „Übersetzung“ von „Mbytes“ nach „Megabytes“ eine „leichte Form der Theoriefindung“ wäre, wenn man es im Artikel anbringen würde. Ich habe immerhin eine eigene Berechnung als Probe angestellt, um zu sehen, ob der Beitragsautor („PvM“) mit dem „M“ in „Mbytes“ den Faktor 1000000 (10⁶) oder den Faktor 1048576 (2²⁰) gemeint hat.

Fakt ist, dass die etwa 3,27 Milliarden Basenpaare, wie sie seit geraumer Zeit als Genomgröße für das menschliche Genom im Artikel angegeben wurden (bis einschließlich oldid=209379579), nicht aus der Quelle stammen, die an der Textstelle verwendet wurde (also nicht aus „Information content of DNA bei Panda's Thumb“). In der Quelle wurde mit 3 Milliarden Basenpaaren gerechnet und es ergaben sich „750 Mbytes Informationsgehalt“. Im Artikel wurde ein Kommentar eingefügt: „Umrechnung von Bit in Mebibyte ist fehlerhaft, auch in der Quelle.“ (1.3.'21, anonym, diff=prev&oldid=209349595); es ist allerdings sehr wahrscheinlich, dass „PvM“ das Ergebnis gar nicht in „Mebibyte“ angeben wollte, sondern in „Megabyte“ (für diesen Fall stimmt jedenfalls mehr als anders herum).

Da es sich nicht lohnt, noch weiter über die Einheiten nachzudenken, wenn der ganze Ansatz bisher nicht ordentlich belegt werden kann, habe ich die Quelle als einen Versuch zitiert. Es ist belegt, dass jemand („PvM“) bei The Panda's Thumb diesen Versuch unternommen hat. Daher die Formulierung „naheliegend ... zu wollen“. Ansonsten wären bessere Belege hilfreich.

Faden von zwei Metern Länge: Man kann sich die DNA im Zellkern als ausgewickelten Faden einfacher bildlich vorstellen als einen (wie auch immer gearteten) „Informationsgehalt“. Der große Unterschied zwischen den ungefähr zwei Metern, die jetzt als Option vorliegen, den 2,1 Metern die Du im Artikel angegeben hattest und den 1,80 m die vorher dort standen, sind die Referenzen. Die 1,80 m hatten überhaupt keine Referenz; den 2,1 Metern war eine Referenz zugeordnet (https://www.ensembl.org/Homo_sapiens/Info/Annotation), dort stand/ steht aber die Streckenlänge von DNA als Faden nicht direkt drin und die ungefähr 2 Meter hätten eine Referenz (https://www.ncbi.nlm.nih.gov/books/NBK21054/), die auch passt.

Es ist nicht gesagt, dass die geschätzte Länge des DNA-Fadens von einer Anzahl sequenzierter und in Contigs eingeordneter Basen abgeleitet wurde. Wahrscheinlicher ist, dass man in Experiment-Serien DNA isoliert hat und aus der jeweiligen Anzahl der verwendeten Zellen sowie anderen gemessen Größen die Länge abgeleitet hat. Die durchschnittliche DNA-Menge pro Zelle dürfte von den Daten abweichen, die letztlich für die sequenzbasierte Bestimmung von Genomgrößen verwendet werden.

Anders ausgedrückt, glaube ich nicht, dass sich an den ungefähr zwei Metern DNA, die in jeder Zelle im Schnitt vorliegen sollen, durch wissenschaftlichen Fortschritt viel geändert hat. Die Quelle, mit welcher 2,1 Meter Länge belegt werden sollten (https://www.ensembl.org/Homo_sapiens/Info/Annotation), gibt die Zahl 3 096 649 726 als „Base Pairs“ und als „Golden Path Length“ an. Es wird wohl nur selten eine menschliche Zelle geben, die genau das Doppelte der Zahl 3 096 649 726 als Anzahl der Basenpaare innerhalb ihrer DNA-Fäden im Zellkern aufweist. Die Zahl ist deshalb so exakt, weil man genau weiß, wie viele Basenpaare für das „Assembly“ verwendet worden sind.

Würde man diese theoretische Zahl 3 096 649 726 (oder die gerundeten 3,1 Milliarden) verdoppeln, um die Anzahl von Basenpaaren in einem Zellkern zu bestimmen, ginge man vermutlich auch von diploiden menschlichen Zellen mit jeweils zwei X- und zwei Y-Chromosomen aus.

Du hast zwar Recht, das 0,34 nm die Angabe ist, die den Abstand zweier Basenpaare in der B-DNA kennzeichnet. B-DNA ist dominant gegenüber anderen Formen (A-DNA, Z-DNA). Ich denke aber nicht, dass Du mit einer eigenen Berechnung:

2,108 = 3,1E+09 * 2 * 3,4E-10

der Realität nicht näher kommst, als die Quelle mit den ungefähr 2 Metern (https://www.ncbi.nlm.nih.gov/books/NBK21054/). Die 5 % Abweichung zwischen 2 m und 2,1 m könnten z. B. aus den Unterschieden hinsichtlich der X- und Y-Chromosomen im Daten-Contig und in Zellkernen kommen (das weiß ich nicht so genau). Wahrscheinlich sind mehr als 5 % Abweichung in „ungefähr 2 Meter“ schon „eingepreist“, weil man das gar nicht so genau bestimmen kann.

Das ist aber gar nicht der Punkt. Der Punkt ist, dass „ungefähr 2 Meter“ direkt in einer soliden Quelle steht und „2,1 Meter“ eben nicht. Da wir versuchen sollten, einigen Regeln zu folgen, z. B. „Belegpflicht“ (WP:BLG), „Wikipedia ist keine Quelle“ (WP:WPIKQ) und „keine Theoriefindung“ (WP:TF), ist es in diesem Fall das Einfachste, die Quelle mit der direkten Angabe zu verwenden.

Belegte Länge des DNA-Fadens in den Artikel:

Aus meiner Sicht spricht alles dafür, die Information zur Länge des DNA-Fadens in einer menschlichen Zelle, begleitet durch die solide Quelle (https://www.ncbi.nlm.nih.gov/books/NBK21054/), wieder in den Artikel aufzunehmen. Vielleicht in etwa so:

Jede menschliche Zelle enthält von einen Ende zum anderen Ende ungefähr zwei Meter DNA, wenn man sie sich als durchgehenden Faden (Doppelhelix) vorstellt. Da der Kern einer menschlichen Zelle, die die DNA enthält, nur einen Durchmesser von etwa 6 μm hat, ergeben sich extreme Herausforderungen für die DNA-Verpackung; im geometrischen Größenvergleich entspräche das dem Verpacken eines 40 km langen, extrem feinen Fadens in einen Tennisball.

Ich sehe das Problem – wenn man die Fadenlänge sieht, will man natürlich auch die zugehörige Anzahl der Basenpaare wissen. Ich bleibe trotzdem dabei, dass eine einfache Verhältnisgleichung nicht funktioniert.

Kann man Anzahl der Basenpaare aus derselben Quelle beziehen? Vielleicht:

https://www.ncbi.nlm.nih.gov/books/NBK26834/#A609
„In eucaryotes, the DNA in the nucleus is divided between a set of different chromosomes. For example, the human genome—approximately 3.2 × 10⁹ nucleotides—is distributed over 24 different chromosomes.“

Da tritt das gleiche Problem auf, wie oben dargestellt. Die Zahl von 3,2e+09 bp bezieht sich auf die Summe von allen verschiedenen Chromosomen, 24 (22+X+Y), während die haploiden Keimzellen 23 Chromosomen aufweisen, die zu diploiden Zellen mit 46 Chromosomen führen.

Gegeben: Im Jahr 20ab sind k Häuser fertiggestellt worden; das hat A Euro gekostet.[Quelle 1] Im Jahr 20cd waren es bereits n Häuser.[Quelle 2]
Gesucht: Was haben die n Häuser gekostet, die im Jahr 20cd fertig geworden sind? (B Euro = Preis von n Häusern)
Lösung: B/n = A/k; B = A*n/k;
Anwendung: Im Jahr 20cd sind n Häuser fertig gestellt worden, was B Euro gekostet hat.[Quelle 2]

Anwort auf positiven Edit

Diskussion:Genom#Informationgehalt, Bits und Bytes

Hallo @Skopien, vielen Dank für die Referenz zu den zwei Metern! Die andere Referenz zu den 3,1 Milliarden Basenpaaren habe ich benannt, ..

https://de.wikipedia.org/w/index.php?title=Genom&diff=209762996&oldid=209735139

/ ISBN-10: 0-8153-3218-1;^[1] / https://www.ncbi.nlm.nih.gov/books/NBK21054/;^[2]

Auskunft

Hallo @Gruenschuh, ich habe mich auch schon gefragt, wo die molekularen Ursachen dafür liegen, dass man manche Sachen weichkochen kann, ein einmal hartgekochtes Ei aber bspw. nicht. Du fragst, warum nach Erreichen der Endtemperatur nicht alle Prozesse abgeschlossen sind. Es laufen wohl mehrere chemische Reaktionen parallel, die, vereinfacht ausgedrückt, von der Konzentration der Ausgangsstoffe, der kinetischen Energie und der Zeitdauer der Einwirkung abhängen. Bei Makromolekülen, z. B. Fette, Kohlenhydrate und Proteine, kommt noch dazu, dass sie nicht einfach in der Zelle „herumschwimmen“, sondern in räumlicher Beziehung zueinander stehen.

Wenn bspw. eine chemische Gruppe A an einem Makromolekül zwei potentielle Reaktionsnachbarn, B und C, hat, dann wäre es möglich, dass die Reaktion A+B → AB bereits bei niedrigen Temperaturen effektiv abläuft, die Reaktion A+C → AC aber erst bei hohen (unterschiedliche Aktivierungsenergien). Köchelt man jetzt etwas bei „kleiner Flamme“ langsam hoch, dann könnte es sein, dass Reaktion A+B → AB genug Zeit hat, um die Reaktion A+C → AC weitestgehend zu verhindern. Wirft man kleine Stückchen ins kochende Wasser, ist es möglicherweise genau anders herum. Je nachdem, wie man die Temperaturverläufe gestaltet, bekommt man mehr AB oder mehr AC und damit unterschiedliche Konsistenzen der zubereiteten Nahrung. Wie gesagt, stark vereinfacht. Einige Reaktionen sind zudem reversibel und andere nicht.

Der Faktor Zeit spielt jedenfalls bei jeder chemischen Reaktion eine Rolle. Wenn ein Thermometer eine bestimmte Temperatur anzeigt (oder das Wasser siedet), heißt das eben noch nicht, dass alle Bereiche im „Koch-, Back- oder Bratobjekt“ (also im zuzubereitenden Gericht ) von der entsprechenden Temperatur erreicht worden sind. Ein Bratenthermometer hilft in manchen Fällen. Selbst wenn eine bestimmte mittlere kinetische Energie der Teilchen (Zieltemperatur) an der betreffenden Stelle erreicht wurde, heißt dass nicht, dass alle beteiligten Teilchen die notwendige Aktivierungsenergie für die betrachtete Reaktion aufweisen, sondern nur, dass ein ausreichender Anteil dieser Teilchen reagieren kann. D. h., ab Erreichen einer Zieltemperatur fängt die Reaktion eigentlich erst an (vereinfachend formuliert). Von Forschenden im Bereich Pharmakologie habe ich gehört, dass gern eine Mikrowelle benutzt wurde, wenn eine möglichst große Bandbreite an neuen Stoffen entstehen sollte, um eine davon zu isolieren. Meine Vermutung ist, dass in solchen Fällen die direktere Energiezuführung durch elektromagnetische Wellen gewährleistet, dass mehr Teilchen genügend Energie für wirksame Zusammenstöße aufweisen, als das bei Wärmeleitung der Fall wäre.

Es gibt Gründe, warum Atomphysik, Anorganische Chemie, Organische Chemie, Biochemie, Molekularbiologie und Kochkunst verschiedene Fächer sind. Traditionell wird die Frage, welches Molekül jetzt ganz genau mit welchem unter welchen Voraussetzungen zusammenwirkt, beim Kochen eher nach hinten gestellt. (‑; Ich selbst verzichte beim Notieren meiner Kocherfahrungen im Allgemeinen auf das Niederschreiben komplexer Differenzialgleichungen. ;‑) Man kann es sich aber in den Grundzügen vielleicht so vorstellen, wie ich es geschildert habe, wenn man sich einen Reim darauf machen möchte, warum manche Sachen ein so merkwürdiges Temperatur- und Zeitregime erfordern: Gulasch scharf anbraten, in kaltem Wasser abschrecken, verschiede Zutaten beimengen, mindestens vier Stunden auf ganz kleiner Flamme köcheln. Das ist die Rezeptskizze einer Verwandten einer Bekannten.

MfG --~~

--

(:::)Danke Dirk! Habs zwar als chem/phys Laie nicht im kleinsten verstanden, aber so viel kapiert, dass verschiedene Reaktionen verschiedene Reaktionszeiten nach sich ziehen. Ich dachte zwar, dass nach einer Stunde Kochen die gesamte Fleischmenge die Endtemperatur erreicht haben muss, aber ich verstehe deine Ausführungen so, dass die zu einer bestimmten chem. Reaktion notwendigen (Stoff-)Nachbarn noch nicht in notwendiger Nähe oder ausreichender Menge vorhanden sind. Also dauert es nach Erreichen der Endtemperatur noch eine gewisse Zeit, bis alle Reaktionen abgeschlossen sind. Und eine Erhöhung der Endtemperatur verkürzt die anschließenden Reaktionszeiten (Schnellkochtopf/Dampfdrucktopf)? Gruenschuh (Diskussion) 13:07, 15. Mär. 2021 (CET)
(::::)Zur letzten Frage: Auch im Schnellkochtopf gilt die van-’t-Hoff’sche Regel. --Rôtkæppchen₆₈ 15:16, 15. Mär. 2021 (CET)

--

Hallo @Rotkaeppchen68, ich hatte mir für meine Antwort auch schon überlegt, zu erwähnen, dass auch die Enzmaktivitäten im Lebensmittel selbst eine Rolle spielen, bevor diese Proteine durch Hitze denaturiert werden. Deshalb hatte ich auch die Van-’t-Hoff’sche Regel auf dem Schirm und mich dann aber dagegen entschieden, diese auch noch ins Spiel zu bringen; siehe „Niederschreiben komplexer Differenzialgleichungen“. --~~

Hallo @Gruenschuh, vorn angestellt: ich gehe davon aus, dass ich nicht derjenige bin, der den Stein der Weisen gefunden hat; ich wollte lediglich meine Vorstellung zum Thema präsentieren. Die Beschreibung musste deshalb auch eher allgemein bleiben (A, B und C), weil man im Detail meistens nicht sehr genau wissen kann, welches Molekül, welche chemische Gruppe oder welches Atom wo oder wie reagiert. Du schreibst, dass Du herausgelesen hast, dass „verschiedene Reaktionen verschiedene Reaktionszeiten nach sich ziehen.“ Das stimmt zwar auch und kommt dem nahe, was ich meine, ich wollte aber auf weniger darauf hinaus, wie lange etwas dauert, sondern das sich verschiedene Prozesse beeinflussen.

Ehrlich gesagt, hatte ich Deine Frage: „Warum sind damit [mit Erreichen der Endtemperatur im Fleisch] nicht alle chemischen Prozesse abgeschlossen?“ als Anlass genommen, eine meiner eigenen Fragen gleich mit zu beantworten, die ich besser explizit gestellt hätte. Dieses Versäumnis hole ich jetzt nach; die Frage wäre: „Warum ist es nicht in jedem Fall egal, wie schnell die Endtemperatur erreicht wird?“ Ich vermute, dass es zum Teil an konkurrierenden Reaktionen liegt. Es konkurrieren im fiktiven Szenario also zwei Reaktionen, von denen die eine (A + B+ C → AB + C) bei niedrigen Temperaturen und die andere (A + B+ C → AC + B) bei hohen Temperaturen „gewinnt“. Wenn A schon bei niedriger Temperatur an B gebunden wurde, dann kann es auch bei hoher Temperatur nicht mehr an C binden. Die Verbindung AB steht in diesem „Model“ zartes Fleisch und AC für zähes. Ob das wirklich so ist, kann ich nicht beweisen.

Mit den „zu einer bestimmten chem. Reaktion notwendigen (Stoff-)Nachbarn“ wollte ich nicht sagen, dass irgendwann jedes Molekül der Nachbar jeden anderen Moleküls gewesen sein müsste. Ich wollte eher darauf hinaus, dass die räumliche Nähe von Reaktionspartnern innerhalb von mehr oder weniger festen Nahrungsmitteln schwerer zu fassen ist als innerhalb eines Erlenmeyerkolbens im Chemielabor. Manche Makromoleküle sind von vornherein in Nachbarschaft, z. B. Myolin und Aktin in einer Muskelfaser in Fleisch, und andere eben nicht. Einige Moleküle können später zusammen kommen und andere eben nicht. In einem Kotelett löst sich beim Braten nicht der gesamte Knochen auf, es diffundieren aber Stoffe aus dem Knochen ins Fleisch; das dürfte temperatur- und zeitabhängig sein. Wer schon mal den Knochen vor dem Braten entfernt hat (und an einem anderen Kotelett nicht), kennt wahrscheinlichen den geschmacklichen Unterschied.

Dann habe ich auch noch den Ausdruck „Zieltemperatur“ benutzt, was den Eindruck erweckt, die Endtemperatur wäre das Ziel. Die Temperatur ist aber nur ein Zwischenziel; mit dem Erreichen einer bestimmten Temperatur starten bestimmte Prozesse und andere sind bereits davor abgelaufen. Die Moleküle gucken nicht aufs Thermometer und reagieren ohne Zeitverzug, wenn sie die richtige „Zieltemperatur“ sehen, sondern sie haben bei verschiedenen Temperaturen unterschiedliche Voraussetzungen zu reagieren.

Es gibt von Dir eine neue Frage, die mit dem Schnellkochtopf. Der Schnellkochtopf sorgt dafür, dass der Druck höher sein kann als der Atmospärendruck (101325 Pa bzw. ungefähr 1 bar) und dass daran gekoppelt die Temperatur von Wasser höher sein kann als 100 °C, ohne dass es siedet. Es gibt eben Unterschiede zwischen Sieden und Kochen. Der Schnellkochtopf ist dann nützlich, wenn Nahrungsmittel unter der erhöhten Temperatur nicht zu sehr leiden. Wenn man alles nur beschleunigen will und keine unliebsamen Prozesse vermeiden muss, ist Temperaturerhöhung oft geeignet.

Dein erstes Anliegen war, zu erfahren, warum Steak und Rouladen sich unterscheiden. Zwischen diesem Anliegen und Deinem Wunsch, „eher eine chemische/physikalische Antwort, wie man dieses Phänomen erklärt“, zu bekommen sowie der jetzigen Frage nach dem Schnellkochtopf kann ich ohne Weiteres keine geeignete Verbindung herstellen. Ich vermute, dass wir hier unterschiedliche Denkansätze haben. Du gehst wahrscheinlich eher von einer einheitlichen Ausgangslage aus und erwartest ein einheitliches Ergebnis (rohes Fleisch → Hitze → gebratenes Fleisch). Ich sehe das mehr als das Ablaufen ineinander übergehender und paralleler Prozesse an. Dabei stelle ich mir die Ergebnisse des einen Teilprozesses als Ausgangslage für den nächsten Teilprozess vor (wobei ich einräume, dass diese Prozesse häufig gar nicht abgegrenzt sind). Je nachdem, wie die Prozesse gestaltet werden, kommen unterschiedliche Ergebnisse heraus.

Ich vermute, dass eine Roulade, direkt im Schnellkochtopf gekocht, eher zäh wird. Die hohe Temperatur führt wahrscheinlich zur schnellen und starken Vernetzung der zahlreichen, eng benachbarten Makromoleküle in der quergestreifter Muskulatur mit geringem Fettanteil. Es gibt wohl auch Gründe, warum in die Rouladen Sachen hineingewickelt werden, z. B. Senf, saure Gurken, Speck. Die auch bei niedrigeren Temperaturen löslichen Substanzen (z. B. Fette) brauchen vermutlich einige Zeit, um zwischen die Fasern zu diffundieren. Es wird häufiger von Kochkunst gesprochen als von Kochwissenschaft. Das liegt wohl daran, dass man hier häufig mit Probieren, Notieren und Reproduzieren weiter kommt als durch analytische chemische Verfahren.

Ich erkläre es mal anders. Wenn ein Person A ein bestimmtes Geschlecht und eine bestimmte Orientierung sowie weitere Eigenschaften hat, dann wird sie sich in eine Person A verlieben können und möglicherweise anders herum auch (Bindungsaffinität). Ähnliches gilt aber auch für Person A und C. Wenn A und B sich verliebt haben, z. B. während der Berufsausbildung, und dann heiraten, dann können

↑ Alexander Johnson, Julian Lewis, Martin Raff, Keith Roberts, Peter Walter: Molecular biology of the cell. 4th ed Auflage. Garland Science, New York 2002, ISBN 0-8153-3218-1, Chromosomal DNA and Its Packaging in the Chromatin Fiber (Online verfügbar: https://www.ncbi.nlm.nih.gov/books/NBK26834).
↑ Bruce Alberts, Alexander Johnson, Julian Lewis, Martin Raff, Keith Roberts: Molecular Biology of the Cell. 4th Auflage. Garland Science, 2002, ISBN 978-0-8153-3218-3, Chromosomal DNA and Its Packaging in the Chromatin Fiber (nih.gov).

[1] Alexander Johnson, Julian Lewis, Martin Raff, Keith Roberts, Peter Walter: Molecular biology of the cell. 4th ed Auflage. Garland Science, New York 2002, ISBN 0-8153-3218-1, Chromosomal DNA and Its Packaging in the Chromatin Fiber (Online verfügbar: https://www.ncbi.nlm.nih.gov/books/NBK26834).

[2] Bruce Alberts, Alexander Johnson, Julian Lewis, Martin Raff, Keith Roberts: Molecular Biology of the Cell. 4th Auflage. Garland Science, 2002, ISBN 978-0-8153-3218-3, Chromosomal DNA and Its Packaging in the Chromatin Fiber (nih.gov).

[1]

[2]