Diskussion:Data-Mining

Letzter Kommentar: vor 8 Jahren von Lustiger seth in Abschnitt Übersetzung des Begriffs
Diese Diskussionsseite dient dazu, Verbesserungen am Artikel „Data-Mining“ zu besprechen. Persönliche Betrachtungen zum Thema gehören nicht hierher. Für allgemeine Wissensfragen gibt es die Auskunft.

Füge neue Diskussionsthemen unten an:

Klicke auf Abschnitt hinzufügen, um ein neues Diskussionsthema zu beginnen.
Archiv
Wie wird ein Archiv angelegt?

Übersetzung des Begriffs

Bearbeiten

Bitte Änderungen an der Übersetzung hier diskutieren, und nicht (mangels Englischkenntnisse) einfach nur in Google Translator schmeißen. Danke. Wir haben hier im Laufe der Zeit verschiedene abenteuerliche Übersetzungsversuche gesehen ("Datenschürfen"?). Die aktuelle Version basiert auf Überlegungen jenseits von reinem "mein Wörterbuch sagt aber 'mine = abbau'", sondern versucht die semantische Bedeutung zu erfassen: "aus einem Berg (von Daten) etwas Wertvolles holen" zu erfassen, die von einer naiven Übersetzung nicht erfasst wird. Also bitte (und ich spreche hier insbesondere pseudo-anonyme IPs an) nicht unbedingt einfach drauf los ändern, sondern erst diskutieren. Danke. --Chire 16:31, 11. Aug. 2011 (CEST)Beantworten

Nachdem das Thema immer wieder kehrt, habe ich hier: Benutzer:Chire/Datenschürfen noch mal ein paar Fakten dazu zusammengetragen. --Chire 10:47, 9. Nov. 2011 (CET)Beantworten
Ich habe verschiedene Übersetzungsvorschläge in dem Abschnitt Data-Mining#Deutscher Begriff zusammengetragen. Mehr Aufmerksamkeit verdienen diese Vorschläge nicht, solange sie keine nennenswerte Verbreitung finden. (Und jetzt bitte keine Google-Trefferzahlen für Treffer der Form "dieses Wörterbuch enthält den Begriff Datenschürfen nicht" ...) --Chire 08:17, 21. Nov. 2011 (CET)Beantworten
Zu mining könnte man zweierlei Bedeutungen finden: Die erste ist der Bergbau an sich, wie in adit mining, deep mining, surface mining. Gemeint ist hier das Verfahren, das genauer beschrieben wird. Coal mining, gold mining, uranium mining hingegen ist jeweils der Bergbau, der auf einen bestimmten Rohstoff abzielt. Deshalb kann mining auch hier mit Bergbau übersetzt werden, was sehr allgemein bleibt, oder mit Abbau oder Gewinnung, was eher das Ergebnis des Prozesses betont. Data mining nun mit den Übersetzungen Datenabbau, Datenförderung oder Datengewinnung dem zweiten Begriff zuzuordnen, hieße, data mining als Prozess zu beschreiben, an dessen Ende die Daten in Form eines Rohstoffes vorliegen. Das trifft auf data mining aber nicht zu, da nicht der Abbau von Daten, sondern der „Abbau“ tatsächlich in den Daten passiert. Das Problem liegt wohl nicht in der Übersetzung, sondern vielmehr darin, dass der reale Bergbau stets in Gestein stattfindet, sodass man auf dieser Bedeutungsebene im normalen Gebrauch keine Unterscheidung machen muss. Mit der Verwendung in „Data Mining“ wird hingegen eine abstraktere Ebene beschritten, auf der einfach Beispiele fehlen. Beim Data Mining werden bestimmte Verfahren angewendet, nämlich speziell auf Daten abgestimmte, um Muster zu erkennen, die sich innerhalb dieser Daten auftun. Auf diese Muster zielt der „Abbau“ ab, der aber wiederum mit einem anderen Begriff bezeichnet werden müsste. Von wörtlichen Übersetzungen sollte man deshalb vielleicht generell absehen, weil sich die weitere Abstraktionsebene aus dem Gebrauch sowohl von „Abbau“ als auch von „Bergbau” nicht erschließt und man beides doch im ersten Moment als das bloße Schürfen verstehen könnte. --Apde (Diskussion) 00:34, 3. Jul. 2014 (CEST)Beantworten
Weil man heute aber nun mal griffige wörtliche Übersetzungen liebend gern hat und damit niemand Leichtfertigeres sich herausgefordert fühlt, wenn wir eine solche jetzt weglassen: „Bergbau in Daten”? --Apde (Diskussion) 00:38, 3. Jul. 2014 (CEST)Beantworten
Vorsicht WP:Theoriefindung! Wir suchen keine Übersetzung die wir griffig finden, sondern sollten uns an der Literatur orientieren...
Es werden aber weder Daten gefördert, noch gewonnen. Es wird aus Daten Wissen gewonnen. Vrgl. Wissensentdeckung aus Datenbanken. Nehmen wir bspw. das deutschsprachige Lehrbuch "Martin Ester, Jörg Sander: Knowledge Discovery in Databases: Techniken und Anwendungen. Springer, Berlin 2000, ISBN 3540673288", so findet sich auf Seite 4: "Data Mining ... die in einer Datenbank enthaltenen gültigen Muster finden" mit Verweis auf Fayyad et al.
Allensfalls wäre es also die Mustergewinnung, Musterförderung oder Wissensgewinnung. In der mir bekannten Literatur gilt "Daten ~ Steine, Muster ~ Gold".
Ich würde daher bei der Übersetzung "Daten-Bergbau" bleiben, da eben "in einem Datenberg" gearbeitet wird. Und hoffentlich Muster gefunden werden, nicht nur wertlose Daten...
keine gute quelle - diplomarbeit: Siehe auch: Stephan Hagemann, Maßzahlen für die Assoziationsanalyse im Data Mining: Fundierung, Analyse und Test, 2007, ISBN 3836607182 "... der Begriff Data Mining ein unzutreffender Name ist, da „Daten Bergbau“ suggeriert es ginge nicht etwa darum Wissen, sondern Daten zu finden". aber steht so in einem essentiellen Englischen Lehrbuch (Han, Kamber) --Chire (Diskussion) 09:42, 3. Jul. 2014 (CEST)Beantworten
Danke, dass du nochmal ein bisschen deutlicher zusammengefasst hast, was jetzt Data Mining ist und was nicht. Aber schade, dass du meinst, du würdest mir damit widersprechen. Ein Widerspruch sehe ich allerdings hier: Warum sagst du denn, es soll heißen "Daten-Bergbau, da eben in einem Datenberg gearbeitet wird"? Ist die Schlussfolgerung nicht eher: nicht "Daten-Bergbau", weil genau das suggeriert, es ginge um "Bergbau nach Daten"? Also sollte etwas her, das die Bedeutung "Bergbau in Daten" vermittelt. Das sagt offenbar auch das englische Lehrbuch - nix Theoriefindung. Orientieren wir uns also an der Literatur und schmeißen die Übersetzung "Daten-Bergbau" raus, da sie vermittelt, es würden Daten gefunden. So wie ja beim Kohlebergbau Kohle gefunden wird. Sonst kommt noch jemand auf den Gedanken, der Übersetzungsversuch "Daten-Bergbau" ist Theoriefindung...
Eine griffige Übersetzung suche ich übrigens nicht. Ich halte es für besser, den Begriff lediglich zu erläutern, damit von allen verstanden wird, worum es geht und niemand seine Interpretation einer eben "griffigen", aber möglicherweise schiefen Übersetzung womöglich noch in einem Buch festhält. Viele möchten eine solche Übersetzung aber hier stehen sehen, und wenn sie die nicht finden, schreiben sie eben ihre Milchmädchenübersetzung rein. Das will ich - auch gern mithilfe einer erläuternden Theorie auf der Diskussionsseite - vermeiden helfen. Kein Grund da gleich mit der TF-Flagge zu fuchteln... --Apde (Diskussion) 18:42, 4. Jul. 2014 (CEST)Beantworten
Die Quelle sagt, dass der Teil "data" ungünstig gewählt ist, nicht der Teil "mining". ;-) Und warum ich TF erwähnt habe ist, dass wir nicht versuchen sollten die unserer Meinung nach (gerade als non-native speaker); sondern statt dessen sollten wir uns versuchen an der Literatur zu orientieren. Und da en:Mining <-> Bergbau, en:Coal mining <-> Steinkohlenbergbau, en:Uranium mining <-> Uranbergbau würde ich klar für die wörtliche Übersetzung "Daten-Bergbau" tendieren. Die sinnegemäße Erklärung kommt ja danach. Und "Bergbau in Daten" finde ich ok, aber nicht mehr wörtlich - siehe Han&Kamber. --Chire (Diskussion) 09:22, 7. Jul. 2014 (CEST)Beantworten
gudn tach!
zum einen wird im thread auf WP:NOR verwiesen, andererseits wird genau genommen nichts anderes gemacht. und wenn man die woerter "data" und "mine" fuer sich betrachtet, dann kann man eben zu unterschiedlichen ergebnissen kommen. in diesem fall ist es jedoch relativ einfach, weil einem z.b. von duden sogar schon die herkunft des begriffs mitgeliefert wird:
"englisch data mining, aus data (Daten) und mining, zu to mine = graben; abbauen, fördern, vgl. Mine" duden
und genau so wuerde ich es auch im artikel schreiben:
"(von englisch englisch data mining, aus englisch data ‚Daten‘ und englisch mine ‚graben‘, ‚abbauen‘, ‚fördern‘)"
das ist belegt. der "daten-bergbau" in der form nicht. -- seth 09:53, 10. Nov. 2016 (CET)Beantworten
englisch mining (das Nomen, nicht das Verb englisch to mine) wird durchaus mit "Bergbau" übersetzt: http://dict.leo.org/ende/index_de.html#/search=mining - "Schürfen" und "Graben" sind da nicht dabei (auch wenn die Übersetzung "Datengrab" etwas für sich hätte...). Es werden jedenfalls keine Daten gegraben, Daten abgebaut (oops, weg sind sie!) oder gefördert (übertragen)? Die wörtliche Übersetzung als "In den Daten graben" halte ich für passend, aber kein Nomen. Chire (Diskussion) 00:42, 11. Nov. 2016 (CET)Beantworten
Siehe auch (schon lange im Artikel): Duden - Das Fremdwörterbuch: „engl. eigtl. »Datenförderung«“ - man beachte dabei das eingefügte "eigentlich". Keine besonders gute Übersetzung m.E. Chire (Diskussion) 00:54, 11. Nov. 2016 (CET)Beantworten
gudn tach!
dass "mining" grundsaetzlich mit "bergbau" uebersetzt werden kann, stellt wohl niemand in frage, aber wie du selbst schriebst: "Wir suchen keine Übersetzung die wir griffig finden, sondern sollten uns an der Literatur orientieren..."
der duden liefert fuer die etymologie von "data-mining" bereits erklaerungen und uebersetzungen der bestandteile. darauf koennten und sollten wir in der einleitung verweisen, denn das ist ein valider beleg.
du versuchst dagegen nicht die etymologie zu klaeren, sondern eine uebersetzung anzugeben, die zugleich ein semantisches update gegenueber dem original erfahren soll. das ist halt letztlich zu nah an NOR. oder kannst du ein woerterbuch nennen, dass eine der beiden von dir vorgeschlagenen uebersetzungen nennt?
dass die bezeichnung "data mining" an sich unguenstig/mehrdeutig ist, steht bereits hinreichend deutlich im artikel, das aendert jedoch nichts an der etymologie, also an der herkunft. -- seth 01:13, 11. Nov. 2016 (CET)Beantworten
Der Duden ist nicht umbedingt die passende Literatur zum Thema "Data Mining". Er verweist doch außerdem primär darauf, dass es aus dem Englischen "data mining" kommt, und erläutert (!) wo die obengenannten Teilwörter herkommen. Das bedeutet m.E. nicht, dass "data + to mine -> Daten + graben" die vorgeschlagene Etymologie ist (in dieser Herleitung kommt 'data mining' gar nicht vor), und besser als z.B. "data + mining -> Daten + Bergbau -> Datenbergbau" (wobei man natürlich "data + mining" von "datum + to mine" herleitet). Zudem die Assoziation "(Schatzsuche im) Datenberg" durchaus im deutschsprachigen auch zu finden ist, und "graben" würde kaum jemand mit "mining" rückübersetzen sondern bspw. mit "to dig"... insofern ist der "Datenberg" schon nicht falsch... Chire (Diskussion) 14:25, 11. Nov. 2016 (CET)Beantworten
gudn tach!
der duden ist selbstverstaendlich kein informatik-fachbuch, aber der duden zaehlt zur passenden literatur zum thema etymologie. das ist nun mal eine domaene der sprachwissenschaften.
einen beleg fuer deine uebersetzung hast du noch nicht angegeben. ich verstehe deine ambition, eine deutsche entsprechung angeben zu wollen, die moeglichst gut beschreibt, was data-mining ist. das wuerde ich jedoch der herkunftsbeschreibung hintanstellen. die etymologie ist unter anderem noetig, um spaeter auch zu erklaeren, warum die bezeichnung "data-mining" irrefuehrend ist.
vielleicht komme ich die tage dazu, mal ueber einige passagen drueber zu gehen. vielleicht wird's klarer und greifbarer, wenn ich einfach mal einen vorschlag umsetze. -- seth 18:51, 11. Nov. 2016 (CET)Beantworten
gudn tach!
hab's jetzt nochmal versucht. -- seth 14:33, 18. Dez. 2016 (CET)Beantworten

Ernten und Kratzen

Bearbeiten

Welcher Unterschied besteht denn zwischen Data-Mining und Web scraping bzw. Web harvesting (EN) bzw. wo soll der gesehen werden? --Itu (Diskussion) 23:24, 3. Okt. 2012 (CEST)Beantworten

Data Mining ist nicht das Sammeln von Daten, sondern die Analyse. Web scraping ist die (gezielte) Extraktion - also eben genau das Sammeln. Das wird natürlich manchmal auch kombiniert verwendet - Daten die man extrahiert hat will man oft auch analysieren - aber eben auch unabhängig: Data Mining wird sogar vorwiegend auf nicht-Web-Daten gemacht. Und umgekehrt werden ein Großteil der aus Webseiten extrahierten Daten eben genau nicht mit diesen Methoden analysiert, sondern erstmal nur gespeichert oder angezeigt. Wenn ich also z.B. ein Programm schreibe dass mir den nächsten Bus anzeigt (und aus einer Webseite "scraped") dann ist das Web scraping, aber kein Data Mining (da ich den Bus eben nur anzeige, und nicht Clusteranalyse oder eine derartige komplexe Analyse durchführe. P.S. "web scraping" kommt mehr davon, dass einen nur ein Teil interessiert, der Rest verschrottet (to scrap, nicht to scrape!) wird. Die Wörter sind aber natürlich eng verwandt. P.S. es gibt auch noch Web Mining. Das hat mehr mit Data Mining zu tun als das reine scraping. --Chire (Diskussion) 23:26, 7. Okt. 2012 (CEST)Beantworten

„Datenmustererkennung“

Bearbeiten

Diese Bezeichnung impliziert doch überhaupt nicht eine Wiedererkennung bestehender Muster - worauf basiert die darauf folgende Erläuterung in Klammern (es geht jedoch nicht um die Wiedererkennung bestehender Muster, sondern um das Finden neuer) eigentlich? --Blauer Berg (Diskussion) 09:50, 30. Mai 2014 (CEST)Beantworten

Der Begriff "Data-Mining" wird oft mit Klassifikation gleichgesetzt; das ist aber die Wiedererkennung von Mustern. Data-Mining ist etwas breiter als nur Klassifikation / Maschinelles Lernen, und umfasst eben auch Methoden wie Clusteranalyse und Ausreißererkennung. Aber man könnte den Artikel hier wahrscheinlich etwas kürzen. Aber ich finde es nicht falsch zu erklären warum manche Begriffe offenbar nicht Fuß gefasst haben. --Chire (Diskussion) 09:36, 2. Jun. 2014 (CEST)Beantworten
Weder das von Dir verlinkte Lemma noch Klassifikation beinhalten die Wiedererkennung von Mustern. Mustererkennung verweist auch nur darauf, daß sie für das Data-Mining von zentraler Bedeutung ist, von Wiedererkennung ist doch jedoch ebenfalls keine Rede. Lässt sich die Relevanz dieser Aussage, warum manche Begriffe offenbar nicht Fuß gefasst haben, anhand von validen Quellen belegen? --Blauer Berg (Diskussion) 09:54, 16. Jun. 2014 (CEST)Beantworten
Klassifikator (Informatik): "vorgegebene Kategorien", "ein Satz von Trainingsdaten" - das sind die Muster, die man Wiedererkennen soll... im Englischen deswegen auch en:Pattern recognition, man beachte das recognition sinnvoll mit Wiedererkennung übersetzt werden kann; der Forschungsbereich hätte man sonst auch "Pattern Discovery" (analog zu "Knowledge Discovery in Databases") nennen können, oder "Pattern detection". Die Methoden sind aber in der Regel nur in der Lage, ihre gelernten Muster wieder zu finden (also z.B. Hunde als solche zu erkennen), nicht jedoch ohne neues Training neue Muster zu entdecken (sprich, auf Hunden trainieren, und danach auf Turnschuhe generalisieren). Im Maschinelles Lernen und en:Pattern recognition liegt der Fokus eben auf dem Wiedererkennen von trainierten Klassen. Da wäre der Begriff "Datenmusterwiedererkennung" präziser (nur kann das keiner aussprechen ...). Es geht also nicht darum, dass der Begriff das impliziert, sondern darum dass der Begriff oft mit Maschinelles Lernen gleichgesetzt wird, aber der Begriff "Data Mining" eigentlich aus dem KDD/unsupervised Bereich kommt, wo es darum geht neue Muster ("nuggets"; etwas rares) zu finden.
Hast du einen Vorschlag, wie man das Verständlicher machen kann, dass Data Mining != Maschinelles Lernen? --Chire (Diskussion) 16:21, 16. Jun. 2014 (CEST)Beantworten