Concept Drift
Concept Drift oder data drift bedeutet im Bereich der prädiktiven Analysen und des Maschinellen Lernens, dass sich die statistischen Eigenschaften der Zielvariable, die ein Modell vorherzusagen versucht, im Laufe der Zeit unvorhergesehen ändern. Das führt dazu, dass die Vorhersagen, die dieses Modell trifft, im Laufe der Zeit ungenauer werden.
Der Term Concept Drift bezieht sich grundlegend auf das Phänomen einer sich ändernden Zielvariable, wird aber auch für zeitabhängige Änderungen von Eingabedaten, die sich gleichwohl auf Vorhersageergebnisse auswirken, verwendet.
Beispiele
BearbeitenIm Bereich der Vorhersage der Bonität existiert das Zielkonzept eines binären Attributs kreditwürdig mit den Werten „ja“ oder „nein“, welche angeben, ob ein Kunde kreditwürdig oder nicht kreditwürdig ist. Relevant für die Vorhersage der Kreditwürdigkeit können u. a. Attribute wie die Verdienstsituation, das Alter oder die Familienverhältnisse des Kunden sein. Wenn auf Basis dieser Attribute eine Vorhersage getroffen wird, ist davon auszugehen, dass das Modell bedingt durch Inflation oder Krisen mit der Zeit ungenauer wird und falsche Vorhersagen trifft.
In einer Anwendung bei einer Vorhersage von Absatzzahlen von Automodellen können Prämien für Elektroautos oder ein Verbot von Verbrenner-Fahrzeugen stark und unerwartet Abweichungen von den prognostizierten Absatzzahlen bewirken.
In einer Applikation zur Wettervorhersage können mehrere Zielkonzepte wie die Temperatur, der Luftdruck oder die Luftfeuchtigkeit existieren. Wenn ein Modell auf Basis eines begrenzten Zeitraumes, beispielsweise im Sommer, trainiert wird, ist es abzusehen, dass eine Vorhersage der Temperatur zu anderen Jahreszeiten ungenau ist.
Auch im Bereich des Elektronischen Handels existieren Zielkonzepte wie das Kundenverhalten. Wenn der wöchentliche Absatz vorhergesagt werden soll, kann mithilfe von Attributen wie des Geldbetrages, der für Werbung ausgegeben wird, und weiterer Metriken, die den Absatz betreffen, ein Vorhersagemodell erstellt werden. Dieses ist zum Zeitpunkt des Trainings akkurat und trifft zuverlässige Vorhersagen. Es ist allerdings zu erwarten, dass die Güte von Vorhersagen mit der Zeit schlechter wird, was Concept Drift genannt wird. Die Ursache findet sich beispielsweise in der Saisonalität, da sich Kaufinteressen möglicherweise ändern, oder in Budgetänderungen oder Veränderungen am Markt durch u. a. neue Wettbewerber.
In einem größeren Rahmen stellen auch die Corona Lockdowns Concept Drifts dar. In zahllosen Branchen wurden Vorhersagen und die Vorhersagemodelle durch die Lockdowns in kürzester Zeit unbrauchbar. Beispielsweise konnten ÖPNV Belegungen und Verspätungen, Onlinehandel Absätze oder Flugpreise überhaupt nicht mehr vorhergesagt werden.[1]
Möglichkeiten zur Vermeidung von Concept Drift
BearbeitenUm die Verschlechterung der Vorhersagegenauigkeit durch Concept Drift zu vermeiden, gibt es aktive und passive Lösungsansätze. Aktive Ansätze basieren auf Auslösemechanismen wie z. B. Tests zum Erkennen von Veränderungen[2][3] um Concept Drift als Veränderung in der Statistik des datenerzeugenden Prozesses zu erkennen. Unter stationären Bedingungen kann jede neu verfügbare Information zur Verbesserung des Modells berücksichtigt werden. Wenn jedoch eine Konzeptabweichung festgestellt wird, ist das aktuelle Modell nicht mehr aktuell und muss durch ein neues ersetzt werden, damit die Vorhersagegenauigkeit erhalten bleibt.[4][5] Im Gegensatz dazu wird bei passiven Lösungen das Modell ständig aktualisiert, z. B. durch Neutraining des Modells anhand der zuletzt beobachteten Stichproben[6] oder durch den Einsatz eines Ensembles von Klassifikatoren.[7] Auch deskriptive Lösungen zur Erkennung von Concept Drift können bei der Behandlung sich verschlechternden Vorhersagen helfen.
Falls Kontextinformationen verfügbar sind, können diese verwendet werden, um die Ursachen von Concept Drift zu erklären. Beispielsweise kann Concept Drift in einer Umsatzvorhersage ausgeglichen werden, indem man Informationen über die Jahreszeit zum Vorhersagemodell hinzufügt. Dadurch wird die Verschlechterung des Modells abnehmen, Concept Drift wird damit allerdings nicht vollständig beseitigt werden können. Dies liegt daran, dass das tatsächliche Kaufverhalten keinem statischen, endlichen Modell folgt. Neue Faktoren, die das Kaufverhalten beeinflussen können entstehen oder bestehende Faktoren sowie ihr Einfluss können sich mit der Zeit verändern.
Bei komplexen Phänomenen, die keinen festen Naturgesetzen unterliegen, lässt sich Concept Drift nicht vermeiden. Alle Prozesse, die durch menschliche Aktivität entstehen wie sozioökonomische oder biologische Prozesse, unterliegen irgendwann Concept Drift. Deshalb ist regelmäßiges Neutraining eines Modells notwendig.
Software
Bearbeiten- RapidMiner: zuvor Yet Another Learning Environment (YALE): freie Open Source Software für Knowledge Discovery, Data-Mining und Machine Learning, die auch Data-Stream Mining, das Lernen von zeitabhängigen Veränderungen und die Erkennung von Concept Drift ermöglicht. Es existiert hierfür ein Data-Stream Mining Plugin (zuvor Concept Drift Plugin).
- EDDM (Early Drift Detection Method): freie Open Source Implementierung von Methoden zur Drift-Erkennung in Weka.
- MOA (Massive Online Analysis): freie Open Source Software für die Analyse von Datenströmen, welche Concept Drift unterliegen.
Datensätze
BearbeitenRealdatensätze
Bearbeiten- USP Data Stream Repository, 27 reale Datenstrom-Datensätze zusammengestellt von Souza u. a.(2020). Zugriff
- Airline, ungefähr 116 Millionen Aufzeichnungen über Ankunft und Abflug von Flügen (bereinigt und sortiert) zusammengestellt von E. Ikonomovska. Referenz: Data Expo 2009 Competition community.amstat.org. Zugriff
- Chess.com (Online-Spiel) und Luxembourg (Umfrage), Datensätze zusammengestellt von I. Zliobaite. Zugriff
- ECUE spam, 2 Datensätze mit jeweils mehr als 10.000 E-Mails, die über einen Zeitraum von etwa 2 Jahren von S.J.Delany gesammelt wurden. Zugriff
- Elec2, Strombedarf, 2 Klassen, 45.312 Instanzen. Referenz: M. Harries, Splice-2 comparative evaluation: Electricity pricing, Technical report, The University of South Wales, 1999. Zugriff von J.Gama. Kommentar zur Anwendbarkeit des Datensatzes.
- PAKDD'09 Wettbewerb, Daten zur Kreditbewertung, gesammelt über 5 Jahre. Nur der erste Teil der Daten ist gelabelt. Zugriff
- Sensor stream und Power supply stream Datensätze von X. Zhus Stream Data Mining Repository. Zugriff
- SMEAR ist ein Benchmark-Datensatz mit einigen Fehlwerten. Umweltbeobachtungen über 7 Jahre, um die Bewölkung vorherzusagen. Zugriff
- Text mining, eine Sammlung von Texten mit Concept Drift, zusammengestellt von I. Katakis. Zugriff
- Gas Sensor Array Drift Dataset, eine Sammlung von 13.910 Messwerten von 16 chemischen Sensoren verwendet für die Driftkompensation in einer Diskriminierungsaufgabe von 6 Gasen in verschiedenen Konzentrationen. Zugriff
Sonstiges
Bearbeiten- KDD'99 Wettbewerb, Datensätze über simuliertes Eindringen in ein militärisches Netzwerk. Oft als Benchmark benutzt, um den Umgang mit Concept Drift zu bewerten. Zugriff
Künstlich erzeugte Datensätze
Bearbeiten- Extreme verification latency benchmark, Souza, V.M.A.; Silva, D.F.; Gama, J.; Batista, G.E.A.P.A.: Data Stream Classification Guided by Clustering on Nonstationary Environments and Extreme Verification Latency. SIAM International Conference on Data Mining (SDM), 2015, S. 873–881. Zugriff auf das Nonstationary Environments – Archiv.
- Sine, Line, Plane, Circle and Boolean Data Sets, L.L. Minku, A.P.White, X. Yao, The Impact of Diversity on On-line Ensemble Learning in the Presence of Concept Drift, IEEE Transactions on Knowledge and Data Engineering, Vol. 22, No. 5, 2010, S. 730–742. Zugriff auf der Seite von L. Minku.
- SEA concepts, N.W.Street, Y.Kim, A streaming ensemble algorithm (SEA) for large-scale classification, KDD'01: Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining, 2001. Zugriff auf der Seite von J. Gama.
- STAGGER, J.C. Schlimmer, R.H. Granger, Incremental Learning from Noisy Data, Mach. Learn., Vol. 1, No. 3, 1986.
- Mixed, J. Gama, P. Medas, G.Castillo, P. Rodrigues, Learning with drift detection, 2004.
Frameworks zur Erzeugung künstlicher Datensätze
Bearbeiten- L. L. Minku, A. P. White, X. Yao: The Impact of Diversity on On-line Ensemble Learning in the Presence of Concept Drift. In: IEEE Transactions on Knowledge and Data Engineering. Vol. 22, No. 5, 2010, S. 730–742. Download from L.Minku webpage.
- P. Lindstrom, S. J. Delany B. MacNamee (2008): Autopilot: Simulating Changing Concepts in Real Data. In: D. Bridge, K. Brown, B O’Sullivan H Sorensen (Hrsg.): Proceedings of the 19th Irish Conference on Artificial Intelligence Cognitive Science. S. 272–263. (PDF)
- A. Narasimhamurthy, L. I. Kuncheva: A framework for generating data to simulate changing environments. In: Proc. IASTED, Artificial Intelligence and Applications. Innsbruck 2007, S. 384–389. PDF Code
Literatur
BearbeitenVerfahren und Algorithmen zur Erkennung und Behandlung von Concept Drift werden umfassend in wissenschaftlichen Publikationen diskutiert:
- V. M. A. Souza, D. M. Reis, A. G. Maletzke, Batista, G. E. A. P. A.: Challenges in Benchmarking Stream Learning Algorithms with Real-world Data, Data Mining and Knowledge Discovery. 2020, S. 1–54. (link.springer.com)
- B. Krawczyk, L. L. Minku, J. Gama, J. Stefanowski, M. Wozniak: Ensemble Learning for Data Stream Analysis: a survey. In: Information Fusion. Vol 37, 2017, S. 132–156. doi:10.1016/j.inffus.2017.02.004
- A. Dal Pozzolo, G. Boracchi, O. Caelen, C. Alippi, G. Bontempi: Credit card fraud detection and concept-drift adaptation with delayed supervised information. In: 2015 International Joint Conference on Neural Networks (IJCNN). 2015, S. 1–8. IEEE. (ulb.ac.be, PDF)
- C. Alippi: Learning in Nonstationary and Evolving Environments. In: Intelligence for Embedded Systems. Springer, 2014, ISBN 978-3-319-05278-6.
- J. Gama, I. Žliobaitė, A. Bifet, M. Pechenizkiy, A. Bouchachia: A survey on concept drift adaptation. In: ACM Computing Surveys. Vol. 46, Nr. 4, 2014, S. 1–37. Association for Computing Machinery (ACM). doi:10.1145/2523813
- C. Alippi, R. Polikar: Special Issue on Learning In Nonstationary and Evolving Environments. In: IEEE Transactions on Neural Networks and Learning Systems. vol. 25, no. 1, Januar 2014.
- A. Dal Pozzolo, O. Caelen, Y. A. Le Borgne, S. Waterschoot, G. Bontempi: Learned lessons in credit card fraud detection from a practitioner perspective. In: Expert systems with applications. Band 41, Nr. 10, 2014, S. 4915–4928. (ulb.ac.be, PDF)
- I. Zliobaite: Learning under Concept Drift: an Overview. Technical Report. 2009, Faculty of Mathematics and Informatics, Vilnius University: Vilnius, Lithuania. arxiv:1010.4784
- J. Jiang: A Literature Survey on Domain Adaptation of Statistical Classifiers. 2008. (web.archive.org, PDF)
- L. I. Kuncheva: Classifier ensembles for detecting concept change in streaming data: Overview and perspectives. In: Proc. 2nd Workshop SUEMA 2008 (ECAI 2008). Patras, Greece, 2008, S. 5–10. (wayback.archive-it.org, PDF)
- M. Gaber, A. Zaslavsky, S. Krishnaswamy: Mining Data Streams: A Review. In: ACM SIGMOD Record. Vol. 34, No. 1. Juni 2005, ISSN 0163-5808
- L. I. Kuncheva: Classifier ensembles for changing environments, Proceedings 5th International Workshop on Multiple Classifier Systems, MCS2004, Cagliari, Italy. In: F. Roli, J. Kittler T. Windeatt (Hrsg.): Lecture Notes in Computer Science. Vol 3077, 2004, S. 1–15. (wayback.archive-it.org, PDF)
- A. Tsymbal: The problem of concept drift: Definitions and related work. Technical Report. Department of Computer Science, Trinity College, Dublin 2004. (cs.tcd.ie, PDF)
Siehe auch
BearbeitenEinzelnachweise
Bearbeiten- ↑ Tim Frey: What are Concept Drifts in Time Series Data? In: iunera.com. iunera GmbH & Co KG, 11. Mai 2020, abgerufen am 12. Januar 2023 (amerikanisches Englisch).
- ↑ Michele Basseville: Detection of abrupt changes : theory and application. Prentice Hall, 1993, ISBN 0-13-126780-9.
- ↑ C. Alippi, M. Roveri: Adaptive Classifiers in Stationary Conditions. In: 2007 International Joint Conference on Neural Networks. IEEE, 2007. doi:10.1109/ijcnn.2007.4371096
- ↑ J. Gama, P. Medas, G. Castillo, P. Rodrigues: Learning with Drift Detection. In: Advances in Artificial Intelligence – SBIA. Springer, Berlin/Heidelberg 2004, S. 286–295. doi:10.1007/978-3-540-28645-5_29
- ↑ C. Alippi, G. Boracchi, M. Roveri: A just-in-time adaptive classification system based on the intersection of confidence intervals rule. In: Neural Networks. Vol. 24, Nr. 8, 2011, S. 791–800. doi:10.1016/j.neunet.2011.05.012
- ↑ G. Widmer, M. Kubat: Learning in the presence of concept drift and hidden contexts. In: Machine Learning. (Springer Science and Business Media). Vol. 23, Nr. 1, 1996, S. 69–101. doi:10.1007/bf00116900
- ↑ R. Elwell, R. Polikar: Incremental Learning of Concept Drift in Nonstationary Environments. In: IEEE Transactions on Neural Networks. Vol. 22, Nr. 10, 2011, S. 1517–1531. Institute of Electrical and Electronics Engineers (IEEE). DOI:10.1109/tnn.2011.2160459