Bei Datenextraktion (eng. data extraction) handelt es sich um das Vorgehen, Informationen, aus vielen verschiedenen und meist unstrukturierten Datenstrukturen, zu extrahieren. Bei diesen Daten handelt es sich um Rohdaten, welche auf analogen oder elektronischen Quellen basieren. Diese Daten werden zur Weiterverarbeitung oder Transformation weitergegeben. Datenextraktion ist der erste Schritt im ETL-Prozess. Bei der Extraktion ist des möglich die Daten mit Metadaten anzureichern.
Arten der Datenextraktion
BearbeitenManuelle Extraktion
BearbeitenIn der Vergangenheit extrahierten die meisten Unternehmen und Institutionen Daten manuell. Dabei wurden die Daten immer aus Dokumenten, Tabellen oder Webseiten rauskopiert und in eine andere Anwendung oder Datenbank eingefügt. Allerdings ist die manuelle Extraktion zeitaufwändig, fehleranfällig und für umfangreiche Datenextraktionsaufgaben zwangsläufig ungeeignet. Dennoch kann es für den gelegentlichen oder Ad-hoc-Datenabruf hilfreich sein, wenn eine Automatisierung nicht möglich ist.
Automatisierte Datenextraktion
BearbeitenBei der automatisierten Datenextraktion, handelt es sich um Softwarelösungen, welche Daten automatisch aus bestimmten Quellen extrahieren und speichern. Dabei kann man selbst ein Skript/eine Software schreiben und es an die eigenen Anforderungen anpassen, oder man nutzt eine bereits existierende Software von einem externen Anbieter.
KI-gestützte Datenextraktion
BearbeitenBei der KI-gestützten Datenextraktion, handelt es sich um eine automatische Datenextraktion, bei der die Daten mittels KI (Künstliche Intelligenz) extrahiert werden. Dabei wird die KI trainiert bestimmte Daten zu erkennen und diese zu speichern. Diese Art der Datenextraktion ist jedoch sehr aufwendig, da die KI mit großen Mengen an Daten trainiert werden muss.
Vollständige Extraktion
BearbeitenAlle Daten werden gleichzeitig vollständig extrahiert, ohne dass zusätzliche Informationen benötigt werden. Die vollständige Extraktion ist eine Methode, die verwendet wird, wenn die Daten zum ersten Mal extrahiert und geladen werden (z.B. in eine Datenbank).
Inkrementelle Extraktion
BearbeitenDie Daten werden, seit der letzten Datenextraktion, auf Veränderungen überprüft und nachverfolgt. Diese Änderungen werden dann Schrittweise extrahiert und geladen.
Datenquellen
Bearbeiten- Websites/Internet
- Dokumente/E-Mails/PDF/Tabellen
- Die Umgebung/Natur
- APIs
- Citizen Science/Crowdsourcing
- Datenbanken
Datenextraktionstechniken
BearbeitenWeb Scraping
BearbeitenWeb Scraping wird verwendet, um Daten und Informationen aus verschiedenen Online-Quellen zu sammeln. Darunter fallen alle webbasierten Anwendungen, Websites, etc.. Web-Scraping greift auf Webseiten zu, analysiert HTML- oder XML-Inhalte und extrahiert bestimmte Datenelemente. Diese werden dann in eine, geeigneten Datenformat, oder einer Datenbank gespeichert.
API basierte Extraktion
BearbeitenViele Webdienste und Institutionen stellen für ihre Anwendungen APIs bereit, die es Entwicklern ermöglichen, Daten aus den Anwendungen in einem strukturierten Format abzurufen. Bei der API-basierten Extraktion werden HTTP-Anfragen an diese APIs gesendet und anschließend Daten abgerufen. Es handelt sich um eine zuverlässige und strukturierte Möglichkeit, Daten aus Online-Quellen zu extrahieren.
Textextraktion (NLP)
BearbeitenTextextraktionstechniken nutzen häufig Natural Language Processing (NLP), um Informationen aus unstrukturierten Textdaten wie Dokumenten, E-Mails oder Social-Media-Beiträgen zu extrahieren. Bei den wichtigsten Techniken der Datenextraktion mittels NLP, handelt es sich um NER (Named Entity Recognition) zum erkennen von Entitäten, sowie die Topic Extraction, um Erkenntnisse aus dem Text zu gewinnen.
OCR
BearbeitenDie optische Zeichenerkennung (OCR) wandelt gedruckten oder handgeschriebenen Text aus Dokumenten, Bildern oder gescannten Seiten in maschinenlesbare und bearbeitbare Textdaten um. Eine OCR-Software analysiert verarbeitete Bilder, um Textinhalte zu erkennen und in maschinenlesbare Zeichen umzuwandeln. Diese Daten können dann wie gewohnt gespeichert und für weitere Analyseverfahren verarbeitet werden.
Quellen
Bearbeiten- Was ist Datenextraktion und wie funktioniert es? In: klippa.com. Online unter: https://www.klippa.com/de/blog/informativ/datenextraktion/?cn-reloaded=1 Abgerufen am 28. Januar 2024 (deutsch).
- Was ist die Datenextraktion? Definition, Prozess & Tools. In: ibml.com. Online unter: https://www.ibml.com/de/blog/was-ist-die-datenextraktion-definition-prozess-tools/ Abgerufen am 28. Januar 2024 (deutsch).
- 6 Dinge, die Sie über Datenextraktion wissen sollten. In: acodis.io. Online unter: https://www.acodis.io/de/blog/6-dinge-zur-datenextraktion Abgerufen am 28. Januar 2024 (deutsch).
- Was ist Datenextraktion: Techniken, Tools und Best Practices. In: astera.com. Online unter: https://www.astera.com/de/type/blog/what-is-data-extraction-a-brief-guide/ Abgerufen am 28. Januar 2024 (deutsch).
- ETL-Prozess. In: wikipedia.org. Online unter: https://de.wikipedia.org/wiki/ETL-Prozess#Extraktion Abgerufen am 28. Januar 2024 (deutsch).
- Data extraction. In: wikipedia.org. Online unter: https://en.wikipedia.org/wiki/Data_extraction Abgerufen am 28. Januar 2024 (englisch).