Inverse Dokumenthäufigkeit

Die Inverse Dokumenthäufigkeit (englisch Inverse Document Frequency (IDF)) dient beim Information Retrieval zur Bestimmung der Trennfähigkeit eines Wortes bzw. Termes für die Indexierung von Dokumenten.

Ein Wort, das nur in wenigen Dokumenten oft vorkommt, ist geeigneter als eines, das in fast jedem Dokument oder nur sehr gering auftritt. Zusammen mit der Termfrequenz (siehe Tf-idf-Maß) wird sie zur Gewichtung von Wörtern bei der Automatischen Indexierung eingesetzt.

Die Inverse Dokumenthäufigkeit lässt sich berechnen als

${\text{IDF}}_{t}=\log \left({\frac {N_{D}}{f_{t}}}\right)$

wobei $N_{D}$ die Anzahl der Dokumente bezeichnet und $f_{t}$ die Anzahl der Dokumente, die den Term $t$ enthalten. Wenn die Dokumentenhäufigkeit wächst, wird der Bruch kleiner. IDF wurde 1972 von der britischen Informatikerin Karen Spärck Jones erstmals beschrieben^[1] und wird weithin in den Methoden der Informationswiedergewinnung und der Sprachverarbeitung eingesetzt.

Siehe auch

Suchwortdichte

Einzelnachweise

↑ Karen Sparck Jones: A STATISTICAL INTERPRETATION OF TERM SPECIFICITY AND ITS APPLICATION IN RETRIEVAL. In: Journal of Documentation. Band 28, Nr. 1, Januar 1972, ISSN 0022-0418, S. 11–21, doi:10.1108/eb026526 (emerald.com [abgerufen am 11. Mai 2021]).

[1] Karen Sparck Jones: A STATISTICAL INTERPRETATION OF TERM SPECIFICITY AND ITS APPLICATION IN RETRIEVAL. In: Journal of Documentation. Band 28, Nr. 1, Januar 1972, ISSN 0022-0418, S. 11–21, doi:10.1108/eb026526 (emerald.com [abgerufen am 11. Mai 2021]).

[1]