Identität und Geschichte der Informationswissenschaft
Informationserschließung und Information Retrieval
6. Recall und Precision
Projekte: Identität und Geschichte der Informationswissenschaft
Thema: ‚Informationserschließung und Information Retrieval‘
Diese beiden Begriffe erlauben zwei verschiedene Sichten auf die Effizienz eines Information-Retrieval-Systems. Mathematisch lassen sie sich folgendermaßen definieren:
Anzahl der gefundenen relevanten Dokumente recall = ----------------------------------------- Anzahl aller relevanten Dokumente in der Datenbank Anzahl der gefundenen relevanten Dokumente precision= ------------------------------------------ Anzahl aller gefundenen Dokumente
Der Recall sagt also etwas darüber aus, wieviele der in der Datenbank vorhandenen relevanten Dokumente gefunden wurden – ins Verhältnis gesetzt zur Anzahl aller relevanten Dokumente in der Datenbank. Die Precision setzt jene Zahl ins Verhältnis zur Zahl der insgesamt gefundenen Dokumente, sie gibt an, wieviele der gefundenen relevant sind. Grob gesprochen: Recall – wieviel habe ich gefunden, wieviel Substanz hat die Datenbank ; Precision – wieviel Unbrauchbares habe ich gefunden, wie genau kann man in der Datenbank suchen?
Die Werte für Recall und Precision liegen jeweils zwischen 0 und 1, je näher an 1, desto besser. Recall = 1 bedeutet: alle relevanten Dokumente wurden gefunden, Precision = 1 bedeutet: alle gefundenen Dokumente sind relevant.
Im einzelnen liegt es am Benutzer, ob er einen höheren Recall will (eine größere Menge gefundener Dokumente, also die relevanten und darüberhinaus auch noch weitere möglicherweise interessante Dokumente) oder eine höhere Precision (möglichst nur die wirklich 100-%ig relevanten Dokumente, auf die Gefahr hin, daß ihm Einiges entgeht).