Webmining

Projekt im Proseminar Webpublishing, WS 2002/2003
Dozent: Dr. Heinz-Dirk Luckhardt
Autor: Marco Grewenig (grewe@studcs.uni.sb.de)

Mit dem explosionsartigen Wachstum von Informationsquellen die im World Wide Web vorhanden sind, ist es für Benutzer immer wichtiger geworden automatisierte Werkzeuge zu verwenden die gewünschte Informationen suchen und bereitstellen.
Dies ist der Grund für die Entwicklung von Server- und Clientseitigen intelligenten Systemen durch die man Wissen effektiv gewinnen kann.

Web Mining ist die Übertragung von Data-Mining-Techniken auf Datenmaterial, das im Zusammenhang mit Prozessen im Internet gesammelt wird.
Schon vor vielen Jahren ist eine der unangenehmen Auswirkungen des Informationszeitalters in den EDV-Abteilungen und Rechenzentren sichtbar geworden.

Euphorisch über die neuen technischen Möglichkeiten der Datenverarbeitung wurden und werden immer mehr und immer detailliertere Informationen gespeichert.
Die Folge ist unübersichtliches, inkonsistentes und hochgradig redundantes Datenmaterial, dem schon bei einfachen Fragestellungen kaum eine Antwort zu entlocken ist.

Was ist Webmining?

Das World Wide Web (WWW) ist mehr als nur eine Ansammlung von Webseiten.
Vor allem im Zeitalter des E-commerce stellt das Web eine Plattform dar, die Inhalte und Interessenten zueinander führt und miteinander verbindet.
So ist das Web schon lange nicht mehr eine passive Datenbank.
Es ist vielmehr eine Schnittstelle der Interaktion und Kommunikation von Wirtschaft und Gesellschaft.
Wenn man nun diese Schnittstelle analysieren will, um ihren Wert zu erfassen geht es also auch nicht mehr nur darum, die Webinhalte zu betrachten, sondern auch den Benutzer dieser Inhalte und die Art und Weise wie er dabei vorgeht.
Diese Analyse nennt man Webmining.

Webmining soll dem Betrachter Aufschluss darüber geben, ob das Web, oder spezifischer eine Website, ihr Ziel als solche erreicht oder nicht.
Dabei spielt es keine Rolle, ob es sich tatsächlich eher um eine Datenbank wie z.B. einem Intranet handelt, einen Informationsdienst, eine Kommunikationsschnittstelle oder eine Handelsplattform.
Diese unterscheiden sich lediglich in ihren Ansprüchen an das elektronische Medium.
Während ein Informationsdienst seine Besucher schnell zum Ziel führen will, ist dem Betreiber eines E-Shops eher an viel Kundenverkehr gelegen, um möglichst großen Umsatz zu machen.
Entscheidend ist, dass alle Websites auf der einen Seite Inhalte und Schnittstellen bieten und auf der anderen Seite Benutzer anziehen, welche diese nutzen.
So gilt es beim Webmining, sowohl die Inhalte, die Besucher und vor allem das Zusammenspiel von beiden möglichst genau zu erfassen und abzubilden.

Wozu dient Webmining?

Webmining gibt dem Betreiber oder Anbieter einer Website die Möglichkeit die Wirksamkeit und den Grad der Effizienz seiner Website zu erfassen.
Dabei geht es im ersten Schritt darum grundlegende Informationen über Inhalt, Benutzer und die Benutzung zu erhalten um diese dann weiter auszuwerten.
Webmining kann z.B. Aufschluss darüber geben, ob denn eine Website den Erwartungen gerecht wird und ihren Sinn erfüllt.

Dies kann dem Betreiber sowohl Informationen über die Site selbst geben, z.B. wenn diese schlecht konzipiert ist, schlecht strukturiert oder nur unzureichend navigierbar ist.
Webmining kann in diesem Zusammenhang tote Winkel und unbeliebte oder ungenutzte Seiten aufzeigen, sowie auch inwieweit der Webauftritt als attraktiv gewertet werden kann.
Dabei steht der Schutz von Investitionen im Vordergrund.

Darüber hinaus jedoch gibt einem das Webmining Aufschluss über die Besucher und deren Interessen und Bedürfnisse.
Diese Informationen können sowohl dazu genutzt werden um den Besucher besser zu informieren und zu bedienen, als auch um in diesem Zusammenhang mehr Umsatz generieren zu können.
Webmining dient also zum einen dazu Probleme und Schwachpunkte sowie auch Stärken des eigenen Webauftritts zu erkennen, und zum anderen dazu den Besucher und Kunden und seine Bedürfnisse besser zu verstehen.

Welche Arten von Webmining gibt es?

Web Content Mining
Für die unterschiedlichen Zwecke im Rahmen des Webminings gibt es unterschiedliche Mining Applikationen.
Derjenige der lediglich Informationen aus Content-Datenbeständen filtern möchte, Strukturen oder ähnliches in ihnen sucht, verwendet sogenanntes Datamining oder Web Content Mining.
Datamining Tools erlauben es durch entsprechende Filter- und Suchalgorithmen ganz gezielt in großen Datenmengen spezifische Inhalte zu finden.

Web Structure Mining
Häufig wird noch ein zusätzlicher Bereich genannt, der sich explizit mit der Analyse der Struktur im Web befasst, dem sogenannten Web Structure Mining.
Hier wird dieses Gebiet im Zusammenhang mit Web Content Mining behandelt.
Durch eine Verbindung verschiedener Miningprozesse ist man in der Lage, differenzierte Bilder über den Besucher einer Site, als auch über die Site selbst zu erlangen.

Web Usage Mining
Für denjenigen der in erster Linie auf der Suche nach Informationen über den Sitebesucher und Onlinebenutzer ist, ist Web Usage Mining interessant.
Diese Form des Datenbergbaus verwendet ebenfalls unterschiedliche Algorithmen, um im Surfverhalten, der verbrachten Onlinezeit und den besuchten Inhaltender Besucher, Strukturen und Cluster zu finden, die wiederum Aufschluß über Benutzergruppen und -Segmente geben können.

Wie funktioniert Webmining?

Webmining, und die verschiedenen damit verbundenen Prozesse verfügen über eine Vielzahl von möglichen Vorgehensweisen.
Manche Systeme bedienen sich heuristischer Systeme und Wahrscheinlichkeiten, gemessen an Häufigkeiten und Zeiten, mit und in denen z.B. Siteinhalte oder Webseiten besucht wurden, und versuchen daraus Schlüsse zu ziehen.

Grundliegende Tatsache bei jeder Form von Mining: Daten sind nicht gleich Daten.
Die Datenaufbereitung spielt bei allem Miningvorgängen eine entscheidende Rolle.
Aufgrund technischer Begebenheiten (z. B. Caching) sind die Daten zumeist unsauber.
Es finden an dieser Stelle die vom Data Mining bekannten Techniken zur Verbesserung der Datenqualität Anwendung.
Extremwerte und Randwertartefakte können gefiltert (Outlier/ Noise-Elimination) und fehlende Werte können aufgrund von statistischer Schätzung bzw. empirisch erhobenen Werten ersetzt werden.

Da die Datenaufbereitungsschritte stets sehr stark auf die Datenquellen ausgerichtet sind, müssen beim Web Mining die internetspezifischen Umstände berücksichtigt werden, mit denen die Daten gesammelt werden.
Das Internet besteht nicht nur aus international heterogenen Datenquellen, sondern auch die Benutzer können jeder Herkunft und fast jeden Alters sein.
Die Überlegungen für das Data Mining von Kundendaten einer Filialbank sind auf solche Daten nicht ohne weiteres übertragbar.
Die Ziele des Web Minings können in zwei Gruppen aufgeteilt werden:

Zum einen geht es darum, die einzelnen Internetseiten auf ihre Inhalte zu untersuchen (Web Content Mining), und zum anderen, das Benutzerverhalten zu erkunden (Web Usage Mining).
In einem ersten Schritt können durch einfache Statistiken schon wichtige Fragestellungen beantwortet werden, z.B. kann die Häufigkeit der Zugriffe auf die Seiten einen Verknüpfungsfehler der Seiten untereinander aufdecken.

Das Benutzerverhalten selbst kann jedoch erst durch die Aufdeckung von Mustern innerhalb der Seitenanfragen und Aktionen aufgedeckt werden. Ein Mittel ist die Generierung von Assoziationsregeln, welche das Benutzerverhalten in sog. WENN-DANN-Regeln beschreiben (z.B. WENN Produktseite und dann zusätzliche Informationsseite, DANN zu 25% Bestellseite).
Für eine solche Regel muss die Sequenz der Seitenanfragen des Benutzers bzw. der Zeitraum, in dem sich ein Benutzer auf bestimmten Seiten navigierend bewegt (Sitzung), identifiziert werden.
Mittels z. B. dem Apriori-Algorithmus werden dann alle Sequenzen von Seitenanfragen nach wiederkehrenden Teilsequenzen abgesucht.
Das Ergebnis ist eine zumeist sehr große Menge von Regeln.
Zu diesem Zeitpunkt der Analyse wird ein Bestandteil der Assoziationsanalyse wichtig: die Definition der Interessantheit von Regeln.
Insbesondere triviale Zusammenhänge können dadurch frühzeitig ausgefiltert werden.
So kann z. B. via Apriori -Wahrscheinlichkeiten eine Bewertung der Navigationswege erfolgen (beispielsweise wird mit nahezu 100% eine Sequenzvon angeforderten Seiten mit einer der Einstiegsseiten beginnen).

Die generierten Regeln können wiederum Ausgangspunkt für einer Clusteranalyse sein.
Beim personalisiertem Web Usage Mining ist das Sammeln von Informationen zu einzelnen Benutzern von Interesse.
Je nach Aktionsmöglichkeiten auf den Webseiten werden die Aktionen in ein Benutzerprofil abgelegt.
Diese Profile sind dann wieder Gegenstand von Clusteranalysen, um Personen gleichen Interesses (Community) zu identifizieren oder auch von Klassifikationsanalysen,um neue Benutzer den bereits identifizierten Klassen zuordnen zu können.
Anwendung der gewonnenen Erkenntnisse sind personalisierte dynamische Webangebote (Newsletter,Portal, etc.).
Aber auch die Verbindung der beiden Bereiche Web Usage und Web Content Mining kann zur Analyse beitragen, sie sogar teilweise erst ermöglichen.
Benutzer, deren Profil ähnliche Eigenschaften aufweisen, interessieren sich für ähnliche Seiteninhalte, d. h., aufgrund des Nutzerprofils kann die semantische Verwandtschaft von Inhalten abgeleitet werden.

Meine Daten, deine Daten: Auch wenn sich die Benutzer freiwillig auf den Internetseiten bewegen, sind die Aspekte des Datenschutzes wichtiger denn je. In der Anfangsphase des Internets war die Surferidentität noch nichtdirekt monetär nutzbar.
Nach der Kommerzialisierung des Internets sieht es anders aus:

Personenbezogene Daten werden intensiv gesammelt und oft genug gegen den Willen der Benutzer weitergegeben.
Eine Sensibilität für den Schutz der Daten ist also auch bei Web Mining wünschenswert.

Was kann Webmining?

Informationsdienste
Mittels Webmining kann erfasst werden, inwieweit der Besucher auch findet was er sucht, also ob die Suchmechanismen erfolgreich sind, oder die Datenbestände einer Überarbeitung bedürfen.
Weitere Aspekte sind z.B. die ergnomische Analyse und Bedienbarkeit, sowie Contentanalyse der Siteinhalte anhand verschiedenster Aspekte, und vieles mehr.

Intranets
Im Intranet-Bereich einer Firma ist es für die Firmenleitung wichtig zu erkennen inwieweit die vorhandene Infrastruktur auch im Sinne des Unternehmens genutzt wird oder nicht.
Dabei geht es sowohl darum das Ausmaß an Nutzung zu erfassen, und mit anderen Kommunikations- und Interaktionsmöglichkeiten zu vergleichen, aber auch z.B. zu erfassen inwieweit es auch sinngemäß eingesetzt wird, oder ob z.B. Missbrauch vorliegt.

Marktanalyse
Marktanalyse ist einer der Aspekte der momentan sowie auch in Zukunft von sehr großem Interesse sein wird.
Dabei stehen Fragen wie Performanz, Nutzung, und das Verhältnis von Investition zu potentiellem Gewinn im Vordergrund.

Performanceanalyse
Durch die entsprechenden Analysen erhalten Sie Auskunft über das Ausmaß an Nutzung, der Auslastung ihres Systems, sowie über potentielle Notwendigkeiten das System auszubauen oder Kapazitäten zu verändern um dem Traffic Herr zu werden.

Webshops
Mittels Webmining können Sie erkennen, inwieweit Ihr Shop auch Ihre Kundschaft erreicht, oder ob Ihr Schaufenster evtl. einer Überarbeitung bedarf.
Darüber hinaus können Sie Wissen über Ihre Kunden und Interessenten erhalten, Marktforschung betreiben, und entsprechend der entdeckten Gruppen Ihr Angebot sowie die Darbietung verändern und verbessern.
So erhalten sie zufriedenere Kunden und erzielen mehr Umsatz.

Warum Webmining?

Webmining in welcher Form auch immer bedeutet einen Zuwachs an Informationen und Wissen, sowie die Möglichkeit auf Dinge zu reagieren.
Egal, ob ich nun einfach Daten suche, die Effektivität meiner Site erfassen und steigern möchte, oder den Besucher und Benutzer meiner Siteangebote besser verstehen möchte um besser auf ihn und seine Bedürfnisse eingehen zu können, jedesmal bietet mir Webmining die Möglichkeit dazu.
Es bietet die Möglichkeit zu lernen, zu wachsen und sich zu verbessern.

Damit lassen sich Investitionen einschätzen und schützen, Fehlinvestitionen erfassen und korrigieren, und neue Potentiale entdecken, mit denen mehr Interessenten, mehr Zufriedenheit und letztenendes mehr Umsatz generiert werden können.
Anders gesagt: Webmining nicht zu betreiben, bedeutet einen unentdeckten und ungenutzten Reichtum an Informationen und Wissen zu ignorieren, und somit denjenigen die Webmining verwenden einen entscheidenden Vorteil zu überlassen.

Wohin entwickelt sich Webmining?

Vorhersagen und Entwicklungen
Das Webmining ist dabei, sich in eine Richtung zu entwickeln, die im Sinne eines Kreislaufs, sowohl die Analyse und Erfassung von Website, Benutzer und Sitenutzung erfasst, als auch auf diese reagiert.
Bereits heute versucht man, unter Verwendung von Techniken wie dem kollaborative filtering und ähnlichem, aus den gewonnenen Informationen über den Sitebesucher weiteren Nutzen zu ziehen, in dem nach Wahrscheinlichkeitsmustern eine Übereinstimmung der Kundeninteressen mit den Interessen anderer vorheriger Kunden verglichen werden, um daraufhin den Kunden spezifischer zu bedienen.
Dabei wird versucht in Echtzeit dem Kunden Inhalte und Darstellung zu bieten, die seinen Interessen und Wünschen entsprechen.

Grundlegend wird es in Zukunft also darum gehen, den potentiellen Kunden besser zu verstehen, und besser auf seine Bedürfnisse einzugehen.
Die bisherigen Techniken sind jedoch sehr einfach und dringen darüber hinaus stark in den Privatbereich des Sitebesuchers ein, ein Umstand der sowohlgesetzlich als auch moralisch-ethisch höchst ums tritten ist.

Links zum Thema Webmining

Web Mining compilation
Vorlesung an der Uni Karlsruhe – WebMining
onlineTutorial – WebMining

Universität des Saarlandes - Fachrichtung Informationswissenschaft

Projekte

Identität und Geschichte der Informationswissenschaft

Informationswissenschaftliche Themen