Event Detection in Document Streams
Exploration temporaler Ereignisse in Dokumentströmen
Datenströme mit textuellem Inhalt können aus verschiedenen Kanälen stammen, etwa von Online-Nachrichtenseiten, Twitter oder Blogplattformen. Diese Kanäle weisen komplexe Eigenschaften auf, die sie in Volumen, Geschwindigkeit und Qualität der bereistgestellten Informationen unterscheiden. Die Forschungsherausforderungen liegen an der Schnittstelle von Text Mining, Zeitreihenanalyse und Visual Analytics. In unserer Gruppe konzentrieren wir uns auf Echtzeit- und inkrementelle Methoden zur Exploration von Ereignissen, auf die zeitlichen Dynamiken von Online-Nachrichtenströmen sowie auf deren Beziehungen zu anderen Arten von Datenströmen, wie etwa Börsendaten.
Visual Analytics der Entwicklung von Nachrichtenmeldungen
Nachrichtenquellen produzieren täglich Tausende von Nachrichtenartikeln, die über lokale und globale Ereignisse berichten. Diese enorme Datenmenge kann den Lesern helfen, die Welt, in der sie leben, besser zu verstehen. Neue Informationen von heute ersetzen jedoch schnell die alten Berichte von gestern, und die Entwicklung einer Meldung nachzuvollziehen, kann zu einer schwierigen Aufgabe werden.
Wir haben ein visuelles Explorationssystem entwickelt, das dem Leser dabei hilft, einen besseren Einblick in die Entwicklung von Nachrichtenmeldungen und deren Inhalt zu gewinnen. Das System bietet nutzerspezifische temporale Übersichten in verschiedenen Detailstufen mit hochgradig anpassbaren Filter- und Sortieroptionen. Nachrichtenartikel, die aus einer Vielzahl von Medienportalen, Nachrichtenagenturen und Webseiten staatlicher Institutionen gesammelt werden, werden mittels automatisierter Algorithmen für Document Clustering zu kohärenten Themen gruppiert. Die Themen werden dem Nutzer mit einer inkrementellen interaktiven Visualisierungsmethode präsentiert, die neue Informationen anzeigen und verarbeiten kann, ohne die zurückliegenden Daten neu zu berechnen oder das visuelle Layout zu verändern.
Erkennung und Exploration von Ereignisepisoden in Textströmen
Bei der Exploration zeitgestempelter Daten, die in Datenströmen eintreffen, suchen Analysten in der Regel nach Ereignisepisoden, d. h. interessanten Sequenzen von Datenpunkten, die einander in irgendeiner Weise ähneln. Eine Ereignisepisode kann beispielsweise eine Nachrichtenmeldung sein, die aus Nachrichtenartikeln besteht, die in unregelmäßigen Zeitabständen in einem Nachrichtentextstrom eintreffen und über dasselbe reale Thema berichten. In solchen Anwendungsszenarien ist es sehr häufig notwendig, auf einzelne Datenpunkte (d. h. Ereignisse) zugreifen zu können und gleichzeitig den Überblick über den Datensatz innerhalb eines größeren Zeitrahmens zu behalten. Übliche Methoden zur Darstellung temporaler Daten verwenden Aggregation oder Sampling von Datenpunkten, um Unübersichtlichkeit zu reduzieren und Informationen über zeitliche Trends im Datensatz zu liefern, wodurch die Analyse der Daten auf atomarer Ebene erschwert wird.
Wir haben CloudLines entwickelt, eine interaktive Visualisierungsmethode, die Dichteschätzung mit Trunkierungsfunktionen sowie Linsenverzerrungs- und Vergrößerungstechniken kombiniert, um die Exploration interessanter Ereignismuster auf jeder Skala zu ermöglichen. Die Dichteschätzer werden zusammen mit Wichtigkeitsfunktionen eingesetzt, um Regionen hoher Dichte hervorzuheben und Regionen geringer Dichte zu reduzieren, wodurch feintexturierte temporale Fingerabdrücke der zugrunde liegenden Daten entstehen. Die Methode kann mit Zeitreihenalgorithmen gekoppelt werden, um vordefinierte Ereignisepisoden von Interesse automatisch zu erkennen und automatisierte Ähnlichkeitsvergleiche über mehrere Zeitreihen hinweg durchzuführen.
Weitere Informationen zu dieser und verwandten Arbeiten finden sich in den folgenden Publikationen.