Die Menge an Informationen im Internet nehmen stetig zu. Was erst ein Mal gut klingt, bringt aber auch Probleme mit sich: Wie sollen die Informationen aus unstrukturierten Texten geordnet und klassifiziert werden? Das konkrete Gruppieren von Unternehmen basierend auf dem Inhalt der Unternehmenswebseiten soll Inhalt dieser Thesis sein…
Eine Disziplin des Textmining befasst sich mit dem unüberwachten Gruppieren (eng. unsupervised clustering) von Inhalten. Ein Datenbestand von Texten wird nach den zu clusternden Merkmalen aufbereitet und dann anhand von entsprechenden Ähnlichkeitsmaßen in Cluster aufgeteilt. Wichtig ist, dass hierbei nicht nach festgelegten Kategorien gruppiert wird, sondern die Cluster
(und vor allem deren Anzahl) von den Ergebnissen des Algorithmus abhängig gemacht werden. Als Grundlage für das Clustering wird an Stelle der Rohdaten meist eine aufbereitete Version des Textes verwendet. Das Textmining bietet eine Reihe von Verfahren, welche zur gezielten Datenextraktion aus unstrukturiertem Text verwendet werden können. Beispiele sind: Topic Models, Named Entity Recogniton oder Part-Of-Speech-Tagging (POS-Tagging).
Die EBID Service AG, eine Tochtergesellschaft der CAS AG, bietet ein freies Verzeichnis deutscher Unternehmen mit unter anderem Adress- und Kontaktinformationen. Ein wachsender Teil der Daten, die hierfür verwendet werden, entstammen den Webseiten der einzelnen Unternehmen, werden durch einen Crawler gesammelt und mithilfe von Textmining extrahiert. Eine Herausforderung liegt hierbei in der automatisierten Extraktion von Daten, die zwar frei zur Verfügung stehen, aber in einer semistrukturierter und nicht einheitlichen Form abgebildet werden. Auf den extrahierten Daten basierend soll dann ein Clustering stattfinden, welches als Grundlage für zukünftige Anwendungen genutzt werden kann.
Stefan hat es sich mit dieser Bachelorarbeit zum Ziel gemacht, ein Verfahren zur Extraktion von Unternehmensmerkmalen aus den jeweiligen Unternehmenswebseiten zu entwickeln. Die resultierenden Informationen sollen dann wiederum als Grundlage für ein Clustering der Unternehmen verwendet werden. Hierbei spielt der Vergleich der Genauigkeit verschiedene Verfahren aus den Bereichen Webmining/Textmining und Machine Learning eine zentrale Rolle.
Zu Beginn der Arbeit wird soll ein Goldstandard aus ca. 50 bis 100 Unternehmen (aus ca. 5 verschiedenen Gebieten) manuell erstellt werden, um spätere Ergebnisse daran vergleichen zu können. Als Ergebnis solle ein lauffähiger Prototyp präsentiert werden der aufzeigt, ob und wie eine sinnvolle Gruppierung von Unternehmen anhand der extrahierten Informationen möglich ist. Auch wenn der Crawling-Prozess ein relevanter Bestandteil der Arbeit ist, so liegt der Hauptfokus doch auf dem Clustering.
Die Arbeit gilt als abgeschlossen wenn eine fundierte Aussage über die Sinnhaftigkeit verschiedener Verfahren zur Gruppierung von Unternehmen anhand der offiziellen Webtexte getroffen werden kann. Die Qualität der Verfahren wird hierbei durch die Abweichung von dem zuvor erstellten Goldstandard gemessen.