Maschinelles Lernen zur Wissensextraktion auf Basis von Angebotsdokumenten

Konfiguratoren bieten ein enormes Potenzial, Vertriebsprozesse zu digitalisieren und damit Vertriebsmitarbeiter intelligent in ihrer Arbeit zu unterstützen. In den meisten Fällen ist die größte Hürde der zeitintensive Aufbau der Wissensbasis und der Dokumentenmodellierung für die Angebote. Das Produktwissen muss zusammen mit allen Wissensträgern explizit gemacht und strukturiert werden, um dann in der Konfigurationssoftware aufgebaut werden zu können. Anschließend können Vorlagen für die dann automatisch erstellten Angebotsdokumente modelliert werden. Neue Technologien aus dem Bereich des maschinellen Lernens eröffnen hier gänzlich neue Möglichkeiten, diesen ressourcenintensiven Prozess maßgeblich zu beschleunigen.

Ziel und Vorgehen der Arbeit

Tatsächlich ist explizites Produktwissen in den meisten Unternehmen, die einen Konfigurator einführen, in Form von bisher ausgefertigten Angeboten bereits vorhanden. Ziel von Anikas Arbeit war es zu zeigen, inwiefern sich Angebotsdokumente als Datengrundlage für ein automatisches Modellieren und Generieren eignen und welche Methoden technisch am besten funktionieren.

Modell Dokumentengenerierung

Aufgrund von Datenschutzbedenken stellte es sich als eine Herausforderung heraus, originale historische Angebotsdokumente zu beschaffen. Als Lösung wurden für diese 'Proof-of-Concept'-Arbeit mittels Regressionstests unterschiedliche eigene Angebotsdokumente im CAS Configurator Merlin generiert und dann auf dieser Datengrundlage gearbeitet. Unter Regressionstests versteht man in der Softwaretechnik die Wiederholung von Testfällen um sicherzustellen, dass Modifikationen in bereits getesteten Teilen der Software keine neuen Fehler, also „Regressionen“, verursachen.

Im Bereich des Natural Language Processing (NLP) existieren zahlreiche Arbeiten zur Texterkennung und -verarbeitung. Allerdings beziehen nur vereinzelte Veröffentlichungen auch die Dokumentenstruktur in die Austwertungen mit ein. Wie die Untersuchungen mittels verschiedener Convolutional Neural Networks (CNN) und Long Short-Term Memory (LSTM) Netzwerke gezeigt haben, ist es für die automatische Dokumentenmodellierung jedoch unerlässlich, die Dokumentenstruktur zu integrieren.

Erkenntnisse der Arbeit

Im entwickelten Prototyp ist es bereits jetzt möglich, ein beispielhaftes Angebotsdokument zu importieren und daraus automatisch Dokumentenvorlagen im CAS Configurator Merlin zu generieren. Damit konnte erfolgreich gezeigt werden, dass mit der passenden Machine-Learning-Technik und unter Einbeziehen der relevanten Informationen, sprich Text- als auch Layoutinformationen, viel relevantes Wissen automatisch erkannt, extrahiert und im Produktkonfigurator Merlin weiterverarbeitet werden kann. Perspektivisch haben die Ergebnisse auch das Potenzial, für die automatische Modellierung von Produktwissen verwendet werden zu können.

Screencast Prototyp M. Model