Aus technischen Medien Informationen extrahieren
1. Key Facts
Anwendende | Pumacy Technologies UG |
KI-Dienstleistende | DAISEC – Digital Innovation Hub for Artificial Intelligence and Cybersecurity |
Prozess | Service: Klassifizierung und Zuweisung von Anfragen der Kundschaft |
2. Ausgangssituation und Herausforderungen
Fahrzeugherstellende und Zuliefernde produzieren unter höchsten Qualitäts- und Sicherheitsstandards. Zugleich stehen Fahrzeuge unter besonderer Beobachtung der Behörden. Die gesamte Lieferkette ist gut reguliert und Fahrzeuge werden später im Einsatz regelmäßig überprüft.
Maßgebliche Qualitätsnorm für die Fahrzeugindustrie ist die IATF 16949. In ihr ist seit 2020 festgehalten, dass jedes am Fahrzeug beteiligte herstellende Unternehmen dafür verantwortlich ist, die eigenen Produkte, also auch in Fahrzeugen verbaute Teile, im Feld zu überwachen. Für Komponenten- und Teilefertigende, je weiter hinten sie in der Zulieferkette liegen, ist dies oft nur sehr schwer möglich.
Die auf Datenanalyse spezialisierte Firma PUMACY unterstützt Fahrzeugzuliefernde, weltweit Daten aus den unterschiedlichsten Informationsquellen zu sammeln, zu strukturieren und mit innovativen Datenanalyse- und KI-Methoden auszuwerten.
3. Ziel des Projekts
Im Rahmen des EU-Projektes EUHubs4Data, in dem der DAISEC Mitglied ist, wurde im Experiment OVeC (Open Platform for Vehicle-related Communication) eine offene Plattform für fahrzeugbezogene Kommunikation entwickelt. Hiermit sollen offizielle Rückrufdaten um Zusatzinformationen aus öffentlich zugänglichen Quellen angereichert werden.
Während das Aufbereiten rein technisch ausgerichteter Informationsquellen, wie sie beispielsweise von den Fahrzeug- und Verkehrsbehörden angeboten werden, technisch keine allzu große Herausforderung darstellt, ist die Auswertung von Fachpublikationen, die an die breitere Öffentlichkeit gerichtet sind, eine deutlich komplexere Aufgabe.
Deshalb entwickelte der DAISEC für das OVeC-Experiment prototypisch einen Nachrichtenextraktor, mit dessen Hilfe Fahrzeugrückrufe betreffende Informationen in Nachrichtenartikeln erkannt und strukturiert den jeweiligen Fahrzeugrückrufen zugeordnet werden können. Ein parallel verfolgtes technisches Ziel des Projektes war die Evaluierung von Wissensgraphen für den Einsatz innerhalb der Carwatch-Plattform.
4. Projektablauf
Unter einem Wissensgraph wird allgemein eine Wissensbasis verstanden, die ein durch Graphen strukturiertes Modell bzw. eine Topologie zur Darstellung und Bearbeitung von Daten verwendet. Mittels Knoten, Kanten und Beschriftungen lassen sich beliebig komplexe Strukturen aufbauen und miteinander verknüpfen.
Die für das Projekt technisch relevanten Textpassagen wurden mit einem Web-Scraper aus Webseiten mit Automobilbezug extrahiert. Wikidata lieferte die notwendigen Strukturinformationen, für den Aufbau des Wissensgraphen, insbesondere Informationen über Automobilherstellende und Fahrzeugmodelle.
In der Tiefenanalyse wurden aus den Texten zusätzlich Informationen bezüglich des Kontextes, z. B. das Baujahr des Fahrzeugs und die jeweils betroffenen Komponenten oder Teile, erkannt. Hierbei kamen testweise zwei unterschiedliche Künstliche Intelligenz-Methoden zum Einsatz:
LLM-basierter Textklassifizierer: Große Sprachmodelle (LLMs = Large Language Models) lieferten bereits in vielen Anwendungsbereichen vielversprechende Ergebnisse bei der Informationsextraktion. Dies wurde auch bei der exemplarischen Anwendung im OVeC-Projekt bestätigt.
Transformer-basierter Textklassifizierer: In einem zweiten Ansatz wurde ein transformatorbasiertes Multilabel-Textklassifizierungsmodell anhand eines bestehenden Carwatch-Datensatzes trainiert. Auch dieser Ansatz führte zu guten und praktisch verwertbaren Ergebnissen.
In den kommenden Monaten wird PUMACY die Ergebnisse des Projektes anhand des umfangreichen Carwatch-Datenbestandes weiter erproben und die beiden Methoden auf ihre Stärken und Schwächen hinsichtlich der unterschiedlichen Informationstypen hin testen. Sofern die Ergebnisse sich auch mit größeren und komplexeren Datenmengen bestätigen, werden die Projektergebnisse in der operativen Carwatch-Plattform umgesetzt.
Quelle: https://daisec.de/praxisbeispiele/aus-technischen-medien-informationen-extrahieren/