Natural Language Processing (NLP, auf Deutsch auch Computerlinguistik) versucht, natürliche Sprache zu erfassen und mithilfe von Regeln und Algorithmen computerbasiert zu verarbeiten. Hierfür werden verschiedene Methoden und Ergebnisse aus den Sprachwissenschaften verwendet und mit moderner Informatik und künstlicher Intelligenz kombiniert.
Im Projekt „Horticulture Semantic“ (HortiSem) wird ein semantisches Netzwerk speziell für den Bereich der Landwirtschaft entwickelt. Ein semantisches Netzwerk ist eine Knowledge Base, in der Begriffe und ihre Bedeutung zueinander in Beziehung gesetzt werden. Dies geschieht üblicherweise über eine Triple-Beziehung, konkret über die Relation „Subjekt → Prädikat → Objekt“. Auf diese Weise können große Datenmengen miteinander verknüpft und maschinenlesbar gemacht werden.
Neben vorhandenen, strukturierten Daten in Datenbanken (BVL Pflanzenschutzmittel, AGROVOC, PS Info) sollen auch neue, semistrukturierte Datensätze und Informationen aus Textkorpora in den Knowledge Graphen eingepflegt werden. Dazu sollen relevante Texte nach bestimmten Klassen (Kulturen, Schädlinge, Erreger, BBCH-Stadien, …) durchsucht und diese gegebenenfalls in den Knowledge Graphen integriert werden. Eine Schwierigkeit dabei ist es diese Begriffe möglichst automatisch in korrekte Relationen zu anderen Begriffen und bereits vorhandenen Daten zu setzen.
Named-Entity-Recognition (NER)
Für das HortiSem-Projekt werden Informationen wie Kultur, Schaderreger, Pflanzenschutzmittel, BBCH-Stadium, Regionen, Zeitpunkt sowie die beschreibenden Bilder mittels Named-Entity-Recognition (NER) aus den Beratungstexten extrahiert und mit den Elementen aus dem Knowledge Graph verknüpft. Eine besonders komplexe Aufgabe für das Natural Language Processing ist die Beziehungsextraktion. Hier werden aus den Texten relationale Tripel (Subjekt » Prädikat » Objekt) extrahiert. Die Beziehung zwischen einer Kultur und einem Erreger kann etwa so dargestellt werden: Möhre » kann befallen werden von » Alternaria.
Eine weitere Anwendungsmöglichkeit von NLP-Methoden besteht bei der Interaktion der Benutzer mit dem semantischen Netz. Hier sollen beispielsweise automatisch Schlüsselwörter oder Zusammenfassungen generiert werden (etwa aus vom Benutzer hochgeladenen PDFs), die thematische Einordnung von Texten ermöglicht und relevante Informationen aus dem semantischen Netz zurückgegeben werden. Einige mögliche Anwendungsfälle werden im Demo-Video erläutert.
Beispiel NLP Verfahren / Video
Ein Kurzvideo (MP4) von Jascha Daniló Jung (KTBL) und Xia He (JKI) finden Sie auf hortigate: https://www.hortigate.de/publikation/93385/HortiSem-Natural-Language-Processing-NLP/ (Länge: 4:43 min)
Inhalt: Zur Anwendung kommen verschiedene Verfahren aus dem Bereich des Natural Language Processing (NLP).
Bei der Tokenisierung werden Texte in einzelne Token aufgebrochen. Ein Token kann dabei ein einzelnes Wort oder Satzzeichen sein. Grammatische Formen werden dabei zunächst beibehalten. Bei der Lemmatisierung werden Worte auf ihr Grundform, das Lemma, zurückgeführt. So wird beispielsweise dem Token „des“ das Lemma „der“ zugeordnet.
Wordvektoren stellen Begriffe numerisch anhand von n-dimensionalen Vektoren/Tensoren dar. Dabei sind 300 oder mehr Parameter pro Begriff nicht unüblich. Sie ermöglichen es die (grammatikalische/semantische) Ähnlichkeit von Wörtern, durch die Distanz der Vektoren zueinander, mathematisch zu berechnen. Die Erstellung von Wortvektoren mit Machine-Learning Verfahren benötigt allerdings eine sehr große Menge an Texten und eine größere Rechenleistung.
Bei der Named Entity Recognition (NER) werden Begriffe automatisch klassifiziert. Das heißt, ein Sprachmodell wird darauf trainieren, bestimmte Wörter und Begriffe in zuvor festgelegte Klassen einzuteilen. Grundlage dafür sind vor-annotierte Texte mit Beispielen der gewünschten Begriffe und Klassen in regulären Sätzen.
Die Suchmaschine findet für Stichwörter oder Texte andere relevante Texte aus dem Pflanzenschutz.
Das letzte Modul demonstriert das Auslesen von Text aus Bilddateien.