Up !
Illner Solutions




2. 1  Einleitung und Hintergrund


In [Kapitel 2] der IS-Theorie geht es um automatische Sprachverarbeitung. Damit ist das Verarbeiten von Text durch Software gemeint. Beispiele sind Web-Suchmaschinen, maschinelles Übersetzen und das Datensammeln von Konzernen und Diensten. Es geht nicht um gesprochene Sprache, denn die Umwandlung in schriftliche Sprache ist ein eher technisches Problem.

In dieser Einleitung soll kurz auf einige Probleme in der automatischen Sprachverarbeitung hingewiesen werden, für die in den Folgekapiteln ein theoretischer Lösungsansatz vorgeschlagen wird. Diese Erkenntnisse werden demnächst in Software-Prototypen (siehe [IS-Projekte]) umgesetzt.





2. 1. 1  Geschichte der Sprachverarbeitung

2. 1. 2  Heutige Einsatzgebiete

2. 1. 3  Offene Probleme






2. 1. 1  Geschichte der Sprachverarbeitung

Die heutige automatische Sprachverarbeitung profitiert von den Erkenntnissen aus der allgemeinen Linguistik und diese basiert auf den Erkenntnissen der Sprachphilosophie. Wesentliche Beiträge gehen bis auf Aristoteles zurück, der u.a. die logische Struktur von Sätzen untersucht hat.

Bereits seit damals unterscheidet man zwischen den Buchstaben, die Wörter und Sätze eines Textes bilden, und dem, was damit gemeint ist. Die erste Ebene ist die Syntax von Sprache, Wörter und Sätze sind sytaktische Objekte oder syntaktische Gegenstände. Das, was gemeint ist, bildet die Ebene der Semantik von Sprache. Aber was sind die semantischen Gegenstände ? Zur Syntax lernt man viel in der Schule und später auch bei jeder neuen Fremdsprache: es gibt verschiedene Wortarten und Satzglieder, die Wörter werden konjugiert und dekliniert usw..

Schließlich wurden Computer entwickelt und diese können Zeichen verarbeiten. Egal ob als Turing-Maschine auf Karopapier oder als Halbleiterchip, es werden Nullen und Einsen verarbeitet, deshalb heißt es "Digitalcomputer". Eine Null-Eins-Einheit ist das berühmte Bit. Durch die Einführung des Konzepts des Binärsystems kann man beliebig lange Zahlen bilden. Wenn es um Text geht, kann man einigen Zahlen Buchstaben und andere Zeichen zuordnen, das ist der AscII-Code (von 0 bis 255) und der Uni-Code (von 0 bis 65535). Das war es im Wesentlichen, was Computer in punkto Sprache direkt unterstützen, für alles andere als Buchstaben benötigt man Software, die intelligentes Verhalten nachbildet.

Für die automatische Sprachverarbeitung bildete sich deshalb aus der Informatik die Computerlinguistik heraus, die die Möglichkeiten der syntaktischen Maschine mit den Erkenntnissen der Linguistik verbinden möchte. Der erste Gedanke war, ein Lexikon (eine Liste) aus Wörtern anzulegen, mit denen man dann irgendetwas verbindet. Für die Übersetzung kann man auch ein mehrsprachiges Lexikon anlegen. Die ersten Suchmaschinen haben Texte nach Wörtern durchsucht und z.B. ihre Häufigkeit bewertet. Daraus ergeben sich komplexe statistische Verfahren, um aus den Wörtern auf den Inhalt oder die Relevanz eines Textes zu schließen. Diese Verfahren sind offenbar rein syntaktisch, da es nur um Zeichenfolgen geht. Man kann sie auch auf eine Sprache anwenden, die man nicht spricht, man braucht nur eine Liste ihrer Wörter.
Für die Analyse der Satzstruktur gab es die Theorie der Formalen Sprachen mit den Chomsky-Grammatiken, das sind Textersetzungssysteme.

Als nächstes hat man die Wörter mit Pfeilen dazwischen angeordnet, man hat Beziehungen definiert. Diese beziehen sich jetzt aber nicht mehr auf die Wörter selber (wie z.B. "hat mehr Buchstaben als" oder "kommt öfter vor als"), sondern auf das, was mit ihnen gemeint ist. Es sollen jetzt Beziehungen zwischen dem semantischen Inhalt des einen Wortes und dem semantischen Inhalt eines anderen Wortes gefunden und modelliert werden. Hieraus entstanden langfristige Projekte wie das WordNet[WP] von der Princeton-Universität, wo man eine Hierarchie versucht, vom Allgemeinen bis hinunter zum Speziellen (z.B. von "Wirbeltier" über "Säugetier" zu "Pferd" ...).
Mit dem Allgemeineren verband man den Oberbegriff und definierte dies dadurch, dass das eine Wort für eine größere Menge an Gegenständen steht als das andere Wort (es gibt mehr Säugetiere als nur Pferde). Wenn die eine Menge die andere umfasst, dann gilt das erste Wort als Oberbegriff. Das ist auf jeden Fall nützlich.
Daneben zählt die Computerlinguistik eine Reihe weiterer sog. semantischer Relationen auf, z.B. die "ist-Teil-von"-Relation ("die Tür ist Teil des Hauses").


2. 1. 2  Heutige Einsatzgebiete

In den 2010ern war das häufigste Einsatzgebiet von automatischer Sprachverarbeitung das Information Retrieval[WP] und das Data-Mining[WP] der großen Webservices wie Google und Facebook. Beim Information Retrieval geht es um die Bewertung der Relevanz von Dokumenten bzgl. Suchanfragen. Häufig werden dazu Dokumente mit Metainformationen versehen. Beim Data-Mining geht es darum, aus vielen Dokumenten neue Informationen und Zusammenhänge zu gewinnen. Es wird also neues Wissen gefunden, nicht nur neue Daten, wie der Name suggeriert. Text Mining[WP] und Web Mining[WP] sind Bereiche des Data-Mining, die eng mit dem Information Retrieval verbunden sind.

Automatische Übersetzung[WP] bzw. Maschinelle Übersetzung ist die Königsdisziplin in der Sprachverarbeitung, denn eine Übersetzung setzt irgendeine Art von Verständnis für den Text voraus. Schlechte Beispiele für aktuelle automatische Übersetzung finden sich teilweise noch auf den Entwicklerreferenz-Seiten von Microsoft. Dort kann man das englische Original mit dem deutschen Generat vergleichen. (z.B.: http://msdn.microsoft.com/de-de/library/office/ff701700%28v=office.14%29.aspx )

Als theoretisches Highlight  in der Sprachverarbeitung gelten offenbar immer noch die Semantischen Netze[WP]. Hier ist nicht mehr die Rede von Wörtern, wie oben beim WordNet, sondern von Begriffen und diversen Beziehungen zwischen ihnen. Das ist recht nah an dem, was in den folgenden Kapiteln entwickelt wird, ist aber irgendwie allgemeiner und weist eine gewisse Beliebigkeit auf.


2. 1. 3  Offene Probleme

Schon bei der Analyse von einzelnen Sätzen gibt es offenbar eine Menge Probleme. Je länger ein Satz ist, desto häufiger gibt es mehr als eine Satzstruktur, die man in ihm erkennen kann.
Bsp.: ...
Die Satzstruktur ist ein syntaktisches Problem, das einige semantische Informationen benutzt. Das wird hier nicht besprochen. Deshalb gehen wir im fogenden von relativ kurzen Sätzen aus. Zunächst geht es nur um Hauptsätze ohne Nebenätze, bei denen die Satzstruktur eindeutig ist.

Aber auch bei den einzelnen Wörtern gibt es Problemfälle. Zum einen gibt es mehrdeutige Wörter, die je nach Kontext etwas völlig anderes bedeuten.
Bsp.: ...
Die Mehrdeutigkeit sollte eine Software zur Sprachverarbeitung unterscheiden können.
Die meisten Wörter kann man auch in einen ganz neuen Kontext bringen und so eine neue Bedeutung einführen.
Bsp.: ...

Zum anderen gibt es synonyme Wörter, d.h. zwei oder mehr Wörter bedeuten genau das Gleiche.
Bsp.: ...
Die Synonymie sollte eine Software zur Sprachverarbeitung erkennen können.

Wichtiger als die Wörter selbst sind also ihre Bedeutungen. Die Betrachtung der Bedeutungen bzw. der semantischen Inhalte bringt aber neue Probleme. Dies alles sind gerade die interessanten semantischen Probleme, die in den folgenden Kapiteln bearbeitet werden.




Erstmals kreiert am – Montag, 01. Dezember 2014
Letzrmals geändert am – Sonntag, 05. Januar 2020
Autor: Korgüll


Copyright 2014 – 2020  Illner Solutions