Die
heutige automatische Sprachverarbeitung profitiert von den
Erkenntnissen aus der allgemeinen Linguistik und diese basiert auf den
Erkenntnissen der Sprachphilosophie. Wesentliche Beiträge gehen bis auf
Aristoteles zurück, der u.a. die logische Struktur von Sätzen
untersucht hat.
Bereits
seit damals unterscheidet man zwischen den Buchstaben, die Wörter und
Sätze eines Textes bilden, und dem, was damit gemeint ist. Die erste
Ebene ist die
Syntax von Sprache, Wörter und Sätze sind sytaktische Objekte oder
syntaktische Gegenstände. Das, was gemeint ist, bildet die Ebene der
Semantik von Sprache. Aber was sind die
semantischen Gegenstände
? Zur Syntax lernt man viel in der Schule und später auch bei jeder
neuen Fremdsprache: es gibt verschiedene Wortarten und Satzglieder, die
Wörter werden konjugiert und dekliniert usw..
Schließlich wurden
Computer entwickelt und diese können
Zeichen
verarbeiten. Egal ob als Turing-Maschine auf Karopapier oder als
Halbleiterchip, es werden Nullen und Einsen verarbeitet, deshalb heißt
es "Digitalcomputer". Eine Null-Eins-Einheit ist das berühmte
Bit. Durch die Einführung des Konzepts des Binärsystems kann man beliebig lange
Zahlen
bilden. Wenn es um Text geht, kann man einigen Zahlen Buchstaben und
andere Zeichen zuordnen, das ist der AscII-Code (von 0 bis 255) und der
Uni-Code (von 0 bis 65535). Das war es im Wesentlichen, was Computer in
punkto Sprache direkt unterstützen, für alles andere als Buchstaben
benötigt man Software, die intelligentes Verhalten nachbildet.
Für die automatische Sprachverarbeitung bildete sich deshalb aus der Informatik die
Computerlinguistik
heraus, die die Möglichkeiten der syntaktischen Maschine mit den
Erkenntnissen der Linguistik verbinden möchte. Der erste Gedanke war,
ein
Lexikon (eine Liste) aus Wörtern anzulegen, mit denen man dann irgendetwas verbindet. Für die
Übersetzung kann man auch ein mehrsprachiges Lexikon anlegen. Die ersten
Suchmaschinen
haben Texte nach Wörtern durchsucht und z.B. ihre Häufigkeit bewertet.
Daraus ergeben sich komplexe statistische Verfahren, um aus den Wörtern
auf den Inhalt oder die Relevanz eines Textes zu schließen. Diese
Verfahren sind offenbar
rein syntaktisch,
da es nur um Zeichenfolgen geht. Man kann sie auch auf eine Sprache
anwenden, die man nicht spricht, man braucht nur eine Liste ihrer
Wörter.
Für die Analyse der Satzstruktur gab es die Theorie der Formalen Sprachen mit den
Chomsky-Grammatiken, das sind Textersetzungssysteme.
Als
nächstes hat man die Wörter mit Pfeilen dazwischen angeordnet, man hat
Beziehungen definiert. Diese beziehen sich jetzt aber nicht mehr auf
die Wörter selber (wie z.B. "hat mehr Buchstaben als" oder "kommt öfter
vor als"), sondern auf das, was mit ihnen gemeint ist. Es sollen jetzt
Beziehungen zwischen dem
semantischen Inhalt
des einen Wortes und dem semantischen Inhalt eines anderen Wortes
gefunden und modelliert werden. Hieraus entstanden langfristige
Projekte wie das
WordNet[WP]
von der Princeton-Universität, wo man eine Hierarchie versucht, vom
Allgemeinen bis hinunter zum Speziellen (z.B. von "Wirbeltier" über
"Säugetier" zu "Pferd" ...).
Mit dem Allgemeineren verband man den
Oberbegriff und definierte dies dadurch, dass das eine Wort für eine
größere Menge an Gegenständen steht als das andere Wort (es gibt mehr
Säugetiere als nur Pferde). Wenn die eine Menge die andere umfasst,
dann gilt das erste Wort als Oberbegriff. Das ist auf jeden Fall
nützlich.
Daneben zählt die Computerlinguistik eine Reihe weiterer sog.
semantischer Relationen auf, z.B. die "ist-Teil-von"-Relation ("die Tür ist Teil des Hauses").