Meinst Du das wirklich so?

Wisst Ihr, was Weihnachten, Fußballer und Bergwerke gemeinsam haben? Nein? Dann denkt mal darüber nach, während Ihr diesen Beitrag lest. Die Lösung des Rätsels bringt uns nämlich auf eines der Phänomene, die man in der Sprachwissenschaft unter der Überschrift “Semantik” untersucht.

Semantik und die Herausforderung der Digitalisierung unstrukturierter Informationen

Die Semantik beschäftigt sich aber nicht nur mit Weihnachten, Fußballern und Bergwerken, sondern (und das sogar vorrangig…) allgemein mit der Bedeutung – vor allem von Wörtern und Sätzen.

Schon viele Wissenschaftler haben versucht, ein allgemeines Prinzip der Bedeutung zu finden. Wie beschreibt man Bedeutung, was macht “Bedeutung” aus? Hierüber hat es Auseinandersetzungen bis hin zu sprachwissenschaftlichen Kriegen (linguistic wars) in den 1960-1970er Jahren gegeben.

Gerade die Vielfalt von Bedeutungen und die unterschiedlichen Ansätze, wie man Bedeutung beschreiben kann, machen aber Semantik so spannend. Wer einen Text mit Hilfe der Informatik verstehen (oder besser: analysieren) will, muss sich dieser Vielfalt bewusst sein. Sie zeigt die Möglichkeiten, aber auch die Grenzen der Digitalisierung von Bedeutung, wie sie in Dokumenten und Texten enthalten ist.

Während wir die Zeichen und Buchstaben entweder direkt in digitalisierter Form als ASCII- oder UNICODE-Zeichen abbilden und beispielsweise automatisiert zählen können, ist die Bedeutung von Wörtern und Sätzen nicht mehr direkt abbildbar. Man spricht bei Texten auch von unstrukturierten Dokumenten oder unstrukturierten Informationen. Dabei ist es nicht einmal so, dass unsere Sprache und auch die Bedeutung völlig unstrukturiert sei. Vielmehr sind es die unterschiedlichen Strukturprinzipien, die gleichzeitig in einem Wort, einem Satz oder einem Text vorhanden sind, die eine automatisierte Textanalyse so schwierig machen.

Bedeutungsmerkmale

Immer wieder werden Versuche unternommen, die Bedeutung von Wörtern auseinanderzunehmen. Der Vorteil wäre dann, dass man “lediglich” die Bedeutung der kleinsten Sinnbestandteile oder Merkmale kennen müsste. Die Bedeutung einzelner Wörter ließe sich daraus zusammensetzen. Auch Beziehungen zwischen Wörtern ließen sich mit mathematischen Prinzipien daraus ermitteln.

Nehmen wir beispielsweise an, man hätte erkannt, dass die Merkmale +/- männlich, +/- weiblich, +/- erwachsen, +/- bürgerlich, +/- Monarch als kleinste sinngebende Einheiten existieren. Dann könnten wir die Bedeutung von Frau und Mann, Königin und König wie folgt beschreiben:

Sinneinheit / BedeutungFrauMannKöniginKönig
weiblich++
männlich++
erwachsen++++
monarch++

Die Beziehung zwischen Königin und König lässt sich dann als Transformation beschreiben, und zwar KÖNIGIN – weiblich + männlich = KÖNIG.

Ähnliche Regelmäßigkeiten existieren auch bei Bezeichnungen von Tieren: Stute – Hengst – Fohlen; Kuh – Stier – Kalb; Schaf – Bock – Lamm.

Die Grenzen des Auseinandernehmens von Bedeutung

Es gibt Bedeutungen wie König und Königin, die sich gut zum Auseinandernehmen eignen. Jedoch stoßen wir bei anderen Wörtern oft an die Grenzen der merkmalsbasierten Analyse. Ist es ein Merkmal der Vögel, dass sie fliegen können? Wenn ja, warum ist dann ein Pinguin ein Vogel? Welche Merkmale genau unterscheiden eine Schale von einer Schüssel oder eine Tasse von einem Becher? Welche Merkmale haben die Wörter kaufen, Demokratie, oder Glück?

Abbildung: Tasse oder Becher?

Um Problemen wie der Pinguin- und Becherthematik zu begegnen, wird in der Semantik auch von Prototypen ausgegangen. Ein Prototyp repräsentiert eine abstrakte Kategorie wie z.B. Vogel oder Becher mental und muss gar nicht in Wirklichkeit existieren. Mit diesem “idealen” Vogel oder Becher vergleichen wir dann die Exemplare, die uns begegnen. Ähnlich ist es mit komplexeren Situationen wie Kauf, zu denen mehrere Beteiligte, ausgetauschte Dinge, Absichten usw. gehören.

Zur technischen Verarbeitung von Semantik werden in semantha® Sprachmodelle herangezogen. Diese Modelle können die Beziehungen zwischen Königin und König, Frau und Mann mathematisch erstaunlich gut darstellen (siehe Abbildung unten). Dagegen haben sie größere Schwierigkeiten mit der Darstellung komplexerer Beziehungen (1:M relations are difficult, Translating Embeddings for Modeling Multi-relational Data) oder Zusammenhängen wie bei einem Kauf-Ereignis.

Abbildung: Lineare Strukturen in Bedeutungsgeflechten
Quelle: https://nlp.stanford.edu/projects/glove/

Bedeutungsbeziehungen

Es gibt einige Bedeutungsbeziehungen zwischen Wörtern, die wir immer wieder beobachten können. Eine wichtige Beziehung ist die Eingruppierung oder Kategorisierung, z.B. “ein Hammer ist ein Werkzeug”, “ein Hemd ist ein Kleidungsstück”. Zunächst einmal erlauben uns die Oberbegriffe wie Werkzeug und Kleidungsstück, die Dinge der Welt zu begreifen, hier nach ihrem Zweck. Wenn wir wissen, dass Hammer und Schraubenzieher Werkzeuge sind, können wir auch das nächste Werkzeug besser einordnen. Durch Verwendung des Oberbegriffs können wir auf ein oder mehrere Gegenstände Bezug nehmen, z.B. “Gibst du mir bitte das Werkzeug?” – gemeint sind Hammer und Säge und das wird in der Situation auch verstanden.

semantha® ermittelt semantische Ähnlichkeiten zwischen Sätzen oder Absätzen. Um die Ähnlichkeiten zwischen Wörtern und Oberbegriffen zu vergleichen, haben wir mit semantha® Sätze verglichen, in denen jeweils nur ein Wort ausgetauscht ist, in diesem Fall: “Der Vater legte das X ins Regal zurück.” Eingesetzt statt X haben wir die Wörter Katalog und Buch; Hemd, T-Shirt und Kleidung; sowie Werkzeug, Hammer und Schraubendreher. Die Tabelle in der Abbildung unten zeigt, dass semantha® Hammer und Werkzeug als einander ähnlich ansieht, sowie auch Hammer und Schraubendreher (beides Unterbegriffe des gleichen Oberbegriffs Werkzeug) – jedenfalls ähnlicher, als Hammer und Hemd, die unterschiedliche Oberbegriffe haben.

Eine besondere Bedeutungs-Beziehung besteht zwischen (nahezu) bedeutungsgleichen Wörtern wie Schnürband oder Schnürsenkel. Man nennt dies Synonymie. Während es absolute Bedeutungsgleichheit selten gibt (und sei es aufgrund von Nuancen oder Assoziationen), gibt es wiederum viele Wörter, die je nach Situation bedeutungsgleich verwendet werden können. Wie viele Wörter kennt Ihr zum Beispiel für Windkraftanlage? Windrad, Windkraftwerk, Windenergieanlage, vielleicht weitere?

Mit Hilfe von Synonymen und anderen sprachlichen Mitteln ist es möglich, den gleichen Inhalt auf völlig unterschiedliche Art und Weise auszudrücken.

Der Lehrer ist froh, dass die Schule wieder beginnt.

Der Lehrer ist glücklich, dass der Unterricht erneut losgeht.

Ein Wort, viele Bedeutungen

Sicherlich habt Ihr die ganze Zeit darüber nachgedacht, was denn nun Weihnachten, Fußballer und Bergwerke gemeinsam haben. Die Lösung lautet: Stollen. Das Wort Stollen hat offensichtlich mehrere Bedeutungen, abhängig davon, in welchem Kontext es verwendet wird. In der Semantik nennt man dies Polysemie.

Für die technische Verarbeitung von Semantik können polyseme Wörter ein Problem sein. Typischerweise bilden Sprachmodelle nur eine einzige mathematische Repräsentation pro Wort ab: Jedes Wort wird durch einen Vektor dargestellt, aber nicht jede seiner Bedeutungen.Um zu illustrieren, was das für die semantische Ähnlichkeit von Texten bedeutet, haben wir semantha® jeweils drei Textabschnitte zu den Themen Fußball, Weihnachten und Bergwerk gegeben, in denen das Wort Stollen vorkommt. Wie die Tabelle unten zeigt, bilden die Texte aus Sicht des Sprachmodells gesehen keine reinen Gruppen. Stattdessen finden sich Ähnlichkeiten z.B. zwischen den Bergwerks- und Fußball-Texten, aber auch zwischen Weihnachtstexten und Bergwerkstexten.

Im Gegenversuch haben wir alle Vorkommen von “Stollen” in den neun Texten durch ähnliche Wörter ersetzt (z.B. in den Bergwerks-Texten “Gang” statt “Stollen” verwendet). Nun erkennt semantha® keine semantische Ähnlichkeiten zwischen den verschiedenen Themen Bergwerk, Fußball und Weihnachten (siehe Tabelle unten).

Polysemie ist nicht selten. Niemand kann sie beim Schreiben von Texten vermeiden. Aktuelle Forschung beschäftigt sich daher damit, das “Polysemie-Problem” bei der technischen Verarbeitung von Semantik zu umgehen.

Semantik im Arbeitsumfeld

Uns würde interessieren, ob Ihr in Eurem Arbeitsumfeld mit semantischen Herausforderungen zu tun habt und welche das sind. Schreibt uns gerne eine Mail an pr@semantha.de.

Im Vergleich zu anderen KIs, ist die CO2-Bilanz von semantha® um ein vielfaches besser.

Das FORBES Magazin beschreibt uns mit den Worten "Hirn mit künstlicher Intelligenz".