Das Periodensystem der Künstlichen Intelligenz

TL;DR Künstliche Intelligenz kommt in vielen verschiedenen Geschmacksrichtungen und es kann ziemlich schwierig sein, alle Zutaten einer KI-Lösung zu erkennen und zu bewerten. Umso schöner finden wir das Periodensystem der Künstlichen Intelligenz, das die verschiedenen Bausteine beleuchtet und Anwendungsbereiche sowie Nutzen anschaulich erklärt. Hier beleuchten wir die verschiedenen KI-Elemente, die semantha® ihre Fähigkeiten verleihen. Steig’ mit uns hinab in den Maschinenraum und wir schauen und das ein oder andere Zahnrädchen genauer an!

Künstliche Intelligenz – (nur) ein Sammelbegriff

Was ist das eigentlich Künstliche Intelligenz (KI)? Aktuell wird ein großer Hype darum gemacht, was KI ist (sein soll) und alles kann (oder können sollte). Je nach Blickwinkel könnte man sagen, KI brauche ich dann, wenn ich etwas machen will, was ein Computer heute (gerade noch) nicht leistet. Aber das ist fast philosophisch – und wir sind ja Techniker. Insofern:  KI ist ein Sammelbegriff für viele verschiedene Technologien, die das Ziel haben, intelligent erscheinende Schlüsse aus Daten zu ziehen. Spielen (z.B. Schach, Super Mario und Go), interagieren (z.B. das viel bemühte Autonome Fahren) und analysieren (z.B. Betrugserkennung, Kundensegmentierung usw.) sind jedoch nur die Anwendungen – aber oft werden für die Lösung eines Problems verschiedene KI-Bausteine benötigt. Genau diese Bausteine beschreibt die Bitkom im Periodensystem als KI-Elemente [1] – und zwar technologieunabhängig: Das Periodensystem versteht sich nicht als Definition von KI, sondern gibt einen Rahmen zur Beschreibung und gibt uns ein wohldefiniertes Vokabular [2]. Und damit können wir mit den KI-Elementen sehr gut beschreiben, was semantha® leistet und welchen Nutzen Unternehmen aus ihr ziehen können [3].

Die KI-Elemente von semantha®

Etwas vereinfacht betrachtet: semantha® verarbeitet unstrukturierte Dokumente in drei Schritten:

  • Schritt 1 ermittelt semantische Ähnlichkeiten zwischen Textpassagen.
  • Schritt 2 extrahiert Datenpunkte aus Textpassagen und strukturiert sie dadurch.
  • Schritt 3 verknüpft Datenpunkte mit Hintergrundwissen, um logische Schlussfolgerungen zu ziehen.

Vor der Analyse muss semantha® die Dokumente einlesen und in eine interne Datenstruktur überführen. Liegt das Eingabedokument nicht nur als Reintext, sondern als – ich nenne das hier mal – visuell gestaltetes Dokument vor (z.B. als PDF-Dokument), greift semantha nicht nur auf den textuellen Inhalt zu, sondern nutzt die visuellen Eigenschaften des Dokuments (Bilderkennung, Ir). So werden beispielsweise Tabellen erkannt und gesondert ausgewertet.

Dann vergleicht semantha® Textpassagen miteinander und prüft sie auf überlappende Inhalte (Sprachverstehen, Lu). Das Besondere an semanthas Sprachmodul ist die Unabhängigkeit vom Wortlaut: es erfasst Texte auf der Bedeutungsebene. Der tatsächliche Wortlaut spielt eine untergeordnete Rolle. So identifiziert semantha® bedeutungsgleiche oder nahe beieinanderliegende Textpassagen, um bspw. zu überprüfen, ob ein Dokument zuvor definierte Hotspots enthält. Ebenso ist es möglich, zwei Dokumente (oder zwei Versionen eines Dokuments) direkt miteinander zu vergleichen.

Unabhängig vom konkreten Anwendungsfall ist eines besonders hervorzuheben: semantha® verfügt über ein vorgegebenes Sprachverständnis. Mit ihm kann sie Aufgaben aus dem Stand heraus bearbeiten, ohne dass zuvor ein Anwendungsfall- oder kundenspezifisches Training nötig ist. Ihr Sprachmodul ist dabei keineswegs starr, sondern kann mit verschiedenen Methoden angepasst werden (Erweiterung des Systemwissens, Lt). Im einfachsten Fall ist das eine Änderung seiner Konfiguration. Aber je nach Fachsprache/Jargon können wir es basierend auf Kundendokumenten individualisieren. semantha® verfügt dann über ein maßgeschneidertes Sprachmodul.

Ein Anwendungsfall für semantha® ist ein 1:n-Dokumentvergleich, bei dem Dokument jeweils mit n weiteren verglichen wird. So kann man z.B. einfach eigene Vertragsbedingungen mit denen von Wettbewerbern vergleichen: semantha ermittelt dann zu den eigenen Regelungen diejenigen Textpassagen bei den Wettbewerbern, die inhaltlich übereinstimmen oder ähnlich sind. Dieser 1:n-Vergleich lässt sich auf einen n:m-Vergleich verallgemeinern. Dadurch kann der Anwender die hierbei implizit erstellten semantischen Kategorien (Daten in Kategorien einteilen, Lc) erkunden und für zukünftige Analysen speichern.

Im zweiten Schritt können – entweder basierend auf den Fundstellen der vorangegangenen Analyse oder auf dem gesamten Dokument – spezifische Datenpunkte extrahiert werden (Datenextraktion, Te). Hier kommen sowohl klassische Verfahren, als auch Verfahren des Maschinellen Lernens zum Einsatz, um aus den Textpassagen typisierte Daten zu gewinnen.

Im dritten Schritt erzeugt die semantische Interpretation aus den gewonnenen Daten neue Informationen wie bspw. Handlungsempfehlungen zusammen mit einer Begründung (Ableiten von Erkenntnissen, Sy). Hierbei kommt gerade kein Maschinelles Lernen zum Einsatz, sondern der Anwendungsfall wird entsprechend modelliert (auch hier wieder: Erweiterung des Systemwissens, Lt). Nur so sind logische Schlussfolgerungen möglich. Hierbei greift semantha® auch auf externes Wissen zurück, das nicht explizit im Dokument steht, sondern sich über logische Schlüsse ermitteln und/oder verknüpfen lässt. Stehen die Informationen für eine semantische Interpretation bereit, liefert semantha® nicht nur das Ergebnis, sondern auch die logische Kette, die zum Ergebnis geführt hat. Hierbei verweist sie immer exakt auf die Fundstellen im Text, die ihrer Schlussfolgerung zugrunde liegen. So kann der Anwender ihre Entscheidung nachvollziehen (wir sprechen dann von explainable AI [4] oder XAI).

Ein Beispiel aus der Versicherungsbranche

Beim Underwriting formulieren Makler umfangreiche Versicherungsbedingungen, die sie ihren Kunden als spezielles Konzept anbieten möchten. Versicherungen prüfen wiederum, ob sie diese Risiken annehmen möchten  (und zu welchem Preis). Bei der täglichen Arbeit in Versicherungsunternehmen müssen daher die von Maklern vorgeschlagenen Bedingungen geprüft werden. (Siehe auch Blogartikel “Die Time-to-Market beschleunigen mit KI”.) Experten untersuchen, ob die internen Zeichnungsrichtlinien erfüllt werden bzw. an welcher Stelle im Vorschlag welche Vorgabe verletzt wird.

Der Versicherer ist z.B. bereit, Haftpflichtschäden nach dem Umweltschadensgesetz zu übernehmen. Hierbei ist jedoch eine Obergrenze von 5 Mio. € pro Schadenereignis zu vereinbaren. Underwriter müssen folglich in jedem vom Makler vorgeschlagenen Bedingungswerk die Regelung(en) zu Umweltschäden identifizieren, den Wert der Deckungssumme pro Schadenereignis ermitteln und gegen die Vorgabe prüfen.

Genau diese Prüfung kann auch von semantha® durchgeführt werden: Im ersten Schritt wird die (bzw. vielmehr: Alle) entsprechende(n) Klausel(n) zu Umweltschäden ermittelt. Dann wird im zweiten Schritt die Deckungssumme extrahiert und im dritten Schritt mit der internen Grenze von 5 Mio. € verglichen. Liegt die Deckungssumme unter der Vorgabe, kann der Passus grün markiert werden – andernfalls rot. Die Prüfung am Ende könnte natürlich noch weitere Datenpunkte berücksichtigen, wie bspw. die Information, ob Verunreinigungen von Flüssen (im Gegensatz zu stehenden Gewässern) abgedeckt werden sollen oder nicht.

Die letzte Prüfung kann semantha® durchführen, da die Datenextraktion typisiert erfolgt. Das bedeutet, dass die Zeichenkette “2 Mio. €” als Geldbetrag extrahiert werden kann und dann denselben Wert hat, wie “2.000.000,00 Euro” und “EUR 2M”. Ohne Typisierung hätten wir drei verschiedene Extrakte – mit der Typisierung können wir auf den Daten rechnen, z.B. bestimmen welcher Betrag niedriger ist und welcher höher.

Viele Möglichkeiten – eine Plattform

Wie wir gesehen haben, verfügt semantha® über vielfältige Funktionen und nutzt dafür verschiedene KI-Elemente. Aber natürlich benötigt nicht jeder Anwendungsfall alle Funktionen und alle Elemente. Daher unterstützt semantha® verschiedene Prozesse direkt mit Benutzeroberflächen und führt den Anwender darin durch die notwendigen Analyseschritte. Teilweise können wir die Analysen sogar gänzlich verstecken und dem Anwender lediglich das Ergebnis nebst Begründung anzeigen – und natürlich unterstützen wir hier die gängigen Dateiformate in der jeweiligen Domäne (z.B. ReqIF für das Requirements Engineering).

Wir können nicht alle Prozesse beim Kunden voraussehen. Daher stellen wir den gesamten Funktionsumfang von semantha® als REST-API zur Verfügung – natürlich mit einer umfangreichen Dokumentation. Das vereinfacht die Integration von semantha® in bestehende IT-Landschaften und prozessführende Systeme.

Anmerkungen

[1] Digitalisierung gestalten mit dem Periodensystem der Künstlichen Intelligenz: Ein Navigationssystem für Entscheider; Bitkom, Bundesverband Informationswirtschaft, Telekommunikation und neue Medien e.V. (Herausgeber) https://www.bitkom.org/sites/default/files/2018-12/181204_LF_Periodensystem_online_0.pdf

[2] Torsten Hartmann und Stefan Holtl: Das Periodensystem der Künstlichen Intelligenz. –  Big-Data.AI Summit 2018, https://youtu.be/N3E5L2aSZkM?t=421

[3] Bitkom: Periodensystem der KI erklärt Künstliche Intelligenz, Pressemitteilung vom 10. April 2019. https://www.bitkom.org/Presse/Presseinformation/Periodensystem-der-KI-erklaert-Kuenstliche-Intelligenz

[4] Man kann sich zusätzlich noch überlegen, ob semantha® nun eine interpretable AI oder eine explainable AI ist. Wie bei den KI-Elementen ist es auch hier eine Mischung. Das Sprachverständnis von semantha® selbst ist “nur” explainable. Alles was darauf aufbaut – insbesondere die Extraktion und die Schlussfolgerungen – sind interpretable, da wir die zugrundeliegende Modellierung nicht nur verstehen sondern die Verarbeitungsschritte mit Papier und Bleistift sogar schrittweise selbst durchführen können. Mehr Details zu AI vs. explainable AI vs. interpretable AI gibt es z.B. im Papier von Gilpin et al. Explaining Explanations: An Overview of Interpretability of Machine Learning.

Ein Auszug unserer Kunden

Im Vergleich zu anderen KIs, ist die CO2-Bilanz von semantha® um ein vielfaches besser.