semantha® goes east – KI spricht viele Sprachen
Unsere Künstliche Intelligenz semantha® hilft bei Analysen von Dokumenten. Sie kann zum Beispiel verwendet werden, um manuelle Prozesse der Überprüfung und Validierung von Dokumenten zu beschleunigen, da semantha® Texte auf Ebene ihrer Bedeutung analysiert. Ein weiteres Beispiel für den Einsatz von semantha® ist die Automatisierung des Clusterns und der Klassifizierung von Dokumenten – basierend auf ihrem Inhalt, im Gegensatz zu einer einfachen zeichen- oder wortbasierten Analyse.
Viele der Beispiele auf unserer Website und in unserem Blog, die die Möglichkeiten von semantha® aufzeigen, sind in Englisch oder Deutsch. In letzter Zeit haben wir aber immer mehr Anfragen für den Einsatz in anderen Sprachen erhalten. Wir haben semanthas mehrsprachige Fähigkeiten bereits erwähnt, in diesem Blogbeitrag möchten wir noch mehr Hintergrundinformationen und Beispiele liefern. Also, bleib dran, wenn Du:
- die Ausweitung Deines Unternehmens auf neue geografische Gebiete in Erwägung ziehst, wie z. B. die Suche nach Geschäftspartnern und Kunden im Ausland;
- die Schaffung oder den Erwerb neuer Produktionsstandorte oder Deine Lieferketten neu bewerten willst;
- einfach Deine eigene Lieferkette besser verstehen willst,
… um nur einige der vielen Geschäftsprozesse zu nennen, bei denen Dir die mehrsprachige Dokumentenanalyse helfen kann.
Prüfung von Dokumenten in einer neuen Sprache
Nehmen wir an, Dein Unternehmen prüft die Verlagerung eines Teils seiner Lieferkette nach Osteuropa. Zu diesem Zweck müssen in der Regel viele Dokumente – strukturierte und unstrukturierte – gesammelt, grob kategorisiert und genau analysiert werden. Da semantha® sich gut mit unstrukturierten Dokumenten (auch bekannt als „Fließtextdokumente“) auskennt, kann sie z. B. bei Produktbeschreibungen, Audit-Berichten, Verträgen, Versicherungspolicen und ähnlichen Dokumenten helfen.
Eine der Verwendungsmöglichkeiten von semantha® besteht darin, ihr eine kleine Reihe von Beispielen zur Verfügung zu stellen (eigentlich beginnt semantha® schon mit einem einzigen Beispiel zu arbeiten) – zum Beispiel einen Absatz mit einer No-Go-Bedingung in einem Vertrag – und sie zu bitten, einen ähnlichen Absatz oder eine ähnliche Textstelle in einem anderen Dokument zu finden. Da Du bereits mit semantha® gearbeitet hast, kennst Du einige Beispiele für Versicherungsbedingungen, auf die Du achten möchtest, und diese wurden auf Englisch oder Deutsch bereitgestellt. Die osteuropäischen Sprachen unterscheiden sich jedoch so sehr vom Englischen, dass ein englischer Muttersprachler die Bedeutung eines Textes nicht ohne weitere Hinweise erkennen kann.
Zur Veranschaulichung werfen wir einen Blick auf den unten stehenden polnischen Text. Es handelt sich um einen Auszug aus einer Versicherungspolice, die Du für Dein Unternehmen prüfst. Wenn Du über keine guten Kenntnisse der polnischen Sprache verfügst, musst Du zuerst den gesamten Text übersetzen lassen, bevor Du ihn auf relevante Klauseln überprüfen kannst.
Mit semantha® kannst Du diese einzelnen Schritte anhand der englischen Beispiele zu einem zusammenfassen, sodass Du Dir schnell ein Bild davon machen kannst, ob und wo sich relevante Punkte im Dokument befinden.
Beispiel
Nehmen wir an, Du prüfst Deine Versicherungsverträge immer auf die Risiken STURM, ERDBEBEN und SCHNEE. Du hast semantha® einige englische und deutsche Beispiele gezeigt, in denen diese Themen aus Versicherungsverträgen vorkommen. Zum Beispiel wurde in einem Deiner früheren Dokumente der folgende Text als relevant für das Risiko SNOW identifiziert:
Weight of snow or ice on roofs:
an accumulation of precipitation that causes collapses for 168 consecutive hours.
Du ziehst in Erwägung, nach Polen zu expandieren und befindest Dich in der allerersten Phase der Prüfung polnischer Versicherungspolicen. Da Du kein Polnisch sprichst, bittest Du semantha®, die relevanten Abschnitte im Dokument farblich zu kennzeichnen. Du hast festgelegt, dass STURM-bezogene Passagen lila, ERDBEBEN-Passagen orange und SCHNEE-Passagen blau hervorgehoben werden sollen.
Du lädst den polnischen Vertrag in semantha® hoch. Deine Analyse kannst Du entweder auf der Benutzeroberfläche von semantha® begutachten, oder eine kommentierte Version des Originaldokuments herunterladen. Wir verwenden die letztere Variante, um die Ergebnisse zu veranschaulichen, und konzentrieren uns auf die wichtigsten Bestandteile.
Screenshot Nahaufnahme: Kann in einem PDF-Reader geöffnet und betrachtet werden. Auf der linken Seite befindet sich das neue Versicherungsdokument mit den hervorgehobenen Absätzen, für die semantha® relevante Hotspots anhand Deiner englischen und deutschen Beispiele gefunden hat.
Auf einen Blick sehen wir, dass die polnische Versicherungspolice Erwähnungen aller drei Risiken enthält. Zur Veranschaulichung finden wir auf Seite 9 des mehrseitigen Dokuments violette, orange und blaue Hervorhebungen. Dank der Kommentare, die semantha® an diese Absätze angehängt hat, können wir direkt dorthin springen und sogar nachvollziehen, warum diese Passagen gefunden wurden.
Auf der rechten Seite sehen wir die übereinstimmenden Beispiele mit Details wie Thema, Sprache (des Beispiels), Trefferquote und sogar den englischen oder deutschen Text, auf dem der Treffer basiert.
Während das ERDBEBEN-Beispiel einer direkten Übersetzung recht nahe kommt, zeigt das SCHNEE-Beispiel, dass semantha® auch Textpassagen findet, die in verschiedenen Sprachen eine ähnliche Bedeutung haben. Das ist genau das, wofür semantha® in erster Linie entwickelt wurde: ähnliche Absätze in verschiedenen Dokumenten in derselben Sprache finden. Zur Veranschaulichung: Die direkte Übersetzung des als SCHNEE (blau) hervorgehobenen Textes ins Englische würde lauten:
72 consecutive hours in relation to the weight of snow or ice on the roof and/or accumulation of precipitation causing the roof to collapse
Jetzt, da Du weißt, dass diese Hotspots gefunden wurden, könntest Du das polnische Dokument entsprechend kategorisieren oder einen Mitarbeiter bitten, eine detaillierte Analyse nur jener Absätze oder Seiten vorzunehmen, die relevant sind.
Fazit
Die mehrsprachige Version von semantha® kann, anhand Beispielen in einer oder mehreren bekannten Ausgangssprachen, Dokumente in anderen Sprachen auf Hotspots analysieren. Wir haben dies anhand einer der Funktionen gezeigt, die für die Überprüfung und Validierung von Dokumenten nützlich ist. Ebenso kann semantha® auf der Grundlage der gleichen semantischen Verständnisfähigkeit Dokumente in verschiedenen Sprachen klassifizieren, vergleichen und durchsuchen.
Wenn es um osteuropäische Sprachen geht, umfasst die semantha®-Sprachpalette Polnisch, wie im obigen Beispiel zu sehen, aber z. B. auch Ukrainisch sowie viele andere Sprachen, die das lateinische, kyrillische oder auch griechische Alphabet verwenden. Außerdem unterstützen wir viele weitere Sprachen, die rund um den Globus gesprochen werden. Setz Dich gerne mit uns in Verbindung, um zu erfahren, wie Dir semantha® bei Deinem nächsten internationalen Projekt helfen kann.
Wir danken Grzegorz Wereda, dass er seine Erfahrungen in diesem Bereich mit uns geteilt hat. Danke dafür, Grzegorz!!
Fotos: AdobeStock.com / tomeyk; AdobeStock.com / underwaterstas; AdobeStock.com / zgphotography