Individuell
und flexibel
im Handling
semantha kann direkt mit bereits vorhandenen Benutzeroberflächen verwendet werden. Natürlich kannst du bestehende Systeme in deiner IT-Landschaft auch um semantische Funktionen erweitern. Dafür bietet semantha eine umfassende REST-API und entsprechende SDKs.
Unsere Plattform semantha stellt flexible Webdienste zur Verfügung, die du out-of-the-box für die semantische Verarbeitung von Textdokumenten und Datenextraktionen nutzen kannst. Je nach Anwendungsfall können diese Dienste beliebig kombiniert werden. In vielen Fällen genügt bereits eine unserer Anwendungen – zum Beispiel für eine Hotspot-Analyse oder einen Direktvergleich von Dokumenten. Darüber hinaus stellen wir alle Analysen über eine standardisierte REST-Schnittstelle zur Verfügung. Mit ihr kann semantha optimal für deinen Anwendungsfall genutzt und in deine Prozess- und IT-Landschaft eingebunden werden.
Der semantha Analyzer kann innerhalb kürzester Zeit Deine gesamten Dokumente auf relevante Themen (Hotspots) durchsuchen und alle zutreffenden Bereiche hervorheben. Die Hotspots werden vom Anwender in einer beliebigen Fomulierung vorgegeben. Wenn du möchtest, kannst du die Ergebnisse als Excel- oder PDF-Datei exportieren.
Die semantha Compare Benutzeroberfläche dient für die Anzeige und benutzergeführte Überarbeitung eines semantischen Vergleiches. Fehlende Inhalte/Passagen können direkt angezeigt werden bzw. Unterschiede in den Paragraphen können direkt visuell dargestellt werden. Um wiederkehrende Vergleiche effizient effizienter zu machen, können Zwischenstände gespeichert werden.
semantha Requirements unterstützt bei der Bewertung neuer Lastenhefte. Anhand von historischen Lastenheften übernimmt semantha die Klassifizierung von Anforderungen, die Identifikation von Risiken und den Querverweis auf externe Normen und mitgeltende Unterlagen. Durch diese Zuarbeit gewinnt der Anforderungsprozess an Effizienz und Qualität.
Features
Schnittstelle (REST-API)
Alle semantischen Services von semantha sind über eine JSON-basierte REST-API zugänglich und können so in beliebige andere Dienste integriert werden. Eine Entwickler-Dokumentation ist in jeder Server-Komponente enthalten und natürlich auch in den SDKs (siehe bspw. das semantha-sdk für Python). Für die Verwendung der API ist ein API-Key notwendig.
Dateiformate
semantha kann Textdokumente unabhängig vom Dateiformat verarbeiten (solange es sich um Text handelt). Sie kann Textdokumente aus Microsoft Word, Microsoft Powerpoint, LibreOffice/OpenOffice (.docx, .pptx, .odt, .txt), Tabellendaten (.xlsx) oder PDF-Dokumente (.pdf) lesen. Außerdem kann sie spezielle Dateiformate verarbeiten, wie z. B. das XML-basierte ReqIF-Format. Andere XML-Formate können über benutzerdefinierte XSL-Transformationen verarbeitet werden. Außerdem ist es möglich, ZIP-Archive hochzuladen und alle darin enthaltenen Dokumente en bloc zu importieren.
Extraktion / Weiterverarbeitung
Ergebnisse können direkt in der Anwendung angezeigt und analysiert werden. Alternativ können sie als kommentierte PDF-Datei oder Excel-Tabelle exportiert werden. Sollten Sie die gesuchten Ergebnisse in einer anderen Software weiterverarbeiten wollen, können diese auch direkt extrahiert werden.
Der Document Annotator (Dokument-Typen)
Der größte Teil an Dokumenten, die mit semantha verarbeitet werden, sind Stand heute PDF-Dateien. In PDF-Dokumenten ist jedoch im Vergleich zu anderen Formaten wie Word-Dokumenten (.docx) keine Dokument-Struktur mehr auslesbar, wie z.B. Überschriften, Absätze, etc.. Um die Struktur und den Aufbau einer PDF-Datei besser zu verstehen und zuordnen zu können, haben wir den Document Annotator entwickelt.
Mit dem Document Annotator können optisch gleichartige Dokumente, wie zum Beispiel Beipackzettel, Angebotsschreiben, etc. zu einem Dokument-Typ zusammengefasst werden. Anhand von Beispiel-Dokumenten wird der Annotator angelernt. Hierbei werden Verfahren der künstlichen Intelligenz (KI) aus dem Bereich des maschinellen Lernens (ML) eingesetzt um ein Dokument-Typ-Modell zu erstellen. Dieses Modell wird dann auf neue unbekannte Dokumente von diesem Typ angewandt, um so die Dokument-Struktur besser zu erkennen. Dies hilft dann bei der zukünftigen Verarbeitung solcher Dokumente mit semantha, damit diese optimal semantisch verarbeitet werden können.
Des weiteren kann man bei einem Dokument-Typ auch einstellen, dass bestimmte Seiten eines Dokuments ignoriert werden sollen (Zum Beispiel: Es soll immer das Deckblatt ignoriert werden.) oder nur einen bestimmten Bereich auf den Seiten auszulesen (nur die obere Hälfte des Dokuments oder nur die rechte Spalte eines Dokuments, z.B. bei zweisprachigen Dokumenten etc.).