Textdaten automatisiert verwerten
Mittels Text Mining können unstrukturierte Textinhalte strukturiert und für digitale Prozesse und Lösungen nutzbar gemacht werden. Verschaffen Sie sich einen Wissensvorsprung und profitieren Sie von den Informationen, die in Ihren Textdaten liegen. Als Text Mining-Spezialist unterstützen wir Sie mit unserem NLP-Framework TXTWerk, Ihre Textdaten so zu verwerten, dass Sie Ihren Nutzern und Kunden Mehrwerte liefern können.
TEXT MINING
Mit Text Mining Erlebnisse schaffen
Fast 80 Prozent aller Daten liegen in Textform wie E-Mails, Dokumenten, Kommentaren, PDFs, Dokumentationen und ähnlichem vor. Um sie für automatisierte Prozesse und Anwendungen zu nutzen, müssen diese Daten in strukturierte Daten verwandelt werden. Erst durch Text Mining-Verfahren werden natürlichsprachige Texte maschinell verstehbar. Diese Verfahren bilden die Grundlage, um Informationen aus Textdaten zu extrahieren, mit zusätzlichen Informationen anzureichern und daraus datengetriebene KI-basierte Anwendungen zu entwickeln.
Unsere Leistungen
Als Spezialist für Text Mining haben wir Verfahren und Algorithmen entwickelt, mit denen wir nahezu 100 Prozent eines Textes automatisiert verstehen.
Beratung
Wir zeigen Ihnen, welche internen und externen Informationen Sie sich zunutze machen können und beraten beim Aufbau datengesteuerter Prozesse.
NLP & ML
Wir analysieren und verstehen automatisiert deutsche und englischsprachige Texte. Mit Hilfe von Natural Language Processing erkennen wir die Bedeutung, reichern Textdaten mit zusätzlichen Informationen an und optimieren sie durch Machine Learning.
Integration
Wir implementieren Text Mining-Frameworks in Ihre Systemstruktur, binden externe Wissensdatenbanken und Expertensysteme an und schaffen automatisierte Text Mining-Anwendungen. Je nach Wunsch stellen wir Ihnen diese als Software-as-a-Service oder On-Premise zur Verfügung.
Coden
Auf Basis der extrahierten Informationen erstellen wir datenbasierte Anwendungen, die Ihre Informationen auswertbar machen, zusätzliche Services bieten oder Prozesse vereinfachen.
NLP-Framework
TXTWerk
TXTWerk ist ein modulbasiertes System, das aus Texten Metadaten extrahiert und so aus unstrukturierten Texten strukturierte Daten liefert. Die multilinguale NLP-Lösung, mit Fokus auf die deutsche Sprache, kann durch die Anwendung maschineller Lernverfahren in Kombination mit regelbasierten Ansätzen Texte lesen und verstehen, und das in Echtzeit und mit hoher Geschwindigkeit.
Die Grundlage für eine tiefgehende Analyse der unstrukturierten Texten und das Verständnis von Inhalten bilden Wissensgraphen, die Zusammenhänge zwischen dem allgemeinen Wissen und ihrer eigenen Sprache darstellen. Der allgemeine Wissensgraph von TXTWerk basiert auf Wikidata und Wikipedia. Dadurch identifizieren wir Objekte der Welt, lernen ihre Zusammenhänge und erhalten so eine Wissensgrundlage mit über 7 Millionen Fakten. Somit erfassen wir nicht nur einfache Verknüpfungen, sondern legen auch Metainformationen ab, die Ihnen helfen, die richtigen Fakten je nach Kontext zu wählen.
TXTWerk MODUL
Entities
Die Entitätenerkennung ist eine unserer Kernkomponenten und wird stetig weiterentwickelt. Dabei nutzen wir eine Kombination aus Machine Learning und einem lexikonbasierten Verfahren, bei dem wir auf Millionen von Daten aus Wikidata und Wikipedia zurückgreifen. Die genutzten Algorithmen sind zudem auf spezielle Domains erweiterbar (Gesundheit, Recht, ...), wodurch Sie auch aus Ihrem individuellen, domänenspezifischen Wissen in Ihren Textdaten optimalen Nutzen ziehen.
TXTWerk MODUL
Named Entity Recognition (NER)
In Wikidata nicht vorhandene Entitäten werden durch TXTWerk erkannt. Das NER-Verfahren ist daher unverzichtbar, um anhand des Kontexts und der Satzstruktur Entitäten wie Personen, Organisationen oder Orte zu erkennen. Sie sind damit völlig unabhängig von einem zu pflegenden Lexikon bzw. Wissensdatenbank. Man kann das auch das Lieschen-Müller- oder Otto-Normalbürger-Problem nennen.
TXTWerk Modul
Disambiguierung (NERD)
Viele Wörter haben mehrere Bedeutungen und sind erst im Kontext klar zuordenbar. Um diese aus Texten zu erkennen, werden zunächst Kandidaten für Entitäten erkannt und mit den anderen im Kontext vorkommenden Entitäten vektorbasiet verglichen. Das Modul erkennt für Sie die wichtigsten Informationen in Texten, wie beispielsweise Personen, Orte, Organisationen, Events, aber auch je nach Domäne z.B. Krankheiten oder Paragrafen. NERD ist eine wesentliche Technik in vielen NLP-Anwendungen, einschließlich Empfehlungssystemen und Frage-Antwort-Systemen.
TXTWerk MODUL
Sentiment Analysis
Nutzer hinterlassen über Kommentare ihre Meinungen, deren gezielte Analyse ein Stimmungsbild zur Marke, Produkten und Services zulässt. TXTWerk ermittelt auf Basis statistischer Verfahren positive und negative Wörter und ermittelt einen Gesamtscore Ihres Textes. Dadurch sind Sie in der Lage, schneller auf Meinungsbilder zu reagieren, Quellen zu identifizieren, Ihre Services zu verbessern und Trends zu erkennen.
TXTWerk MODUL
Klassifikation
Unsere Textklassifikation ordnet Ihre Dokumente automatisch Kategorien zu und erleichtert Ihnen damit das Datenmanagement. Unsere Modelle lassen sich für jede kundenspezifische Anforderung anpassen. Dazu trainieren wir mit Natural Language Processing neuronale Netze auf Ihre gewünschten Klassen. Zudem bringen wir ein vortrainiertes Modelle für Nachrichtenmeldungen mit, welches Texte den Kategorien Internet, Kultur, Wirtschaft, Reisen, Wissenschaft, Politik, Sport, Auto/Technik zuordnet.
TXTWerk MODUL
Schlüsselworterkennung
TXTWerk extrahiert die wichtigsten Schlüsselwörter (tags) aus Texten. Wir benutzen hierzu statistische Algorithmen, Machine Learning und Techniken der natürlichen Sprachverarbeitung (NLP), um Ihre Daten zu analysieren. Die Schlüsselworterkennung bildet die Basisfunktion, um Textdateien zu strukturieren oder zu clustern. Die gewonnenen Tags eignen sich zur Indexierung, Filterung oder zur weiteren Dimensionsreduktionen von Texten.
TXTWerk MODUL
Gesetze
TXTWerk ist in der Lage, im Text referenzierte Paragrafen zu erkennen und in strukturierte Form zu bringen. Dabei setzen wir sowohl auf Machine Learning als auch regelbasierte Verfahren. Die Auswertung von rechtlichen Texten zum Beispiel im Bereich Steuern und Finanzen wird damit vereinfacht und bietet die Basis zur weiteren maschinellen Verarbeitung.
TXTWerk MODUL
Maßeinheiten
In vielen Texten kommen physikalische Maßeinheiten vor. Dazu zählen u.a. Zeit-, Längen-, Gewichts-, Temperatur- oder Währungsangaben uvm. TXTWerk extrahiert über ein regelbasiertes Verfahren die Daten und wandelt diese bei Bedarf in eine Basiseinheit um. Von der automatisierten Maßeinheitenerkennung profitieren vor allem technisch orientierte Branchen.
TXTWerk MODUL
Zeitangaben
TXTWerk extrahiert Zeitangaben aus Texten und filtert konkrete Datumsangaben oder Zeiträume heraus. Dazu nutzen wir regelbasierte Verfahren und stellen anhand eines festgelegten Referenzdatums einen Bezug her, so dass Zeiträume oder relative Angaben wie “gestern”, "letzte Woche" oder "vor vier Jahren" erkannt werden.
TXTWerk MODUL
Ähnlichkeiten
Um Ähnlichkeiten in unterschiedlichen Texten festzustellen und um Duplikate in Texten zu finden, ermöglicht unser Fingerprint Modul eine schnelle Lösung. TXTWerk liefert für jedes Dokument einen Vektor, der zur Berechnung der Ähnlichkeit von Dokumenten verwendet werden kann. Dadurch ist es möglich, ähnliche Dokumente (Near Duplicates) zu filtern und zu clustern. Neue Meldungen und Dokumente lassen sich so einfach abgleichen.
ANGEBOT
Text Mining speziell für SIE
Das gesamte TXTWerk Framework kann einfach auf Ihre Anforderungen zugeschnitten werden, um so neue Domänen zu unterstützen. Jede Firma hat eigene Abkürzungen, Fachbegriffe und Formulierungen. Für dieses Wissen erstellen wir zusammen eine eigene erweiterbare Wissensdatenbank, die dann mittels TXTWerk strukturiert wird, die eine weitere maschinelle Verarbeitung ermöglicht.
SAP Partner
Text Mining für SAP
Als SAP Silver Partner stellt ontolux das Text Mining Framework TXTWerk im SAP App Center bereit, womit sich deutsche oder englische Textdokumente aller Art innerhalb der SAP-Umgebung automatisch analysieren und auswerten lassen, ohne aufwendige Vorab-Konfiguration. Dabei werden diese vollautomatisch gelesen, verstanden, mit weiteren, vordefinierten Metadaten, zum Beispiel kundenspezifischen Zusatzinformationen aus Wissensdatenbanken, semantisch angereichert und klassifiziert. So entstehen Mehrwerte entlang der gesamten innerbetrieblichen Wertschöpfungskette. Das individuell an alle Erfordernisse anpassbare Framework TXTWerk ist, bezogen auf die SAP-Umgebung, die ideale Ergänzung zu SAP HANA. Zudem beraten wir SAP-Kunden beim Einsatz der HANA-internen Text Mining-Tools.
BRANCHEN
Text Mining für die öffentliche Verwaltung
Ministerien, Behörden und Einrichtungen der öffentlichen Hand stehen vor der Herausforderung, interne Abläufe zu digitalisieren und ihre Dienstleistungen im Rahmen des OZG über Portale bereitzustellen. Viele Vorgänge erfordern die automatische Verarbeitung von Texten, die als Akten, Formulare, Berichte oder wissenschaftliche Publikationen vorliegen. Um in natürlichsprachigen Texten enthaltene Informationen in digitalen Anwendungen nutzen zu können, müssen sie mit Text Mining Verfahren maschinell lesbar und interpretierbar gemacht werden.
BRANCHEN
Text Mining für die Medienbranche
Zur Entlastung von Redakteuren und erfolgreicher Prozessautomatisierung gilt es, redaktionelle Textdaten wirklich zu verstehen. ontolux nutzt Text-Mining-Methoden, um semantische Zusammenhänge innerhalb von und zwischen Texten sichtbar zu machen. Von einer initialen Erschließung Ihrer Medien bis hin zu einer tiefergehenden Analyse, die in individuellen Software-Lösungen resultiert, unterstützt ontolux die redaktionelle Arbeit.
Überzeugen Sie sich selbst
Kundenprojekte
G+J Digital Products
Für die Erstellung einer Content Curation Engine werden Texte aus 1.500 Web-Datenquellen für Redakteure aufbereitet, Informationen extrahiert und nach ausgewählten Kriterien herausgefiltert.
Entitätenerkennung
Klassifizierung der Mediathek
Optimierte Suche und Empfehlungssystem
PMG
Alle Texte in der PMG Pressedatenbank werden semantisch analysiert, klassifiziert, angereichert und indexiert, um die Suchfunktion auf dem Portal zu optimieren.
Indexierung und Anreicherung
Semantische Analyse
Optimierte Portal-Suche
Wir-liefern.org
Mittels TXTWerk werden die von verschiedenen Charity-Anbietern eingetragenen Angebote klassifiziert, verschlagwortet und für die Website-Suche aufbereitet.
Text-Klassifikation
Semantische Verschlagwortung
Verbesserte Suche
Was versteht man unter Text Mining?
Text Mining ist ein Analyseverfahren, indem mithilfe von Algorithmen aus unstrukturierten Daten sinnvolle Erkenntnisse und Strukturen erzeugt werden. Die Algorithmen greifen dabei auf linguistische sowie statistische Methoden zurück.
So lassen sich bspw. E-Mails oder PDFs nach bestimmten Kriterien auswerten, um nützliche Insights daraus zu generieren.
_________
Was sind NLP-Frameworks?
NLP-Frameworks stellen technische Grundgerüste dar, wo Entwickler schon auf vorgefertigte Funktionen in Bezug auf Natural Language Processing zurückgreifen können.
Whitepaper: NLP-Frameworks im Vergleich
ontolux hauseigenes NLP-Framework ist TXTWerk und lässt sich einfach in digitale Ökosysteme integrieren, um so große Textdaten auszuwerten.
_________
Was kann alles TXTWerk?
TXTWerk ist ein NLP-Framework, was sich ohne großen Aufwand implementieren lässt, um damit aus deutschen sowie englischen Textdaten zusätzliche Meta- sowie strukturierte Daten zu erzeugen. TXTWerk zeichnet sich zudem von seiner Schnelligkeit aus, in welcher Texte analysiert werden.
_________
Was sind Wissensgraphen?
Wissensgraphen sind Wissensdatenbanken, die auf ein grafisch-strukturiertes Datenmodell basieren. Wissensgraphen werden verwendet, um Verbindungen zwischen Entitäten, Objekten, Events etc. herzustellen und aufzuzeigen. TXTWerk stellt einen Wissensgraphen auf Basis von Wikipedia bereit.
_________
Was bedeutet Named Entity Recognition und Disambiguation (NERD)?
Bei der Entity Recognition (Entitäten-Erkennung) werden Texte daraufhin untersucht, welche Entitäten der realen Welt entsprechen (typischerweise Personen).
Die Funktion wird bei TXTWerk mit der Entity Linking oder Disambiguation verknüpft, dadurch werde die Entitäten eindeutig mit einer Wissensdatenbank (z.B.: Wikipedia) verlinkt. Findet sich bspw. in einem Text der Begriff “Krebs”, so kann man mithilfe der NERD festgestellt werden, ob es sich um das Sternzeichen, Tier oder Krankheit handelt.
_________
Was ist Sentiment und Opinion Mining?
Beim Sentiment und Opinion Mining werden Texte auf ihren enthaltenen Emotionen untersucht. So kann eine positive, neutrale oder negative Stimmung extrahiert werden.
Dafür eignen sich insbesondere Reviews, um auszulesen, wie Käufer das gekaufte Produkt fanden.
_________
Was versteht man unter Text-Klassifikation?
Bei der Text-Klassifikation geht es darum, einen Text innerhalb vorgegebener Themenbereiche inhaltlich zu verorten, z. B. anhand von Ressorts ähnlich wie bei Zeitungen. Handelt es sich bei dem Text eher um einen politischen, einen kulturellen oder geht es um Sport?
_________
Kontakt