Projekt-Homepage:
www.FactMiner.de (identisch mit diesen Seiten)
FactMiner Übersicht
Informationsextraktion
Eines der flexibelsten Systeme zur Informationsextraktion und Informationsgewinnung: Es wird auf der Ebene des Inhalts / der Bedeutung von Texten gearbeitet. Damit können Unterschiede in der Formulierung oder Formatierung von Texten leicht abstrahiert werden. Regeln zur Inhaltsextraktion sind allgemeiner gültig und müssen selbst bei Änderung der Eingangsdaten kaum angepaßt werden.
Aus jeder Art von textuellen Dokumenten – Text, RTF, HTML, SGML, XML, PDF, PostScript - extrahieren wir verschiedenste Arten von Informationen:
- Adressen (Ansprechpartner, Kandidaten für Stellen, Verantwortliche für Web-Server)
- Produktinformationen (z.B. Produktname, Produktbeschreibung, Liste der Eigenschaften / Features, Preis, Verfügbarkeit) Dies setzen wir selbst im Rahmen des Konkurrenzüberwachungssystems FirmWatch.de ein.
- Informationen zum Sprachgebrauch einzelner Personen, automatisches Lernen von Sprach-Informationen
- Lernen von Übersetzungen durch Vergleich übersetzter Texte mit gleichem Inhalt
- Erkennen und Einklassifizieren und gezielte Weiterleitung relevanter Nachrichten (Nachrichten, E-Mail, Mailinglisten-Beiträge, Internet News)
- Extraktionssysteme und Meta-Suchmaschinen für jegliche Art von Internet-Inhalten; insbesondere Mehrwertdienste unter Verwendung von bestehenden Suchmaschinen, Auktionssystemen und Informationsdiensten
Wir arbeiten mit einem hochmodernen sehr flexiblen deklarativen System basierend auf der Kombination von Regeln mit einem Wahrscheinlichkeitsmodell zur Ermittlung einer optimalen Zuordnung der erkannten Daten zu den zu extrahierenden Informationen.
Am Beispiel der Adreßextraktion bestehen die Schwierigkeiten klassischer Ansätze in folgenden Faktoren:
- "Rudolf", "Dieter", "Thomas" können Vor- oder Nachnamen sein. Jeder Name ist mit einer Wahrscheinlichkeit x Vorname und einer Wahrscheinlichkeit y Nachname. Ein Wahrscheinlichkeitsmodell ermittelt dann z.B., ob "Rudolf Dieter" oder "Dieter Rudolf" wahrscheinlicher sind.
- Adressen können über verschiedene Zeilen/Spalten einer Tabelle verteilt sein.
- Straße, Ort, Ergänzungen zur Auslieferung oder zur Anfahrt lassen sich nur schwer voneinander trennen.
- Adressen sind auf einzelnen Web-Seiten oft nur fragmenthaft enthalten. Z.B. steht auf einer Webseite nur die allgemeine Postanschrift – auf anderen Webseiten stehen die Namen der Ansprechpartner. Teilweise steht auch bei den Ansprechpartnern die Straße mit Hausnummer, wenn es sich um eine Firma handelt, die verschiedene Abteilungen/Tochterfirmen hat.
- Teile oder die gesamte Adresse sind oft nur graphisch vorhanden (z.B. Firmenlogo mit Firmenname). Aufgrund der graphischen Gestaltung/Verfremdung des Namenszuges (z.B. beim DfB oder bei VW) können selbst modernste Texterkennungssysteme die zugrundeliegenden Zeichen nicht mehr erkennen.
Für diese Problemfälle können wir durch unsere neuartigen Ansätze Lösungen anbieten.
Unsere großen Stärken bei der Inhaltsextraktion bestehen in:
- Flexible synergetische Kombination von verschiedenen Ansätzen der Informationsextraktion
- Übergeordnete, allgemeine Extraktionsansätze, die Unterschiede, Inkonsistenzen oder Veränderungen in den zugrundeliegenden Daten tolerieren oder nur geringe, kostengünstige Anpassungen erfordern
- Einsatz einer Sprach-Verstehenstechnologie bei der Inhaltsextraktion für eine höhere Robustheit, eine höhere Präzision und eine höhere Abstraktionsstufe. So werden automatisch Synonyme berücksichtigt, die Beziehungen zu unter- und übergeordneten Wörtern und die linguistischen Verbindungen zwischen Wörtern. Diese Technologie wenden wir schon bei der automatischen Fragebeantwortung FactMind an.
Die Anschrift
Compris Intelligence GmbH
Rheingönheimer Str. 79
67065 Ludwigshafen am Rhein
Deutschland
Tel: (+49) 0700-COMPRISTel (0700-26677478)
Fax: (+49) 0700-COMPRISFax (0700-26677473)
Internet: www.FactMiner.com
E-Mail: products@compris.com
|
Informationen & Fragen: products@compris.com