ACCURAT ist ein Gemeinschaftsprojekt, das im Rahmen der Ausschreibung FP7-ICT-2009-4 und der Aktion ICT-2009.2.2: Language-based interaction unter dem Förderkennzeichen Nr. 248347 gefördert wird.
Überblick
Das Projekt ACCURAT zielt auf die Erforschung von Methoden und Techniken zur Überwindung eines der zentralen Probleme in der Maschinellen Übersetzung (MÜ) - das Fehlen der sprachlichen Ressourcen (z. B. Trainingsdaten) für bestimmte Bereiche der MÜ, in denen solche Ressourcen essentiell wichtig sind. Das Hauptziel ist es, neue Methoden zu finden, zu analysieren und zu evaluieren, die vergleichbare Korpora ausnutzen, um den Mangel and linguistischen Resourcen auszugleichen und um schließlich die Qualität maschineller Übersetzung für unterversorgte Sprachen und enge Domänen signifikant zu erhöhen.
Die Anwendbarkeit derzeitiger datengestützter Methoden hängt direkt von der Verfügbarkeit sehr großer Mengen paralleler Korpora ab. Aus diesem Grund variiert die Übersetzungsqualität derzeitiger datengestützter MÜ-Systeme dramatisch – von sehr gut für Sprachpaare mit sehr großen verfügbaren Korpora (z.B. Englisch und Französisch) bis nahezu unbrauchbar für unterversorgte Sprachen und Domänen (z.B. Lettisch oder Kroatisch). Daher besteht das letzliche Ziel von ACCURAT darin, für solche unterversorgte Sprachen und Domänen eine signifikante Verbesserung der Übersetzungsqualität zu erreichen.
Die Schlüsselinnovation von ACCURAT wird die Schaffung von Methoden und Werkzeugen sein, um vergleichbare Korpora zu finden, zu bewerten und zu verwenden, um die Qualität von MÜ für unterversorgte Sprachen und Domänen zu verbessern. Daher wird ACCURAT signifikante Beiträge nicht nur zur Theorie der MÜ leisten, sondern auch zur Korpuslinguistik, Informationsextraktion, und zur Sprachverarbeitung im Allgemeinen und wird die theoretischen Grundlagen und die Forschungsmethoden der Korpuslinguistik entscheidend voranbringen.
Wissenschaftliche Ziele
Das Projekt wird statistische und regelbasierte MT-Systeme, die auf dem aktuellen Stand der Forschung basieren, als Grundlage nutzen und neuartige Methoden bereitstellen, um viel bessere Ergebnisse dadurch zu erreichen, dass diese Systeme durch den Einsatz von vergleichbaren Korpora erweitert werden. Erste Untersuchungen zeigen viel versprechende Ergebnisse bei der Verwendung von vergleichbaren Korpora in SMT (Munteanu und Marcu, 2005; siehe auch Kapitel über den neusten Stand der Forschung unten) und RBMT (Thurmair, 2006) und das stimmt das ACCURAT-Konsortium zuversichtlich, dass der vorgeschlagene Ansatz plausibel und durchführbar ist.
Technologische Ziele
Das Projekt untersucht zwei weit gefasste Anwendungsfälle, in denen die Knappheit der sprachlichen Ressourcen eine große Herausforderung
darstellt: Anpassung der maschinellen Übersetzung für Sprachen mit wenig Resourcen und für stark eingegrenzte Domänen.
Das Projekt wird den Forschern und Entwicklern eine Methodik und ein voll funktionsfähiges Modell für die Ausbeutung vergleichbarer Korpora in MT bereitstellen, einschließlich der Korpusakquisition aus dem Internet und anderen Quellen, Vergleichbarkeitsanalysen und -metriken, Multi-Level-Alignierung und Extraktion von lexikalischen Daten sowie Techniken für die Anwendung von aligniertem Text und extrahierten lexikalische Daten, um die Übersetzungsqualität der bestehenden SMT- und RBMT-Systeme zu erhöhen.
ACCURAT wird einen optimalen Ansatz bieten, um maschinelle Übersetzung für eine Reihe von neuen EU-Amtssprachen und Sprachen nahestehender Länder in guter Qualität zu ermöglichen, und zugleich neue Ansätze für die Anpassung der vorhandenen Technologien an bestimmte begrenzte Domämen zur Verfügung stellen, wodurch die Sprach- und Domänenabdeckung von automatischer Übersetzung deutlich erhöht wird.
ACCURAT wird die folgende neue Methodik für MT-Gebiete mit wenig Ressourcen offen zugänglich machen: zum einen die Vergleichbarkeitsmetriken, zum zweiten die Methoden und Techniken für die Alignierung vergleichbarer Korpora, für die Informationsextraktion aus vergleichbaren Korpora, die auf unterschiedlichen Ebenen (Dokument, Absatz, Satz/Wort) aligniert sind, und für die Erfassung vergleichbarer Korpora aus dem Web und zum dritten Sammlungen vergleichbarer Korpora für alle im Projekt behandelten Sprachen.
| 2010-03-24 |