Το ACCURAT είναι ένα Συνεργατικό Έργο, το οποίο έχει λάβει χρηματοδότηση από την Ευρωπαϊκή Επιτροπή στο πλαίσιο της Πρόσκλησης FP7-ICT-2009-4 και ειδικότερα του Στόχου ICT 2009.2.2. Language-Based Interaction (Αλληλεπίδραση βάσει της γλώσσας), και σύμφωνα με τους όρους της με αρ. 248347 σύμβασης.
Περίληψη του Έργου
Ο στόχος του ACCURAT είναι να διερευνήσει μεθόδους και τεχνικές, οι οποίες θα επιτρέψουν την αποτελεσματική αντιμετώπιση ενός από τα βασικά προβλήματα της μηχανικής μετάφρασης (ΜΜ) - απουσία γλωσσικών πόρων, εξ αιτίας της οποίας τα συστήματα ΜΜ αδυνατούν να υποστηρίξουν επαρκώς πλήθος γλωσσών και γνωστικών περιοχών. Ο βασικός σκοπός του Έργου είναι να βρει, να αναλύσει και να αξιολογήσει καινοτόμες μεθόδους, οι οποίες αξιοποιούν τα συγκρίσιμα σώματα κειμένων, ώστε να εξισορροπηθεί η έλλειψη γλωσσικών πόρων και εν τέλει να βελτιωθεί σημαντικά η ποιότητα της μηχανικής μετάφρασης για γλώσσες με ελάχιστους διαθέσιμους γλωσσικούς πόρους και για εξειδικευμένα θεματικά πεδία.
Το κατά πόσο είναι εφαρμόσιμες οι τρέχουσες μέθοδοι ΜΜ, οι οποίες στηρίζονται σε δεδομένα, εξαρτάται από την διαθεσιμότητα πολύ μεγάλων παράλληλων σωμάτων κειμένων. Για το λόγο αυτό, η ποιότητα μετάφρασης των σημερινών συστημάτων ΜΜ, τα οποία βασίζονται σε εμπειρικά δεδομένα, διαφοροποιείται σημαντικά και κυμαίνεται από αρκετά καλή, στις περιπτώσεις γλωσσικών ζευγών με διαθέσιμα πολύ μεγάλα παράλληλα σώματα κειμένων (π.χ. Αγγλικά και Γαλλικά), έως πολύ κακή (το αποτέλεσμα είναι σχεδόν άχρηστο), στις περιπτώσεις γλωσσών (π.χ. Λετονικά και Κροατικά) και θεματικών περιοχών για τις οποίες δεν διατίθενται σε επάρκεια οι αναγκαίοι γλωσσικοί πόροι. Επομένως, ο απώτερος στόχος του ACCURAT είναι η επίτευξη σημαντικής βελτίωσης της ποιότητας μετάφρασης για γλώσσες και γνωστικά πεδία, όπου οι απαραίτητοι γλωσσικοί πόροι δεν υπάρχουν ή δεν επαρκούν.
Η καινοτομική συνεισφορά του ACCURAT είναι η δημιουργία μεθοδολογίας και εργαλείων, με τις οποίες θα μπορεί κανείς να μετρήσει, να βρει και να χρησιμοποιήσει συγκρίσιμα σώματα κειμένων, προκειμένου να υπάρξει μετρήσιμη βελτίωση στην ποιότητα μετάφρασης για γλώσσες και για εξειδικευμένα θεματικά πεδία με περιορισμένους αντίστοιχους γλωσσικούς πόρους. Με αυτόν τον τρόπο το ACCURAT θα συνεισφέρει σημαντικά όχι μόνο στη θεωρία της Μηχανικής Μετάφρασης αλλά και στη γλωσσολογία σωμάτων κειμένων, στην εξαγωγή πληροφορίας και στην επεξεργασία φυσικής γλώσσας γενικότερα, ενώ θα ενισχύσει κατά πολύ το θεωρητικό υπόβαθρο και τη μεθοδολογία της έρευνας στη γλωσσολογία σωμάτων κειμένων.
Επιστημονικοί στόχοι
Το Έργο θα χρησιμοποιήσει ως γραμμή βάσης τα τελευταία μοντέλα συστημάτων στατιστικής ΜΜ και κανονιστικών συστημάτων ΜΜ και θα προτείνει νέες μεθόδους, ώστε να επιτευχθούν καλύτερα αποτελέσματα, μέσω της διεύρυνσης των δυνατοτήτων αυτών των συστημάτων από την χρήση συγκρίσιμων σωμάτων κειμένων. Σχετική αρχική έρευνα απέδωσε ικανοποιητικά αποτελέσματα από την χρήση συγκρίσιμων σωμάτων κειμένων στη στατιστική ΜΜ (Munteanu and Marcu, 2005) και την κανονιστική ΜΜ (Thurmair, 2006). Το γεγονός αυτό εμπνέει την κοινοπραξία του ACCURAT με εμπιστοσύνη σχετικά με τη δυνατότητα επιτυχίας του όλου εγχειρήματος.
Τεχνολογικοί στόχοι
Το Έργο ACCURAT θα δώσει στους ερευνητές και στους κατασκευαστές συστημάτων ΜΜ μία μεθοδολογία και ένα πλήρως λειτουργικό μοντέλο για την αξιοποίηση των συγκρίσιμων σωμάτων κειμένων στη ΜΜ, το οποίο, μεταξύ άλλων, θα υποστηρίζει και δυνατότητες ανάκτησης σωμάτων κειμένων από το παγκόσμιο ιστό και από άλλες πηγές, ανάλυσης και μέτρησης συγκρισιμότητας, πολυεπίπεδης στοίχισης κειμένων και εξαγωγής λεξιλογικών δεδομένων, χρήσης τεχνικών εφαρμογής των στοιχισμένων κειμένων και των εξαχθέντων λεξιλογικών δεδομένων με σκοπό τη βελτίωση της μεταφραστικής ποιότητας υπαρχόντων συστημάτων στατιστικής ΜΜ και κανονιστικών συστημάτων ΜΜ.
Από το ACCURAT θα προκύψει μία βέλτιστη προσέγγιση για επίτευξη ποιοτικής μηχανικής μετάφρασης για μια σειρά από νέες επίσημες γλώσσες της Ευρωπαϊκής Ένωσης καθώς και από γλώσσες των συνεργαζόμενων χωρών, ενώ ακόμη θα αναπτυχθούν νέες μέθοδοι για την προσαρμογή υπαρχόντων τεχνολογιών μηχανικής μετάφρασης σε εξειδικευμένα θεματικά πεδία. Ως εκ τούτου, θα αυξηθεί σημαντικά ο αριθμός των γλωσσών και των θεματικών πεδίων που θα καλύπτει η αυτοματοποιημένη μετάφραση.
Η νέα μεθοδολογία του ACCURAT για τις περιοχές της ΜΜ με έλλειψη γλωσσικών πόρων θα είναι ανοικτή και προσβάσιμη σε ό,τι αφορά στις μετρικές συγκρισιμότητας, τις μεθόδους και τις τεχνικές στοίχισης συγκρίσιμων σωμάτων κειμένων, τις μεθόδους και τις τεχνικές εξαγωγής πληροφορίας από στοιχισμένα συγκρίσιμα σώματα κειμένων σε διάφορα επίπεδα (επίπεδο κειμένου, παραγράφου, φράσης / λέξης), τις μεθόδους και τις τεχνικές συλλογής συγκρίσιμων κειμένων από το Διαδίκτυο καθώς και τις συλλογές συγκρίσιμων σωμάτων κειμένων για τις γλώσσες που θα υποστηρίζει το Έργο.
| 2010-03-29 |