ACCURAT je partnerski projekt, financiran v okviru poziva FP7-ICT-2009-4 poziv ICT-2009.2.2: Language-based interaction, št. pogodbe: 248347.
Povzetek
Namen projekta ACCURAT je raziskava metod in tehnik za rešitev enega od osrednjih problemov strojnega prevajanja - pomanjkanje lingvističnih virov za podhranjena področja strojnega prevajanja. Glavni cilj je poiskati, analizirati in oceniti nove metode za uporabo primerljivih korpusov, ki bi nadomestile pomanjkanje lingvističnih virov in občutno izboljšati kvaliteto strojnega prevajanja za podhranjene jezike in specifična področja.
Uporabnost obstoječih metod temelji na velikih količinah podatkov iz vzporednih korpusov. Kvaliteta prevodov z uporabo sistemov za strojno prevajanje, ki temeljijo na podatkih zato zelo niha - od zelo dobre za pare jezikov, za katere so na voljo veliki vzporedni korpusi (npr. angleščina in francoščina) do skorajda neuporabnih za podhranjene jezike in specifična področja (npr. Slovenščina ali Latvijščina). Glavni cilj projekta ACCURAT je občutna izboljšava kvalitete prevodov za podhranjene jezike in specifična področja.
Ključna inovativnost projekta ACCURAT bo izdelava metodologije in orodij za merjenje, iskanje in uporabo primerljivih korpusov za izboljšanje kvalitete strojnega prevajanja za podhranjene jezike in specifična področja. Projekt ACCURAT bo zato imel velik prispevek ne samo na področju teorije strojnega prevajanja, pač pa tudi na splošno na področju lingvistike korpusov, zajema informacij in procesiranja naravnih jezikov ter bo prispeval napredne teoretske osnove in metodologijo za raziskovanje lingvistike korpusov.
Znanstveni cilji
Projekt bo kot osnovo uporabljal zadnja spoznanja na področju SMT in strojnega prevajanja s pomočjo pravil in ponujal nove metode za doseganje boljših rezultatov na podlagi razširitve teh sistemov z uporabo primerljivih korpusov. Začetne raziskave na tem področju kažejo obetavne rezultate pri uporabi primerljivih korpusov v SMT (Munteanu in Marcu, 2005;) in RBMT (Thurmair, 2006) zaradi česar konzorcij ACCURAT verjame v izvedljivost predlaganega pristopa.
Tehnološki cilji
Projekt ACCURAT bo proučeval dva širša primera uporabe, kjer pomanjkanje lingvističnih virov predstavlja velik izziv - prilagajanje strojnega prevajanja za podhranjene jezike in specifična področja.
Projekt ACCURAT bo ponujal raziskovalcem in razvijalcem metodologijo in delujoč model za uporabo primerljivih korpusov na področju strojnega prevajanja, vključno s pridobivanje korpusov na podlagi dokumentov, objavljenih na spletu in dokumentov iz drugih virov, analizo, metrikami primerljivosti, večplastno poravnavo in pridobivanje leksičnih podatkov in tehnik za uporabo poravnanih tekstov in pridobljenih leksičnih podatkov za povečanje kvalitete prevodov obstoječih SMT in RBMT sistemov.
ACCURAT bo ponujal optimalni pristop za zagotavljanje kvalitete strojnega prevajanja za številne nove uradne jezike EU in jezike pridruženih članic kot tudi nove pristope za uporabo obstoječih tehnik strojnega prevajanja za specifična področja ter občutno povečanje pokritosti jezikov in področij za avtomatsko prevajanje.
ACCURAT bo svojo novo metodologijo ponujal kot prosto dostopno za podhranjena področja strojnega prevajanja na področju metrik primerljivosti, metod in tehnik za poravnavo primerljivih korpusov, metod in tehnik za pridobivanje informacij iz poravnanih primerljivih korpusov na različnih nivojih (dokumentov, odstavkov, fraz/besed), metod in tehnik zbiranja primerljivih korpusov s spleta in zbiranje primerljivih korpusov za vse jezike v projektu sodelujočih organizacij.