Čekání na LetsMT!
 038  Služby strojového překladu pro podnikání a finanční zprávy




3.8 Machine translation services for business and financial news

3.8 Služby strojového překladu pro podnikání a finanční zprávy

To assess the usability of LetsMT! in the financial and business news translation scenario, several MT systems were trained and evaluated.

Pro posouzení použitelnosti LetsMT! ve finanční a obchodní situaci na překlad, bylo několik MT systémů vytrénovani a vyhodnoceny.

Summary of the automatic evaluation scores is provided in Table 5.

Shrnutí automatických bodování je uveden v tabulce 5.

For each language pair an evaluation set has been randomly selected and excluded from the training data before the LetsMT! systems were trained.

Pro každou dvojici jazyků je hodnocení set byl náhodně vybrán a vyloučen z trénovacích dat před LetsMT! systémy byly vytrénovani.

These evaluation sets have been translated with both the LetsMT! system and with Google Translate for comparison.

Tyto hodnotící sady byly přeloženy jak s LetsMT! systém a pro srovnání s Google Translate .

For each evaluation set, the evaluation scores for BLEU, METEOR and TER are calculated.

Pro každé hodnocení sadě, jsou vypočteny hodnotící výsledky pro BLEU, Meteor a TER.

It is important to mention that it is only possible to rank BLEU scores and other automatic measures for the same evaluation set since the level of BLEU scores and other measures depend heavily on a language pair and text type.

Je důležité zmínit, že je to jen možné zařadit Bleu skóre a dalších automatických opatření pro stejné zhodnocení uvedenému od úrovně skóre BLEU a jiných opatření závisí silně na jazykovém páru a typ textu.

Please note that TER score measures the number of insertions, deletions, substitutions and shifts and compares it to the number of words in the input sentence.

Vezměte prosím na vědomí, že TER skóre měří počet vložení, odstranění, náhrad a posuny a porovnává ji s počtem slov ve vstupním větě.

Therefore, a low TER score is better than a high score.

Proto, nízká TER skóre je lepší než vysoké skóre.

For BLEU and METEOR, a higher score is better.

Pro BLEU a Meteor, vyšší skóre je lepší.

Table 5

Tabulka 5

Summary of the system scores.

Souhrn systémových skóre.

Best systems for each language pair from LetsMT! and scores from using Google Translate.

Nejlepší systémy pro každou dvojici jazyků od LetsMT! a výsledky z používání Google Translate.

Best systems for each language pair are marked in bold

Nejlepší systémy pro každou dvojici jazyků jsou vyznačeny tučně

System name

Název systému

Evaluation set

Hodnocení set

BLEU

BLEU

METEOR

METEOR

English - Czech v3 (M28) Google translation English - Czech LetsMT!

Angličtina - čeština v3 (M28) Google překlad angličtina - čeština LetsMT!

The Table 5 illustrates that the 6 LetsMT! systems – all trained for text within specific domains – outperform Google Translate for the chosen evaluation sets.

Tabulka 5 znázorňuje, že 6 LetsMT! systémy - vše trénované text v konkrétních oblastech - překonat Google Překladač pro vybrané hodnocení sad.

The evaluation scores also show that all the three evaluation measures rank the systems for each language pair in the same prioritized order.

Hodnotící výsledky také ukazují, že všechny tři hodnotící opatření řadí systémy pro každou dvojici jazyků ve stejném pořadí priorit.

This indicates that the automatic evaluation measures are in concordance with each other when looking at a specific language-pair.

To znamená, že automatické hodnocení opatření jsou ve shodě s sebou při pohledu na konkrétní jazykovou dvojici.

The values of the evaluation metrics also indicate that for each language pair (except EnglishCroatian) a system now exists that is usable for post-editing the output.

Hodnoty hodnocení metrik také ukazují, že pro každou dvojici jazyků (kromě EnglishCroatian) systém nyní existuje, že je použitelný pro post-editaci výstupu.

The English-Danish Finance IV has the best scores, with BLEU scores higher than 70, and TER scores below 30.

Angličtina-dánská Finance IV má nejlepší skóre, se skóre BLEU vyšší než 70, a TER skóre pod 30.

These scores indicate a good output quality.

Tyto výsledky naznačují dobrou kvalitu výstupu.

Furthermore the English - Swedish Finance v3, English - Dutch Finance v3 and Dutch - English Ver3 (June, 2012) systems get BLEU scores higher than 50, and TER scores below 40.

Dále English - švédská Finance v3, anglicky - Dutch Finance v3 a holandský - English Ver3 (červen, 2012) systémy se Bleu výsledky vyšší než 50, a TER skóre pod 40.

All these systems look very promising for getting a large benefit when using the system alone or in combination with a CAT tool.

Všechny tyto systémy vypadají velmi slibně pro získání velké výhody při použití systému samostatně nebo v kombinaci s CAT nástrojem.

News Analytics event based scenario translation is used for the functional evaluation of sentences.

Novinky Analytics akce založené na scénáři překlad se používá pro funkční hodnocení vět.

This method is a combination of semantic analytics for financial markets and combined text extraction, event recognition and pattern matching techniques from the SMT output.

Tato metoda je kombinací sémantických analytiky finančních trhů a kombinované extrakci textu, události uznání a vzorů odpovídajících technik z SMT výstupu.

ViewerPro is a software which was used to transform natural language news messages to computer readable news events.

ViewerPro je software, který byl použit k transformaci přírodních zprávy jazykové novinky do počítačových čitelných zpráv událostí.

This procedure is based on a domain specific ontology.

Tento postup je založen na domény konkrétní ontologie.

It contains the concepts and their lexical representations relevant to a specific domain, e.g. Company Ontology describing all companies of interest to the user in terms of their synonyms, ISIN codes, ticker symbols etc. Figure 8 shows the results of the system testing.

Obsahuje pojmy a jejich lexikální reprezentace relevantní pro určitou téma, např. Společnost Ontologie popisuje všechny firmy v zájmu uživatele, pokud jde o jejich synonyma, ISIN kódy, ticker symboly atd. Obrázek 8 ukazuje výsledky testování systému.

These findings indicate that, despite the rather poor translation quality of less than 30% adequately translated sentences, still in 80% of these sentences the correct ViewerPro events were detected.

Tyto nálezy ukazují, že i přes poměrně špatné kvality překladů z méně než 30% dostatečně přeložených vět, ještě v 80% těchto vět byly zjištěny správné ViewerPro události.

Assuming a rule of thumb that natural language processing system needs to be about 75% accurate to start giving useful results, these findings clearly illustrate that a sub optimal translation can still be of use for further processing by ViewerPro.

Za předpokladu, že pravidlo, že zpracování přirozeného jazyka systému musí být asi 75% přesností, kdo dává užitečné výsledky, tyto nálezy jasně dokládají, že dílčí optimální překlad může ještě být použití pro další zpracování ViewerPro.

Figure 8

Obrázek 8

Percentage of adequate translations (left) vs percentage of correct ViewerPro events (right) over the dataset of 500 random chosen messages

Podíl odpovídajících překladů (vlevo) vs procento správných událostí ViewerPro (vpravo) nad datovým souborem 500 náhodných vybraných zpráv

Another evaluation comes from benchmarking LetsMT! with Google Translate.

Další hodnocení pochází z benchmarkingu LetsMT! s Google Translate.

Over the dataset of 500 randomly chosen messages, Google Translate performance was 33% wrong and 67% adequate ViewerPro events.

Přes datové sady 500 náhodně vybraných zpráv, Google Překladač výkon byl 33% v pořádku a 67% odpovídající ViewerPro akce.

The resulting translations of event by ViewerPro account for over 80% of the cases.

Výsledné překlady případě podle účtu ViewerPro více než 80% případů.

LetsMT! performs 81% adequate event translation against the benchmark Google Translate of 67%, which is a better result by 14%.

LetsMT! provádí 81% odpovídající události překlad proti referenční Google Translate o 67%, což je lepší výsledek o 14%.

This makes the LetsMT! system immediately useful for the extension of ViewerPro into processing non-English data sources.

To dělá LetsMT! Systém okamžitě užitečná pro rozšíření ViewerPro do zpracování non-anglické zdroje dat.



Copyright  30.11.2012 Ing. Milan Čondák  www.condak.net