Využití překladových pamětí
 07  EN




Soubor ke stažení: cs_en


Obsah

Content

A.Úvod - charakteristika základních souborů

A. Introduction - the basic characteristics of files

B.Podrobnější charakteristika

B. Detailed Specifications

C.Využití překladových pamětí (Translation Memory = TM)

C. Use of translation memory (TM = Translation Memory)

D.Odkazy a ukázky

D. References and samples

A.

A.

Úvod - charakteristika základních souborů

Introduction - characteristics of basic files

1.Bitext a tabulka v DOC (RTF)

1.Bitext and table in the DOC (RTF)

1.1.

1.1

Bitext obsahuje texty ve dvou jazycích.

Bitext contains texts in two languages.

Soubor neobsahuje jazykové kódy a je kódován tak, aby byly oba jazyky lidmi čitelné.

File does not contain language codes, and is coded so that people read both languages.

Jde nejčastěji o TXT soubor, který může mít národní kódování pro

It is usually a TXT file that can be of national coding for

a)DOS, Unix (Linux), Mac

a) DOS, Unix (Linux), Mac

b)ANSI (Windows), národní stránky jednotlivých jazyků a jejich ekvivalenty pro HTM (čeština Win-1520)

b) ANSI (Windows), sites of the national languages and their equivalents for HTM (Czech Win-1520)

Tabulky v DOC (RTF) obsahují v dokumentu jazykové kódy polí, která obsahují text (ve zdrojovém a cílovém jazyce).

The tables in DOC (RTF) document containing the language codes of the fields that contain text (the source and target language).

c)UTF-8 je využíván nejčastěji, protože oba jazyky jsou lidmi čitelné, je využíván pro přiřazování souborů (UTF-7 se v překladatelském oboru nevyužívá) a soubory mají menší velikost než v UTF-16

c) UTF-8 is used most often, because both languages are human readable, it is used for mapping files (UTF-7 is not used in the translation industry) and the files are smaller than in UTF-16

d)Unicode (UTF-16) využívá MS Word a programy (CAT), které v něm fungují pro zobrazení textových souborů; může jít o lokální nebo webové databáze, konverzní programy atd.

d) Unicode (UTF-16) uses MS Word and programs (CAT), which it works to display text files, it may be a local or web database, conversion programs, etc.

e)Unicode Big Endian pro zobrazení východoevropského písma (CJK = čínština, japonština a korejština)

e) Unicode Big Endian East to view fonts (CJK = Chinese, Japanese, and Korean)

1.2.

1.2

Tabulky v DOC (RTF) obsahují v dokumentech jazykové kódy a texty jsou uloženy v ANSI

The tables in DOC (RTF) documents contain language codes and texts are stored in ANSI

2.Glosář a obdobné soubory

2.Glossary and similar files

Slovník - obsahuje heslo + slovní druh + tvary slova + příklady použití + překlady.

Dictionary - contains entry + type of word + word forms + examples of the use + translations.

Bývá tříděn abecedně podle hesel.

Is sorted alphabetically according to entries.

Překladový slovník - obsahuje výraz , který se skládá z jednoho až pěti slov a jeho překlad a bývá uložen v databázi

Translation dictionary - contains an expression which consists of one to five words and their translation and is stored in a database

Slovníček - obsahuje výraz z jednoho až pěti slov a jejich překlad a bývá uložen v textovém souboru nebo XLS (maximálně dvě pole)

Glossary - contains words from one to five words and their translation and is stored in a text file or XLS (maximum of two fields)

Glosář - slovníček + další pole na poznámky a eventuáleně data, jaká mohou být v atributech překladových pamětí

Glossary - a glossary + additional fields to the observations and eventuáleně data as may be attributes of translation memories

3.Segmentovaný dokument Trados (DOC nebo RTF), nevyčištěný dokument přeložený v MS Wordu

3.Segmented Trados document (DOC or RTF), uncleaned document translated in MS Word

Běžně vzniká v průběhu překladu v CAT nástrojích, které využívají jako textový editor MS Word.

Commonly arises in the course of translation in CAT tools, which use MS Word as a text editor.

Někdy jej exportují i aplikace, které používají pro překládání jiný typ souboru.

Sometimes it export applications that are used to translate other file type.

Dokument obsahuje překladové jednotky, tj. dvojice vět, kdy první věta je ve zdrojovém jazyce a druhá věta je v cílovém jazyce, oddělovací značky a číslice, která vyjadřuje procento shody.

The document contains a translation unit, ie a pair of sentences, where the first sentence is in the source language and the second sentence in the target language, separation marks and numbers, which expresses the percentage of compliance.

4.Překladová paměť

4.Translation memory

4.1.Jednotlivé CAT nástroje využívají svůj vlastní (nativní) typ souboru.

4.1.Jednotlivé CAT tools use their own (native) file type.

Překladová paměť se anglicky jmenuje Translation Memory a má akronym TM.

English Translation memory Translation Memory and called the abbreviation TM.

Přestože data obsažená v překladových pamětech jsou obdobná, liší se formát dat, struktura dat, typ souborů.

Although the data contained in the translation memory are similar, different format, data structure, file types.

Je to např.

As example

TXT, ESL.

TXT, ESL.

DBF, MDB, TBW, SQL.

DBF, MDB, TBW, SQL.

CAT s nimi pracuje jako s databázovým souborem.

CAT works with as a database file.

Uživatel může data překladové paměti bez nativního CAT nástroje upravovat, pokud data uvidí v jiném nástroji a nástroj mu umožní změněný soubor uložit.

User data can no native translation memory CAT tools to edit, if the data is seen in other tools and instruments to enable it to save the modified file.

4.2.Translation Memory Exchange (TMX) je textový soubor s příponou TMX, který je kódován buď v UTF-8 nebo v Unicode.

4.2.Translation Memory Exchange (TMX) is a text file with TMX, which is encoded in either UTF-8 or Unicode.

B.

B.

Podrobnější charakteristika

Detailed Specifications

1.Bitext

1.Bitext

Bitext je možno vytvořit

Bitext can be created

a)konverzí dvou sloupců z listu XLS souboru nebo listu jiné tabulkového procesoru

a) conversion of two columns from a worksheet xls file or any other sheet spreadsheet

b)přiřazením segmentů soborů ( přiřadit je anglicky "align" a přiřazení "alignment"

b) Data management segment assignment (assign it to English "align" and assign "alignment"

c)konverzí ta z tabulky nebo jiných typů souborů, kdy dojde ke ztrátě atributů a časového razítka

c) the conversion from a table or other file types, which lost attributes and time stamp

Příklad konverze: v MS Exelu je možno soubor "Uložit jako" vybrat vhodný formát; v MS Wordu se konverze provádí přes položku menu Tabulka a potom se pokračuje jako v MS Exelu

Conversion Example: MS Exel can file "Save As" to select the appropriate format, in MS Word conversion is performed via the Table menu and then continues as in MS Exel

2.Glosář

2.Glossary

Elektronické překladové slovníky umožňují přidávání a export terminologie.

Electronic translation dictionaries allow for adding and export terminology.

Do slovníku je možno přidávat jednotlivé významové dvojice a třídící poznámky.

The dictionary may be added a pair of individual meaning and sorting notes.

Autoři slovníků šifrují obsah svojí databáze a neumožňují export dat.

The authors of dictionaries to encrypt the contents of its database and does not export data.

Z komerčních slovníků je možno exportovat pouze uživatelem přidanou terminologii.

The commercial dictionaries can be exported only by the added terminology.

Příklad: v PC Translatoru je možno přidávat do slovníku kromě významové dvojice pouze kód oboru.

Example: the PC Translator can be added to the dictionary meaning other than just a pair of code field.

Je možno přidávat jednotlivé významové dvojice nebo celé soubory a potom shodné výrazy smazat.

It is possible to add different meaning couples or entire files and then delete the same terms.

Export vlastní terminologie je možno archivovat a importovat do novější verze softwaru.

Export own terminology can be archived and imported to a newer version of the software.

Shrnutí: glosáře z CAT nástrojů je možno po konverzi využít v jiných CAT nástrojích a také v překladačích.

Summary: Glossary of CAT tools can be used in the conversion of other CAT tools and the compilers.

Do CAT nástrojů je možno připojovat i terminologii z překladačů nebo jiných veřejně dostupných zdrojů.

By CAT tools can connect the terminology of the compiler or other publicly available sources.

3.Segmentovaný dokument Trados

3.Segmented Trados document

Dokument obsahuje neviditelná, viditelná a skrytá data.

Document contains invisible, visible and hidden data.

Neviditelná data je možno zkontrolovat po uložení souboru jako HTM a HTM soubor prohlížet jako textový soubor (zdrojový HTM soubor).

Invisible data can be checked to save the file as HTM and HTM to view the file as a text file (source HTM file).

Viditelná data obsahují přeložený text.

Visible data contains the translated text.

Skrytá data obsahují zdrojový text, oddělovací značky a pomocné údaje, jako je procento shody s překladovou pamětí, která byla využita při překladu.

Hidden data contains the source text, separator marks and ancillary data such as percentage compliance with a translation memory, which was used in translation.

Tento formát je standardem a využívá jej kromě Tradosu například Wordfast Classic, AnyMem.

This format is standard and uses it except as Trados Wordfast Classic, AnyMem.

Načítá jej a exportuje do něj MetaTexis.

Reads it and exports it to MetaTexis.

Exportuje do něj Wordfast Anywhere a další CAT nástroje a konverzní nástroje.

Export into Wordfast Anywhere and other CAT tools and conversion tools.

Tzv. vyčištěním dokumentu (clean-up), je dokument vyčištěn od zdrojového textu a všech pomocných značek a o obsah dokumentu může být rozšířena aktuální překladová paměť jednotlivého CAT nástroje.

By so-called document cleanup (clean-up), the document is cleaned from the source text and all auxiliary marks and contents of the document may be extended to the current translation memory unit CAT tools.

Segmentovaný dokument Trados může být využit pro aktualizaci TM, kteří používají různé CAT nástroje.

Segmented document Trados may be used to update the TM, using a variety of CAT tools.

4.Překladová paměť

4.Translation memory

Jednotlivé CAT nástroje umí importovat a exportovat TMX a tím je umožněna výměna dat mezi uživateli různých CAT nástrojů.

Each CAT tools can import and export TMX and thus allow the exchange of data between users of different CAT tools.

TMX je hlavním prostředkem pro výměnu TM a umí s ní pracovat i nástroje, které nepracují v MS Wordu a nepracují se segmentovaným dokumentem Tradosu.

TMX is the main format for the exchange of TM and can work with it as well as tools that do not work in MS Word and do not work with Trados segmented document.

Specifickým nástrojem mezi CAT nástroji je OmegaT.

Specific instrument among CAT tools is OmegaT.

Nástroj je napsán v Javě a má tři verze (pro jednotlivé operační systémy:

The tool is written in Java and has three versions (for different operating systems:

Windows, Linux a MacIntosh).

Windows, Linux and Macintosh).

Je to open free software.

It is open free software.

Pracuje samostatně nebo s Open Officem (typ souboru ODT) a jako svoji překladovou paměť používá TMX v kódování UTF-8.

Works alone or with Open Office (ODT file type) and as their translation memory in TMX uses UTF-8.

C.

C.

Využití překladových pamětí (Translation Memory = TM)

Using translation memory (Translation Memory = TM)

1.CAT nástroj do TM ukládá při překládání jednu překladovou jednotku se všemi atributy za druhou

1.CAT tool into TM saves, when translating, a one translation unit with all the attributes, after one

2.CAT nástroj porovnává (match) otevřený zdrojový segment překládaného dokumentu se všemi zdrojovými segmenty připojených překladových pamětí

2.CAT tool compares the (match) open source segment of the translated document, all source segments connected TMs

Pozn. anglické "match" - porovnání, vyhovění apod. vnímají Češi častou pouze konfrontačně jako střet - utkání (fotbalový match).

Note that English "match" - comparison, compliance, etc. Czechs often perceived as a conflict only confrontational - match (football match).

Zde údaj mach = 90, znamená, že segment se shoduje na 90% s nejvíce podobným segmentem v překladové paměti.

Here information mach = 90 means that the segment is identical to 90% with the most similar segment in the translation memory.

Pro porovnávání se nejčastěji používá Löwensteinův algoritmus.

For matching, the most commonly used Löwenstein´ algorithm.

CAT většinou zobrazí překladové jednotky s nejvyšší shodou, nebo automaticky umístí překlad do cílového segmentu a umí také zobrazit rozdíly mezi zdrojovými segmenty v dokumentu a v překladové paměti.

CAT usually shows translation unit with the highest match, or automatically place a translation into the target segment and can also show the differences between segments in the source document and translation memory.

3.Pokud segmenty (věty) neobsahují více než 10 slov jsou častou poskytovány 100% nabídky z TM.

3.If segments (sentences) do not contain more than 10 words, there are often provided 100% offers of TM.

Dlouhé věty (třeba o 50 až 200 slovech) lze najít tehdy, když nový dokument obsahuje citace z předchozích dokumentů, zejména právnických, aktualizace příruček, návodů k obsluze apod.

Long sentences (perhaps 50 to 200 words) can be found if the new document contains a quote from previous documents, particularly legal, updating manuals, manuals, etc.

4.Konkordační vyhledávání - ruční vyhledávání terminologie z vět uložených v jazykových párech

4.Concordance search - manual search terminology of sentences imposed in the language pairs

5.Ruční doplňování terminologie do slovníků a glosářů nebo opravy uložené terminologie.

5.The Manual adding of terminology into dictionaries and glossaries or repairing of stored terminology.

6.Dolování terminologie z vět uložených v jazykových párech.

6.The data mining of terminology from sentences saved in the language pairs.

Speciální statistický software vyhodnocuje výskyt slov a frází v jazykovém páru a odhadne jak mají být slova nebo výrazy přeloženy.

Special statistical software evaluates the occurrence of words and phrases in the language pair and estimate how should be the words or phrases translated.

Taková technologie je obsažena např. v bezplatné službě Google Translate, který data využívá k provádění strojového překladu (Machine Translation = MT).

Such technology is included e.g. in free Google Translate service, which uses data to providing a machine translation (MT = Machine Translation).

Existují i placené webové služby, které ze zákazníkových TM vydolují překlady, ke kterým neposkytuje překlad technologie porovnání celých segmentů.

There are also paid Web services, which from the customer's TM mines translation, which do not provide translation the technology by matching of whole segments.

E.Odkazy a ukázky

E. Links and samples

Na www.condak.net poskytuji informace o CAT nástrojích a na www.condak.cz jsou informace o PC Translatoru nebo jiných desktopových překladačích.

The www.condak.net provides information on CAT tools and on www.condak.cz are information on PC Translator or on other the desktop translators.

Na webové stránce http://www.condak.net/osu/cs/00.html bude prezentace z tohoto workshopu.

On the website http://www.condak.net/osu/cs/00.html will be presentation from this workshop.

V Ostravě 17.9.2009

In Ostrava 17.9.2009

Ing.

Ing.

Milan Čondák

Milan Condak

Využití překladových pamětí

The leveraging of TMs


Copyright Ing. Milan Čondák 17.09.2009