Využití překladových pamětí
 14  NL




Soubor ke stažení: cs_nl


Obsah

Inhoud

A.Úvod - charakteristika základních souborů

A. Inleiding - de basiskenmerken van bestanden

B.Podrobnější charakteristika

B. Gedetailleerde specificaties

C.Využití překladových pamětí (Translation Memory = TM)

C. Gebruik van vertaalgeheugen (TM = Translation Memory)

D.Odkazy a ukázky

 

A.

 

Úvod - charakteristika základních souborů

Inleiding - kenmerken van de basis-sets

1.Bitext a tabulka v DOC (RTF)

1.Bitext een tafel in het DOC (RTF)

1.1.

 

Bitext obsahuje texty ve dvou jazycích.

Bitext bevat teksten in twee talen.

Soubor neobsahuje jazykové kódy a je kódován tak, aby byly oba jazyky lidmi čitelné.

Bestand bevat geen taal-codes, en zo gecodeerd dat mensen lezen beide talen.

Jde nejčastěji o TXT soubor, který může mít národní kódování pro

Het is meestal een TXT bestand dat kan worden van de nationale codering voor

a)DOS, Unix (Linux), Mac

a) DOS, Unix (Linux), Mac

b)ANSI (Windows), národní stránky jednotlivých jazyků a jejich ekvivalenty pro HTM (čeština Win-1520)

b) ANSI (Windows), sites van de nationale talen en hun equivalenten voor HTM (Tsjechische Win-1520)

Tabulky v DOC (RTF) obsahují v dokumentu jazykové kódy polí, která obsahují text (ve zdrojovém a cílovém jazyce).

De tabellen in DOC (RTF) document met de taal-codes van de velden die tekst bevatten (de bron-en doeltaal).

c)UTF-8 je využíván nejčastěji, protože oba jazyky jsou lidmi čitelné, je využíván pro přiřazování souborů (UTF-7 se v překladatelském oboru nevyužívá) a soubory mají menší velikost než v UTF-16

c) de UTF-8 is het meest gebruikt, omdat beide talen zijn leesbaar, het wordt gebruikt voor het koppelen van bestanden (UTF-7 wordt niet gebruikt in de vertaling industrie) en de bestanden zijn kleiner dan in UTF-16

d)Unicode (UTF-16) využívá MS Word a programy (CAT), které v něm fungují pro zobrazení textových souborů; může jít o lokální nebo webové databáze, konverzní programy atd.

d) Unicode (UTF-16) maakt gebruik van MS Word en programma's (CAT), dat het werkt om tekst bestanden weer te geven, kan het een lokale of web-database, conversie-programma's, enz.

e)Unicode Big Endian pro zobrazení východoevropského písma (CJK = čínština, japonština a korejština)

e) Unicode Big Endian-Oosten om fonts bekijken (CJK = Chinees, Japans en Koreaans)

1.2.

1.2.

Tabulky v DOC (RTF) obsahují v dokumentech jazykové kódy a texty jsou uloženy v ANSI

De tabellen in DOC (RTF) documenten bevatten taal codes en teksten worden opgeslagen in ANSI

2.Glosář a obdobné soubory

2.Glosář en soortgelijke bestanden

Slovník - obsahuje heslo + slovní druh + tvary slova + příklady použití + překlady.

Woordenboek - bevat wachtwoord toespraak + + + + woordvormen voorbeelden van het gebruik van vertalingen.

Bývá tříděn abecedně podle hesel.

Is alfabetisch gesorteerd volgens inzendingen.

Překladový slovník - obsahuje výraz , který se skládá z jednoho až pěti slov a jeho překlad a bývá uložen v databázi

Vertaalwoordenboek - bevat een uitdrukking die bestaat uit een tot vijf woorden en hun vertaling en wordt opgeslagen in een database

Slovníček - obsahuje výraz z jednoho až pěti slov a jejich překlad a bývá uložen v textovém souboru nebo XLS (maximálně dvě pole)

Woordenlijst - bevat woorden een tot vijf woorden en hun vertaling en wordt opgeslagen in een tekstbestand of XLS (maximaal twee velden)

Glosář - slovníček + další pole na poznámky a eventuáleně data, jaká mohou být v atributech překladových pamětí

Woordenlijst - een verklarende woordenlijst + extra velden op de opmerkingen en eventuáleně gegevens kunnen worden attributen van vertaalgeheugens

3.Segmentovaný dokument Trados (DOC nebo RTF), nevyčištěný dokument přeložený v MS Wordu

Trados 3.Segmentovaný document (DOC of RTF), ongereinigde papier gevouwen in MS Word

Běžně vzniká v průběhu překladu v CAT nástrojích, které využívají jako textový editor MS Word.

Vaak ontstaat in de loop van de vertaling in CAT-tools, die een tekstverwerker MS Word gebruikt.

Někdy jej exportují i aplikace, které používají pro překládání jiný typ souboru.

Soms is de uitvoer toepassingen die worden gebruikt om andere type bestand te vertalen.

Dokument obsahuje překladové jednotky, tj. dvojice vět, kdy první věta je ve zdrojovém jazyce a druhá věta je v cílovém jazyce, oddělovací značky a číslice, která vyjadřuje procento shody.

Het document bevat een vertaling eenheid, dwz een paar zinnen, waar de eerste zin in de brontaal en de tweede zin in de doeltaal, de scheiding merken en nummers, die het percentage van de naleving uitdrukt.

4.Překladová paměť

 

4.1.Jednotlivé CAT nástroje využívají svůj vlastní (nativní) typ souboru.

4.1.Jednotlivé CAT-tools gebruiken hun eigen (native) bestandstype.

Překladová paměť se anglicky jmenuje Translation Memory a má akronym TM.

Engels Vertaling Translation Memory geheugen en riep de afkorting TM.

Přestože data obsažená v překladových pamětech jsou obdobná, liší se formát dat, struktura dat, typ souborů.

Hoewel de gegevens in het vertaalgeheugen vergelijkbaar zijn, andere indeling, data structuur, bestandstypen.

Je to např.

В качестве примера

TXT, ESL.

TXT, ESL.

DBF, MDB, TBW, SQL.

DBF, MDB, TBW, SQL.

CAT s nimi pracuje jako s databázovým souborem.

CAT werkt met een database-bestand.

Uživatel může data překladové paměti bez nativního CAT nástroje upravovat, pokud data uvidí v jiném nástroji a nástroj mu umožní změněný soubor uložit.

Gebruikers gegevens kunnen geen eigen vertaalgeheugen CAT-tools te bewerken, indien de gegevens is te zien in andere middelen en instrumenten om in staat te stellen het gewijzigde bestand op te slaan.

4.2.Translation Memory Exchange (TMX) je textový soubor s příponou TMX, který je kódován buď v UTF-8 nebo v Unicode.

4.2.Translation Memory Exchange (TMX) is een tekstbestand met TMX, die is gecodeerd in beide UTF-8 of Unicode.

B.

B.

Podrobnější charakteristika

Gedetailleerde specificaties

1.Bitext

1.Bitext

Bitext je možno vytvořit

Bitext kunt

a)konverzí dvou sloupců z listu XLS souboru nebo listu jiné tabulkového procesoru

a) de omzetting van twee kolommen uit een werkblad xls-bestand of een ander blad spreadsheet

b)přiřazením segmentů soborů ( přiřadit je anglicky "align" a přiřazení "alignment"

b) Data management segment opdracht (toewijzen aan Engels "align" en toewijzen "aanpassing"

c)konverzí ta z tabulky nebo jiných typů souborů, kdy dojde ke ztrátě atributů a časového razítka

c) de omzetting van een tabel of een andere bestandstypen, welke attributen en tijd verloren stempel

Příklad konverze: v MS Exelu je možno soubor "Uložit jako" vybrat vhodný formát; v MS Wordu se konverze provádí přes položku menu Tabulka a potom se pokračuje jako v MS Exelu

Conversie Voorbeeld: MS Exel kan bestand "Opslaan als" om de juiste indeling te selecteren, in MS Word conversie wordt uitgevoerd via het menu Tabel en dan verder zoals in MS Exel

2.Glosář

 

Elektronické překladové slovníky umožňují přidávání a export terminologie.

Elektronische vertaalwoordenboeken maken voor het toevoegen en export terminologie.

Do slovníku je možno přidávat jednotlivé významové dvojice a třídící poznámky.

Het woordenboek kan worden toegevoegd een paar individuele betekenis en het sorteren notities.

Autoři slovníků šifrují obsah svojí databáze a neumožňují export dat.

De auteurs van woordenboeken voor het versleutelen van de inhoud van de database en geen gegevens te exporteren.

Z komerčních slovníků je možno exportovat pouze uživatelem přidanou terminologii.

De commerciële woordenboeken kunnen alleen worden uitgevoerd door de toegevoegde terminologie.

Příklad: v PC Translatoru je možno přidávat do slovníku kromě významové dvojice pouze kód oboru.

Voorbeeld: de PC Translator kan worden toegevoegd aan het woordenboek betekenis dan alleen maar een paar van de code veld.

Je možno přidávat jednotlivé významové dvojice nebo celé soubory a potom shodné výrazy smazat.

Het is mogelijk om verschillende betekenis paren of hele bestanden toe te voegen en verwijder vervolgens dezelfde voorwaarden.

Export vlastní terminologie je možno archivovat a importovat do novější verze softwaru.

Export eigen terminologie kan worden gearchiveerd en geïmporteerd naar een nieuwere versie van de software.

Shrnutí: glosáře z CAT nástrojů je možno po konverzi využít v jiných CAT nástrojích a také v překladačích.

Samenvatting: Glossarium van CAT-tools kunnen worden gebruikt in de omzetting van andere CAT-tools en compilers.

Do CAT nástrojů je možno připojovat i terminologii z překladačů nebo jiných veřejně dostupných zdrojů.

Door CAT-tools kunt de terminologie van de compiler of andere openbare bronnen.

3.Segmentovaný dokument Trados

3.Segmentovaný document Trados

Dokument obsahuje neviditelná, viditelná a skrytá data.

Document bevat onzichtbare, zichtbaar en verborgen gegevens.

Neviditelná data je možno zkontrolovat po uložení souboru jako HTM a HTM soubor prohlížet jako textový soubor (zdrojový HTM soubor).

Onzichtbaar gegevens kunnen worden gecontroleerd om het bestand als HTM en HTM Opslaan om het bestand te zien als een tekstbestand (bron HTM-bestand).

Viditelná data obsahují přeložený text.

Zichtbare gegevens bevat de vertaalde tekst.

Skrytá data obsahují zdrojový text, oddělovací značky a pomocné údaje, jako je procento shody s překladovou pamětí, která byla využita při překladu.

Verborgen gegevens bevat de brontekst, separator merken en bijkomende gegevens, zoals het percentage naleving van een vertaalgeheugen, dat werd gebruikt in vertaling.

Tento formát je standardem a využívá jej kromě Tradosu například Wordfast Classic, AnyMem.

Dit formaat is standaard en gebruikt het, behalve als Trados Wordfast Classic, AnyMem.

Načítá jej a exportuje do něj MetaTexis.

Leest het in-en uitvoer aan MetaTexis.

Exportuje do něj Wordfast Anywhere a další CAT nástroje a konverzní nástroje.

Export in Wordfast Anywhere en andere CAT-tools en conversie tools.

Tzv. vyčištěním dokumentu (clean-up), je dokument vyčištěn od zdrojového textu a všech pomocných značek a o obsah dokumentu může být rozšířena aktuální překladová paměť jednotlivého CAT nástroje.

Zogenaamde. Document Cleanup (clean-up), het document wordt gereinigd van de brontekst en alle hulp-etiketten en inhoud van het document kan worden uitgebreid tot de huidige eenheid vertaalgeheugen CAT-tools.

Segmentovaný dokument Trados může být využit pro aktualizaci TM, kteří používají různé CAT nástroje.

Gesegmenteerde Trados document kan worden gebruikt voor het bijwerken van de TM, met behulp van een verscheidenheid van CAT-tools.

4.Překladová paměť

 

Jednotlivé CAT nástroje umí importovat a exportovat TMX a tím je umožněna výměna dat mezi uživateli různých CAT nástrojů.

Elke CAT-programma's kunt importeren en exporteren TMX en daarmee de uitwisseling van gegevens tussen gebruikers van verschillende CAT-tools.

TMX je hlavním prostředkem pro výměnu TM a umí s ní pracovat i nástroje, které nepracují v MS Wordu a nepracují se segmentovaným dokumentem Tradosu.

TMX is het voornaamste instrument voor de uitwisseling van TM en kan werken met net zo goed als hulpmiddelen die niet werken in MS Word en werken niet met Trados gesegmenteerd document.

Specifickým nástrojem mezi CAT nástroji je OmegaT.

Specifiek instrument onder de instrumenten is OmegaT CAT.

Nástroj je napsán v Javě a má tři verze (pro jednotlivé operační systémy:

De tool is geschreven in Java en heeft drie versies (voor verschillende besturingssystemen:

Windows, Linux a MacIntosh).

Windows, Linux en Macintosh).

Je to open free software.

Het is open vrije software.

Pracuje samostatně nebo s Open Officem (typ souboru ODT) a jako svoji překladovou paměť používá TMX v kódování UTF-8.

Werkt alleen of met Open Office (ODT bestand type) en als de vertaling ervan in het geheugen TMX gebruikt UTF-8.

C.

C.

Využití překladových pamětí (Translation Memory = TM)

Gebruik vertaalgeheugen (TM = Translation Memory)

1.CAT nástroj do TM ukládá při překládání jednu překladovou jednotku se všemi atributy za druhou

1.CAT tool in TM bespaart bij het vertalen van een vertaling eenheid met alle eigenschappen van de tweede

2.CAT nástroj porovnává (match) otevřený zdrojový segment překládaného dokumentu se všemi zdrojovými segmenty připojených překladových pamětí

2.CAT tool vergelijkt de (wedstrijd) open source-segment van het vertaalde document, bron van alle aangesloten segmenten TMs

Pozn. anglické "match" - porovnání, vyhovění apod. vnímají Češi častou pouze konfrontačně jako střet - utkání (fotbalový match).

Merk op dat Engels "match" - vergelijking, compliance, enz. Tsjechen vaak gezien als een conflict alleen confronterende - wedstrijd (voetbalwedstrijd).

Zde údaj mach = 90, znamená, že segment se shoduje na 90% s nejvíce podobným segmentem v překladové paměti.

Hier wordt informatie mach = 90, betekent dat het segment gelijk is aan 90% met de meest vergelijkbare segment in het vertaalgeheugen.

Pro porovnávání se nejčastěji používá Löwensteinův algoritmus.

Voor de vergelijking, de meest gebruikte Löwenstein algoritme.

CAT většinou zobrazí překladové jednotky s nejvyšší shodou, nebo automaticky umístí překlad do cílového segmentu a umí také zobrazit rozdíly mezi zdrojovými segmenty v dokumentu a v překladové paměti.

CAT meestal verschijnen vertaling eenheid met de hoogste consensus, of automatisch een vertaling in de doelgroep segment en ziet ook de verschillen tussen de segmenten in het brondocument en de vertaling geheugen.

3.Pokud segmenty (věty) neobsahují více než 10 slov jsou častou poskytovány 100% nabídky z TM.

3.Indien segmenten (zinnen) niet meer dan 10 woorden zijn vaak voorzien 100% levering van TM.

Dlouhé věty (třeba o 50 až 200 slovech) lze najít tehdy, když nový dokument obsahuje citace z předchozích dokumentů, zejména právnických, aktualizace příruček, návodů k obsluze apod.

Lange zinnen (misschien 50 tot 200 woorden) te vinden als het nieuwe document een citaat van vorige documenten, vooral juridische, bijstelling bevat, handleidingen, enz.

4.Konkordační vyhledávání - ruční vyhledávání terminologie z vět uložených v jazykových párech

4.Konkordační zoeken - handmatig zoeken terminologie van zinnen die in de talencombinaties

5.Ruční doplňování terminologie do slovníků a glosářů nebo opravy uložené terminologie.

5.Ruční aanvulling terminologie in woordenboeken en woordenlijsten of reparatie opgeslagen terminologie.

6.Dolování terminologie z vět uložených v jazykových párech.

6.Dolování terminologie van de straffen opgelegd in de taal paren.

Speciální statistický software vyhodnocuje výskyt slov a frází v jazykovém páru a odhadne jak mají být slova nebo výrazy přeloženy.

Speciale statistische software evalueert het voorkomen van woorden en uitdrukkingen in de taal pair en schatten hoe ze moeten worden vertaald woorden of zinnen.

Taková technologie je obsažena např. v bezplatné službě Google Translate, který data využívá k provádění strojového překladu (Machine Translation = MT).

Dergelijke technologie is opgenomen als het gratis Google Translate, de gegevens gebruikt voor de uitvoering van een machine translation (MT = Machine Translation).

Existují i placené webové služby, které ze zákazníkových TM vydolují překlady, ke kterým neposkytuje překlad technologie porovnání celých segmentů.

Er zijn ook betaalde webservices, die TM de klant vydolují vertaling, die vertaling technologie vergelijking van de hele segmenten maakt.

E.Odkazy a ukázky

E. Links en monsters

Na www.condak.net poskytuji informace o CAT nástrojích a na www.condak.cz jsou informace o PC Translatoru nebo jiných desktopových překladačích.

De www.condak.net informatie te verstrekken over CAT-tools en informatie over www.condak.cz PC Translator desktop of andere compilers.

Na webové stránce http://www.condak.net/osu/cs/00.html bude prezentace z tohoto workshopu.

De website zal http://www.condak.net/osu/cs/00.html presentaties van deze workshop.

V Ostravě 17.9.2009

In Ostrava 17-9-2009

Ing.

Ing.

Milan Čondák

Milan Condak

Využití překladových pamětí

Gebruik TMs


Copyright Ing. Milan Čondák 17.09.2009