Sloučení TXT souborů a export do TMX
 01  Zamíchaná data databáze Czeng09






V předchozí ukázce jste viděli slučování TXT.

databáze Czeng09

Tentokrát bych mohl vytvořit TM devětkrát větší. Raději vytvořím 7 tématicky oddělených TM. Jako zdroj použiji 100 bitextových EN-CS souborů. Data jsou v balících po deseti souborech. Každý soubor má kolem 80.000 překladových jednotek.

Sto souborů jsem otevřel a upravil v MS Exelu 2007. Nyní je sloučím do 10 souborů.

 

http://ufal.mff.cuni.cz/czeng/czeng09/

SourceSentencesmůj kód
Movie Subtitles 3,549,367st
EU Legislation 1,589,036eu
Technical Documentation 1,212,494td
Fiction 1,036,952fi
Parallel Web Pages464,522ww
News140,191nw
Project Navajo37,239na
Total8,029,801



To simplify the download, the 100 sections of CzEng are grouped to packs of 10 sections each. CzEng 0.9 is shuffled so you may wish to use just one of the packs for your experiments as a random sample.


File Format Training Sections DevTest Sections EvalTest Sections
Plaintext, untokenized 0* 1* 2* 3* 4* 5* 6* 7* 8* 9*



TXT soubory jsem načetl do Xbenche s vyloučením opakování stejných dat
a export jsem udělal opět do TXT souboru.
  Data jsem roztřídil v Exelu 2007.



Copyright  08.07.2010 Ing. Milan Čondák  www.condak.cz