|
databáze Czeng09
Tentokrát bych mohl vytvořit TM devětkrát větší. Raději vytvořím 7 tématicky oddělených TM.
Jako zdroj použiji 100 bitextových EN-CS souborů. Data jsou v balících po deseti souborech.
Každý soubor má kolem 80.000 překladových jednotek.
Sto souborů jsem otevřel a upravil v MS Exelu 2007. Nyní je sloučím do 10 souborů.
| |
http://ufal.mff.cuni.cz/czeng/czeng09/
| Source | Sentences | můj kód |
| Movie Subtitles | 3,549,367 | st |
| EU Legislation | 1,589,036 | eu |
| Technical Documentation | 1,212,494 | td |
| Fiction | 1,036,952 | fi |
| Parallel Web Pages | 464,522 | ww |
| News | 140,191 | nw |
| Project Navajo | 37,239 | na |
| Total | 8,029,801 |
To simplify the download, the 100 sections of CzEng are grouped to packs of 10 sections each. CzEng 0.9 is shuffled so you may wish to use just one of the packs for your experiments as a random sample.
| File Format | Training Sections | DevTest Sections | EvalTest Sections |
| Plaintext, untokenized | 0* 1* 2* 3* 4* 5* 6* 7* | 8* | 9* |
|