Wordfast Anywhere verze 1.3.3
 06  Výjezdní zasedání v Beskydech



Na vědomost se dává, že výše uvedena akce (2. dubna 2011) zdárně a mimořádně úspěšně proběhla.

Kdo byl, myslím nelitoval, kdo zaváhal, o hodně přišel.

________________________________________________________________________
Re: výjezdní zasedání v Beskydech
Datum: Čt 14. dubna 2011 12:53 am ((PDT))

Martine a další zájemci o WFA,

do Ostravy a Beskyd jezdíval za zábavou již před sto lety Albert Einstein.

Jeho žena v Praze přepisovala k publikování jeho práce.

Témata: TXML,slučování TXML, obrázky v PDF, bezplatně OCR ve Wordfastu Anywhere
________________________________________________________________________
7b. Re: výjezdní zasedání v Beskydech
Posted by: "Martin Janda"
Datum: Čt 14.dubna 2011 1:10 am ((PDT))

Aha! A já pořád zíral, co má Einstein společného s Wordfastem.
Když jsem klikl, tak jsem pochopil. Díky, Milane.

Jen osobní názor:
nechat software automaticky OCR-ovát a natáhnout dokument je kolosální blbost
- jak názorně ukazuje tvůj příklad, výsledný text je plný tágu a artefaktů a nedá se s ním pracovat.
Daleko lepší je provést OCR manuálně (v kvalitním programu, ne freewaru bůhví odkud),
zkontrolovat a upravit nastavení v OCR aplikaci, a výsledný dokument pak ještě vyčistit a doformátovat ve Wordu.
Dělá se s tím o moc lip.

Martin
________________________________________________________________________
2a. Re: výjezdní zasedání v Beskydech
Posted by: "Milan"
Datum: Čt 14. dubna 2011 9:59 am ((PDT))

Téma bylo silnější, než použité vstupní PDF.
Kolegové z Prahy jezdí za kolegy a zábavou do Ostravy a do Beskyd i po sto letech.

Díky za konstruktivní oponenturu - přidal jsem na stránce 01.html odkaz na nekvalitní PDF
(chyběla písmena na okraji) a přidal jsem komentář ke stažení souboru převedeného pomoci OCR.
Nemusí to být TXML.
Soubor je možno stáhnout v RTF formátu, tj. rich text file, který obsahuje formátované písmo a ne zástupné čísla tágu, které jsou uvedené v hlavičce TXML.
Přidal jsem odkaz na staženy RTF (pro okamžitě zobrazení jsem jej ale uložil jako HTM).

Aplikace OCR je určitě kvalitní, ikdyž jako produkt od Google je zdarma.
Je to webová (serverová) aplikace kterou často používáš.
Google s její pomoci převádí PDF do textu, ten texty indexuje a ty nacházíš terminologii nejen pro sebe, ale i pro některé překladatele, kteří volají o pomoc.
Já jsem tak našel odkaz na tento článek


[PDF] Táňa Kocembová Formát souboru: PDF/Adobe Acrobat - Zobrazit jako HTML Co pohledával třicetiletý Albert Einstein v Ostravě? Třicetiletý Albert Einstein. Repro: Naše Ostrava.cz. V Praze se také potkal se svým ...

Nase_Ostrava_0911.pdf

článek je na stranách číslo 10 a 11.


Nastavení OCR se provádí ve Wordfastu Anywhere (WFA) tím, že nastavíš zdrojový a cílový jazyk pro překladovou paměť.

Ve WFA je chybné uveden při stahování souboru po OCR název souboru: obsahuje příponu cílového jazyka.

Převedeny text je v jednom že 186 zdrojových jazyků. Pokud máš lepší, profesionální OCR program, převed do textu obrázek na kterém je hlava A. Einsteina, hospoda v Chlebovicich a požadovaný český text.

Největší slabinou aplikace je limit velikosti PDF na 1MB. Proto jsem udělal z jednoho obrázku 3 obrázky.

Ještě jednou díky za osobní názor.

Milan


Tak, tady je celý článek. Jako předtím - upravil jsem čtené bloky dokumentu ve FineReaderu a vyčistil výsledný formát souboru, včetně vět rozseknutých kvůli sloupcům.

Překlepy jsem neopravoval - jsou tam, ale není to tak zlé.

Některé jsou dokonce malebné - "jako rýha ve vodě" se mi moc líbilo.

Martin

Profil na ProZ.com

Kudoz



Copyright Ing. Milan Čondák 17.04.2011