Acrobat u punoj snazi
Mnogo puta ste se suočili sa potrebom da publikaciju na papiru prevedete u elektronsku formu. Koristili ste razne alate, uz promenljiv uspeh i najzad verovatno završili sa ogromnim PDF fajlom čiji se sadržaj ne može editovati. Rezultati mogu da budu mnogo bolji – treba samo iskoristiti manje poznate osobina vašeg Acrobat‑a.
Šta treba da nastane od polazne papirne publikacije? Ako želite samo tekst koji ćete obrađivati u Word‑u, posao će završiti bilo koji OCR program. Ali, ako publikacija ima i slike, prelomljen tekst i druge grafičke forme, verovatno se očekuje da elektronska kopija bude slična originalu. Napraviti tako nešto nije ni malo jednostavno – čak i ako uspešno OCR‑ujete tekst i skenirate slike, njegovo ponovno prelamanje uz imitaciju originala je ozbiljan posao koji, u zavisnosti od dužine publikacije i složenosti njenog dizajna, možda zahteva ozbiljnu DTP ekipu. Toliki posao da biste dobili ono što već imate na papiru…
Zato ćete verovatno skenirati stranice koristeći softver koji ste dobili uz skener, možda u rezoluciji 300 dpi – takva rezolucija je potrebna da bi slike dobro izgledale. Nije lako savršeno ravno postaviti papir, naročito ako je publikacija koju skenirate ukoričena, pa će margine stranica biti nejednake, a neke od njih će biti rotirane za par stepeni udesno ili ulevo. Možda ćete ih malo ispravljati i čistiti u Photoshop‑u, a možda za to nećete naći vremena. Otvorićete najzad Adobe Acrobat, izabrati opciju Combine Files, prevući JPG fajlove sa stranicama (drugu stranu ste nazvali 2.JPG i ona je došla pored devedesete strane koju ste nazvali 20.JPG? Srećom, redosled se može promeniti prostim prevlačenjem) i najzad kliknuti na Combine. Malo kasnije, na disk ćete snimiti PDF fajl koji izgleda kao polazna publikacija, ali u kome je zapravo bit‑mapirana slika teksta, koji se ne može pretraživati, kopirati u editor ili menjati. Uz to je fajl prilično veliki, pa njegovo slanje, naročito na sporijem linku, ume da potraje. Ali, to je najbolje što se moglo uraditi, zar ne?
Sken, ispravljanje i OCR
Zapravo se mogao uraditi znatno bolji posao, i za njega nije potreban nikakav dodatni alat – Acrobat u sebi ima sve što vam treba. Zato po startovanju ovog programa izaberite opciju Create / PDF from Scanner a zatim i tip dokumenta, obično Grayscale za crno‑bele odnosno Color za dokumente urađene u boji. Dobro je da pre toga sa Create / PDF from Scanner / Configure Presets podesite neke osnovne opcije, pre svega format papira (A4 umesto Letter), izaberete skener sa liste uređaja, odlučite se za jednostrano ili dvostrano skeniranje, podesite rezoluciju (300 dpi je obično dovoljno) i najzad, u Make Searchable / Options / Primary OCR Language izaberete srpski jezik.
Sledi skeniranje dokumenta stranu po stranu. Ne morate da mislite o imenovanju fajlova, ali je dobro da svaku stranu pogledate – ustanovićete da Acrobat automatski transformiše sliku tako da se mala zakošenja ispravljaju a neke od nesavršenosti popravljaju, ali ako zaključite da je neki list loše skeniran, možete tražiti ponavljanje procesa za tu stranu, koju ćete onda bolje postaviti na skener. Kada se proces završi, Acrobat OCR‑uje tekst i kombinuje ga sa slikama, tako da dobijate PDF koji je grafički nalik originalnoj publikaciji, ali je tekst zaista tekst, spreman za pretraživanje i obradu. Uz to je fajl bitno manji od onoga koji nastaje prostim skeniranjem u JPG formatu i kombinovanjem slika.
Acrobat, naravno, nije čarobnjak – neki nedovoljno kontrastan tekst na obojenoj pozadini neće biti prepoznat, ali će u tom slučaju on ostati kao grafički element, pa će publikacija ipak biti čitljiva, pošto je OCR softver u našim glavama i dalje bitno bolji od računarskog. Osim toga, dešavaće se i greščice u prepoznavanju, pa ako je publikacija potrebna za nešto više od proste reference kolegama, svakako pročitajte prepoznati tekst i ispravite eventualne greške u samom Acrobat‑u. U većini slučajeva ćete publikaciju samo brzinski pregledati, arhivirati ili poslati, srećni što ste posao koji je delovao sporo i komplikovano rešili prostim izborom prave opcije u pravom programu.
Dejan Ristanović
(Objavljeno u časopisu PC#207)