Skanimi dhe OCR

Mirëdita

Ndoshta secili prej nesh ballafaqohet me detyrën kur duhet të përkthesh një dokument letre në formë elektronike. Kjo është veçanërisht e nevojshme për ata që studiojnë, punojnë me dokumentacionin, përkthejnë tekste duke përdorur fjalorë elektronikë etj.

Në këtë artikull do të doja të ndaja disa nga bazat e këtij procesi. Në përgjithësi, skanimi dhe njohja me tekst është mjaft kohë, pasi shumica e operacioneve duhet të bëhen me dorë. Ne do të përpiqemi të kuptojmë se çfarë, si dhe pse.

Jo të gjithë menjëherë e kuptojnë një gjë. Pas skanimit (montimi i të gjitha fletëve në skaner) do të keni fotografi të formatit BMP, JPG, PNG, GIF (mund të ketë formate të tjera). Pra, nga kjo foto ju duhet të merrni tekstin - kjo procedurë quhet njohje. Në këtë mënyrë, dhe do të paraqitet më poshtë.

Përmbajtja

  • 1. Çfarë nevojitet për skanim dhe njohje?
  • 2. Opsionet e skanimit të tekstit
  • 3. Njohja e tekstit të dokumentit
    • 3.1 Tekst
    • 3.2 Piktura
    • 3.3 Tabelat
    • 3.4 Artikujt e panevojshëm
  • 4. Njohja e skedarëve PDF / DJVU
  • 5. Gabim në kontrollimin dhe ruajtjen e rezultateve të punës

1. Çfarë nevojitet për skanim dhe njohje?

1) Skaner

Për të përkthyer dokumentet e shtypura në formë teksti, së pari duhet një skaner dhe, në përputhje me rrethanat, programet "origjinale" dhe drejtuesit që kanë shkuar me të. Me ta mund të skanoni dokumentin dhe ta ruani atë për përpunim të mëtejshëm.

Ju mund të përdorni analoge të tjerë, por softueri që erdhi me skanerin në kit zakonisht punon më shpejt dhe ka më shumë mundësi.

Varësisht se çfarë lloj skanerie ju keni - shpejtësia e punës mund të ndryshojë ndjeshëm. Ka skanera që mund të marrin një foto nga një fletë në 10 sekonda, ka nga ato që do të marrin atë në 30 sekonda. Nëse ju skanoni një libër në 200-300 fletë - mendoj se nuk është e vështirë të llogarisni sa herë do të ketë një ndryshim në kohë?

2) Programi për njohjen

Në artikullin tonë, unë do t'ju tregoj punën në një nga programet më të mira për skanimin dhe njohjen e absolutisht të dokumenteve - ABBYY FineReader. sepse programi paguhet, pastaj menjëherë do të jap një lidhje me një tjetër - analogun e lirë të Formës Cunei. Vërtetë, unë nuk do t'i krahasoja ato, për shkak të faktit se FineReader fiton në të gjitha aspektet, unë rekomandoj që ta provoni të gjithë njëjtë.

ABBYY FineReader 11

Faqja zyrtare: //www.abbyy.ru/

Një nga programet më të mira të këtij lloji. Është projektuar të njohë tekstin në foto. Ndërtuar shumë opsione dhe veçori. Ai mund të analizojë një numër fontesh, madje mbështet versionet me dorëshkrime (edhe pse nuk e kam provuar personalisht, mendoj se është mirë të mos e njohësh versionin me dorë, nëse nuk ke një dorëshkrim të përsosur calligrafik). Më shumë informacion rreth punës me të do të diskutohet më poshtë. Ne gjithashtu vëmë në dukje këtu se artikulli do të mbulojë punën në 11 versione të programit.

Si rregull, versionet e ndryshme të ABBYY FineReader nuk janë shumë të ndryshme nga njëri-tjetri. Ju lehtë mund të bëni të njëjtën gjë në tjetrën. Dallimet kryesore mund të jenë në lehtësinë, shpejtësinë e programit dhe aftësive të tij. Për shembull, versionet e mëparshme refuzojnë të hapin një dokument PDF dhe DJVU ...

3) Dokumentet për të skanuar

Po, kështu që këtu, kam vendosur për të marrë dokumentet në një kolonë të veçantë. Në shumicën e rasteve, skanoni ndonjë tekst, gazeta, artikuj, revista etj ato libra dhe literaturë që është në kërkesë. Cfare po i drejtoj? Nga përvoja personale, mund të them se shumë që dëshironi të skanoni - mund të jetë tashmë në internet! Sa herë kam kursyer personalisht kohën kur kam gjetur një libër apo një tjetër të skanuar tashmë në rrjet. Unë thjesht duhej ta kopjoja tekstin në dokument dhe të vazhdoja me të.

Nga kjo këshilla e thjeshtë - para se të skanoni diçka, kontrolloni nëse dikush ka skanuar dhe nuk keni nevojë të humbni kohën tuaj.

2. Opsionet e skanimit të tekstit

Këtu, unë nuk do të flas për shoferët tuaj për skaner, programet që shkuan me të, sepse të gjitha modelet skaner janë të ndryshme, software është gjithashtu e ndryshme kudo dhe guessing dhe madje edhe më qartë duke treguar se si të kryejnë operacion është joreale.

Por të gjithë skanerët kanë të njëjtat cilësime që mund të ndikojnë shumë shpejtësinë dhe cilësinë e punës tënde. Këtu për ta unë vetëm do të flas këtu. Do të rendis në listë.

1) Cilësia e skanimit - DPI

Së pari, cilësoni cilësinë e skanimit në opsionet jo më të vogla se 300 DPI. Është e këshillueshme që edhe të vendosni pak më shumë, nëse është e mundur. Sa më i lartë të jetë treguesi DPI, aq më e qartë do të shfaqet fotografia juaj, dhe kështu, përpunimi i mëtejshëm do të bëhet më shpejt. Përveç kësaj, sa më e lartë cilësia e skanimit - aq më pak gabime që më vonë duhet të korrigjoni.

Opsioni më i mirë siguron, zakonisht 300-400 DPI.

2) ngjyra

Ky parametër ndikon shumë në kohën e skanimit (nga rruga, DPI gjithashtu ndikon, por ato janë kaq të forta dhe vetëm kur përdoruesi vendos vlerat e larta).

Zakonisht ka tre mënyra:

- e zezë dhe e bardhë (e përkryer për tekst të thjeshtë);

- gri (i përshtatshëm për tekst me tabela dhe foto);

- ngjyra (për revista me ngjyra, libra, në përgjithësi, dokumente, ku ngjyra është e rëndësishme).

Zakonisht koha e skanimit varet nga zgjedhja e ngjyrës. Në fund të fundit, nëse keni një dokument të madh, edhe 5-10 sekonda shtesë në faqe si një e tërë do të rezultojë në një kohë të mirë ...

3) Fotografitë

Ju mund të merrni dokumentin jo vetëm duke skanuar, por edhe duke marrë një pamje të saj. Si rregull, në këtë rast do të keni disa probleme të tjera: shtrembërim i imazhit, blurring. Për shkak të kësaj, mund të kërkojë përpunim dhe përpunim më të gjatë të tekstit të pranuar. Personalisht, unë nuk e rekomandoj përdorimin e kamerave për këtë biznes.

Është e rëndësishme të theksohet se jo çdo dokument i tillë do të njihet, sepse kualiteti i skanimit mund të jetë jashtëzakonisht i ulët ...

3. Njohja e tekstit të dokumentit

Supozojmë se faqet e interesuara që keni skanuar keni marrë. Më shpesh ato janë formate: tif, bmb, jpg, png. Në përgjithësi, për ABBYY FineReader - kjo nuk është shumë e rëndësishme ...

Pas hapjes së figurës në ABBYY FineReader, programi, si rregull, në makinë fillon të zgjedhë zonat dhe t'i njohë ato. Por ndonjëherë ajo e bën atë gabim. Për këtë ne e konsiderojmë zgjedhjen e zonave të dëshiruara me dorë.

Është e rëndësishme! Jo të gjithë e kuptojnë menjëherë se pas hapjes së një dokumenti në program, dokumenti burimor është shfaqur në të majtë në dritare, në të cilën ju theksoni fusha të ndryshme. Pas klikimit mbi butonin "njohja", programi në dritaren e djathtë do t'ju sjellë tekstin e përfunduar. Pas njohjes, nga rruga, është e këshillueshme të kontrolloni tekstin për gabime në të njëjtën FineReader.

3.1 Tekst

Kjo zonë përdoret për të nxjerrë në pah tekstin. Fotot dhe tabelat duhet të përjashtohen prej saj. Fonts të rralla dhe të pazakonta do të duhet të futen me dorë ...

Për të zgjedhur një zonë teksti, i kushtoni vëmendje panelit në krye të FineReader. Ekziston një buton "T" (shihni screenshot më poshtë, treguesi i mausit është vetëm në këtë buton). Klikoni mbi të, pastaj në foton më poshtë zgjidhni zonën e rregullt drejtkëndëshe në të cilën gjendet teksti. Nga rruga, në disa raste ju duhet të krijoni blloqe teksti 2-3, dhe nganjëherë 10-12 për faqe, sepse Formatimi i tekstit mund të jetë i ndryshëm dhe mos zgjidhni tërë zonën me një drejtkëndësh.

Është e rëndësishme të theksohet se imazhet nuk duhet të bien në zonën e tekstit! Në të ardhmen, kjo do t'ju kursejë shumë kohë ...

3.2 Piktura

Përdoret për të nxjerrë në pah imazhet dhe ato zona që janë të vështira për t'u njohur për shkak të cilësisë së dobët ose fontit të pazakontë.

Në screenshot më poshtë, treguesi i mausit gjendet në butonin e përdorur për të zgjedhur zonën "foto". Nga rruga, absolutisht çdo pjesë e faqes mund të zgjidhen në këtë fushë, dhe FineReader pastaj do ta futë atë në dokument si një imazh normal. dmth vetëm "budalla" do të kopjojë ...

Në mënyrë tipike, kjo zonë përdoret për të nxjerrë në pah tabelat e skanuara keq, për të nxjerrë në pah tekstin dhe fontin jo-standard, vetë imazhet.

3.3 Tabelat

Shikimi i mëposhtëm tregon butonin për të nxjerrë në pah tabelat. Në përgjithësi, unë e përdor personalisht shumë rrallë. Fakti është se ju duhet të tërhiqni (në të vërtetë) çdo rresht në tavolinë dhe të tregoni se çfarë dhe si programi. Nëse tabela është e vogël dhe në cilësi jo shumë të mirë, unë rekomandoj që të përdorni zonën "foto" për këto qëllime. Duke kursyer shumë kohë, dhe pastaj mund të krijoni shpejt një tabelë në Word në bazë të një pamjeje.

3.4 Artikujt e panevojshëm

Është e rëndësishme të theksohet. Ndonjëherë ka elemente të panevojshme në faqe që e bëjnë të vështirë njohjen e tekstit, ose nuk ju lejojnë të zgjidhni zonën e dëshiruar fare. Ato mund të hiqen duke përdorur "gomë" në të gjitha.

Për ta bërë këtë, shkoni te modaliteti i redaktimit të imazhit.

Zgjidhni mjetin e gomës dhe zgjidhni zonën e padëshiruar. Do të fshihet dhe në vendin e saj do të jetë një fletë e bardhë letre.

Nga rruga, unë rekomandoj që ta përdorni këtë mundësi sa më shpesh që të jetë e mundur. Provoni të gjitha zonat e tekstit që keni zgjedhur, ku nuk keni nevojë për një pjesë të tekstit, ose ka ndonjë pikë të panevojshme, blurriness, shtrembërimet - fshini me një gomë. Falë këtij njohja do të jetë më e shpejtë!

4. Njohja e skedarëve PDF / DJVU

Në përgjithësi, ky format i njohjes nuk do të jetë i ndryshëm nga të tjerët - dmth. Ju mund të punoni me të ashtu si me fotot. E vetmja gjë që programi nuk duhet të jetë versioni shumë i vjetër, nëse nuk hapni skedarë PDF / DJVU - përditësoni versionin në 11.

Një këshillë e vogël. Pas hapjes së dokumentit në FineReader - automatikisht do të fillojë të njohë dokumentin. Shpesh në skedarë PDF / DJVU, një zonë specifike e faqes nuk është e nevojshme gjatë tërë dokumentit! Për të hequr një zonë të tillë në të gjitha faqet, bëj si në vijim:

1. Shko te seksioni i redaktimit të imazhit.

2. Aktivizo opsionin "zvogëlim".

3. Zgjidhni zonën që ju nevojitet në të gjitha faqet.

4. Klikoni aplikoni për të gjitha faqet dhe shkurtojeni.

5. Gabim në kontrollimin dhe ruajtjen e rezultateve të punës

Do të duket se mund të ketë probleme të tjera, kur të gjitha fushat janë përzgjedhur, atëherë njihen - merre dhe ruajeni ... Nuk ishte atje!

Së pari, ne duhet ta kontrollojmë dokumentin!

Për ta aktivizuar atë, pas njohjes, në dritaren në të djathtë, do të ketë një buton "kontroll", shihni screenshot më poshtë. Pas klikimit të tij, programi FineReader automatikisht do t'ju tregojë ato zona ku programi ka gabime dhe nuk mund të përcaktojë me besueshmëri një ose një simbol tjetër. Ju vetëm do të duhet të zgjidhni, ose jeni dakord me mendimin e programit, ose shkruani karakterin tuaj.

Nga rruga, në gjysmën e rasteve, përafërsisht, programi do t'ju ofrojë një fjalë të gatshme të drejtë - vetëm duhet të përdorni miun për të zgjedhur opsionin që dëshironi.

Së dyti, pas kontrollit ju duhet të zgjidhni formatin në të cilin ruani rezultatin e punës suaj.

Këtu FineReader ju jep një kthesë të plotë: ju thjesht mund të transferoni informacionin në Word një-në-një, dhe ju mund ta ruani atë në një nga dhjetëra formate. Por dua të theksoj një aspekt tjetër të rëndësishëm. Cilado format që zgjidhni, është më e rëndësishme të zgjidhni llojin e kopjes! Shqyrto opsionet më interesante ...

Kopje të saktë

Të gjitha fushat që keni zgjedhur në faqen në dokumentin e njohur do të përputhen pikërisht në dokumentin burimor. Një opsion shumë i përshtatshëm kur është e rëndësishme që ju të mos humbni formatimin e tekstit. Nga rruga, fonts gjithashtu do të jetë shumë e ngjashme me origjinalin. Unë rekomandoj me këtë mundësi për të transferuar dokumentin në Word, për të vazhduar punën e mëtejshme atje.

Kopje e Editable

Ky opsion është i mirë, sepse ju merrni një version të formatuar tashmë të tekstit. dmth Bërja e "kilometrës", e cila mund të ketë qenë në dokumentin origjinal - nuk do të takoheni. Opsioni i dobishëm kur do të redaktoni në mënyrë domethënëse informacionin.

Vërtetë, ju nuk duhet të zgjidhni nëse është e rëndësishme që ju të ruani stilin e dizajnit, fonts, indents. Ndonjëherë, nëse njohja nuk është shumë e suksesshme - dokumenti juaj mund të "anashkalohet" për shkak të formatimit të ndryshuar. Në këtë rast, është e këshillueshme të zgjidhni një kopje të saktë.

Teksti i thjeshtë

Një opsion për ata që kanë nevojë vetëm për tekstin nga faqja pa gjithçka tjetër. I përshtatshëm për dokumente pa fotografi dhe tavolina.

Kjo përfundon artikullin e skanimit dhe njohjes së dokumentit. Unë shpresoj se me ndihmën e këtyre këshillave të thjeshta mund të zgjidhni problemet tuaja ...

Fat i mirë!