OCR CuneiForm, lai pilnībā atpazītu fotografētu vai skenētu tekstu. Labākās teksta atpazīšanas programmas

Sākums / Mobilās ierīces

Tiklīdz cilvēks izgudroja datoru, viņš sāka tam nodot savas zināšanas. Kopš galvenā zināšanu nesēja pirms parādīšanās datortehnika bija grāmatas, radās problēma - kā uzkrāto informāciju ātri pārvērst “digitālā”? Būtu muļķīgi šim nolūkam izmantot visvienkāršāko un acīmredzamāko grāmatu pārvēršanas veidu digitālā formātā - manuālu rakstīšanu. Cilvēce jau tūkstošiem gadu uzkrāj dažādus tekstus, tāpēc to atkārtotas “uzrakstīšanas” process aizņemtu neticami ilgu laiku. Lai atrisinātu šo problēmu, bija jāatrod daži vienkārši un efektīvs veids teksta atkārtotas ievadīšanas procesa automatizācija. Tā radās dažādas optiskās rakstzīmju atpazīšanas tehnoloģijas jeb saīsināti OCR (optical rakstzīmju atpazīšana). Mūsdienās ikviens students un skolēns ir iepazinies ar mašīnrakstītās lapas pārveidošanu teksta dokumentā. Drukātais teksts tiek skenēts (vai fotografēts), pēc tam izmantojot speciālu programmatūra dators analizē teksta momentuzņēmumu un izceļ to attēlā atsevišķi elementi un izveido jaunu dokumentu, kurā tiek ievadīti visi atpazītie burti un simboli. Šāds dokuments parasti ir rediģējams, tāpēc jūs varat labot mašīnas atpazīšanas kļūdas un strādāt ar to tāpat kā ar drukātu tekstu. Atkarībā no avota teksta sarežģītības un skenētā attēla kvalitātes, dokumenta apstrādes process ar OCR lietojumprogrammu aizņem vairāk vai mazāk laika. Par laimi, šodien procedūra drukātā teksta pārveidošanai formātā elektroniskais dokuments tas aizņem daudz mazāk laika nekā pirms dažiem gadiem - datoru aparatūras iespējas pēdējo desmit gadu laikā ir ievērojami palielinājušās, un, pateicoties pastāvīgiem attēlu analīzes algoritmu uzlabojumiem, kļūdu līmenis ir kļuvis daudz zemāks. Turklāt tagad teksta atpazīšanu var uzticēt pat tiešsaistes pakalpojumiem, kuru priekšrocības salīdzinājumā ar parastajām darbvirsmas lietojumprogrammām ir acīmredzamas - nav jātērē dārga programmatūra un jātērē laiks lietojumprogrammas instalēšanai. Visbeidzot, izmantojot tiešsaistes atpazīšanas rīkus, jūs varat iegūt rediģējamu tekstu no attēla pat datoros, kur vienkārši nav iespējas instalēt programmas, piemēram, publiskā datorā bibliotēkā.

⇡ FineReader tiešsaistē

Sāksim ar ABBYY tiešsaistes pakalpojumu. Nav pārsteidzoši, ka tā kā teksta atpazīšanas sistēmu izmanto populāro programmu FineReader. Šim produktam nav nepieciešama reklāma – šodien šo aplikāciju var uzskatīt par vienu no labākajām OCR iespējām.

Šīs programmas veiksmīgai reklamēšanai ir daudz iemeslu. Pirmkārt, tas ir noslīpēts algoritms drukāto rakstzīmju identificēšanai. Populārākās optiskās teksta atpazīšanas sistēmas FineReader dzinējs gadu gaitā ir uzlabots, un attēlu analīzes dzinējs ir uzlabojies no versijas uz versiju. Programmā tika veiktas dažādas izmaiņas un uzlabojumi, kas samazināja neatpazīto vai nepareizi identificēto rakstzīmju skaitu, apstrādājot skenētu attēlu. FineReader ietver daudzus rīkus un palīgrīkus, kas ļauj to veikt precīza regulēšana programmas, uzlabot oriģinālā attēla kvalitāti, noteikt atpazīstamo rakstzīmju veidu, iestatīt apgabalus apstrādei utt. Tiešsaistes pakalpojums ir bezmaksas projekts, kas ļauj lietotājiem novērtēt FineReader precizitāti. Viena no tās galvenajām priekšrocībām ir atbalsts lielam skaitam definētu valodu (kopā ir pieejamas 37 valodas). Lai izmantotu pakalpojumu, ir jāreģistrējas. Tā kā šim projektam daļēji ir reklāmas raksturs, tā teksta atpazīšanas iespējas ir ievērojami ierobežotas. Pirmkārt, attēlu analīze notiek pilnībā automātiskajā režīmā. Lietotājs var norādīt tikai atpazīšanas valodu un iespējot opciju, kas ļaus saņemt saiti uz atpazīšanas rezultātu uz ievadīto e-pasta adresi. Otrkārt, serverī augšupielādētā faila lielums nedrīkst pārsniegt 10 megabaitus. Bet visnepatīkamākais ierobežojums nav liels skaits dokumentus, kurus var atpazīt. Iet zem viena kontu, varat apstrādāt ne vairāk kā desmit failus. Tomēr jūs piekrītat, ka tas nav slikti. FineReader Online var apstrādāt arī tekstus, kas satur jebkuru atbalstīto valodu kombināciju. Tomēr pakalpojums neļauj vienam dokumentam atlasīt vairāk kā trīs atpazīšanas valodas. Izstrādātāji to motivē ar to, ka līdzīga funkcija ievērojami palēninātu teksta atpazīšanas procesu. Gatavo teksta atpazīšanas rezultātu var saglabāt kādā no formātiem – MS Word (.doc), MS Excel (.xls), PDF, PDF/A, RTF un TXT. Principā dienests tiek galā ar uzdevumu un identificē tekstu. Tomēr, godīgi sakot, jāsaka, ka pat ļoti laba kvalitāte oriģinālais attēls nesniedz 100% atpazīšanas garantiju. Pat tik “ideālu” attēlu kā rīka padoma ekrānuzņēmumu pakalpojuma lapā FineReader Online atpazina ar kļūdām.

⇡ ocrNow!

ocrNow! ir Lielbritānijas pakalpojums, kas arī izmanto FineReader kā teksta atpazīšanas sistēmu. Jau reģistrācijas stadijā var izvēlēties formātu, kādā dati tiks saglabāti pēc noklusējuma – RTF, PDF, XLS, XLM, TXT vai Web arhīvs. Varat mainīt formātu katru reizi, kad augšupielādējat jaunu failu. Papildus ir iespēja saņemt tekstu pa pastu. Ir vērts atzīmēt, ka rezultātus var iesaiņot ZIP arhīvā, kas samazinās laiku, kas nepieciešams iegūtā faila lejupielādei. Pakalpojums atbalsta attēlu lejupielādi TIF, PNG un JPG (JPEG) formātos, kā arī PDF formātā. Turklāt varat augšupielādēt ZIP arhīvus, kuros ir atbalstīti failu tipi, un tie tiks automātiski izsaiņoti un apstrādāti. ZIP arhīvs ir ērts ne tikai tāpēc, ka tas ļauj samazināt serverī augšupielādējamo failu apjomu, bet arī tāpēc, ka tas ļauj augšupielādēt vairākus failus vienlaikus.

OcrNow! strādā ar sešpadsmit valodām, ieskaitot dokumentus krievu, angļu, franču, čehu, spāņu, itāļu valodā. Valoda tiek atlasīta, lejupielādējot failu. Pat ja nenorādīsiet valodu, pakalpojums mēģinās to noteikt automātiski, tomēr iespējams, ka tas kļūdīsies, tāpēc valodu tomēr labāk izvēlēties manuāli. Ir vērts atzīmēt, ka jūs varat izvēlēties tikai vienu valodu. Katrs reģistrētais lietotājs saņem divus bezmaksas kredītus, ar kuriem var atpazīt divas A4 lapas. Ja jums ir nepieciešams strādāt ar O Ja ir vairāk datu, jums ir jāiegādājas kredīti. To izmaksas ir atkarīgas no tā, cik daudz kredītu jūs nolemjat iegādāties vienlaikus. Piemēram, ja jūs pērkat 20 kredītpunktus, tad vienas A4 lapas atpazīšana maksās 0,1 mārciņu sterliņu mārciņu (apmēram 4,6 rubļi), un, ja pērkat uzreiz 500 kredītus, tad vienas lapas atpazīšanas izmaksas samazināsies līdz aptuveni 2,96 rubļiem. Pakalpojuma veidotāji piedāvā īpašu utilītu, kas ļauj to izmantot kopā ar Apple iPhone. Izmantojot šo programmu, varat fotografēt dokumentus un pēc tam nosūtīt tos dienestam un saņemt rezultātus. Bezmaksas versijaŠī programma ļauj apstrādāt desmit fotoattēlus, un komerciālā versija, kas noņem šo ierobežojumu, maksās 14 USD.

Lietotāji, kuri bieži piekļūst pakalpojumam no sava galddators, ieteicams lejupielādēt utilītu Unimessage Solo, kas paredzēts failu skenēšanai. Šīs programmas īpatnība ir tā, ka tā integrējas ar ocrNow! Turklāt ar tā palīdzību izveidotos failus var augšupielādēt Facebook.

⇡ OnlineOCR.ru

Šis pakalpojums ir komerciāls. Lai ar to strādātu, jāiegādājas kredīti, katrs kredīts ir iespēja atpazīt vienu dokumenta lapu. Tomēr pat demonstrācijas režīmā to var izmantot nelielu teksta fragmentu tulkošanai. Serviss piedāvā ļoti ērtu failu augšupielādi – vienlaicīgi var augšupielādēt vairākus attēlus serverī, iepakojot tos ZIP arhīvā. Maksimālais faila izmērs ir 20 megabaiti, taču var izmantot arī lielākus failus, taču, lai iegūtu šo iespēju, jāsazinās ar servisa administrāciju. Kā avota formāts grafiskais fails Varat izmantot TIFF (tostarp vairāku lappušu dokumentus), JPEG/JPG, BMP, PCX, PNG, GIF, PDF.

Ja lietojat no šī pakalpojuma Ja tiek atpazīts vairāku lappušu dokuments, piemēram, PDF, atpazīšanai varat norādīt tikai atsevišķas lapas. Lai to izdarītu, atpazīšanas iestatījumos ir jāatzīmē izvēles rūtiņa pretī "Dokuments vairākām lappusēm" un laukā lappušu diapazons jānorāda vajadzīgās lapas, atdalot tās ar komatiem (vai ar defisi atdalītu lapu diapazonu). Ja norādāt, teiksim, "4.13", pakalpojums atpazīs tikai ceturto un trīspadsmito lappusi. Demonstrācijas režīmā pakalpojums OnlineOCR.ru neatpazīst visu tekstu, bet tikai daļu no tā. Kopumā pakalpojums atbalsta 28 valodas, tostarp krievu, angļu, baltkrievu, ungāru, holandiešu, grieķu, dāņu, spāņu, latviešu, latīņu, vācu, poļu, zviedru, somu, franču, ukraiņu uc Pakalpojums ļauj saglabāt failus ar atpazīšanas rezultātiem virtuālā tiešsaistes birojā, rediģējiet, nosūtiet tos pa pastu un izdrukājiet.

⇡NewOCR.com

NewOCR.com projekts neprasa reģistrāciju vai papildu naudas izdevumus no lietotāja puses. Pakalpojumam ir minimālistisks interfeiss, un tā iestatījumi ir saistīti ar valodas izvēli. Ja ielādētajam attēlam ir nepareiza orientācija, piemēram, skenēšanas laikā tas tika pagriezts par 90 grādiem, attēla pagriešanas leņķi varat iestatīt pakalpojuma nolaižamajā izvēlnē. Grafiskā faila apstrādes kvalitāte atstāj daudz vēlamo - gala dokumentā ir daudz atpazīšanas kļūdu, tāpēc diez vai ir vērts izmantot šo pakalpojumu, lai apstrādātu lielu lapu skaitu. Šo trūkumu nedaudz mazina fakts, ka projekts atbalsta darbu ar 29 valodām (ieskaitot krievu valodu).

Jūs varat atpazīt attēlus JPEG formāti, PNG, GIF, BMP un vairāku lappušu TIFF faili. Faila izmēri nedrīkst pārsniegt piecus megabaitus, un vairāku lappušu PDF dokumentiem ierobežojums ir 20 megabaiti. Pēc skenētā attēla apstrādes serviss rezultātu demonstrēs atsevišķā laukā, blakus augšupielādētā attēla kopijai. Atpazīto tekstu var eksportēt .doc vai .txt formātā.

⇡ Bezmaksas-OCR.com

Šo pakalpojumu var izmantot bez maksas, un tam nav nepieciešama reģistrācija. Lai aizsargātu pret surogātpastu, tiek izmantots kontroles attēls (Captcha). Tomēr, izvēloties šo pakalpojumu failu apstrādei, jāņem vērā ierobežojumi, kas attiecas uz apstrādātajiem attēliem. Tādējādi serverī augšupielādēto failu lielums ir ierobežots līdz diviem megabaitiem. Vēl viens pakalpojuma ierobežojums, kas attiecas uz lejupielādētajiem failiem, ir tāds, ka katra grafiskā attēla izšķirtspēja nedrīkst pārsniegt 5000 pikseļus. Turklāt Free-OCR.com nosaka apstrādāto dokumentu skaita ierobežojumu. Stundā varat augšupielādēt ne vairāk kā desmit attēlus.

Ieslēgts šobrīd Pakalpojums nevar atpazīt vairāku lappušu PDF vai TIFF dokumentus, tāpēc, apstrādājot šādus failus, tiek atpazīta tikai pirmā lapa. Pakalpojums ļauj apstrādāt lapas ar daudzām teksta kolonnām. Free-OCR.com iestatījumos nevar atlasīt vairāk kā vienu valodu, tāpēc, mēģinot atpazīt, piemēram, krievu tekstu ar angļu valodas terminiem, būs daudz kļūdu. Kopējais atbalstīto valodu skaits, kuras var atlasīt atpazīšanai, ir diezgan liels - divdesmit deviņas, ieskaitot krievu valodu. Dokumentu atpazīšanas kvalitāte ir apmierinoša.

⇡ Secinājums

Ne visi tiešsaistes teksta atpazīšanas pakalpojumi tiek nodrošināti bez maksas. Tomēr viņu radītāju pieprasītā cena ir ievērojami zemāka nekā specializētās programmatūras izmaksas. Protams, ja jums katru dienu ir jāatpazīst desmitiem dokumentu, tad maksāt tiešsaistes pakalpojuma veidotājiem, visticamāk, jums nebūs izdevīgi - vienreiz maksāt par programmas licenci būs daudz lētāk. Bet, ja šādus rīkus izmantojat tikai laiku pa laikam, tad vieglāk ir samaksāt par vajadzīgā lappušu skaita atpazīšanu vai mēģināt iztikt ar pilnīgi bezmaksas pakalpojumiem.

22

Vai, piemēram, OCR programmatūra uzticami pārtulkos attēlu vērtību sarakstā?

Sīkāk uzdevums ir šāds:

Mums ir klienta lietojumprogramma, kurā lietotājs var atvērt pārskatu. Šajā pārskatā ir vērtību tabula. Bet ne katrs pārskats izskatās vienādi - dažādi fonti, dažādas atstarpes, dažādas krāsas, iespējams, pārskatā ir daudz tabulu ar dažādu rindu/kolonnu skaitu...

Lietotājs izvēlas atskaites apgabalu, kurā ir peles lietojuma tabula.

Tagad mēs vēlamies pārveidot atlasīto tabulu vērtībās - izmantojot mūsu OCR rīku.

Laikā, kad lietotājs izvēlas taisnstūra apgabalu, es varu pieprasīt papildu informāciju lai palīdzētu OCR procesā, un lūgt apstiprinājumu, ka vērtības ir atpazītas pareizi.

Sākotnēji tas būs eksperimentāls projekts un tāpēc, visticamāk, ar OpenSource OCR rīku vai vismaz tādu, kas eksperimentāliem nolūkiem nemaksā naudu.

  • 7 atbildes
  • Šķirošana:

    Aktivitāte

18

Vienkāršā atbilde ir JĀ, jums tikai jāizvēlas pareizie rīki.

Es nezinu, vai ar atvērtu pirmkods iegūt gandrīz 100% precizitāti šajos attēlos, taču, pamatojoties uz šeit sniegtajām atbildēm, iespējams, jā, ja veltīsit kādu laiku, lai mācītos un atrisinātu tabulas parsēšanas un tamlīdzīgu problēmu.

Kad mēs runājam par komerciālu OCR, piemēram, ABBYY vai citiem, tas nodrošinās jums 99%+ precizitāti un automātiski noteiks tabulas. Nekādas apmācības, nekas, tikai strādā Mīnuss ir tāds, ka par to ir jāmaksā $$. Daži iebilst, ka atvērtā koda gadījumā jūs maksājat savu laiku, lai to iestatītu un sniegtu ieguldījumu, taču tas ir jūsu ziņā.

Tomēr, ja mēs runājam par komerciāliem instrumentiem, patiesībā ir izvēle. Un tas ir atkarīgs no tā, ko vēlaties. Iepakotie produkti, piemēram, FineReader, faktiski koncentrējas uz ievades dokumentu pārveidošanu rediģējamos dokumentos, piemēram, Word vai Excel. Jo jūs faktiski vēlaties saņemt datus, bet ne Word dokuments, iespējams, jums vajadzēs izpētīt citu produktu kategoriju - Data Capture, kas būtībā ir OCR un papildu loģika, lai lapā atrastu nepieciešamos datus. Rēķina gadījumā tas varētu būt uzņēmuma nosaukums, kopējā summa, izpildes datums, tabulas pozīcijas utt.

Datu tveršana ir sarežģīta un prasa zināmu apmācību, taču, ja to izmanto pareizi, var nodrošināt garantētu precizitāti, tverot datus no dokumentiem. Tas izmanto dažādus noteikumus datu savstarpējai validācijai, datu bāzu meklēšanai utt. Tas var iesniegt datus manuālai pārbaudei, ja nepieciešams. Uzņēmumi plaši izmanto Data Capture lietojumprogrammas, lai katru mēnesi tvertu miljoniem dokumentu un lielā mērā paļaujas uz datiem, kas iegūti ikdienas darbplūsmā.

Ir arī OCR SDK, kas nodrošinās piekļuvi API OCR rezultātiem, lai jūs varētu ieprogrammēt, ko darīt ar datiem.

Ja aprakstīsiet savu uzdevumu sīkāk, varu sniegt padomus, kurā virzienā ir vieglāk doties.

ATJAUNINĀT

Tātad tas, ko jūs darāt, būtībā ir datu vākšanas lietotne, taču tā nav pilnībā automatizēta, izmantojot tā saukto "noklikšķināt, lai indeksētu" pieeju. Tirgū ir daudz lietojumprogrammu, kurās jūs skatāt attēlus, un operators noklikšķina uz attēla teksta (vai ap to zīmē lodziņu) un pēc tam aizpilda laukus datu bāzē. Šī ir laba pieeja, ja apstrādājamo attēlu skaits ir salīdzinoši mazs un manuālā darba slodze nav pietiekami liela, lai attaisnotu pilnībā automatizētas lietojumprogrammas izmaksas (jā, ir pilnībā automatizēta automatizētas sistēmas, kas var izveidot attēlus ar dažādiem fontiem, atstarpēm, izkārtojumu, rindu skaitu tabulās utt.).

Ja nolemjat izstrādāt materiālu un nevis to iegādāties, tad viss, kas jums jādara, ir jāizvēlas OCR SDK. Visi lietotāja interfeiss, ko tu pats rakstīsi, vai ne? Liela izvēle - izlemiet: atvērtā koda vai komerciāla.

Labākais atvērtais avots ir Tesseract OCR, cik es zinu. Tas ir bezmaksas, taču var rasties reālas problēmas ar tabulas parsēšanu, taču ar manuālo zonējumu tai nevajadzētu radīt problēmas. Kas attiecas uz OCR precizitāti: cilvēki bieži māca OCR izmantot fontu, lai uzlabotu precizitāti, taču jums tā nevajadzētu būt, jo fonti var atšķirties. Tāpēc jūs varat vienkārši izmēģināt tesseraktu un redzēt, kāda veida precizitāte jūs iegūstat — tas ietekmēs daudzumu paštaisīts lai to labotu.

Komerciālā OCR nodrošinās lielāku precizitāti, taču tas maksās naudu. Es domāju, ka jums joprojām vajadzētu redzēt, vai tas ir tā vērts, vai jums pietiek ar tesserack. Es domāju, ka visvairāk vienkāršā veidā tā būtu ielāde izmēģinājuma versija kādu OCR produktu logu, piemēram, FineReader. Jūs sapratīsit, kāda precizitāte būs OCR SDK.

5

Par kādu OCR tu runā?
Vai izstrādāsit kodus, pamatojoties uz šo OCR, vai arī izmantosit kaut ko no plauktiem?

tas ir ieviesis izpildāmu dokumentu lasītāju, lai jūs varētu tajā ievadīt visu lapu, un tas izvilks rakstzīmes jūsu vietā. Tas diezgan labi atpazīst atstarpes, tas var palīdzēt ar ciļņu atstarpēm.

0

Sveiks, Gerij, jā, es jau sāku apskatīt Tesseract, bet pēc pirmajiem pāris eksperimentiem neveicās. Piemēram bitkarte ko es nosūtīju ar jautājumu, es saņemu rezultātu " Tukša lapa" Bet varbūt man vienkārši jānorāda pareizie parametri? - GaretsOvens 30. maijs. 11 2011-05-30 07:39:55

1

Es saviem pētījumiem izmantoju OCR jau vairākus gadus. Es gandrīz nekad nesaņemu tukšu lapu, ja vien to neiesniedzu. Tomēr dažreiz es tos saņemu, jo 1) @tesseract binerizācija izfiltrē lielāko daļu vērtīgās informācijas 2) pat pēc labas binerizācijas rakstzīmes nevar atpazīt, jo a) atstarpe starp rakstzīmēm ir pārāk maza (rakstzīmes ir pārāk blīvi iepakotas) . b) rakstzīmes nav tādas, ko agrāk mācīja Tesserac. Vai esat mēģinājis palielināt attēlu, lai tas atbilstu 400%% no sākotnējā attēla? Man ar šo paveicās! - Gerijs Tsui 30. maijs. 11 2011-05-30 07:44:43

0

+1: Es noņēmu baltās līnijas no savējām testa attēls, palielinājās par 400%, un pēc tam Tesseract veica 100% precīzu otrās vērtību kolonnas atpazīšanu (pirmā vērtība tiek ignorēta). Izskatās daudzsološi, bet man vēl jāpaeksperimentē. - GaretsOvens 30. maijs. 11 2011-05-30 08:15:41

3

Tas tiešām ir atkarīgs no īstenošanas.

Ir vairāki parametri, kas ietekmē OCR atpazīšanas spēju:
1. Cik labi OCR ir apmācīts - piemēru datu bāzes lielums un kvalitāte
2. Cik labi apmācīts atklāt "junku" (arī zinot, kas ir burts, ir jāzina, kas NAV burts).
3. Dizains un OCR tips
4. Ja tas ir nervu tīkls, nervu tīkla struktūra ietekmē tā spēju mācīties un "risināt".

Tātad, ja vien neizgatavojat pats, atliek tikai pārbaudīt dažādus veidus, līdz atrodat piemērotu.

15

Ja jūsu tabulā vienmēr ir stingras apmales, varat izmēģināt šo risinājumu:

Pretējā gadījumā dokuments ir bez tabulas laukiem, varat mēģināt sekot šai rindai:

OCR ir diezgan pārsteidzoša lieta, taču tā ne vienmēr ir perfekta. Lai iegūtu vislabākos rezultātus, varat izmantot tīrāko iespējamo ievadi. Savos sākotnējos eksperimentos es atklāju, ka OCR veikšana visam dokumentam faktiski darbojās diezgan labi, tāpat kā tad, kad noņēmu šūnu apmales (garās horizontālās un vertikālās līnijas). Tomēr programmatūra saspieda visas atstarpes tukšā vietā. Tā kā manos ievades dokumentos bija vairākas kolonnas ar vairākiem vārdiem katrā kolonnā, šūnu robežas pazuda. Attiecību uzturēšana starp šūnām bija ļoti svarīga, tāpēc viens no iespējamie risinājumi bija uz katras šūnas apmales uzzīmēt unikālu rakstzīmi, piemēram, "^" — kaut ko tādu, ko OCR atpazīs un ko vēlāk varētu izmantot, lai atdalītu iegūtās rindas,

Es atradu visu šo informāciju šajā saitē, pajautājot Google "OCR to table". Autors ir publicējis pilnu algoritmu, izmantojot Python un Tesseract, abus atvērtā koda risinājumus!

Ja vēlaties izmēģināt Tesseract spēku, iespējams, jums vajadzētu izmēģināt šo vietni:

Mēs arī cīnījāmies ar OCR problēmām tabulās. Ir divi risinājumi, kas to var izdarīt uzreiz: ABBYY Recognition Server un ABBYY FlexiCapture. Rec Server ir liela apjoma servera puses OCR rīks, kas paredzēts liela apjoma dokumentu konvertēšanai meklēšanas formātā. Lai gan tas ir pieejams ar API šiem lietojumiem, mēs iesakām FlexiCapture. FlexiCapture nodrošina zema līmeņa kontroli pār datu ieguvi no tabulu formātiem, tostarp automātisku tabulas elementu noteikšanu lapā. Tas ir pieejams pilnā API versijā bez priekšgala vai ārzonas versijā, ko mēs pārdodam. Sazinieties ar mani, ja vēlaties uzzināt vairāk.

3

Es izmantoju OCR skenētus dokumentus kopš 98. gada. Šī ir atkārtota problēma skenētiem dokumentiem, īpaši tiem, kuros ir pagrieztas un/vai šķības lapas.

Jā, ir vairākas labas komerciālas sistēmas, un dažas no tām pēc labi noregulētas var nodrošināt pārsteidzošus datu pārraides ātrumus, vienlaikus nepieciešama operatora palīdzība tikai tiem ļoti degradētajiem laukiem. Ja es būtu jūsu vietā, es paļautos uz dažiem no tiem.

Ja komerciālas izvēles apdraud jūsu budžetu, OSS var palīdzēt. Bet "bezmaksas pusdienu nav." Tāpēc jums būs jāpaļaujas uz virkni īpaši izstrādātu skriptu, lai palielinātu pieejamu risinājumu lai apstrādātu jūsu dokumentāciju. Par laimi, jūs neesat viens. Patiesībā daudzi cilvēki to ir piedzīvojuši pēdējo desmitgažu laikā. Tātad, IMHO, šajā rakstā nav sniegta labākā un īsākā atbilde uz šo jautājumu:

Diezgan bieži parādās nepieciešamība strādāt ar tekstu, kas parādīts grafisko failu veidā. Neatkarīgi no tā, vai tas ir attēls, skenēts dokuments vai fotokopija, tajās esošās informācijas manuāla ierakstīšana var aizņemt diezgan ilgu laiku.

Programmas pārskats

Šim nolūkam ir liels skaits programmu. Lai sāktu ar tiem strādāt, pietiek ar attēlu vai skenētu dokumentu, kas jāpārvērš tekstā. Lielākajai daļai no tām ir līdzīgas funkcijas, taču tajā pašā laikā tiem ir arī unikāli rīki, kas piemēroti konkrētiem mērķiem.

Kā nepazust to daudzveidībā, un kuriem no tiem ir vērts pievērst uzmanību? Mēs to aplūkosim tālāk.

CuneiForm

Pirmā programma, uz kuru mēs pievērsīsimies, ir CuneiForm. Šī ir bezmaksas programmatūra no Cognitive Technologies. Tās galvenais mērķis ir elektronisku kopiju vai attēlu veidā iesniegtu tekstu optiskā atpazīšana. Tas ātri pārvērš grafisko failu tekstā, ar kuru varat strādāt jebkurā biroja lietojumprogrammā.


Programmas galvenās iezīmes:

Vēl vairāk OCR

Freemore OCR ir līdzīga savās funkcijās. Šī ir vienkārša un brīvi pieejama programma, ar kuru var izvilkt tekstu no dažādu formātu attēliem un PDF dokumentiem. Kad skenēšana ir pabeigta, rezultātu var saglabāt failā, ko var atvērt ar Notepad vai Word.


Freemore OCR ir: Pievērsiet uzmanību! Šādu pieteikumu darbs ar dokumentiem PDF formātā izejmateriāls.

FreeOCR

FreeOCR ir vēl viena ērta OCR lietotne. Tam ir intuitīvs interfeiss, un tajā ir visu šim nolūkam nepieciešamo rīku komplekts. Ir vērts atzīmēt, ka programmas izvēlne ir ieslēgta angļu valoda, taču, pateicoties neparastajai pieejai tā dizainam, tas ir saprotams ikvienam lietotājam. Lietderība atbalsta darbu ar dažādiem attēliem dažādos formātos un PDF failiem.

FreeOCR funkcijas:

  1. iespēja konvertēt attēlus visos populārajos formātos;
  2. standarta izvēlnes trūkums, kura vietā lietotājam tiek piedāvātas lielas ikonas, kas attēlo vēlamo darbību;
  3. minimālistisks interfeiss, kas satur tikai būtisko;
  4. atbalsts daudzu valodu, tostarp krievu, atpazīšanai;
  5. zemas sistēmas prasības.

Svarīgi! Lai instalētu FreeOCR, ir jābūt savienojumam ar internetu. Pēc programmas palaišanas tā automātiski atjauninās savu datu bāzi un lejupielādēs trūkstošās vārdnīcas no tiešsaistes krātuves. Ja FreeOCR darbības laikā konstatē nepazīstamas rakstzīmes vai valodu, tas var arī ieteikt atjauninājumu.

Video: teksta atpazīšana no attēla

VienkāršsOCR

SimpleOCR ir līdzīga programma teksta atpazīšanai pēc skenēšanas. Tas ir lieliski piemērots darbam ar svešvalodas, jo tai ir liels un pastāvīgi pilnveidojams vārdu krājums. Turklāt standarta komplekts funkcijas, ir iespēja meklēt vārdu vai kombināciju iegūtajā tekstā un uzlabotas formatēšanas opcijas. Labi piemērots lielu tekstu apstrādei.

SimpleOCR atšķirīgās iezīmes:


RiDoc

RiDoc ir lietojumprogramma, kuras galvenā funkcija ir strādāt ar skenētām dokumentu kopijām un pārvērst tās vienkāršā tekstā.

Viss ir gatavs skenēšanai - vienkārši pievienojiet printeri un sāciet strādāt, pēc tam programma sāks apstrādāt atlasītos failus.

  1. Turklāt tas ļauj samazināt dokumenta izmēru, nezaudējot izejmateriāla kvalitāti. RiDoc funkcijas:
  2. liels rīku komplekts darbam ar printeriem, atbalsts populārākajiem modeļiem;
  3. iespēja apvienot vairākus dokumentus vienā failā, rediģēt un sakārtot tos;
  4. galerijas izveide, kurā tiek glabāti visi iegūtie rezultāti;
  5. eksportēt uz MS Word, PDF un grafiskajiem failiem; nosūtot rezultātu, izmantojot e-pasts
  6. tieši no lietojumprogrammas saskarnes;
  7. izveidot ūdenszīmes, kas aizsargā rezultātu;

ātrums un ērtības.

img2txt img2txt -, kas pārvērš dažāda veida grafiskos failus teksta materiālā. Programma atbalsta lielāko daļu zināmo formātu, ir viegli lietojama un ir brīvi pieejama.

Galvenās funkcijas un īpašības:

  1. dažādu formātu attēlu konvertēšana teksta failos;
  2. dokumentu skenētu atpazīšana un teksta fragmenti attēlos;
  3. ārkārtīgi vienkārša izvēlne ar pietiekamu rīku komplektu;
  4. rezultāta saglabāšana dažādos formātos;
  5. bezmaksas izplatīšana.

Pievērsiet uzmanību! img2txt, tāpat kā citām līdzīgām aplikācijām, ir sava tiešsaistes versija, kuras izstrādei un uzlabošanai tagad savu uzmanību pievērš tā veidotāji.

Saulainā lapa

SunnyPage ir ērta utilīta, kas ļauj lejupielādēt un konvertēt dažāda veida attēlus, neatkarīgi no tā, vai tā ir skenēta dokumenta kopija, attēls vai fotoattēls labā kvalitātē.

Tā atbalsta arī darbu ar PDF dokumentiem. Programma ietver plašu vārdnīcu un automātisku valodas atpazīšanas funkciju.

  1. Turklāt SunnyPage:
  2. atbalsta papildu vārdnīcu lejupielādi un jaunu vārdu un frāžu manuālu pievienošanu;
  3. strādā ar lieliem apjomiem ar iespēju tos saglabāt vienā failā; ir virkne funkciju attēlu rediģēšanai, automātiskie iestatījumi
  4. to spilgtums un defektu novēršana;
  5. “lasa” zināmākos formātus;
  6. ļauj saglabāt rezultātu Word failā;

ir daudzvalodu interfeiss.

Abbyy Finereader skenēšanas un teksta atpazīšanas programma ABBYY FineReader ir pelnīti labākā šāda veida teksta atpazīšanas programma.

Tās popularitāte ir saistīta ar visu nepieciešamo funkciju klātbūtni, ko lietotājs meklē šādās lietojumprogrammās. Tas ir pilnībā savietojams ar Microsoft Office, kas ļauj sākt darbu ar dokumentu uzreiz pēc konvertēšanas procesa pabeigšanas.


Ko var darīt ABBYY FineReader?

Capture2Text Capture2Text ir pārnēsājama lietojumprogramma, kurai ir plašs funkciju klāsts darbam ar dokumentiem. Viņa atšķirīga iezīme

ir iespēja uzņemt ekrānuzņēmumu vai tā daļu un saglabāt to kā attēlu. Pēc tam jūs varat sākt strādāt, pārsūtot saņemto informāciju dokumentā tradicionālos formātos.

Capture2Text nav nepieciešama instalēšana, un to var palaist no zibatmiņas diska. Tas padara to pielietojamu daudzās jomās un vienkārši neaizvietojamu tiem, kam vienmēr pa rokai ir nepieciešams vienkāršs un jaudīgs pārveidotājs.

  • standarta attēlu (attēlu, skenējumu, fotokopiju) konvertēšana Word dokumentos;
  • runas atpazīšana (ieskaitot krievu valodu) un rakstīšana ar balsi;
  • spēja piešķirt karstos taustiņus;
  • teksta tveršana no darbvirsmas vai tās daļas un turpmāka apstrāde.

Google dokumenti

Papildus visām iepriekš minētajām utilītprogrammām Google dokumentos ir pieejama teksta fragmentu optiskās atpazīšanas funkcija. Šis pakalpojums atbalsta darbu ar failiem JPG, PNG un GIF formātos, kā arī vairāku lappušu PDF dokumentiem. Avoti var būt attēli, kas iegūti, izmantojot skenerus, kā arī parastās fotogrāfijas.

Ir vērts atzīmēt, ka, izmantojot šo pakalpojumu, oriģinālais formatējums ne vienmēr tiek saglabāts. Dažas struktūras, piemēram, saraksti, kolonnas un zemsvītras piezīmes, var tikt zaudētas.

To lielā mērā ietekmē lejupielādētā grafiskā faila kvalitāte. Saņemtos dokumentus var saglabāt pakalpojumā Google disks, pēc tam lejupielādēts datorā vai nosūtīts pa e-pastu.

Katrai no aplūkotajām programmām ir pietiekami daudz rīku, lai izpildītu sākotnējo mērķi - failu konvertēšanu dažādi formāti V teksta dokumenti. Tomēr tie atšķiras savā komplektā papildu funkcijas, interfeiss un atbalstītās valodas. Lai strādātu, jāizvēlas lietojumprogramma (vai vairākas), kas atbilst jūsu vajadzībām un spēj visprecīzāk tikt galā ar uzdevumu.

>

Papīrs kā galvenais informācijas nesējs pamazām zaudē savu nozīmi. Ja iespējams, papīra dokumentu vietā izmantojiet to elektronisko versiju. Bet kā pārveidot esošos arhīvus elektroniskā formā? Lai atrisinātu šo problēmu, tie tika izveidoti īpašas programmas teksta atpazīšanai.

Kas ir OCR programmas un kā tās darbojas?

Šajos programmatūras produktos tiek izmantota ORC (optiskā rakstzīmju atpazīšanas) vai ICR (inteliģences rakstzīmju atpazīšanas) tehnoloģija. Šie saīsinājumi krievu valodā tiek tulkoti kā “optiska” vai “inteliģenta rakstzīmju atpazīšana”.

Programmas, kas izmanto OCR, darbojas šādi. Fotoattēls ar tekstu, kas saņemts no skenera, ir sadalīts daudzos fragmentos. Katram no tiem lietojumprogramma rada vairākus pieņēmumus. Pārbaudot tos un salīdzinot ar standartiem, katram fragmentam tiek piešķirts sakritības pakāpei atbilstošs vērtējums. Izvēloties lielāko no tiem, programma “redz” simbolu un parāda to iebūvētā teksta redaktora laukā.

IRC darbojas pēc tāda paša principa, bet izmanto mākslīgo neironu tīkli. Šīs metodes galvenā priekšrocība ir programmu kompaktums un nepārtraukta apmācība. Tas ļauj efektīvi atpazīt vārdus, kurus cilvēks rakstījis ar roku rakstītiem burtiem. Taču šī tehnoloģija nespēj “nolasīt” cietu ar roku rakstītu tekstu.

Par katru no esošajiem operētājsistēmas Mēs esam izstrādājuši paši savas OCR programmas. Populārākie darbam operētājsistēmā Windows ir:

  • ABBYY FineReader;
  • OmniPage;
  • Readiris;
  • Samsung Scan OCR programma;

Papildus datorprogrammām ir pieejami daudzi tiešsaistes teksta atpazīšanas pakalpojumi. Starp tiem slavenākie ir FineReader Online, OnlineOCR, FreeOCR.

ABBYY FineReader 14

Šo programmatūras produktu izstrādāja vietējais uzņēmums ABBYY, un tas ir viens no labākajiem programmām, kas izmanto OCR. Programmas pamatā ir oriģināls dzinējs ar nosaukumu Finereader Engine. Tas nodrošina šādas funkcijas:

  • Ātra drukātā teksta atpazīšana ar precizitāti, kas pārsniedz 98%. Imūns pret oriģinālā attēla kvalitāti. Tas ļauj to pašu izmantot fotogrāfijās, kas uzņemtas, izmantojot skeneri vai kameru.
  • ADRT tehnoloģija ļauj atpazīt ne tikai tekstu, bet arī tā formatējumu: fontu, atkāpes, rindkopas, kolonnas.
  • Daudzpavedienu iespējas Tas ļauj izmantot visus procesora kodolus (ne vairāk kā 4), lai paātrinātu atpazīšanas procesu.
  • Atbalsta vairāk nekā 190 valodas, tostarp tās, kurās tiek izmantots cits alfabēts, nevis latīņu vai kirilicas (japāņu, ķīniešu, arābu).
  • Iebūvētais teksta redaktors ļauj pārbaudīt atpazīšanas rezultātu vai to rediģēt.
  • Mijiedarbība ar Biroja pakotne. Tas ļauj eksportēt atpazīto tekstu uz Microsoft Word un Excel tālākai apstrādei.
  • Treniņu programmas iespēja. Šī funkcija ļauj apmācīt programmu “lasīt” noteiktus burtu stilus. Piemēram, pielāgots fonts vai ar roku rakstīti drukātie burti.
  • Darbs ar PDF. FineReader ļauj atpazīt tekstu no šī faila veida un apvienot vairākus skenētus attēlus PDF vai PDF/A formātā.

Šīs programmas galvenais trūkums ir cena. Pastāvīgā licence par pamata versija maksās 7 tūkstošus rubļu. Versijas "Bizness" un "Uzņēmums" - attiecīgi 12 un 39 tūkstoši rubļu. Ja plānojat programmu izmantot tikai mājās, varat lejupielādēt uzlauzto produkta 11. vai 12. versiju no torrentu izsekotāja.

Sistēmas prasības:

  • Procesors: 32 bitu vai 64 bitu, vairāk nekā 1 GHz ar atbalstu SSE 2 instrukciju kopai (. Intel Celeron M un labāks, AMD Athlon 64 un labāks).
  • RAM: 1 GB. Ja procesoram ir vairāk nekā 1 kodols, tad katram papildus nepieciešami 512 MB.
  • Cietais disks: 3 GB - uzstādīšanai un darbībai.
  • Skeneris: atbalsta TWAIN un WIA draiverus.
  • OS: Windows 7,8,8.1,10.

Lietotāju viedokļi par FineReader 14

Viņi pozitīvi runā par FineReader, kā vienu no priekšrocībām izceļot produkta spēju atpazīt tekstu no sliktiem papīra oriģināliem, ērtu un vienkāršu saskarni un liels ātrums attēlu apstrāde.

Starp problēmām, kas rodas, izmantojot šo OCR programmu, daži lietotāji atzīmē, ka attēlu pārvaldnieks nedarbojas pareizi. Piemēram: neadekvāta skenētā attēla spilgtuma regulēšana.

OmniPage 18

FineReader galvenais konkurents Krievijas tirgus ORC programmas. Funkcionalitātes ziņā tas ir ļoti līdzīgs pretiniekam, taču tam ir vairākas atšķirības:

  • Iespēja sākt skenēšanas un atpazīšanas procesu, izmantojot skenera pogas.
  • Atbalsts 4 kodolu procesoriem. Tas ļauj samazināt atpazīšanas laiku un konvertēt vairākus attēlus vienlaikus.
  • Savas elektroniskās bibliotēkas izveide Kindle e-lasītājam (elektroniskajai grāmatai).
  • Automātiska noteikšana atzīta valoda.

Starp programmas trūkumiem ir: zems ātrums darbs salīdzināms ar 10 FineReader versija, un licencētās kopijas cena ir 150 USD.

Sistēmas prasības:

  • Procesors: x32 vai x64 bitu, ar takts frekvenci, kas lielāka par 1 GHz, Intel Pentium un labāk, AMD Athlon un labāk.
  • RAM: 512 MB.
  • Videokarte: jebkura, kas atbalsta 1024 x 800 izšķirtspēju un 16 bitu krāsu dziļumu.
  • Cietais disks: 1,1 GB visu komponentu uzstādīšanai un 100 MB darbībai.
  • Skeneris: atbalsta TWAIN, WIA un ISIS draiverus.
  • OS: Windows XP SP3, Vista SP2 x32/x64, 7.8.

Lietotāju viedokļi par OmniPage

Viņi par viņu runā ļoti negatīvi, jo... Problēmas ir visās programmas daļās, sākot no skaista, bet nesaprotama saskarnes līdz sliktai palīdzības informācijai. Produkts nav pielāgots darbam WinXP. To var panākt, lai tas darbotos, taču tas prasīs kādu laiku.

OmniPage ir atpazīšanas problēmas. Piemēram: tas viegli atpazīst vienkāršu melnu tekstu uz papīra lapas ar attēliem vai tabulām, kas saņemtas no skenera. Izmantojot attēlus no kameras vai mobilais tālrunis atpazīšanas precizitāte samazinās līdz 70%, un tas ir ļoti neērti, apstrādājot lielus dokumentus.

Arī 18. versija var netikt startēta koda kļūdu dēļ. Lai novērstu šo problēmu, jāinstalē ielāps 18.01.

Izlasiet Iris Pro 17

Read Iris ir OCR programma, kas par mazāku naudu (8000 pret 12000) var salīdzināt ar FineReader funkcionalitāti un veiktspēju. Profesionālajai versijai ir šādas funkcijas:

  • Pilns darbs ar PDF: atpazīšana, failu izveide datu bāzēm, teksta saspiešana un runa.
  • Atbalsta 140 valodas.
  • Papīra tabulu un tekstu atpazīšana ar iespēju eksportēt uz Excel un Word.
  • Saņemiet attēlus no jebkura skenera modeļa.

Ir arī uzņēmuma versija, kas ļauj aizsargāt PDF failus ar ūdenszīmēm un strādāt ar dokumentiem, kas pārsniedz 50 lappuses.

Sistēmas prasības:

  • Procesors: x86 vai x64, 1 GHz vai lielāks.
  • RAM: 1 GB.
  • Videokarte: jebkura, kas atbalsta 1024x800 izšķirtspēju.
  • Cietais disks: 400 MB instalēšanai.
  • Skeneris: atbalsta TWAIN, WIA draiverus.
  • OS: Windows 7,8,10 x32/x64.

Lietotāju viedokļi par ReadIris

Viņi šo OCR teksta atpazīšanas programmu vērtē kā labu un ātru PDF formātu Vārdu pārveidotājs ar vairākām problēmām:

  • Sarežģīts interfeiss, kuru iesācējam nav viegli saprast.
  • Automātiski atkārtoti skenē dokumentu, kad mainās skenēšanas apgabals.
  • Slikti tehniskais atbalsts.
  • Dažreiz programma neaktivizējas programmas koda kļūdu dēļ.

Samsung Scan OCR programma — kas ir šī programma?

Šī ir bezmaksas programmatūra, kas iekļauta Samsung trīsfunkcionālajās ierīcēs (printeris, skeneris, kopētājs). Tas tika izstrādāts sadarbībā ar Iris, ReadIris Pro veidotājiem, un ir optimizēts darbam ar ražotāja MFP. Samsung Scan ORC no oriģinālā "Ridiris" atšķiras ar savu interfeisu, samazinātu funkcionalitāti un izmēru – cietajā diskā tas aizņem 40 MB.

Tiešsaistes pakalpojumi

Tās ir alternatīva resursietilpīgām darbvirsmas teksta atpazīšanas programmām. Piemēram, OCR programma FineReader. Šādu projektu sistēmu īpašības ļauj atpazīt tekstu no attēliem daudz ātrāk nekā atsevišķā datorā. Starp pakalpojumiem, kas izvelk tekstu no fotoattēliem, ir 3 ērtākie: FineReaderOnline, FreeOCR, OnlineOCR.

Pirmais ir produkta stacionārās versijas tieša izstrāde. Reģistrējoties jaunam lietotājam tiek piešķirtas 10 bezmaksas lapas, kas jāapstrādā un 5 katru mēnesi. Šo ierobežojumu varat atcelt, iegādājoties gada abonementu attiecīgi par 3200, 5500, 17800 rubļiem par 2000, 5000 un 10000 lapām. Ja lietotājam ir FineReader 14 licence, viņam tikai jāreģistrējas un jāaktivizē tā izmantošanai tiešsaistes versijā. Šajā gadījumā viņš saņems iegādātās licences veidam atbilstošu lappušu skaitu: "Standarta" (2000), "Bizness" (5000) vai "Uzņēmums" (10000).

Pakalpojums OnlineOCR.com ļauj pārvērst tekstā 15 attēlus stundā (ierobežojums nereģistrētiem lietotājiem) un saglabāt tos kā .docx, .xlsx vai .txt failus. Pēc reģistrācijas kļūst pieejams:

  • Saglabāšana .pdf, .doc, .xlx, .rtf formātā.
  • Konvertējiet vairāku lappušu PDF failus.
  • Lapu skaits palielinās līdz 50.

Ja nav pietiekami daudz lapu, tad tās var iegādāties 50-50 000 gab.

FreeOCR.com projekts atšķiras no iepriekšējā ar to, ka tas ir pilnīgi bezmaksas un tam nav nekādu ierobežojumu attiecībā uz apstrādāto lapu skaitu. Šīs vietnes OCR dzinējs atbalsta krievu, ukraiņu, turku, vjetnamiešu un visas Eiropas valodas - kopumā 29 šī portāla trūkums ir tas, ka tas darbojas tikai ar grafiskiem attēliem, kas tiek ielādēti secīgi, jo apstrādes rinda nav pieejama. ko nodrošina veidotāji. Atpazītā informācija tiek parādīta bez formatējuma TXT formātā.

Lietotāju viedokļi par tiešsaistes OCR pakalpojumiem

Šīs vietnes ir nepieciešamas gadījumos, kad pilnvērtīgas ORC programmas lejupielāde un instalēšana ir nepraktiska. Piemēram, lai abstraktā ievietotu vairākus garus citātus no grāmatas vai žurnāla. Starp šādu vietņu trūkumiem ir nosacītā bezmaksas pieejamība (FineReader) un vāja funkcionalitāte (FreeOCR, OnlineOCR).

Apkopojot, mēs varam teikt, ka ir izveidots daudz OCR programmu teksta atpazīšanai ar attēliem vai PDF failiem, un rakstā ir parādītas tikai slavenākās. Tāpēc katrs lietotājs varēs izvēlēties skenerim atbilstošu OCR programmu atbilstoši savām prasībām un budžetam. Vai arī izmantojiet kādu no daudzajiem bezmaksas OCR pakalpojumiem.

OCR CuneiForm varēs skenēt un uzreiz atpazīt papīra dokumentāciju, izmantojot optisko rakstzīmju atpazīšanas tehnoloģiju rediģējamos teksta un tabulu formātos, kas ir saderīgi ar Microsoft Office Word un Excel. Tad labāk ir saglabāt un rediģēt materiālus biroja paketes, teksta un izklājlapu redaktori, Microsoft analogi Word un Microsoft Excel. Programma tiek izplatīta "kā ir", izstrādātāji nav atbildīgi saistībā ar iespējamās problēmas un var anulēt bezmaksas licenci nākamajām versijām, tāpēc jums vajadzētu pasteigties un jaunākā versija OCR CuneiForm bezmaksas lejupielāde operētājsistēmai Windows 10, 8.1, 8, 7, Vista, XP, Linux vai Mac OS X. Izstrādātāji iesaka ietaupīt laiku, izmantojot CuneiForm, ievērojot principu: jo labāk ir skenēt un atpazīt, jo ātrāk izlabojiet un iegūstiet gatavo rezultātu.

Jaunu tehnoloģiju sasniegumu pielietošana CuneiForm

21. gadsimta sākumā tika uzskatīts, ka ABBYY FineReader nav pareizi funkcionējošas alternatīvas. Neskatoties uz to, ka pastāv dažādas OCR teksta atpazīšanas programmas, ABBYY FineReader joprojām ir viens no līderiem dokumentu skenēšanas un digitalizācijas nozarē. Tas turpinājās, līdz pieredzējušākie lietotāji mēģināja pilnībā atpazīt fotografētu vai skenētu tekstu, lejupielādējot OCR CuneiForm 12 bez maksas bez reģistrācijas un SMS un pārbaudot šīs patiesi bezmaksas programmas iespējas Windows. Izrādījās, ka CuneiForm OCR iespējas nekādā ziņā nav zemākas par ABBYY FineReader.

OCR CuneiForm var uzreiz identificēt visas dažādu stilu un fontu dizaina standarta rakstzīmes. Var atpazīt grāmatas, žurnālus, skrejlapas, avīzes, drukas lapas, faksa sūtījumus, neveiksmīgas xerox kopijas, tekstus no senām rakstāmmašīnām utt., izņemot dekoratīvos fontus un manuskriptus. IN programmas kods CuneiForm izmanto vairākas unikālas novatoriskas optiskās rakstzīmju atpazīšanas tehnoloģijas, piemēram: adaptīvā atpazīšana, izmantojot no fonta neatkarīgas instrukcijas, neironu analītisko normalizācijas tīklus, alternatīvu teksta interpretācijas iespēju kognitīvo analīzi, īpašus algoritmus matricas printerim, zemas kvalitātes fotokopēšanas rezultātus, faksi. un mašīnrakstītās lapas un citas. Ja jums tas viss ir jāizmanto uzņēmējdarbībai, jūs vienmēr varat bez maksas lejupielādēt CuneiForm operētājsistēmai Windows 10, 8. CuneiForm var atjaunot absolūtu avota koda kopiju. Tiek saglabāts formatējums un strukturēšana, atkāpes, galvenes un kājenes, zemsvītras piezīmes, indeksi, kolonnu skaits un izmēri, rindkopas, atsevišķu teksta fragmentu izkārtojums, tabulas elementi un ilustrācijas, fontu stili un citi fontu dizaina elementi.

OSR CuneyForm saskarne, valodas, vārdnīcas un funkcionalitāte

OCR CuneiForm lieliski atpazīst un digitalizē dokumentāciju, ir viegli lietojams un nerada problēmas iesācējiem, jo ​​tam ir ērts krievu valodas interfeiss, iebūvēti padomi un rīka padomi. Lejupielādei un savienošanai ir pieejamas populāras CuneyForm grafiskās saskarnes: YAGF, OCR Feeder, CF-Qt, Puma un citi. Standarta GUI ir visi rīki, kas nepieciešami skenēta vai fotografēta teksta pilnīgai atpazīšanai. Daudzvalodu saskarne dzimtajā valodā palīdz paātrināt operatora izpratni par darbības principiem un paplašināt izmantoto iespēju klāstu. Iestatījumos ir pieejama konfigurācija rakstzīmju atpazīšanai krievu, angļu, krievu-angļu un 20 citu Eiropas valodu izkārtojumos. Tūlītējās atpazīšanas kvalitāte uzlabojas, izmantojot vārdnīcas, kuras var paplašināt, importējot vārdus no vārdnīcu failiem.

Programmas OCR CuneiForm galvenās funkcionālās priekšrocības:

  • pienācīga OCR atpazīšana un ātrums,
  • automātiskā izvēle optimālie iestatījumi skenēšana,
  • skenētu, fotografētu vai citādi saņemtu attēlu imports,
  • pagriešana, apvēršana, inversija, tīrīšana un cita attēlu rediģēšana,
  • vairākas iespējas teksta rindkopu, tabulu un attēlu identificēšanai,
  • V notiekošais darbs jebkuri materiāli, izņemot dekorus un manuskriptus,
  • vārdu krājuma atbalsts, lai uzlabotu kvalitāti,
  • avotu un simbolisku rezultātu salīdzinoša demonstrācija,
  • OCR saderība ar vairāk nekā divdesmit valodām, ieskaitot krievu valodu.

Bezmaksas pieejamība, daudzas priekšrocības, ātrums un darbības problēmu trūkums ir spēcīgi argumenti, lai lejupielādētu CuneiForm bez maksas krievu versijas vietnē. Augsto tehnoloģiju izmantošana garantē augstas kvalitātes skenēšanu un dokumentācijas atpazīšanu no papīra vai rastra failiem formātos, kas piemēroti rediģēšanai atbilstošos redaktoros.

Daži vēsturiski fakti

Kognitīvās tehnoloģijas tika izveidotas 1993. gadā, pamatojoties uz Krievijas Zinātņu akadēmijas galveno AI centru. Zinātnisko un praktisko pētījumu rezultātā parādījās pirmā CuneiForm. 1993. gada beigās tika parakstīts OEM līgums ar Corel Corporation, saskaņā ar kuru CuneyForm kods tika iekļauts Corel Draw pakotnē. Pēc tam pēc daudzu gadu pārtraukuma uzņēmums izlaida projektu, pārtraucot programmas pārdošanu un atbalstu, taču programma CuneiForm ir tik laba, ka šodien labākais un lētākais veids, kā skenēt un atpazīt krievu tekstu, ir lejupielādēt OCR CuneiForm krievu versiju. bez maksas savā datorā.

Drīz vien šis programmatūras produkts izrādījās viens no populārākajiem optiskās teksta atpazīšanas rīkiem un ieguva pozitīvas atsauksmes un komentārus no lietotājiem oficiālajā cognitiveforms vietnē domēnā com, tematiskajās vietnēs un forumos, kā arī sociālajos tīklos. Mūsdienās CuneiForm izceļas no citu optiskās rakstzīmju atpazīšanas programmatūras pūļa ar izcilu zemas kvalitātes dokumentācijas atpazīšanu. Starp KuniForm priekšrocībām ir augstas kvalitātes papīra dokumentācijas un rastra failu digitālais tulkojums ar eksportu uz vairāku formātu tekstu un Microsoft Office Word un Excel tabulām vai to analogiem.

Kļūda mijiedarbībā ar skeneriem

Skenēšana uz HP, Epson, Mustek, Canon un dažiem citiem ir pilns ar kļūdu. Šīs problēmas iemesls ir TWAIN saskarnes mijiedarbības ar aprīkojumu niansēm. Problēmu var atrisināt, vienkārši rediģējot rindiņu ar TWAIN_TransferMode saturu failā C:\Windows\face.ini uz stāvokli: TWAIN_TransferMode=memory-native un restartējot programmu. Parasti šodien šādas problēmas netiek novērotas, un, lai no papīra dokumenta iegūtu rediģējamu elektronisko versiju, jums vienkārši ir nepieciešams bez maksas lejupielādēt CuneiForm krievu valodā no šīs vietnes lapas bez reģistrācijas un SMS un izmantot to savā paredzētajam mērķim. Tas ietaupīs laiku un atbrīvos jūs no manuālas teksta ievadīšanas programmā Microsoft Word un tabulām programmā Microsoft Excel vai līdzīgā programmatūrā.

Lejupielādējiet jaunāko CuneiForm 12 versiju bez maksas krievu valodā

Bezmaksas programmas lejupielādēt bez maksas

Tagad jūs atrodaties vietnes lapā ar nosaukumu "OCR CuneyForm pilnīgai fotografēta vai skenēta teksta atpazīšanai", kur ikvienam ir iespēja legāli lejupielādēt programmas datoram no Microsoft Windows. Šī lapa tika izveidota/būtiski atjaunināta 09/10/2015. Paldies, ka apmeklējāt sadaļu.

© 2024 ermake.ru - Par datoru remontu - Informācijas portāls