Сканаванне і распазнаванне тэксту

Добры дзень.

Напэўна, кожны з нас сутыкаўся з задачай, калі трэба перавесці папяровы дакумент у электронны выгляд. Асабліва гэта часта трэба рабіць тым хто вучыцца, працуе з дакументацыяй, перакладае тэксты пры дапамозе электронных слоўнікаў і г.д.

У гэтым артыкуле мне хацелася б падзяліцца некаторымі асновамі гэтага працэсу. Наогул, сканаванне і распазнаванне тэксту - даволі працаёмка, так, як большасць аперацый прыйдзецца рабіць уручную. Мы паспрабуем разабрацца па кроках, што, як і чаму.

Не ўсе адразу разумеюць адну рэч. Пасля сканавання (прыгону ўсіх лістоў на сканары) у вас будуць карцінкі фармату BMP, JPG, PNG, GIF (могуць быць і іншыя фарматы). Дык вось з гэтага малюначка трэба атрымаць тэкст - гэта працэдура называецца распазнаннем. У такім парадку і будзе выклад ніжэй.

змест

  • 1. Што трэба для сканавання і распазнанні?
  • 2. Параметры сканавання тэксту
  • 3. Распазнанне тэксту дакумента
    • 3.1 Тэкст
    • 3.2 Малюнкі
    • 3.3 Табліцы
    • 3.4 Непатрэбныя элементы
  • 4. Распазнанне файлаў PDF / DJVU
  • 5. Праверка памылак і захаванне вынікаў працы

1. Што трэба для сканавання і распазнанні?

1) Сканер

Для перакладу друкаваных дакументаў у тэкставы выгляд, вам для пачатку патрэбен сканер і адпаведна, "родныя" праграмы і драйверы, якія з ім ішлі. Пры дапамозе іх можна будзе сканаваць дакумент і захаваць яго для далейшай апрацоўкі.

Можна карыстацца і іншымі аналагамі, але софт, які ішоў са сканарам у камплекце, звычайна працуе хутчэй і мае больш опцый.

У залежнасці ад таго, які ў вас сканер - хуткасць працы можа істотна адрознівацца. Ёсць сканеры, якія могуць атрымаць карцінку з ліста за 10 сек., Ёсць якія будуць атрымліваць за 30 сек. Калі сканируете кнігу на 200-300 лістоў - думаю, не цяжка падлічыць у колькі разоў будзе розніца ў часе?

2) Праграма для распазнання

У нашым артыкуле я буду паказваць вам працу ў адной з лепшых праграм для сканавання і распазнанні абсалютна любых дакументаў - ABBYY FineReader. Бо праграма платная, то адразу дам спасылку і на іншую - яе бясплатны аналаг Cunei Form. Праўда, я б не стаў іх параўноўваць, з прычыны таго, што FineReader выйграе па ўсіх параметрах, рэкамендую ўсё ж паспрабаваць менавіта яе.

ABBYY FineReader 11

Афіцыйны сайт: //www.abbyy.ru/

Адна з лепшых праграм у сваім родзе. Яна прызначана для таго, каб распазнаць тэкст на малюнку. Ўбудавана мноства опцый і функцый. Можа разабраць кучу шрыфтоў, падтрымлівае нават рукапісныя варыянты (праўда, асабіста не спрабаваў, думаю, добра наўрад ці будзе распазнаваць рукапісны варыянт, калі толькі ў вас не ідэальны каліграфічны почырк). Больш падрабязна аб працы з ёй будзе расказана ніжэй. Тут жа адзначым, што ў артыкуле будзе расказана пра працу ў праграме 11 версіі.

Як правіла, розныя версіі ABBYY FineReader не моцна адрозніваюцца адзін ад аднаго. Вы без працы зробіце тое ж самае і ў іншы. Галоўныя адрозненні могуць быць у выгодзе, шпаркасці працы праграмы і яе магчымасцях. Напрыклад, больш раннія версіі адмаўляюцца адкрываць дакумент PDF і DJVU ...

3) Дакументы для сканавання

Так, вось так вось, вырашыў вынесці дакументы асобнай графой. У большасці выпадкаў скануюць якія-небудзь падручнікі, газеты, артыкулы, часопісы і інш. Г.зн. тыя кнігі і тую літаратуру якая карыстаецца попытам. Я гэта да чаго вяду? З асабістага вопыту магу сказаць, што многае, што вы захочаце сканаваць - магчыма ўжо ёсць у сеткі! Колькі разоў асабіста я эканоміў час, калі знаходзіў тую ці іншую кнігу ўжо сканаваць ў сетцы. Мне заставалася толькі скапіяваць тэкст у дакумент і працягнуць з ім працу.

З гэтага простая парада - перш чым нешта сканаваць, праверце, можа ўжо нехта адсканаваў і вам не трэба губляць свой час.

2. Параметры сканавання тэксту

Тут я не будуць распавядаць пра вашых драйверах для сканара, праграмах, якія разам з ім ішлі, бо ўсе мадэлі сканараў розныя, ПА таксама ўсюды рознае і адгадаць і тым больш паказаць наглядна як выконваць аперацыю - нерэальна.

Але ва ўсіх сканара ёсць адны і тыя ж налады, якія моцна могуць паўплываць на хуткасць і якасць вашай работы. Вось пра іх ткі як раз і пагаворым тут. Буду пералічваць па парадку.

1) Якасць сканавання - DPI

Па-першае, якасць сканавання пастаўце ў опцыях не ніжэй за 300 DPI. Пажадана нават выставіць пабольш, калі гэта магчыма. Чым вышэй паказчык DPI - тым выразней атрымацца ваша малюнак, ну і тым самым, хутчэй пройдзе далейшая апрацоўка. Да таго ж чым вышэй якасць сканавання - тым менш памылак вам у наступстве прыйдзецца выпраўляць.

Аптымальны варыянт забяспечвае, звычайна, 300-400 DPI.

2) Каляровасць

Гэты параметр вельмі моцна ўплывае на час сканавання (дарэчы, DPI таксама ўплывае, але тыя так моцна, і толькі калі карыстальнік ставіць высокія значэнні).

Звычайна вылучаюць тры рэжыму:

- чорна-белы (выдатна падыдзе для простага тэксту);

- шэры (падыдзе для тэксту з табліцамі і малюнкамі);

- каляровы (для каляровых часопісаў, кніг, увогуле, дакументаў, дзе важная каляровасць).

Звычайна ад выбару каляровасці залежыць час сканавання. Бо калі дакумент у вас вялікі, то нават лішнія 5-10 секунд на старонцы ў цэлым выльюцца ў прыстойны час ...

3) Фотаздымкі

Дакумент вы можаце атрымаць не толькі сканаваннем, але і сфатаграфаваўшы яго. Як правіла, у гэтым выпадку ў вас будуць некаторыя іншыя праблемы: скажэнне карцінкі, смазанность. З-за гэтага можа спатрэбіцца больш працяглая далейшая праўка і апрацоўка атрыманага тэксту. Асабіста я не рэкамендую карыстацца фота для гэтай справы.

Важна адзначыць, што не кожны такі дакумент атрымаецца распазнаць, бо якасць сканавання ў яго можа быць вельмі нізкім ...

3. Распазнанне тэксту дакумента

Будзем лічыць, што запаветныя сканаваныя старонкі вы атрымалі. Часцей за ўсё яны ўяўляюць сабой фарматы: tif, bmb, jpg, png. Увогуле-то, для ABBYY FineReader - гэта не моцна важна ...

Пасля адкрыцця ў ABBYY FineReader карцінкі, праграма, як правіла, на аўтамаце пачынае вылучаць вобласці і распазнаваць іх. Але часам яна робіць гэта не правільна. Для гэтага-то мы і разгледзім вылучэнне патрэбных абласцей ўручную.

Важна! Не ўсе адразу разумеюць, што пасля адкрыцця дакумента ў праграме, злева ў акне адлюстроўваецца зыходны дакумент, у якім вы і вылучаеце розныя вобласці. Пасля націску на кнопку "распазнання" праграма ў акне справа выведзе вам гатовы тэкст. Пасля распазнання, дарэчы, мэтазгодна праверыць тэкст на памылкі ў тым жа самым FineReader.

3.1 Тэкст

Гэтая вобласць выкарыстоўваецца для вылучэння тэксту. Малюнкі і табліцы трэба выключаць з яе. Рэдкія і незвычайны шрыфты прыйдзецца ўводзіць уручную ...

Для вылучэння тэкставай вобласці, звярніце ўвагу на панэль у верхняй частцы FineReader. Там ёсць кнопка "Т" (гл. Скрыншот ніжэй, паказальнік мышкі як раз на гэтай кнопцы). Пстрыкае па ёй, затым на малюнак унізе вылучаеце акуратна прастакутную вобласць, у якой размяшчаецца тэкст. Дарэчы, у некаторых выпадках трэба ствараць тэкставых блокаў па 2-3, а часам па 10-12 на старонку, бо фарматаванне тэксту можа быць розным і адным прастакутнікам ўсю вобласць не вылучыць.

Важна адзначыць, што ў межамі тэксту не павінны трапляць карцінкі! У далейшым гэта вам зэканоміць кучу часу ...

3.2 Малюнкі

Выкарыстоўваецца для вылучэння малюнкаў і тых абласцей, якія цяжка распазнаць з-за дрэннага якасці, або незвычайнасці шрыфта.

На скрыншоце ніжэй паказальнік мышкі знаходзіцца на кнопцы, якая выкарыстоўваецца для вылучэння вобласці "карцінка". Дарэчы, у гэтую вобласць можна здабыць канчаткова любую частку старонкі, а FineReader прымусіць яе потым у дакумент як звычайную карцінку. Г.зн. проста "тупа" скапіюе ...

Звычайна гэтую вобласць выкарыстоўваюць для вылучэння дрэнна адсканаваных табліц, для вылучэння нестандартнага тэксту і шрыфта, само-сабой малюнкаў.

3.3 Табліцы

На скрыншоце ніжэй паказана кнопка для вылучэння табліц. Наогул, асабіста я яе выкарыстоўваю вельмі рэдка. Справа ў тым, што вам прыйдзецца даволі руцінна маляваць (фактычна) кожную лінію на табліцы і паказваць што і як праграме. Калі табліца невялікая і ў не вельмі добрым якасці, я рэкамендую для гэтых мэтаў выкарыстоўваць вобласць "карцінка". Тым самым зэканоміце кучу часу, а табліцу можна потым у Word зрабіць хуценька на аснове карцінкі.

3.4 Непатрэбныя элементы

Важна адзначыць. Часам на старонцы ёсць непатрэбныя элементы, якія перашкаджаюць распазнаць тэкст, ці ўвогуле не даюць вам вылучыць патрэбную вобласць. Іх можна пры дапамозе "гумкі" выдаліць зусім.

Для гэтага пераходзім у рэжым рэдагавання выявы.

Выбіраем інструмент "гумка" і вылучаем непатрэбную вобласць. Яна сатрэцца і на яе месцы будзе белы аркуш паперы.

Дарэчы, рэкамендую выкарыстоўваць вам гэтую опцыю як мага часцей. Старайцеся ўсе тэкставыя вобласці якія вы вылучылі, дзе вам не патрэбен кавалак тэксту, або прысутнічаюць любыя непатрэбныя кропкі, размытасці, скажэнні - выдаляць гумкай. Дзякуючы гэтаму распазнаванне будзе хутчэй!

4. Распазнанне файлаў PDF / DJVU

Наогул, гэты фармат распазнання не будзе адрознівацца нічым іншым ад астатніх - г.зн. працаваць з ім можна гэтак жа як з малюнкамі. Адзінае, праграма не павінна быць занадта старой версіі, калі файлы PDF / DJVU у вас не адкрываюцца - абновіце версію да 11.

Невялікі савет. Пасля адкрыцця дакумента ў FineReader - ён аўтаматычна пачне распазнаваць дакумент. Часта ў файлах PDF / DJVU пэўная вобласць старонкі не патрэбна ва ўсім дакуменце! Каб выдаліць такую ​​вобласць на ўсіх старонках зрабіце наступнае:

1. Зайдзіце ў раздзел рэдагавання выявы.

2. Уключыце опцыя "абрэзкі".

3. Вылучыце вобласць, патрэбную вам на ўсіх старонках.

4. Націсніце прымяніць да ўсіх старонках і абрэжце.

5. Праверка памылак і захаванне вынікаў працы

Здавалася б, якія яшчэ могуць быць праблемы, калі ўсе вобласці былі вылучаныя, затым распазнаныя - бяры ды захоўвай ... Ці не тут тое было!

Па-першае, патрэбна праверка дакумента!

Каб яе ўключыць, пасля распазнання, у акне справа, будзе кнопка "праверка", гл. Скрыншот ніжэй. Пасля яе націску праграма FineReader будзе аўтаматычна паказваць вам тыя вобласці, дзе ў праграмы паўсталі памылкі і яна не змагла пэўна вызначыць той ці іншай знак. Вам застанецца толькі выбіраць, альбо вы згодныя з меркаваннем праграмы, альбо ўводзіце свой знак.

Дарэчы, у палове выпадкаў, прыкладна, праграма будзе вам прапаноўваць гатовае правільнае слова - вам застанецца толкьо пахай абраць патрэбны варыянт.

Па-другое, пасля праверкі вам трэба выбраць фармат, у які вы захаваеце вынік сваёй працы.

Тут FineReader дае вам разгарнуцца на поўную катушку: можна проста перадаць інфармацыю ў Word адзін у адзін, а можна захаваць яе ў адным з дзесяткаў фарматаў. Але хацелася б вылучыць іншы важны аспект. Які фармат б не абралі, больш важна выбраць тып копіі! Разгледзім самыя цікавыя варыянты ...

дакладная копія

Усе вобласці, якія вы вылучалі на старонцы ў распазнаецца дакуменце будуць адпавядаць рыхт у рыхт зыходнага дакумента. Вельмі зручны варыянт, калі вам важна не страціць фарматаванне тэксту. Дарэчы, шрыфты гэтак жа будуць вельмі падобныя на арыгінал. Рэкамендую пры такім варыянце перадаваць дакумент у Word, каб ужо там працягнуць далейшую працу.

рэдагуемыя копія

Гэты варыянт добры тым, што вы атрымаеце ўжо фарматаваны варыянт тэксту. Г.зн. водступаў з "кіламетр", якія магчыма былі ў зыходным дакуменце - вы не сустрэнеце. Карысная опцыя, калі вы будзеце значна рэдагаваць інфармацыю.

Праўда, не варта выбіраць, калі вам важна захаваць стылістыку афармлення, шрыфты, водступы. Часам, калі распазнаванне прайшло не вельмі паспяхова - ваш дакумент можа "перакасіць" з-за змененага фарматавання. У гэтым выпадку мэтазгодна выбраць дакладную копію.

просты тэкст

Варыянт для тых, каму патрэбны проста тэкст са старонцы без усяго астатняга. Падыдзе для дакументаў без малюнкаў і табліц.

На гэтым артыкул па сканаванні і распазнанні дакумента падышла да канца. Спадзяюся, што пры дапамозе гэтых простых саветаў вы зможаце вырашыць свае задачы ...

Ўдачы!