РАСПАЗНАВАННЕ ТЭКСТУ. БЯСПЛАТНАЯ ПРАГРАМА - АНАЛАГ FINEREADER

Рана ці позна, усё хто часта працуе з офіснымі праграмамі, сутыкаюцца з тыповай задачай - адсканаваць тэкст з кнігі, часопіса, газеты, проста лісточкаў, а затым перавесці гэтыя карцінкі ў тэкставы фармат, напрыклад, у дакумент Word.

Каб гэта зрабіць неабходны сканер і спецыяльная праграма для распазнання тэксту. У гэтым артыкуле пойдзе гаворка аб бясплатным аналагу FineReader -CuneiForm (Аб распазнанні ў FineReader - гл. У гэтым артыкуле).

Пачнем ...

змест

1. Асаблівасці праграмы CuneiForm, магчымасці
2. Прыклад распазнання тэксту
3. Пакетнае распазнаванне тэксту
4. Высновы

1. Асаблівасці праграмы CuneiForm, магчымасці

CuneiForm

Спампаваць можна з сайта распрацоўніка: //cognitiveforms.com/

Праграма для распазнання тэксту з адкрытым зыходным кодам. Да таго ж, працуе ва ўсіх версіях Windows: XP, Vista, 7, 8, што радуе. Плюс да гэтага дадайце поўны рускі пераклад праграмы!

плюсы:

- распазнаванне тэксту на 20 самых папулярных мовах свету (англійская і руская само сабой ўваходзіць у гэты лік);

- велізарная падтрымка розных друкаваных шрыфтоў;

- праверка па слоўніку распазнаны тэксту;

- магчымасць захавання вынікі працы ў некалькіх варыянтах;

- захаванне структуры дакумента;

- выдатная падтрымка і распазнаванне табліц.

мінусы:

- не падтрымлівае занадта вялікія дакументы і файлы (больш за 400 dpi);

- не падтрымлівае на прамую некаторыя тыпы сканараў (ну гэта не страшна, у камплект да драйвераў сканэра ідзе і спец. Праграма для сканавання);

- дызайн не бліскае (але каму ён патрэбен, калі праграма ў поўнай меры вырашыць задачу).

2. Прыклад распазнання тэксту

Будзем лічыць што неабходныя карцінкі для распазнання вы ўжо атрымалi (адсканаваць там, або спампавалі ў інтэрнэце кнігу ў фармаце pdf / djvu і дасталі з іх патрэбныя карцінкі. Як гэта зрабіць - гл. У гэтым артыкуле).

1) Адчыняны патрэбны малюнак у праграме CuineForm (файл / адкрыць або "Cntrl + O").

2) Каб прыступіць да распазнавання - трэба спачатку вылучыць розныя вобласці: тэксту, малюнкаў, табліц і пр. У праграме Cuneiform гэта можна зрабіць не толькі ў ручную, але і аўтаматычна! Для гэтага пстрыкніце па кнопцы "разметка" у верхняй панэлі акна.

3) Праз 10-15 сек. праграма аўтаматычна падсвятліць ўсе вобласці рознымі кветкамі. Напрыклад, вобласць тэксту вылучаецца сінім колерам. Дарэчы, падсвятліць яна ўсе вобласці правільна і даволі хутка. Шчыра кажучы, не чакаў ад яе такой хуткай і правільнай рэакцыі ...

4) Для тых, хто не давярае аўтаматычнай разметцы, можна скарыстацца і ручной. Для гэтага ёсць панэлька інструментаў (гл. Малюнак ніжэй), дзякуючы якой можна вылучыць: тэкст, табліцу, карцінку. Перасунуць, павялічыць / паменшыць пачатковае малюнак, падрэзаць краю. Увогуле, нядрэнны набор.

5) Пасля таго, як усе вобласці былі размечаныя, можна прыступіць да распазнанню. Для гэтага проста пстрыкніце па аднайменнай кнопцы, падобныя на малюнак унізе.

6) Літаральна праз 10-20 сек. перад вамі адкрыецца дакумент у Microsoft Word з распазнаным тэкстам. Што цікава, у тэксце для гэтага прыкладу, памылкі, вядома былі, але іх вельмі не шмат! Тым больш, улічваючы у якім несамавітым якасці быў зыходны матэрыял - карцінка.

Па хуткасці і якасці цалкам параўнальна з FineReader!

3. Пакетнае распазнаванне тэксту

Гэта функцыя праграмы можа спатрэбіцца, калі вам трэба распазнаць не адну карцінку, а адразу некалькі. Ярлык для запуску пакетнага распазнання, звычайна, схаваны ў меню "пуск".

1) Пасля адкрыцця праграмы, вам трэба стварыць новы пакет, альбо адкрыць раней захаваны. У нашым прыкладзе - створым новы.

2) У наступным кроку даем яму назву, пажадана такое, каб і праз паўгода ўспомніць што ў ім захавана.

3) Далей выбіраеце мову дакумента (руска-ангельскі), паказваеце, ці ёсць у вашым адсканаваным матэрыяле малюнкі і табліцы.

4) Цяпер трэба пазначыць тэчку, у якой размешчаны файлы для распазнання. Дарэчы, што цікава, праграма сама знойдзе ўсе карцінкі і іншыя графічныя файлы, якія яна зможа распазнаць і дадаць іх у праект. Вам жа застанецца выдаліць лішнія.

5) Наступны крок не важен- выбіраеце што рабіць з зыходнымі файламі, пасля распазнання. Рэкамендую выбраць галачку "нічога не рабіць".

6) Засталося толькі абраць фармат, у якім будзе захаваны распазнаны дакумент. Ёсць некалькі варыянтаў:

- rtf - файл з дакумента word, адкрываецца усімі папулярнымі офісамі (у тым ліку і бясплатнымі, спасылка на праграмы);

- txt - тэкставы фармат, у ім можна захаваць толькі тэкст, малюнкі і табліцы нельга;

- htm - гіпертэкставых старонка, зручна, калі вы сканируете і распазнаецца файлы для сайта. Яго і абярэм у нашым прыкладзе.

7) Пасля націску кнопкі "гатова" запусціцца працэс апрацоўкі вашага праекта.

8) Праграма працуе даволі такі хутка. Пасля распазнання перад вамі з'явіцца ўкладка з файламі htm. Калі пстрыкнуць па такім файлу запусціцца браўзэр, дзе вы зможаце ўбачыць вынікі. Дарэчы, пакет можна захаваць для далейшай працы з ім.

9) Як бачна, вынікі працы вельмі ўражлівыя. Карцінку праграма лёгка распазнала, а пад ёй лёгка распазнала тэкст. Пры тым што праграма і бясплатная - то ўвогуле супер!

4. Высновы

Калі вы часта не займаецеся сканаваннем і распазнаннем дакументаў, то купляць праграму FineReader, напэўна, не мае сэнсу. З большасцю задач лёгка спраўляецца CuneiForm.

З іншага боку, ёсць у яе і мінусы.

Па-першае, занадта мала інструментаў для рэдагавання і праверкі атрыманага выніку. Па-другое, калі прыходзіцца распазнаваць шмат малюнкаў - то ў FineReader зручней адразу бачыць у калонцы справа ўсё, што дабаўлена ў праект: хутка выдаляць лішняе, уносіць праўкі пр. І трэцяе, на дакументах зусім ужо дрэннага якасці, CuneiForm прайграе ў якасці распазнання: прыходзіцца дакумент даводзіць да розуму - правіць Шыбко, прастаўляць знакі прыпынку, двукоссі і г.д.

На гэтым усё. А вы ведаеце якую-небудзь яшчэ годную бясплатную праграму для распазнання тэксту?