ЯК РАСПАЗНАЦЬ PDF ФАЙЛ ОНЛАЙН

Выняць тэкст з PDF-файла метадам звычайнага капіявання можна далёка не заўсёды. Часта старонкі падобных дакументаў ўяўляюць сабой адсканаваную змесціва іх папяровых варыянтаў. Для пераўтварэння такіх файлаў у цалкам рэдагуемыя тэкставыя дадзеныя выкарыстоўваюцца спецыяльныя праграмы з функцыяй Optical Character Recognition (OCR).

Такія рашэнні з'яўляюцца вельмі складанымі ў рэалізацыі і, такім чынам, каштуюць немалых грошай. Калі патрэба ў распазнанні тэксту з PDF ў вас узнікае рэгулярна, цалкам мэтазгодна будзе набыць адпаведную праграму. Для рэдкіх ж выпадкаў больш лагічным будзе скарыстацца адным з даступных онлайн-сэрвісаў з падобнымі функцыямі.

Як распазнаць тэкст з PDF онлайн

Вядома, набор магчымасцяў онлайн-сэрвісаў OCR, у параўнанні з паўнавартаснымі дэсктопнымі рашэннямі, больш абмежаваны. Але і працаваць з такімі рэсурсамі можна альбо ж зусім бясплатна, альбо за сімвалічную плату. Галоўнае, што з асноўнай сваёй задачай, а менавіта з распазнаннем тэксту, адпаведныя вэб-прыкладанні спраўляюцца так жа добра.

Спосаб 1: ABBYY FineReader Online

Кампанія-распрацоўшчык сэрвісу - адна з лідэраў у галіне аптычнага распазнання дакументаў. ABBYY FineReader для Windows і Mac з'яўляецца магутным рашэннем для пераўтварэння PDF ў тэкст і далейшай працы з ім.

Вэб-аналаг праграмы, вядома ж, саступае ёй па функцыянале. Тым не менш сэрвіс ўмее распазнаваць тэкст са сканов і фатаграфій на больш чым 190 мовах. Падтрымліваецца пераўтварэнне PDF-файлаў у дакументы Word, Excel і да т.п.

Анлайн-сэрвіс ABBYY FineReader Online

Перш чым прыступіць да працы з інструментам, стварыце рахунак на сайце або ўвайдзіце пры дапамозе ўліковага запісу Facebook, Google або Microsoft.

Каб перайсці да акна аўтарызацыі, пстрыкніце па кнопцы "Уваход" у верхняй панэлі меню.
Ажыццявіўшы ўваход, імпартуе патрэбны PDF-дакумент у FineReader, скарыстаўшыся кнопкай «Загрузіць файлы».

затым націсніце «Выбраць нумары старонак» і пакажыце жаданы прамежак для распазнання тэксту.
Далей абярыце мовы, прысутныя ў дакуменце, фармат выніковага файла і націсніце на кнопку «Распазнаць».
Пасля апрацоўкі, працягласць якой цалкам залежыць ад аб'ёму дакумента, вы можаце спампаваць гатовы файл з тэкставымі дадзенымі проста пстрыкнуўшы па яго назве.

Альбо ж экспартуйце яго ў адзін з даступных хмарных сэрвісаў.

Сэрвіс адрозніваецца, верагодна, найбольш дакладнымі алгарытмамі распазнання тэксту на малюнках і PDF-файлах. Але, на жаль, яго бясплатнае выкарыстанне абмежавана пяццю апрацоўванымі старонкамі ў месяц. Каб працаваць з больш аб'ёмнымі дакументамі, давядзецца купіць гадавую падпіску.

Тым не менш, калі функцыя OCR патрэбна зусім ужо рэдка, ABBYY FineReader Online - выдатны варыянт для здабывання тэксту з невялікіх PDF-файлаў.

Спосаб 2: Free Online OCR

Просты і зручны сэрвіс для аблічбоўкі тэксту. Без неабходнасці рэгістрацыі рэсурс дазваляе распазнаваць 15 поўных PDF-старонак у гадзіну. Free Online OCR паўнавартасна працуе з дакументамі на 46 мовах і без аўтарызацыі падтрымлівае тры фармату экспарту тэксту - DOCX, XLSX і TXT.

Пры рэгістрацыі карыстальнік атрымлівае магчымасць апрацоўваць шматстаронкавыя дакументы, аднак бясплатнае колькасць гэтых самых старонак абмежавана 50 адзінкамі.

Анлайн-сэрвіс Free Online OCR

Каб распазнаць тэкст з PDF як «госць», без аўтарызацыі на рэсурсе, скарыстайцеся адпаведнай формай на галоўнай старонцы сайта.

Выберыце патрэбны дакумент з дапамогай кнопкі «Файл», Пакажыце асноўны мову тэксту, выхадны фармат, затым дачакайцеся загрузкі файла і націсніце «Канвертаваць».
Па заканчэнні працэсу аблічбоўкі націсніце «Спампаваць выхадны файл» для захавання гатовага дакумента з тэкстам на кампутары.

Для аўтарызаваных ж карыстальнікаў паслядоўнасць дзеянняў некалькі іншая.

скарыстайцеся кнопкай «Рэгістрацыя» або "Уваход" у верхняй панэлі меню, каб, адпаведна, стварыць уліковы запіс Free Online OCR небудзь зайсці ў яе.
Пасля аўтарызацыі ў панэлі распазнання, утрымліваючы клавішу «CTRL», Абярыце да двух моў зыходнага дакумента з прапанаванага спісу.
Пакажыце далейшыя параметры здабывання тэксту з PDF і націсніце кнопку «Выбраць файл» для загрузкі дакумента ў сэрвіс.

Затым, каб прыступіць да распазнавання, пстрыкніце «Канвертаваць».
Па заканчэнні апрацоўкі дакумента націсніце на спасылку з назвай выхаднога файла ў адпаведнай калонцы.

Вынік распазнання адразу ж будзе захаваны ў памяці вашага кампутара.

Пры неабходнасці атрымаць тэкст з невялікага PDF-дакумента можна смела звяртацца да выкарыстання вышэйапісанага інструмента. Для працы ж з аб'ёмнымі файламі прыйдзецца купіць дадатковыя сімвалы ць Free Online OCR альбо ж звярнуцца да іншага рашэння.

Спосаб 3: NewOCR

Цалкам бясплатны OCR-сэрвіс, які дазваляе здабываць тэкст практычна з любых графічных і электронных дакументаў накшталт DjVu і PDF. Рэсурс ня накладвае абмежаванняў на памер і колькасць распазнаюцца файлаў, не патрабуе рэгістрацыі і прапануе шырокі набор спадарожных функцый.

NewOCR падтрымлівае 106 моў і ўмее карэктна апрацоўваць нават нізкаякасныя сканы дакументаў. Ёсць магчымасць ўручную выбіраць вобласць для распазнання тэксту на старонцы файла.

Анлайн-сэрвіс NewOCR

Так, прыступіць да працы з рэсурсам вы можаце адразу, без неабходнасці выканання лішніх дзеянняў.

Прама на галоўнай старонцы размешчана форма для імпарту дакумента на сайт. Каб загрузіць файл у NewOCR, скарыстайцеся кнопкай «Вылучыце файл» у раздзеле «Select your file». Затым у поле «Recognition language (s)» пакажыце адзін ці больш моў зыходнага дакумента, пасля чаго націсніце «Upload + OCR».
Задайце Упадабаныя налады распазнання, абярыце патрэбную старонку для здабывання тэксту і пстрыкніце па кнопцы «OCR».
Пракруціць старонку трохі ніжэй і знайдзіце кнопку «Download».

Пстрыкніце па ёй і ў выпадальным спісе выберыце неабходны фармат дакумента для запампоўкі. Пасля гэтага гатовы файл з дастатым тэкстам будзе загружаны на ваш кампутар.

Інструмент зручны і досыць якасна распазнае ўсе сімвалы. Зрэшты, апрацоўку кожнай старонкі імпартаванага PDF-дакумента трэба запускаць самастойна і выводзіцца яна ў асобны файл. Можна, вядома, адразу капіяваць вынікі распазнавання ў буфер абмену і аб'ядноўваць іх з іншымі.

Тым не менш, улічваючы вышэйапісаны нюанс, вялікія аб'ёмы тэксту з дапамогай NewOCR здабываць вельмі цяжка. З малымі ж файламі сэрвіс спраўляецца «на ўра».

Спосаб 4: OCR.Space

Просты і зразумелы рэсурс для аблічбоўкі тэксту, дазваляе распазнаваць PDF-дакументы і выводзіць вынік у TXT-файл. Ніякіх лімітаў па колькасці старонак не прадугледжана. Адзінае абмежаванне - памер уваходнага дакумента не павінен перавышаць 5 мегабайт.

Анлайн-сэрвіс OCR.Space

Рэгістравацца для працы з прыладай не трэба.

Проста перайдзіце па спасылцы вышэй і загрузіце PDF-дакумент на сайт з кампутара пры дапамозе кнопкі «Вылучыце файл» небудзь з сеткі - па спасылцы.
У выпадальным спісе «Select OCR language» выберыце мову імпартаванага дакумента.

Затым запусціце працэс распазнавання тэксту, пстрыкнуўшы па кнопцы «Start OCR!».
Па заканчэнні апрацоўкі файла азнаёмцеся з вынікам у поле «OCR'ed Result» і націсніце «Download», Каб спампаваць гатовы TXT-дакумент.

Калі вам трэба проста выняць тэкст з PDF і пры гэтым фінальнае яго фарматаванне зусім не важна, OCR.Space - добры выбар. Адзінае, дакумент павінен быць «аднамоўны», так як распазнаванне двух і больш моў адначасова ў сэрвісе не прадугледжана.

Чытайце таксама: Бесплатные аналагі FineReader

Ацэньваючы онлайн-інструменты, прадстаўленыя ў артыкуле, варта адзначыць, што найбольш дакладна і якасна з функцыяй OCR спраўляецца FineReader Online ад ABBYY. Калі для вас важная менавіта максімальная дакладнасць распазнавання тэксту, лепш за ўсё разгледзець канкрэтна гэты варыянт. Але і заплаціць за яго, хутчэй за ўсё, таксама прыйдзецца.

Калі ж патрэбна аблічбоўка невялікіх дакументаў і вы гатовыя самастойна выпраўляць памылкі за сэрвісам, мэтазгодна выкарыстоўваць NewOCR, OCR.Space або Free Online OCR.