Выняць тэкст з PDF-файла метадам звычайнага капіявання можна далёка не заўсёды. Часта старонкі падобных дакументаў ўяўляюць сабой адсканаваную змесціва іх папяровых варыянтаў. Для пераўтварэння такіх файлаў у цалкам рэдагуемыя тэкставыя дадзеныя выкарыстоўваюцца спецыяльныя праграмы з функцыяй Optical Character Recognition (OCR).
Такія рашэнні з'яўляюцца вельмі складанымі ў рэалізацыі і, такім чынам, каштуюць немалых грошай. Калі патрэба ў распазнанні тэксту з PDF ў вас узнікае рэгулярна, цалкам мэтазгодна будзе набыць адпаведную праграму. Для рэдкіх ж выпадкаў больш лагічным будзе скарыстацца адным з даступных онлайн-сэрвісаў з падобнымі функцыямі.
Як распазнаць тэкст з PDF онлайн
Вядома, набор магчымасцяў онлайн-сэрвісаў OCR, у параўнанні з паўнавартаснымі дэсктопнымі рашэннямі, больш абмежаваны. Але і працаваць з такімі рэсурсамі можна альбо ж зусім бясплатна, альбо за сімвалічную плату. Галоўнае, што з асноўнай сваёй задачай, а менавіта з распазнаннем тэксту, адпаведныя вэб-прыкладанні спраўляюцца так жа добра.
Спосаб 1: ABBYY FineReader Online
Кампанія-распрацоўшчык сэрвісу - адна з лідэраў у галіне аптычнага распазнання дакументаў. ABBYY FineReader для Windows і Mac з'яўляецца магутным рашэннем для пераўтварэння PDF ў тэкст і далейшай працы з ім.
Вэб-аналаг праграмы, вядома ж, саступае ёй па функцыянале. Тым не менш сэрвіс ўмее распазнаваць тэкст са сканов і фатаграфій на больш чым 190 мовах. Падтрымліваецца пераўтварэнне PDF-файлаў у дакументы Word, Excel і да т.п.
Анлайн-сэрвіс ABBYY FineReader Online
- Перш чым прыступіць да працы з інструментам, стварыце рахунак на сайце або ўвайдзіце пры дапамозе ўліковага запісу Facebook, Google або Microsoft.
Каб перайсці да акна аўтарызацыі, пстрыкніце па кнопцы "Уваход" у верхняй панэлі меню. - Ажыццявіўшы ўваход, імпартуе патрэбны PDF-дакумент у FineReader, скарыстаўшыся кнопкай «Загрузіць файлы».
затым націсніце «Выбраць нумары старонак» і пакажыце жаданы прамежак для распазнання тэксту. - Далей абярыце мовы, прысутныя ў дакуменце, фармат выніковага файла і націсніце на кнопку «Распазнаць».
- Пасля апрацоўкі, працягласць якой цалкам залежыць ад аб'ёму дакумента, вы можаце спампаваць гатовы файл з тэкставымі дадзенымі проста пстрыкнуўшы па яго назве.
Альбо ж экспартуйце яго ў адзін з даступных хмарных сэрвісаў.
Сэрвіс адрозніваецца, верагодна, найбольш дакладнымі алгарытмамі распазнання тэксту на малюнках і PDF-файлах. Але, на жаль, яго бясплатнае выкарыстанне абмежавана пяццю апрацоўванымі старонкамі ў месяц. Каб працаваць з больш аб'ёмнымі дакументамі, давядзецца купіць гадавую падпіску.
Тым не менш, калі функцыя OCR патрэбна зусім ужо рэдка, ABBYY FineReader Online - выдатны варыянт для здабывання тэксту з невялікіх PDF-файлаў.
Спосаб 2: Free Online OCR
Просты і зручны сэрвіс для аблічбоўкі тэксту. Без неабходнасці рэгістрацыі рэсурс дазваляе распазнаваць 15 поўных PDF-старонак у гадзіну. Free Online OCR паўнавартасна працуе з дакументамі на 46 мовах і без аўтарызацыі падтрымлівае тры фармату экспарту тэксту - DOCX, XLSX і TXT.
Пры рэгістрацыі карыстальнік атрымлівае магчымасць апрацоўваць шматстаронкавыя дакументы, аднак бясплатнае колькасць гэтых самых старонак абмежавана 50 адзінкамі.
Анлайн-сэрвіс Free Online OCR
- Каб распазнаць тэкст з PDF як «госць», без аўтарызацыі на рэсурсе, скарыстайцеся адпаведнай формай на галоўнай старонцы сайта.
Выберыце патрэбны дакумент з дапамогай кнопкі «Файл», Пакажыце асноўны мову тэксту, выхадны фармат, затым дачакайцеся загрузкі файла і націсніце «Канвертаваць». - Па заканчэнні працэсу аблічбоўкі націсніце «Спампаваць выхадны файл» для захавання гатовага дакумента з тэкстам на кампутары.
Для аўтарызаваных ж карыстальнікаў паслядоўнасць дзеянняў некалькі іншая.
- скарыстайцеся кнопкай «Рэгістрацыя» або "Уваход" у верхняй панэлі меню, каб, адпаведна, стварыць уліковы запіс Free Online OCR небудзь зайсці ў яе.
- Пасля аўтарызацыі ў панэлі распазнання, утрымліваючы клавішу «CTRL», Абярыце да двух моў зыходнага дакумента з прапанаванага спісу.
- Пакажыце далейшыя параметры здабывання тэксту з PDF і націсніце кнопку «Выбраць файл» для загрузкі дакумента ў сэрвіс.
Затым, каб прыступіць да распазнавання, пстрыкніце «Канвертаваць». - Па заканчэнні апрацоўкі дакумента націсніце на спасылку з назвай выхаднога файла ў адпаведнай калонцы.
Вынік распазнання адразу ж будзе захаваны ў памяці вашага кампутара.
Пры неабходнасці атрымаць тэкст з невялікага PDF-дакумента можна смела звяртацца да выкарыстання вышэйапісанага інструмента. Для працы ж з аб'ёмнымі файламі прыйдзецца купіць дадатковыя сімвалы ць Free Online OCR альбо ж звярнуцца да іншага рашэння.
Спосаб 3: NewOCR
Цалкам бясплатны OCR-сэрвіс, які дазваляе здабываць тэкст практычна з любых графічных і электронных дакументаў накшталт DjVu і PDF. Рэсурс ня накладвае абмежаванняў на памер і колькасць распазнаюцца файлаў, не патрабуе рэгістрацыі і прапануе шырокі набор спадарожных функцый.
NewOCR падтрымлівае 106 моў і ўмее карэктна апрацоўваць нават нізкаякасныя сканы дакументаў. Ёсць магчымасць ўручную выбіраць вобласць для распазнання тэксту на старонцы файла.
Анлайн-сэрвіс NewOCR
- Так, прыступіць да працы з рэсурсам вы можаце адразу, без неабходнасці выканання лішніх дзеянняў.
Прама на галоўнай старонцы размешчана форма для імпарту дакумента на сайт. Каб загрузіць файл у NewOCR, скарыстайцеся кнопкай «Вылучыце файл» у раздзеле «Select your file». Затым у поле «Recognition language (s)» пакажыце адзін ці больш моў зыходнага дакумента, пасля чаго націсніце «Upload + OCR». - Задайце Упадабаныя налады распазнання, абярыце патрэбную старонку для здабывання тэксту і пстрыкніце па кнопцы «OCR».
- Пракруціць старонку трохі ніжэй і знайдзіце кнопку «Download».
Пстрыкніце па ёй і ў выпадальным спісе выберыце неабходны фармат дакумента для запампоўкі. Пасля гэтага гатовы файл з дастатым тэкстам будзе загружаны на ваш кампутар.
Інструмент зручны і досыць якасна распазнае ўсе сімвалы. Зрэшты, апрацоўку кожнай старонкі імпартаванага PDF-дакумента трэба запускаць самастойна і выводзіцца яна ў асобны файл. Можна, вядома, адразу капіяваць вынікі распазнавання ў буфер абмену і аб'ядноўваць іх з іншымі.
Тым не менш, улічваючы вышэйапісаны нюанс, вялікія аб'ёмы тэксту з дапамогай NewOCR здабываць вельмі цяжка. З малымі ж файламі сэрвіс спраўляецца «на ўра».
Спосаб 4: OCR.Space
Просты і зразумелы рэсурс для аблічбоўкі тэксту, дазваляе распазнаваць PDF-дакументы і выводзіць вынік у TXT-файл. Ніякіх лімітаў па колькасці старонак не прадугледжана. Адзінае абмежаванне - памер уваходнага дакумента не павінен перавышаць 5 мегабайт.
Анлайн-сэрвіс OCR.Space
- Рэгістравацца для працы з прыладай не трэба.
Проста перайдзіце па спасылцы вышэй і загрузіце PDF-дакумент на сайт з кампутара пры дапамозе кнопкі «Вылучыце файл» небудзь з сеткі - па спасылцы. - У выпадальным спісе «Select OCR language» выберыце мову імпартаванага дакумента.
Затым запусціце працэс распазнавання тэксту, пстрыкнуўшы па кнопцы «Start OCR!». - Па заканчэнні апрацоўкі файла азнаёмцеся з вынікам у поле «OCR'ed Result» і націсніце «Download», Каб спампаваць гатовы TXT-дакумент.
Калі вам трэба проста выняць тэкст з PDF і пры гэтым фінальнае яго фарматаванне зусім не важна, OCR.Space - добры выбар. Адзінае, дакумент павінен быць «аднамоўны», так як распазнаванне двух і больш моў адначасова ў сэрвісе не прадугледжана.
Чытайце таксама: Бесплатные аналагі FineReader
Ацэньваючы онлайн-інструменты, прадстаўленыя ў артыкуле, варта адзначыць, што найбольш дакладна і якасна з функцыяй OCR спраўляецца FineReader Online ад ABBYY. Калі для вас важная менавіта максімальная дакладнасць распазнавання тэксту, лепш за ўсё разгледзець канкрэтна гэты варыянт. Але і заплаціць за яго, хутчэй за ўсё, таксама прыйдзецца.
Калі ж патрэбна аблічбоўка невялікіх дакументаў і вы гатовыя самастойна выпраўляць памылкі за сэрвісам, мэтазгодна выкарыстоўваць NewOCR, OCR.Space або Free Online OCR.