Блог студии веб-дизайна «Make a Site» Дизайн, верстка, программирование, наполнение и раскрутка сайтов.

Распознавание текста с изображений и PDF-файлов — популярные онлайн-сервисы

OCR (англ. optical character recognition) — оптическое распознавание текста. Данный метод считывания информации с изображений или PDF-файлов очень удобен и может осуществляться онлайн при помощи специальных сервисов. Сегодня мы рассмотрим самые популярные онлайн-сервисы распознавания текста.

Распознавание текста с изображений и PDF-файлов — популярные онлайн-сервисы
Содержание статьи

Многие пользователи, к примеру, по долгу своей службы, вынуждены активно работать с текстом — писать статьи, редактировать чужие публикации и т.д. В ряде случаев человеку нужно распознать готовый текст с какого-либо изображения или файла PDF. К примеру, у нас есть качественная цифровая фотография страницы книги или распечатанный документ. Чтобы получить с этой фотографии или документа чистый текст в цифровом виде, придется воспользоваться сканером. Как вы понимаете, сканер есть далеко не у всех. Да и пользоваться им бесплатно вам вряд ли дадут. Конечно, можно перепечатать весь текст вручную, но на это придется потратить много времени и сил. А если фотографий будет несколько десятков штук, то на их перепечатывание может уйти не один день.

Самые популярные онлайн-сервисы распознавания текста

Чтобы упростить пользователям жизнь, были созданы специальные программы и сервисы для распознавания текста. Ниже мы рассмотрим несколько популярных онлайн-сервисов.

  1. Google Drive;
  2. OCRConvert;
  3. Online OCR (на момент написания статьи русская версия Online OCR была недоступна, поэтому мы привели ссылку на английскую);
  4. ABBYY FineReader.

Google Drive

google-driveОсновное предназначение этого сервиса — предоставление облачного пространства для хранения файлов. Однако здесь без особых проблем можно работать с документами разных форматов, а также распознавать текст с графических и PDF-файлов. Из достоинств данного сервиса можно отметить наличие русскоязычного интерфейса, поддержку 28 разных языков, большое количество распознаваемых форматов файлов (JPEG, PNG, GIF, PDF и т.д.). На выходе мы можем получать текст в таких форматах, как DOC, PDF, TXT и некоторых других. Максимальный размер загружаемого файла — 10 Мб, максимальное число страниц распознаваемого PDF-документа — 10. Для начала работы заходим в сервис «Google Docs», перетаскиваем файл в окно браузера и проставляем флажки напротив пунктов «Преобразовывать текст из файлов PDF и изображений» и «Подтверждать настройки перед каждой загрузкой». Теперь закрываем окно и загружаем картинку еще раз, не забывая при этом указать язык. После повторной загрузки вы можете открыть картинку в браузере и скопировать оттуда готовый текст.

OCRConvert

OCRConvertДовольно функциональный, но при этом простой в использовании и полностью бесплатный сервис по распознаванию текста. Для начала работы не нужно регистрироваться (это еще один несомненный плюс). Конвертировать в текст можно такие форматы, как JPEG, PNG, GIF, PDF, BMP. На выходе получается стандартный текстовый документ (с расширением TXT). За одну сессию для конвертации можно загрузить сразу 5 файлов, но только, если текст в них написан на одном и том же языке. Максимальный размер одной загрузки — 5 Мб. Чтобы получить текст, нужно выбрать графический файл на вашем компьютере, указать язык и нажать кнопку «Process».

Online OCR

Online-OCRЕще более интересный и функциональный сервис по распознаванию текста. Регистрация здесь также отсутствует. Число поддерживаемых языков — 32. Максимальный размер загружаемого файла — 4 Мб. Максимальная производительность сервиса — 15 картинок в час. Что касается поддерживаемых форматов, то Online OCR может работать с файлами JPEG, BMP, GIF, TIFF. Если речь идет о конвертации многостраничного PDF-файла, то вы можете выбрать именно те страницы, которые следует преобразовать в текст. На выходе можно получить стандартный текстовый файл (TXT), а также DOC и XLS. После преобразования файла в текст сохраняется исходная структура (расположение абзацев, колонок, таблиц и других элементов). Чтобы сервис распознал текст наилучшим образом, старайтесь загружать изображения, обладающие разрешением больше 200 dpi.

ABBYY FineReader

ABBYY-FineReaderЭто один из самых качественных сервисов по распознаванию текста. Однако у него есть один недостаток — необходимость платить деньги за распознанные файлы (10 страниц или файлов = 3 доллара). Что же пользователь получит за эти деньги? Во-первых, поддержку 37 разных языков. Во-вторых, возможность распознавания текста с самых разных по формату файлов (BMP, JPEG, JPG, PDF, PNG, TIFF, Djvu и т.д.). В-третьих, возможность получения на выходе таких форматов, как TXT, RTF, DOC и т.д. Как было сказано выше, FineReader довольно качественно распознает тексты. При этом сохраняется структура исходного документа — абзацы, колонки и даже шрифты. Преобразованный документ доступен для скачивания в течение 72 часов с момента конвертации. Вы можете скачать его на компьютер или отправить по email. Еще одна фишка сервиса — возможность не платить за распознанный с большим количеством ошибок документ.





Предыдущая статья:
Новый подход Яндекса к определению релевантности страниц

Читайте также:
Учет особенностей русского менталитета при составлении продающих текстов

Возможно, вам это интересно:



Блог студии веб-дизайна «Make a Site».
Дизайн, верстка, программирование, наполнение и раскрутка сайтов.

Текущий проект: «Stream Booster» — раскрутка Twitch и YouTube каналов

Студия веб-дизайна «Make a site»