Как работать с pdf и извлекать из них данные. Несколько советов

Пол Брэдшоу (не родственник Кэрри Брэдшоу!), автор блога Help Me Investigate, предлагает несколько советов на тему «Как извлекать данные из pdf».

Наверняка, вы часто сталкиваетесь с тем, что получаете данные в виде pdf. Это, конечно, иногда красиво, удобно читать и всё такое… Но когда речь заходит о том, чтобы извлечь оттуда какие-то данные (таблицы, графику), то начинаются проблемы.

Для начала можно конвертировать pdf с кучей таблиц в Excel с помощью бесплатного сервиса PdftoExcel.

Ну а когда вы уже перевели данные, то, наверняка, столкнётесь с ещё одной проблемой — беспорядок, лишние символы, ячейки, столбцы, страницы и т.п.
Чтобы разобраться с этим есть ещё одно бесплатное приложение — Google Refine.

Подробный гайдлайн по этому приложению — по ссылке.

Ну и платные аналоги для конвертации pdf в Excel:

Добавить комментарий

Ваш e-mail не будет опубликован.