Журналист разрабатывает сервис обработки данных из pdf

Вы всё ещё считаете, что журналист — это просто человек, добывающий информацию? Ну и зря!

Американец Чарльз Данкан Пардо (основатель и редактор локального новостного интернет-ресурса Raleigh Public Record) готовит к запуску проект DocHive, который позволит обрабатывать отсканированные материалы формат pdf, доставать оттуда и структурировать данные, представляя их в удобном формате.

В интервью Journalism, мистер Пардо сказал, что начала разрабатывать этот сервис, чтобы упростить себе работу по анализу финансовых данных, которые к нему попадали чаще всего в виде pdf. Столкнувшись с необходимостью вручную вбивать цифры из файла в таблицу Excel, он подумал, что нужно что-то придумать, иначе работа затягивается неимоверно.

Технология работы сервиса довольно простая. Автор объяснил схему работы для Reporters’ Lab.

Программа конвертирует pdf в картинку с помощью скрипта ImageMagic. Затем разбивает её на более мелкие изображения. Затем с помощью ещё одного скрипта распознаёт цифры в этих мелких фрагментах и вставляет их в заданные ячейки таблицы Excel.

Одно ограничение. Система пока что работает со стандартизированными данными, которые представлены в сканированном документе в виде простых таблиц, чьи шаблоны зашиты в программу для обработки.

Однако программа будет с открытым кодом, поэтому каждый сможет вносить в неё шаблоны исходников, с которыми он работает. Таким образом, соберётся база данных шаблонов и сфера применения программы существенно расширится.

Разработчики планируют представить своё детище 28 февраля на одной из конференций.

Для справки:

Бюджет Raleigh Public Record составляет порядка $80 000. В штате ресурса, освещающего новости столицы штата Северная Каролина, 3 человека, но, по словам Пардо, его издание очень тесно работает с фрилансерами.

Добавить комментарий

Ваш e-mail не будет опубликован.