marine wrote:
Мне надо конвертировать некоторе количество ПДФов в вордовский формат. Проблема в том что большинство из них содержат таблицы.
Значится, так. Как широко известный в узких кругах спец по PDF-ам, ответственно заявляю.
1. В общем виде задача не решается - если PDF-ы не были сами произведены из Ворда. Тогда есть шанс.
2. Очень существенен тип таблиц - имеются ли multi-line cells, col/row span и прочие красивости. Чем их больше - тем труднее.
3. OCR, особенно ABBYY, может дать неплохой результат, у него очень мощный алгоритм распознавания таблиц. Проблема - получение картинки не менее 600 dpi.
4. В Adobe Acrobat интегрирован BCL-евский плагин распознования таблиц - для простых и средних случаев дает неплохие результаты - в Акробате версии 7 и старше - выделить таблицу, right-click - copy as table. Но - велика вероятность крэша.
5. На сладкое. Я работаю над этой проблемой (не перевод а Ворд, а общая задача распознавания document layout and reading order последние 10 лет (два патента). Имеется free plugin для Adobe Acrobat (
http://www.pdflib.com/products/tet-plugin/), output as XML and RTF - но это версия двухлетнией давности. Сейчас у нас на сносях релиз ТЕТ-3 - там распознование таблиц на пару порядков лучше, но output только XML - преполагается, что в пакете будет XSLT пример для перевода его в HTML.
Если хотите - пишите в личку, я дам свой е-мейл, пришлете мне пару документов, я прогоню их и верну в ХМЛ-виде.