Работа с PDF(ПДФ)

marine · **Joined:** Sat Sep 08, 2007 11:13 am **Posts:** 4618

Мне надо конвертировать некоторе количество ПДФов в вордовский формат. Проблема в том что большинство из них содержат таблицы. Пока опробовал:

1. OpenOffice - обычно полный кошмар, но один раз получил красивые иероглифы. 3 раза из четырех ОО крашнулся.
2. http://www.docudesk.com/ - таблицы пожеваны, часть слов в своих личных тект-боксах, часть обрезаны поверху.
3. http://www.pdftodocconverterpro.com/ - у него два вида конверсии. В первом все выглядело идентично оригиналу, но все элементы были в своих личных рамочках и коробочках (т.е. работать с ним, лучше утопиться). Второй был сделан для удобства работы, (т.е. без текст боксов для каждого слова) но все было перемешано до полной не узнаваемости.
4. http://www.hellopdf.com/ - после попытки конвертирования в первый раз, за черти сколько времени пришлось делать холодную перезагрузку.
5. http://media-convert.com/ - результат такой что легче сохранить ПДФ как текст и потом ручками все рисовать.

Кто нибудь может что посоветовать? Цена ПО не проблема (в разумных пределах)

sds · **Posted:** Mon Dec 01, 2008 11:42 am

marine wrote:

Мне надо конвертировать некоторе количество ПДФов в вордовский формат. Проблема в том что большинство из них содержат таблицы. Пока опробовал:

1. OpenOffice - обычно полный кошмар, но один раз получил красивые иероглифы. 3 раза из четырех ОО крашнулся.
2. http://www.docudesk.com/ - таблицы пожеваны, часть слов в своих личных тект-боксах, часть обрезаны поверху.
3. http://www.pdftodocconverterpro.com/ - у него два вида конверсии. В первом все выглядело идентично оригиналу, но все элементы были в своих личных рамочках и коробочках (т.е. работать с ним, лучше утопиться). Второй был сделан для удобства работы, (т.е. без текст боксов для каждого слова) но все было перемешано до полной не узнаваемости.
4. http://www.hellopdf.com/ - после попытки конвертирования в первый раз, за черти сколько времени пришлось делать холодную перезагрузку.
5. http://media-convert.com/ - результат такой что легче сохранить ПДФ как текст и потом ручками все рисовать.

Кто нибудь может что посоветовать? Цена ПО не проблема (в разумных пределах)

Правильное решение (The Right Thing) - найти, кто и из чего сделал эти ПДФы.
Иначе - ничего хорошего не выйдет.
"Оставь надежду, всяк сюда входящий".
Это как дисассемблирование.
Вы потратите прорву времени и сил на испытание софтвера, который в лучшем случае даст вам то, что у Вас описано в пункте "3".
Проблема не только в чтении ПДФ, но и в создании вордовских файлов - оба формата довольно ублюдочны, и найти контору, которая оказалась бы способна разобраться с обоими, крайне маловероятно.
Попробуйте конвертировать в HTML, потом почистить вручную, потом загрузить в ворд.
Или просто copy/paste и воссоздавайте таблицы вручную.

удачи.

marine · **Joined:** Sat Sep 08, 2007 11:13 am **Posts:** 4618

sds wrote:

Правильное решение (The Right Thing) - найти, кто и из чего сделал эти ПДФы.

Это к сожалению не получится т.к. большинство из них скачано с интернета.

Quote:

Иначе - ничего хорошего не выйдет.
"Оставь надежду, всяк сюда входящий".
Это как дисассемблирование.
Вы потратите прорву времени и сил на испытание софтвера, который в лучшем случае даст вам то, что у Вас описано в пункте "3".
Проблема не только в чтении ПДФ, но и в создании вордовских файлов - оба формата довольно ублюдочны, и найти контору, которая оказалась бы способна разобраться с обоими, крайне маловероятно.
Попробуйте конвертировать в HTML, потом почистить вручную, потом загрузить в ворд.
Или просто copy/paste и воссоздавайте таблицы вручную.

Я этого и боялся. Видимо придется ручками. Не то чтобы там запредельное количество документов, просто не хотелось тратить лишнее время если есть нормальный конвертер. Спасибо за совет.

Дед Григорий · **Posted:** Mon Dec 01, 2008 12:15 pm

я не настоящий сварщик, но все же...

А разве у Адобе нет Acrobat Writer? В котором можно "Save as?" :hide:

jourfixe · **Joined:** Fri Sep 07, 2007 11:39 am **Posts:** 7089

Мне тоже подумалось про промежуточный шаг - через html-ы. Не то чтоб я знал о конкретном конвертере, но технология должна быть обкатана, коль скоро гугл пользуется ей в полный рост.

Ноныч · **Posted:** Mon Dec 01, 2008 12:22 pm

Ну, вообще то в таких случаях, юзаем "Portable ABBYY Screenshot Reader", маркируем страницу с текстом, распознаем, и копипастим в ворд.Софтина около 30 мегов. Как срочно ? Завтра могу выложить на какой нибудь фалообменник.Если треба ?

tashv · **Posted:** Mon Dec 01, 2008 12:26 pm

Можно попробовать ABBYY PDF Transformer.
Графические PDF-файлы он точно переводит в Word-формат, хотя и перевод зависит от качества кадра.
Что же касается текстовых PDF-файлов, то надо посмотреть, будет ли он их обрабатывать вообще.
Вечером, если руки дойдут, попробую потренироваться...

marine · **Joined:** Sat Sep 08, 2007 11:13 am **Posts:** 4618

Ноныч wrote:

Ну, вообще то в таких случаях, юзаем "Portable ABBYY Screenshot Reader", маркируем страницу с текстом, распознаем, и копипастим в ворд.Софтина около 30 мегов. Как срочно ? Завтра могу выложить на какой нибудь фалообменник.Если треба ?

Спасибо, попробую (я уже сам нашел

). Мне правда очень не хочется иметь дело с OCR. У меня там много цифр а проверить что оно нигде не обозначило "3" как "8" труднее чем чинить жеванные таблицы.

tashv · **Posted:** Mon Dec 01, 2008 12:43 pm

marine wrote:

Мне правда очень не хочется иметь дело с OCR. У меня там много цифр а проверить что оно нигде не обозначило "3" как "8" труднее чем чинить жеванные таблицы.

К сожалению, при не очень качественном кадре без этого никак. :bang:

Кстати, нет смысла перегонять без OCR - Word-файлы с картинками на каждой странице будут слишком "тяжелыми".

Grrr · **Posted:** Mon Dec 01, 2008 2:07 pm

marine wrote:

Мне надо конвертировать некоторе количество ПДФов в вордовский формат. Проблема в том что большинство из них содержат таблицы.

Значится, так. Как широко известный в узких кругах спец по PDF-ам, ответственно заявляю.

1. В общем виде задача не решается - если PDF-ы не были сами произведены из Ворда. Тогда есть шанс.

2. Очень существенен тип таблиц - имеются ли multi-line cells, col/row span и прочие красивости. Чем их больше - тем труднее.

3. OCR, особенно ABBYY, может дать неплохой результат, у него очень мощный алгоритм распознавания таблиц. Проблема - получение картинки не менее 600 dpi.

4. В Adobe Acrobat интегрирован BCL-евский плагин распознования таблиц - для простых и средних случаев дает неплохие результаты - в Акробате версии 7 и старше - выделить таблицу, right-click - copy as table. Но - велика вероятность крэша.

5. На сладкое. Я работаю над этой проблемой (не перевод а Ворд, а общая задача распознавания document layout and reading order последние 10 лет (два патента). Имеется free plugin для Adobe Acrobat (http://www.pdflib.com/products/tet-plugin/), output as XML and RTF - но это версия двухлетнией давности. Сейчас у нас на сносях релиз ТЕТ-3 - там распознование таблиц на пару порядков лучше, но output только XML - преполагается, что в пакете будет XSLT пример для перевода его в HTML.

Если хотите - пишите в личку, я дам свой е-мейл, пришлете мне пару документов, я прогоню их и верну в ХМЛ-виде.

JOURFIXE

Работа с PDF(ПДФ)

Who is online