JOURFIXE

It is currently Fri Apr 26, 2024 11:30 pm

All times are UTC - 8 hours [ DST ]




Post new topic Reply to topic  [ 17 posts ]  Go to page 1, 2  Next
Author Message
 Post subject: Работа с PDF(ПДФ)
PostPosted: Mon Dec 01, 2008 10:53 am 
Offline
User avatar

Joined: Sat Sep 08, 2007 11:13 am
Posts: 4618
Мне надо конвертировать некоторе количество ПДФов в вордовский формат. Проблема в том что большинство из них содержат таблицы. Пока опробовал:

1. OpenOffice - обычно полный кошмар, но один раз получил красивые иероглифы. 3 раза из четырех ОО крашнулся.
2. http://www.docudesk.com/ - таблицы пожеваны, часть слов в своих личных тект-боксах, часть обрезаны поверху.
3. http://www.pdftodocconverterpro.com/ - у него два вида конверсии. В первом все выглядело идентично оригиналу, но все элементы были в своих личных рамочках и коробочках (т.е. работать с ним, лучше утопиться). Второй был сделан для удобства работы, (т.е. без текст боксов для каждого слова) но все было перемешано до полной не узнаваемости.
4. http://www.hellopdf.com/ - после попытки конвертирования в первый раз, за черти сколько времени пришлось делать холодную перезагрузку.
5. http://media-convert.com/ - результат такой что легче сохранить ПДФ как текст и потом ручками все рисовать.

Кто нибудь может что посоветовать? Цена ПО не проблема (в разумных пределах)

_________________
...that guy could kick my butt, tell a heart-rending story that would make her cry, and ask to be called "Captain" all at once ... I don't like him...


Top
 Profile  
 
 Post subject: Re: Работа с PDF(ПДФ)
PostPosted: Mon Dec 01, 2008 11:42 am 
Offline

Joined: Thu Nov 15, 2007 9:18 am
Posts: 3565
Location: NYC
marine wrote:
Мне надо конвертировать некоторе количество ПДФов в вордовский формат. Проблема в том что большинство из них содержат таблицы. Пока опробовал:

1. OpenOffice - обычно полный кошмар, но один раз получил красивые иероглифы. 3 раза из четырех ОО крашнулся.
2. http://www.docudesk.com/ - таблицы пожеваны, часть слов в своих личных тект-боксах, часть обрезаны поверху.
3. http://www.pdftodocconverterpro.com/ - у него два вида конверсии. В первом все выглядело идентично оригиналу, но все элементы были в своих личных рамочках и коробочках (т.е. работать с ним, лучше утопиться). Второй был сделан для удобства работы, (т.е. без текст боксов для каждого слова) но все было перемешано до полной не узнаваемости.
4. http://www.hellopdf.com/ - после попытки конвертирования в первый раз, за черти сколько времени пришлось делать холодную перезагрузку.
5. http://media-convert.com/ - результат такой что легче сохранить ПДФ как текст и потом ручками все рисовать.

Кто нибудь может что посоветовать? Цена ПО не проблема (в разумных пределах)


Правильное решение (The Right Thing) - найти, кто и из чего сделал эти ПДФы.
Иначе - ничего хорошего не выйдет.
"Оставь надежду, всяк сюда входящий".
Это как дисассемблирование.
Вы потратите прорву времени и сил на испытание софтвера, который в лучшем случае даст вам то, что у Вас описано в пункте "3".
Проблема не только в чтении ПДФ, но и в создании вордовских файлов - оба формата довольно ублюдочны, и найти контору, которая оказалась бы способна разобраться с обоими, крайне маловероятно.
Попробуйте конвертировать в HTML, потом почистить вручную, потом загрузить в ворд.
Или просто copy/paste и воссоздавайте таблицы вручную.

удачи.


Top
 Profile  
 
 Post subject: Re: Работа с PDF(ПДФ)
PostPosted: Mon Dec 01, 2008 12:03 pm 
Offline
User avatar

Joined: Sat Sep 08, 2007 11:13 am
Posts: 4618
sds wrote:
Правильное решение (The Right Thing) - найти, кто и из чего сделал эти ПДФы.
Это к сожалению не получится т.к. большинство из них скачано с интернета.
Quote:
Иначе - ничего хорошего не выйдет.
"Оставь надежду, всяк сюда входящий".
Это как дисассемблирование.
Вы потратите прорву времени и сил на испытание софтвера, который в лучшем случае даст вам то, что у Вас описано в пункте "3".
Проблема не только в чтении ПДФ, но и в создании вордовских файлов - оба формата довольно ублюдочны, и найти контору, которая оказалась бы способна разобраться с обоими, крайне маловероятно.
Попробуйте конвертировать в HTML, потом почистить вручную, потом загрузить в ворд.
Или просто copy/paste и воссоздавайте таблицы вручную.

Я этого и боялся. Видимо придется ручками. Не то чтобы там запредельное количество документов, просто не хотелось тратить лишнее время если есть нормальный конвертер. Спасибо за совет.

_________________
...that guy could kick my butt, tell a heart-rending story that would make her cry, and ask to be called "Captain" all at once ... I don't like him...


Top
 Profile  
 
 Post subject: Re: Работа с PDF(ПДФ)
PostPosted: Mon Dec 01, 2008 12:15 pm 
Offline
Вкладчик в развитие форума
User avatar

Joined: Tue Sep 04, 2007 2:13 pm
Posts: 15440
Location: USA
я не настоящий сварщик, но все же...

А разве у Адобе нет Acrobat Writer? В котором можно "Save as?" :hide:

_________________
Другого Трампа у меня для вас нет!


Top
 Profile  
 
 Post subject: Re: Работа с PDF(ПДФ)
PostPosted: Mon Dec 01, 2008 12:17 pm 
Offline

Joined: Fri Sep 07, 2007 11:39 am
Posts: 7080
Мне тоже подумалось про промежуточный шаг - через html-ы. Не то чтоб я знал о конкретном конвертере, но технология должна быть обкатана, коль скоро гугл пользуется ей в полный рост.

_________________
Пух. Винни Пух.


Top
 Profile  
 
 Post subject: Re: Работа с PDF(ПДФ)
PostPosted: Mon Dec 01, 2008 12:22 pm 
Offline
User avatar

Joined: Thu Dec 20, 2007 4:55 am
Posts: 2378
Location: N-sk
Ну, вообще то в таких случаях, юзаем "Portable ABBYY Screenshot Reader", маркируем страницу с текстом, распознаем, и копипастим в ворд.Софтина около 30 мегов. Как срочно ? Завтра могу выложить на какой нибудь фалообменник.Если треба ?

_________________
" Если кто погубит Россию, то это будут не коммунисты, не анархисты,
а проклятые либералы " ©


Top
 Profile  
 
 Post subject: Re: Работа с PDF(ПДФ)
PostPosted: Mon Dec 01, 2008 12:26 pm 
Offline

Joined: Tue Sep 11, 2007 11:52 pm
Posts: 1731
Location: Walnut Creek, CA
Можно попробовать ABBYY PDF Transformer.
Графические PDF-файлы он точно переводит в Word-формат, хотя и перевод зависит от качества кадра.
Что же касается текстовых PDF-файлов, то надо посмотреть, будет ли он их обрабатывать вообще.
Вечером, если руки дойдут, попробую потренироваться...

_________________
Василий Т.


Top
 Profile  
 
 Post subject: Re: Работа с PDF(ПДФ)
PostPosted: Mon Dec 01, 2008 12:38 pm 
Offline
User avatar

Joined: Sat Sep 08, 2007 11:13 am
Posts: 4618
Ноныч wrote:
Ну, вообще то в таких случаях, юзаем "Portable ABBYY Screenshot Reader", маркируем страницу с текстом, распознаем, и копипастим в ворд.Софтина около 30 мегов. Как срочно ? Завтра могу выложить на какой нибудь фалообменник.Если треба ?

Спасибо, попробую (я уже сам нашел :)). Мне правда очень не хочется иметь дело с OCR. У меня там много цифр а проверить что оно нигде не обозначило "3" как "8" труднее чем чинить жеванные таблицы.

_________________
...that guy could kick my butt, tell a heart-rending story that would make her cry, and ask to be called "Captain" all at once ... I don't like him...


Top
 Profile  
 
 Post subject: Re: Работа с PDF(ПДФ)
PostPosted: Mon Dec 01, 2008 12:43 pm 
Offline

Joined: Tue Sep 11, 2007 11:52 pm
Posts: 1731
Location: Walnut Creek, CA
marine wrote:
Мне правда очень не хочется иметь дело с OCR. У меня там много цифр а проверить что оно нигде не обозначило "3" как "8" труднее чем чинить жеванные таблицы.

К сожалению, при не очень качественном кадре без этого никак. :bang:
Кстати, нет смысла перегонять без OCR - Word-файлы с картинками на каждой странице будут слишком "тяжелыми".

_________________
Василий Т.


Top
 Profile  
 
 Post subject: Re: Работа с PDF(ПДФ)
PostPosted: Mon Dec 01, 2008 2:07 pm 
Offline

Joined: Wed Sep 12, 2007 12:55 am
Posts: 565
Location: Israel
marine wrote:
Мне надо конвертировать некоторе количество ПДФов в вордовский формат. Проблема в том что большинство из них содержат таблицы.


Значится, так. Как широко известный в узких кругах спец по PDF-ам, ответственно заявляю.

1. В общем виде задача не решается - если PDF-ы не были сами произведены из Ворда. Тогда есть шанс.

2. Очень существенен тип таблиц - имеются ли multi-line cells, col/row span и прочие красивости. Чем их больше - тем труднее.

3. OCR, особенно ABBYY, может дать неплохой результат, у него очень мощный алгоритм распознавания таблиц. Проблема - получение картинки не менее 600 dpi.

4. В Adobe Acrobat интегрирован BCL-евский плагин распознования таблиц - для простых и средних случаев дает неплохие результаты - в Акробате версии 7 и старше - выделить таблицу, right-click - copy as table. Но - велика вероятность крэша.

5. На сладкое. Я работаю над этой проблемой (не перевод а Ворд, а общая задача распознавания document layout and reading order последние 10 лет (два патента). Имеется free plugin для Adobe Acrobat (http://www.pdflib.com/products/tet-plugin/), output as XML and RTF - но это версия двухлетнией давности. Сейчас у нас на сносях релиз ТЕТ-3 - там распознование таблиц на пару порядков лучше, но output только XML - преполагается, что в пакете будет XSLT пример для перевода его в HTML.

Если хотите - пишите в личку, я дам свой е-мейл, пришлете мне пару документов, я прогоню их и верну в ХМЛ-виде.


Top
 Profile  
 
Display posts from previous:  Sort by  
Post new topic Reply to topic  [ 17 posts ]  Go to page 1, 2  Next

All times are UTC - 8 hours [ DST ]


Who is online

Users browsing this forum: No registered users and 42 guests


You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot post attachments in this forum

Search for:
Jump to:  
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group