Посты с тегом docx
sevka 11.11.2013 19:02

Скриптыdiff для бинарных офисных файлов

Мне недавно захотелось странного - делать diff для файлов odt и pdf.

Скрипт вытаскивает текст из двух файлов (doc,odt,docx,pdf,xls,xlsx,ods,rtf) и сравнивает эти тексты в моей любимой программе meld.

Я применяю этот скрипт для сравнения файлов в Eclipse. Для этого надо поставить плагин (http://sourceforge.net/projects/externaldiff/). В SVN плагине Subversive уже есть функция External diff. А затем в качестве внешней команды сравнения настроить этот скрипт.

Установка зависимостей (команда для Ubuntu):
sudo apt-get install odt2txt python-pdfminer catdoc antiword unoconv
Полностью.
+ 3 -
0
exelens 04.12.2010 00:37

Есть проблема!Парсер xml файла из docx

Клиент прислал документ docx а он криво открывается и ОО и гугльдоксом.

Если достаю xml и открываю в браузере то читать можно но трудно так как переносов строк нет.
Полностью.
+ 2 -
26