opium_inside 27.10.2010 22:09
Скрипты — Нормализатор верстки и оформления текстового документа
Добрый вечер, дорогие друзья! Я думаю, все мы сталкивались порой с молодыми блондинками/тетеньками-бухгалтерами 50 лет, которые строят ужасный, вырвиглазный абзац в прямом и переносном смысле слова, пользуясь текстовым процессором как печатной машинкой. Да-да, верстка при помощи и пробел, в лучшем случае табуляции, игнорирование банальных функций вроде выравнивания по краю страницы... Да кому я рассказываю, все вы это видели хотя бы раз.Так вышло, что я занимаюсь составлением в сборник статей таких тетушек. Увидев то, что они творят с текстом, я понял, что человечество созрело для скрипта, который будет превращать кашу из символов в правильно-отформатированный текст, который нужно будет просто оформить в любимом текстовом процессоре до общего стандарта данного типа документов. Ну, или по своему вкусу, при отсутствии такового. (Стандарта, а не вкуса, о боже мой!) О том, как я создал решение, читайте далее.
Итак, первым делом я пролистал кучу таких работ и переписал все типичные ошибки в составлении текста. Они перед вами:
1) Верстка вертикальных отступов текста при помощи вместо расстояния до/после абзаца.
2) Неправильно расставленные пробелы вокруг запятой ,например так , так,или даже так.
3) Аналогичные ситуации с точкой.
4) Многоточие в виде трех точек, вместо специального типографского символа '…' (критично для книгоиздания).
5) Множественные пробелы между словами (два, три пробела, иногда после каждого слова, что замещает ламеру разрядку между словами).
6) Верстка отступа пробелами вместо адекватных средств вроде красной строки и выравниваний по краю.
7) Использование дефиса '-', там где по правилам русского языка должно стоять длинное тире '—'.
8) Использование пары значков дюйма вместо принятых в русском языке кавычек-ёлочек '«»' или кавычек-лапок '„“'
9) Лишние символы отступа после логического конца строки. Они остаются как результат полета мысли и многочисленных правок и особенно уродуют вывод, если мы используем выравнивание по ширине.
10) Безвкусное, некорректное и даже, зачастую, нечитабельная комбинация шрифтов, цветов, заливок, стилей, размеров, обликов, подчеркиваний и начертаний.
Все это решает следующий скрипт, написанный мной сегодня в порыве ненависти к извращенцам и насильникам текстовых процессоров:
Пара слов о том, что и как в этом скрипте. Он читает стандартный ввод, исправляет 9 проблем и выдает исправление на стандартный вывод. Десятая проблема решается способом использования. Скопируйте весь текст в текстовый документ, запустите скрипт в формате normalizer.pl /path/to/file.txt (хотя не возбраняется и (cat file ИЛИ echo текст) с конвейером, дело вкуса. Потом полученный текст с практически идеальным форматированием, полный типографских символов, мы вставляем в совершенно новый документ и оформляем как хотим. Вам такой подход кажется чересчур радикальным? Отнюдь. Если бы мы правили вручную, без скрипта, нам все равно бы пришлось сбросить оформление 90% форматированного текста, помучить поля, поправить в каждом абзаце отступы красной строки, изменять практически все параметры документа и проч, я прошел через это, так что поверьте мне, выходит куда дольше, чем начать заново, не сбрасывая на умолчания то, что хорошо само по-себе.
Давайте сравним "до" и "после" :) На примере женщины, приславшей работу с бескрайних степей Азии, как наиболее яркой.
До:
После:
Все это было полностью отформатировано скриптом, мне оставалось только установить отступ красной строки и объявить заголовки. Разве не чудесно?
И напоследок извиняюсь, если никому кроме меня скрипт не покажется нужным, если у каждого уже лежит самописный скрипт в 10 раз круче, но вы не шлете его сюда, т.к. не считаете нужным слать такую элементарщину, если текстовые процессоры по вашему мнению не нужны, если вы все нормализуете через функции emacs, оформляете в postscript и делаете PDF, если вы бы такое писали на sed, а perl R.I.P., ну и прочие частные случаи гуру локалхоста. (фуух, такое пиршество троллям подпортил перечислением:) Я просто хотел оживить такой вот ИМХО полезной мелочью полудохлый раздел скриптов.

+ -5 -
ГЕТ ПРО**АН
Ну так случилось, что двач и аниме я терпеть не могу =) Если хочешь, могу тебе сейчас мод-гет сделать правкой.
Я на Lyx пересел недавно. Выбираем стиль документа и вперед. Нет даже выбора размера шрифта - очень удобно и возможно есть шаблоны а-ля ГОСТ, но сам не искал уже.
LaTeX в таких вещах решительно не нужен. Он не нужен
А) В адекватных текстах (технические талмуды мы за таковые не считаем идеологически:)
Б) Простым людям, далеким от компьютеров, которым удобнее WYSIYG (LyX видел, не впечатлило, слишком узкие возможности добиться точно того, что хотелось бы без глубокого погружения в клоаку кода LaTex, ну и см. пункт 1)
В) Тем, кто осилил postscript (см. про адекватные тексты и 6-этажные формулы)
Г) Тем, кто не верстает сам, а отдает на верстку другому человеку. Должность такого вот "подготовителя" к верстке называется "Технический редактор", она существует уже давно, едва ли не до появления компов, и всегда была ничуть не менее востребована и уважаема чем должность наборщика или верстальщика. Без такой "прослойки" между ними ничего путного не выйдет, поверьте моему опыту.
Д) в том же OpenOffice при доле ловкости можно без всяких костылей сверстать простой неперегруженный оформлением томик и экспортировать в PDF.
Е) Для нужд крупного серьезного издательства (адекватного, см. пункт а) есть такой язык как SGML, он громоздок, но замечательно читабелен и справляется со всем необходимым, советую обратить свой взор, если это была не метанация природных водоемов, а мой уважаемый коллега и правда интересуется книгоиздательством.
Ж) Для издательств помельче есть специально-модифицированные под их нужды HTML/CSS подобные языки, которые куда проще и интуитивнее, а главное просты в освоении и совместимы со стандартом XML, что дает богатые возможности по доработке в скриптах и автоматизации (LaTeX отдыхает).
Подводя итоги, хочется заметить, что вышеперечисленных альтернатив (а точнее, мэинстримовых решений) более чем достаточно для того чтобы вычеркнуть громоздкий и топорный LaTeX из арсенала 70% издательств и 97% простых людей. Люди его применяют по трем причинам:
1) ничего удобного кроме латекса не знают (позор им и поношение).
2) технофашисты (любым фашистам, как известно, место на фонаре, тут без комментариев:)
3) умные ученые дяденьки, которые двигают вперед нашу науку и строчат на нем полные матана диссертации (честь таким и хвала, этот инструмент специально для них, и они зачастую творят в нем чудеса)
4) студенты, которых нагрузили лабами (таким уважения нет, не заслужили пока, но им и правда надо, уж лучше чем формулы в ворде набивать или jpg засовывать. Только не надо этот LaTeX во все дыры запихивать, поверьте, он совсем не так хорош, как кажется после первого впечатления в сравнении с 1% возможностей того же winword, которые вы проходили в школе)
Извините за войну и мир, меня довольно давно припарили LaTeXом и решил хоть где-то развернуто выложить свое мнение относительно него.
А) В адекватных текстах (технические талмуды мы за таковые не считаем идеологически:)
Б) Простым людям, далеким от компьютеров, которым удобнее WYSIYG (LyX видел, не впечатлило, слишком узкие возможности добиться точно того, что хотелось бы без глубокого погружения в клоаку кода LaTex, ну и см. пункт 1)
В) Тем, кто осилил postscript (см. про адекватные тексты и 6-этажные формулы)
Г) Тем, кто не верстает сам, а отдает на верстку другому человеку. Должность такого вот "подготовителя" к верстке называется "Технический редактор", она существует уже давно, едва ли не до появления компов, и всегда была ничуть не менее востребована и уважаема чем должность наборщика или верстальщика. Без такой "прослойки" между ними ничего путного не выйдет, поверьте моему опыту.
Д) в том же OpenOffice при доле ловкости можно без всяких костылей сверстать простой неперегруженный оформлением томик и экспортировать в PDF.
Е) Для нужд крупного серьезного издательства (адекватного, см. пункт а) есть такой язык как SGML, он громоздок, но замечательно читабелен и справляется со всем необходимым, советую обратить свой взор, если это была не метанация природных водоемов, а мой уважаемый коллега и правда интересуется книгоиздательством.
Ж) Для издательств помельче есть специально-модифицированные под их нужды HTML/CSS подобные языки, которые куда проще и интуитивнее, а главное просты в освоении и совместимы со стандартом XML, что дает богатые возможности по доработке в скриптах и автоматизации (LaTeX отдыхает).
Подводя итоги, хочется заметить, что вышеперечисленных альтернатив (а точнее, мэинстримовых решений) более чем достаточно для того чтобы вычеркнуть громоздкий и топорный LaTeX из арсенала 70% издательств и 97% простых людей. Люди его применяют по трем причинам:
1) ничего удобного кроме латекса не знают (позор им и поношение).
2) технофашисты (любым фашистам, как известно, место на фонаре, тут без комментариев:)
3) умные ученые дяденьки, которые двигают вперед нашу науку и строчат на нем полные матана диссертации (честь таким и хвала, этот инструмент специально для них, и они зачастую творят в нем чудеса)
4) студенты, которых нагрузили лабами (таким уважения нет, не заслужили пока, но им и правда надо, уж лучше чем формулы в ворде набивать или jpg засовывать. Только не надо этот LaTeX во все дыры запихивать, поверьте, он совсем не так хорош, как кажется после первого впечатления в сравнении с 1% возможностей того же winword, которые вы проходили в школе)
Извините за войну и мир, меня довольно давно припарили LaTeXом и решил хоть где-то развернуто выложить свое мнение относительно него.
> WYSIYG, SGML, HTML/CSS подобные языки, LaTeX отдыхает
Много эмоций и мало истины. Лучше LaTeX пока не видел. WinWord это вообще ужас на крыльях ночи. Вспоминаю как кошмарный сон.
Наверное Вам не приходилось верстать большие документы.
Много эмоций и мало истины. Лучше LaTeX пока не видел. WinWord это вообще ужас на крыльях ночи. Вспоминаю как кошмарный сон.
Наверное Вам не приходилось верстать большие документы.
Очень смешно =)
Я довольно долго зарабатывал на жизнь версткой больших (более 200 страниц) документов, причем не для себя и не какие-то там курсачи (я противник высшего образования в современном виде), а на практике в издательстве, и уверяю, LaTeX имеет очень узкое хождение и те, кто этим зарабатывает на жизнь от LaTeX плюются.
Я довольно долго зарабатывал на жизнь версткой больших (более 200 страниц) документов, причем не для себя и не какие-то там курсачи (я противник высшего образования в современном виде), а на практике в издательстве, и уверяю, LaTeX имеет очень узкое хождение и те, кто этим зарабатывает на жизнь от LaTeX плюются.
А мне приходилось писать большие инструкции в Word с ОЧЕНЬ жесткими требованиями к оформлению всего и вся и поверь, это ужас.
LaTeX может и не идеал, но он идет от стилей. В Ворде все наоборот, от внешнего вида. Чем скорее закопаем такой подход, тем лучше.
LaTeX может и не идеал, но он идет от стилей. В Ворде все наоборот, от внешнего вида. Чем скорее закопаем такой подход, тем лучше.
Я что, где-то в предлагал всё верстать в winword'е? Из всех инструментов для верстки нетехнического документа последним будет LaTeX, но предпоследним именно winword =) И если у меня будет выбор из всего множества способов сверстать (любой) документ сложнее служебного отчета так, как я хочу, word я точно не выберу, я знаю куда более эффективные средства.
Но ничего не надо закапывать, у винворда есть своя экологическая ниша, и она гораздо шире, чем ниша латекса. Если немного отвлечься от холивара и посмотреть с чего все началось, так это с того что я нашел удобный способ для технического редактора исправить то, что было создано далекими от компьютеров людей. И один умник предложил 50-летним преподавателям музыки верстать статьи по теории гармонии (как раз то, что мы видим в моем примерев оп-посте) в LaTeX. Нет, ну вам самим не смешно? =)
Кстати, сейчас модно ругать winword, но я пока что ничего серьезнее объявления в туалете коммунальной квартиры о том чтобы смывали воду, боюсь доверить OpenOffice, да не закидают меня камнями за это опенсорсники. Я тоже не в восторге от Microsoft, и даже (в отличие от 70% здесь сидящих) не имею винды в дуалбуте ни на одной из машин. Но надо признать, что в отличие от откровенно-провальных PowerPoint и Acess, и мутного и переоцененного excel, винворд как раз в последних редакциях справляется со своими задачами великолепно. И поверьте человеку, который (не по своей воле, и не от хорошей жизни, и не от огромного выбора) много работал в жизни с винвордом в виртуалке/вайне. Он по удобству и функционалу дает вперед 100 очков любому аналогу. А работа от стилей там возможна, и, более того, заложена в его семантику и естественна для того, кто умеет им пользоваться, а не изучал интуитивно и не работает в нем через пятую точку. Поверьте, документ 90% таких умников, ругающих это (далеко не идеальное, с кучей своих косяков) поделие, смотреть больно. Это примерно как конструкция
для perl-программиста. Ну кто знает, тот поймет. Просто word позволяет на мой вкус слишком много вольностей и слишком много "сахара", и от этого большой соблазн сверстать свой документ через ж*пу.
Но ничего не надо закапывать, у винворда есть своя экологическая ниша, и она гораздо шире, чем ниша латекса. Если немного отвлечься от холивара и посмотреть с чего все началось, так это с того что я нашел удобный способ для технического редактора исправить то, что было создано далекими от компьютеров людей. И один умник предложил 50-летним преподавателям музыки верстать статьи по теории гармонии (как раз то, что мы видим в моем примерев оп-посте) в LaTeX. Нет, ну вам самим не смешно? =)
Кстати, сейчас модно ругать winword, но я пока что ничего серьезнее объявления в туалете коммунальной квартиры о том чтобы смывали воду, боюсь доверить OpenOffice, да не закидают меня камнями за это опенсорсники. Я тоже не в восторге от Microsoft, и даже (в отличие от 70% здесь сидящих) не имею винды в дуалбуте ни на одной из машин. Но надо признать, что в отличие от откровенно-провальных PowerPoint и Acess, и мутного и переоцененного excel, винворд как раз в последних редакциях справляется со своими задачами великолепно. И поверьте человеку, который (не по своей воле, и не от хорошей жизни, и не от огромного выбора) много работал в жизни с винвордом в виртуалке/вайне. Он по удобству и функционалу дает вперед 100 очков любому аналогу. А работа от стилей там возможна, и, более того, заложена в его семантику и естественна для того, кто умеет им пользоваться, а не изучал интуитивно и не работает в нем через пятую точку. Поверьте, документ 90% таких умников, ругающих это (далеко не идеальное, с кучей своих косяков) поделие, смотреть больно. Это примерно как конструкция
foreach my $line (@array) {
$line =~ s/\n$//g;
}
для perl-программиста. Ну кто знает, тот поймет. Просто word позволяет на мой вкус слишком много вольностей и слишком много "сахара", и от этого большой соблазн сверстать свой документ через ж*пу.
> Просто word позволяет на мой вкус слишком много вольностей и слишком много "сахара", и
> от этого большой соблазн сверстать свой документ через ж*пу.
Проблема в том, на мой взгляд, что я лет за 15 работы не видел ни одного нормально сверстанного в Ворде документа. Думаете это случайность? Мое мнение, в ворде гораздо легче работать через одно место, чем "правильно".
> от этого большой соблазн сверстать свой документ через ж*пу.
Проблема в том, на мой взгляд, что я лет за 15 работы не видел ни одного нормально сверстанного в Ворде документа. Думаете это случайность? Мое мнение, в ворде гораздо легче работать через одно место, чем "правильно".
Я с вами согласен. Вообще, много с чем через одно место работать проще. Чтобы правильно работать, думать еще надо =)
Может сейчас что-то изменилось, давно не трогал Ворда, но когда я с ним работал, я пробовал работать "правильно", получается очень плохо, начиная с того, что не видел книжек описывающих этот самый "правильный" путь.
Насчет DocBook только положительные эмоции. Я сталкивался в крупном проекте только однажды. Увы, общая культура русской верстки располагает к возведению верстальщиками костылей из-за указаний сверху, и это еще хорошо, если не загонят с головой в виндовые гуи за десятки зеленых, которые удобны для глянца и прочей перенасыщенной дизайном периодики и рекламы, но не заточены под удобное и быстрое создание чего-то серьезного, хотя может быть просто недостаточно часто работал, не мой стиль. Возвращаясь к DocBook, мне очень понравилось, глубоко-продуманная надстройка. Приятно, что кто-то на этом ресурсе о нем знает. Я в общем-то в числе html-подобных языков имел и его ввиду. :)
> есть такой язык как SGML
Нет такого языка разметки. Это язык описания языков. Сам по себе он не работает.
Нет такого языка разметки. Это язык описания языков. Сам по себе он не работает.
Я отношусь к 4 категории. Я студент технического вуза и делал на нем пару тройку курсовых работ. Узнал про него после перехода на линукс, и после этого я понял как надо верстать документы.
Плюсы
Редактирование текстов в Ворде меня немножко сейчас раздражает, особенно чужих. У разных обзацев разные отступы, неиспользование стилей, заголовки выделяются размером шрифта, жирным шрифтом итд... Как с этим боретесь и приводите документы в единый стандарт? Хотя вордом давно не пользовался и не обновлял, пользуюсь версией 2003, вроде бы слышал, что в новом получше стало с этим.
Ниже упоминали про DocBook, погуглив я понял, что формулы он не поддерживает, или я ошибаюсь?
Плюсы
- Удобный набор формул
- Красивый результат
- Наличие пакета eskd, который оформляем документ практически по ГОСТу.
- Заставляет оформять тексты правильно
- Неудобный набор таблиц
- Отсутствие полной поддержки UTF-8, для русского языка и других языков надо подключать дополнительные пакеты
- Неудобное добавление рисунков
- Создание собственных стилей весьма затруднено, хотя может и в плюсы, балбесы не смыслящие в верстке не пройдут
- Было бы неплохо в реальном времени смотреть на итоговый результат, особенно при наборе сложных формул
Редактирование текстов в Ворде меня немножко сейчас раздражает, особенно чужих. У разных обзацев разные отступы, неиспользование стилей, заголовки выделяются размером шрифта, жирным шрифтом итд... Как с этим боретесь и приводите документы в единый стандарт? Хотя вордом давно не пользовался и не обновлял, пользуюсь версией 2003, вроде бы слышал, что в новом получше стало с этим.
Ниже упоминали про DocBook, погуглив я понял, что формулы он не поддерживает, или я ошибаюсь?
Из-за таких вот проблем (не скриптов, тех проблем в результате которых скрипт родился) я считаю что для пользования компьютером надо сдавать "права", как на управление автомобилем (и т.д. и т.п.).
Ориентация на WYSIWYG и приводит к такому стилю оформления. Что вижу, то и имею.
Подготовка больших документов с серьезными требованиями к оформлению в MS Word сравнима с изощренной пыткой.
Подготовка больших документов с серьезными требованиями к оформлению в MS Word сравнима с изощренной пыткой.
и как это поможет редактировать офисные документы? Это не сарказм, I really didn't get it. Обычно HTML-кодеры (даже самые тупые) так не верстают.
Вебморда + Email + говновёрстка = бугурт
А так же хлам во всяческих формочках редактирования.
А так же хлам во всяческих формочках редактирования.
Идею понял, если знаешь джаваскрипт, я готов оказать содействие в объяснении что и как происходит, и если придется, корректировании regexp-ов на предмет жадности квантификаторов или чего там еще может пойти не так, например почистить perl-специфичные конструкции вроде замены $1 на \1. У меня просто нехватка знаний в джаваскрипте, но портировать можно ИМХО куда-угодно, весь скрипт же на регекспах, а perl-regexp это давно уже стандарт де факто.
P.S. И у меня проблемы со знанием странного нового инет-сленга. Я не знаю что такое бугурт и знать не хочу, я был бы рад, если бы мы общались неформально, но как-то более менее понятно обоим :) Мой косяк, отстал я маленько от жизни.
P.S. И у меня проблемы со знанием странного нового инет-сленга. Я не знаю что такое бугурт и знать не хочу, я был бы рад, если бы мы общались неформально, но как-то более менее понятно обоим :) Мой косяк, отстал я маленько от жизни.
Ты не про этот ли бугурт случайно?
Бдыщь.
Бугурт (др.-в.-нем. Buhurt, старофр. bouhourt или buhurt «ударять») — турнир, в ходе которого две группы рыцарей, вооружённых затупленным оружием (копьями либо другим оружием, как например турнирная палица, или комбинацией, состоящей из обоих типов) сражались друг против друга. Сражение рыцарей один на один называлось англ. joust — рыцарский поединок.
Бдыщь.
Спасибо, скрипт мне еще не раз пригодится, борюсь с этим регулярно и ожесточенно.
Для таких как ты и выложил, однополчан, так сказать :) Будешь приятно удивлен экономией времени.
А вот такой вопросик ещё. Приходилось когда-нибудь тянуть книжки с lib.ru? Там они в ужасном виде: нет абзацев, каждая строка определённой длины, из-за чего читать жутко неудобно. Да чего рассказывать, проще зайти и любую посмотреть. Я как-то бился над решением этой проблемы, но потом забил, так и не решив. Мне представлялось решение так: заменить все одиночные переносы строки(абзацы там отделены пустой строкой) на пробелы. Но вот дальше возникла проблема с переносом слов(да, там некоторые слова перенесены и после моей замены получаются вот такие урод-цы в кни-ге, из-за ко-торых чи-тать очень не удоб-но). Может подскажешь какую-нибудь идейку для решения этой проблемы, раз уж с текстами часто работаешь?
За скрипт - отдельный респект.
За скрипт - отдельный респект.
Да, сейчас ещё раз глянул, даже мой способ со строками там не во всех текстах рулит. В общем, если будет время, был бы рад подсказкам, как там это дело можно привести в нормальный вид.
Или проще html парсить?
Я когда-нибудь застрелюсь из-за невозможности правки сообщений сразу после написания.
Тоже когда-то бился с lib.ru, такое ощущение что у них договор с издательствами вы нас не трогаете, а мы выкладываем в таком виде, что читать не возможно:)
Моя битва с lib.ru закончилась победоносной победой флибусты. Там книги уже нормально сверстаны и структурированы.
Моя битва с lib.ru закончилась победоносной победой флибусты. Там книги уже нормально сверстаны и структурированы.
Да, приходилось конечно, каюсь =) Я никогда не задумывался, что можно себе облегчить жизнь и переверстать их в нормальный вид, если честно. Я редко смешиваю работу и личную жизнь. Но вызов принял :) Я попробую сейчас что-нибудь сделать "на скорую руку", идеи в принципе есть. Удаляем дефис если он в конце строки и удаляем одиночные переносы строк.
Как назло, не попадается особо отвратительно-сверстанная книжка. Жду примеров =)
С переносами сейчас не вспомню, но вот пример просто с одноразмерными строками и автоматическим растягиваем строк по ширине. И как раз из тех примеров, где между абзацами нет пустой строки.
Чревато проблемами в случае, если действительно дефис придётся на конец строки, например, так:
"...когда-
нибудь..."
Полностью автоматизировать эту задачу мне кажется малореально. Все случаи, когда дефис нужен, описать затруднительно. Поэтому либо мириться с ошибками, либо эту часть делать полуавтоматически - сидит человек и вручную разрешает или запрещает замену в конкретном месте. Во втором случае мне кажется более "интуитивно понятно" удалять дефис и конец строки вместе, оставив одиночные переносы строк на попозже.
"...когда-
нибудь..."
Полностью автоматизировать эту задачу мне кажется малореально. Все случаи, когда дефис нужен, описать затруднительно. Поэтому либо мириться с ошибками, либо эту часть делать полуавтоматически - сидит человек и вручную разрешает или запрещает замену в конкретном месте. Во втором случае мне кажется более "интуитивно понятно" удалять дефис и конец строки вместе, оставив одиночные переносы строк на попозже.
А вы точно про библиотеку Максима Мошкова? Сколько там читал, никаких проблем не возникало. Читаю либо онлайн, либо wget + iconv + less
Проблема в том, что в строчке обычно около 80 символов, а абзацы не разделены пустрой строкой. Поэтому не всегда можно конвертировать в удобный для тебя формат. Например распечатать, может для меня удобно в строчке иметь 50 символов, или 100...
Я не вижу никакой проблемы. Начало каждого абзаца отделено табуляцией.
Ну, мне неудобно читать книгу, отформатированную с такими короткими строками на широкоформатном 19-ти дюймовом мониторе.
Купить pdf/fb2/бумажную? Найти более подходящую версию/ресурс? Убрать все переводы строк внутри абзаца и загнать в pdf/fb2/odt/txt/whatever?
Купить pdf/fb2/бумажную?
Последние несколько лет я почти не читаю в бумаге. Форматы fb2 и pdf меня так же не устраивает, приходится из них конвертировать в текст.
Найти более подходящую версию/ресурс?
А может снести Linux и поставить винду, плюнуть на то, что мне удобно и принять чужие правила?
Убрать все переводы строк внутри абзаца и загнать в pdf/fb2/odt/txt/whatever?
Именно поэтому я и обратился с вопросом к топикстартеру. Я в своих сообщениях описал, что у меня не получилось написать скрипт, осуществляющий это. Если вы считаете это простейшей задачей, прошу и вас поделиться решением. Или на ресурсе с сегодняшнего дня запрещены вопросы к специалистам в своих областях по роду их деятельности? Моего знания perl не хватило на написание такого скрипта, потому что символов табуляции в тексте нет, как грамотно обработать и переносы строк и абзацы я пока не придумал. С форматированием текста мне вообще не приходилось работать.
На момент написания комментария сайт почему то не открываецо. Посему потестил на паре, скачанных вчера для теста, повестей Лукьяненко.
P.S.
Пёрл я не знаю совсем, но, взяв за основу, скрипт из поста, получилось вот что:
Важное замечание: парсер съел html-код знака копирайта.
P.S.
Пёрл я не знаю совсем, но, взяв за основу, скрипт из поста, получилось вот что:
Важное замечание: парсер съел html-код знака копирайта.
О. Спасибо. Теперь осталось его скрестить со скриптом ТС и можно жить. :)
Только строку
Надо заменить на
а то слова слипаются.
Только строку
s/\n//g;
Надо заменить на
s/\n/\ /g;
а то слова слипаются.
Буду краток: http://myooo.ru/content/view/148/43/ - макрос под названием "Типографика для OpenOffice". В контексте технической редактуры, не вёрстки. Макрос кроссплатформенный, безотказно работает, результат почти не требует ручной доводки, отрабатывает пункты 2-9, то есть непосредственно проблемы подготовки текста для собственно вёрстки.
Потом. Пункт 1 - это ИМХО полностью надуманная вещь, верстать регулярный многостраничный текст (а ваши сборники такие, думаю) надо с привязкой к базовой линии, в этом случае не придётся ничего вертикально выравнивать, текст с обеих сторон страницы ляжет правильно, строка к строке. Пункт 10 для редактуры вообще не существует, а в вёрстке - ну на то вы и верстальщик, чтобы изыски авторов выводить из вырвиглазного вида.
Пример номер 2 ("после") убил меня наповал. Это окончательная вёрстка, которая пошла в печать? Меня бы за такое линчевали, извините.
Потом. Пункт 1 - это ИМХО полностью надуманная вещь, верстать регулярный многостраничный текст (а ваши сборники такие, думаю) надо с привязкой к базовой линии, в этом случае не придётся ничего вертикально выравнивать, текст с обеих сторон страницы ляжет правильно, строка к строке. Пункт 10 для редактуры вообще не существует, а в вёрстке - ну на то вы и верстальщик, чтобы изыски авторов выводить из вырвиглазного вида.
Пример номер 2 ("после") убил меня наповал. Это окончательная вёрстка, которая пошла в печать? Меня бы за такое линчевали, извините.
Не знаю, как там с печатью, а мне понравилося конвертер. Вот если бы эти же пункты из скрипта добавить в макрос, было бы круто.