Главная Новости

Pandoc: конвертируем текстовую разметку

Опубликовано: 06.10.2017

Конвертер текстовых файлов Pandoc нельзя отнести к классу обязательных программ для каждого пользователя. Но если нужно конвертировать файлы из одного формата разметки в другой, то Pandoc - это, как говорится, универсальный швейцарский армейский нож

Языки разметки

С языками разметки текста сталкиваются практически все пользователи, а многие даже с ними и работают. Текстовый документ, написанный с использованием языка разметки, содержит не только сам текст, но и дополнительную информацию о различных его участках - например, указание на заголовки, списки и т. д. Текстовую разметку ещё часто называют вёрсткой - например, HTML-вёрстка .

С языком разметки мы сталкиваемся, когда, например, используем BB-код при создании сообщения на форумах. И форматов разметки очень много: типографических - TeX , PostScript , PDF; офисных для файлов Microsoft Word и OpenOffice; браузерных - HTML, XML, SVG; почтовых - Markdown .

И бывает ситуации, когда текст из одного формата разметки нужно конвертировать в другой. Для этой цели и существует консольная программа -конвертер Pandoc.

Эта программа может принимать и преобразовывать следующие форматы друг в друга: Markdown, reStructuredText, Textile, HTML, DocBook, LaTeX.

Но выходных форматов, в которые можно конвертировать вышеперечисленные форматы, гораздо больше:

HTML-форматы XHTML, слайды Slidy, Slideous, S5; офисные форматы: Microsoft Word docx, OpenOffice/LibreOffice ODT, OpenDocument XML; электронные книги EPUB ; техническая документация DocBook, GNU TexInfo, Groff man pages TeX-разметка: ConTeXt, слайды LaTeX Beamer; простая разметка текста: AsciiDoc, MediaWiki, Emacs Org-Mode.

В отличие от большинства инструментов для конвертирования разметки, которые используют регулярные выражения для замены, Pandoc имеет модульную конструкцию. Программа состоит из множества отдельных модулей, которые делают разбор текста в собственное представление документа, из которого потом разметка и преобразуется в целевой формат.

rss