Преобразование из простого текста в XML: рассчитано на книги из библиотеки Максима Мошкова, нормально понимает HTML вариант книг. На более сложном HTML скорее всего будет глючить. Для запуска нужен Perl под Windows и модуль Win32::GUI.
wtxt2xml.pl - с Win32 GUI, txt2xml.pl - запуск из командной строки, работает везде, T2X.pm - общий модуль преобразования.
Преобразование из HTML в XML, хорошо разбирает HTML, который пишет M$ Office: html2xml.pl