useful_faq | Скрипт или софт для обработки текста

Суть такова:
есть большой объём художественного текста, он разбит на строки. Больше никакого форматирования нет, храниться это всё может, допустим в простом текстовом файле. Большинство строк является отдельными предложениями, начинающимися с прописных букв. Иногда с кавычек или тире (диалог). Некоторые же строки разорваны, т.е. начинаются со строчных.

Задача: сделать такой скрипт, чтобы можно было этот текст построчно обработав, выискивая строки, соответствующие определённым критериям («начинается со строчной буквы») и приклеивая их к предыдущей строке. Ну и ещё какие-нибудь мелочи, типа подсчёта символов в строках и т.д.

В какой программной среде есть такой функционал, чтобы можно было, не имея специальных знаний, разобраться с синтаксисом и сделать себе скрипты необходимой мне обработки текста?

Можно было бы и в экселе организовать, но там я не нахожу способа проверки «строчная/прописная». Или макросами можно? Нет ли чего-то попроще, заранее ориентированного на такую специфику?

Flat | Top-Level Comments Only

From:

rambalac.livejournal.com

Экселем? Причём тут эксель, это текст.
Заменить по регулярному выражению "$([а-я])" на " $1"
Регулярные выражения есть в любых нормальных редакторах включая МС Ворд

champansky.livejournal.com

А вставить текст в экселевский файл несложно)
Нет, мне не нужно менять строчные на прописные, мне нужно взять строку, которая начинается со строчной, и приклеить её (или её часть) к предыдущей строке.

Текст можно легко вставить в паинтбраш.
И? Чем решение не устраивает? Зачем менять на прописные?

Edited Date: 2015-06-27 12:56 pm (UTC)

Ладно, пойду читать про регулярные выражения. Спасибо.

dr-trans.livejournal.com

Можно пример текста?
Если между абзацами есть пустая строка, то делаем так:
1) все двойные пробелы меняем на одинарные,
2) все абзацы меняем на пробелы,
3) все двойные пробелы меняем на абзац.
В результате строки будут срощены. :)

Нет, пустых строк нет. Пример текста:

Это первая строка. В ней несколько предложений. Целых три.
Это вторая строка, в ней предложение одно предложение, это тоже нормально.
Это третья строка, она не закончена,
потому что эта, четвёртая, строка — её продолжение. Её надо прицепить к третьей, оставив здесь только это предложение.
Это пятая строка, с ней всё хорошо.

Таки нет системы... А руками будет долго...

abazow.livejournal.com

https://ru.wikipedia.org/wiki/TeX
может сделать все, что вы себе даже представить не можете.

Инсталляция на 2 гигабайта? Мощно, спасибо)

Не, Сам редактор небольшой. 2 ГБ -- это библиотека фильтров и шаблонов под все существующие научные периодические издания мира и еще куча всяких макросов, конвертеров и прочего барахла.

shlasasha.livejournal.com

Sub UpperCaseCheck()

Dim intASCII As Integer

intASCII = Asc(Left(Range("A1").Value, 1))

Select Case intASCII
Case 65 To 90 'ASCII Code for A to Z
MsgBox "First alpha character is capitalised"
Case Else
MsgBox "First alpha character is not capitalised"
End Select

End Sub

karpion.livejournal.com

На языках типа Perl или AWK пишется за пару минут. Ну, если знать эти языки.

Или можно взять Notepad++ - там есть функция замены и использованием regex.
Я так понимаю, надо включить режим regex и менять "\n([а-я])" на " $1". Но проверять это лень.

forever_live

Лучше "\n(^[A-ZЁА-Я])"

Но, всё равно, придётся вычитывать результат. Тем более, что выражение не учитывает все возможные заглавные буквы всех алфавитов.

Проблема для автоматической обработки в том, что заглавные буквы встречаются и в середине предложений. А также цифры, буквы других алфавитов и другие символы. Даже если применить регулярное выражение, дважды упомянутое в коментах, то потом придётся текст вычитывать.

Полезные вопросы

Скрипт или софт для обработки текста

Скрипт или софт для обработки текста

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject