Category: it

Category was added automatically. Read all entries about "it".

care

«Патина» текста


Художественному переводчику время от времени приходится определять возраст лексики в тексте оригинала — например, для воссоздания исторической стилизации или речевых характеристик. Конечно, общее впечатление складывается интуитивно, помогают представление об истории языка, фоновые знания, чувство стиля. Но иногда приходится специально заглядывать в словари.

Как-то у меня возникла идея автоматизировать подобные изыскания, и вот родилась небольшая программа под странным названием «Патина». Порядок её работы таков. Collapse )
care

«Проторедактор»


Написал небольшой скрипт (P.S. о новом адресе здесь, в комментариях), который анализирует тексты с редакторской точки зрения.

Название программы отражает её несовершенство: у неё нет музыкального слуха, она не владеет грамматическим анализом, не обладает логикой, вкусом и чувством меры, зато она неумолима в своём параноидальном паникёрстве, не устаёт, не теряет бдительности, не пропускает мелочей, не работает по привычке. Да, из-за формального подхода анализатор выдаёт много некритических замечаний. Ему, конечно, не под силу учесть всё, что учитывает сознание живого редактора даже в простейших случаях. Но кое-какие языковые недочёты можно обнаружить и при его помощи. Особенно когда после сотой правки уже ненавидишь свой текст.

Порядок работы простой: автор вводит текст (максимум — авторский лист), выбирает один из видов анализа, настраивает его по мере необходимости, получает текст с подсвеченными проблемными участками и просматривает их по очереди. Минимум необходимых подробностей описан в небольшой справке. Убедительная просьба ознакомиться с ней перед тестированием программы.

Возможны следующие предметы анализа:

1. Скопления гласных.
2. Скопления согласных.
3. Скопления свистящих/шипящих.
4. Перекликающиеся слова.
5. Перекликающиеся начала слов.
6. Перекликающиеся окончания слов.
7. Перекликающиеся звукосочетания, в том числе на границах слов.
8. Лексическая и фонетическая статистика (слова, отсортированные по алфавиту, окончаниям (инверсионный алфавитный порядок), частотности и длине; буквы, отсортированные по алфавиту и частотности).
9. Совпадения с пользовательским списком слов или регулярным выражением.

Все популярные браузеры последних версий (перечень в справке) будут сохранять и восстанавливать как текст, так и настройки пользователя даже после закрытия браузера.

Алгоритмы реализованы в обобщённом виде. Конкретизировать анализ можно при помощи пользовательских шаблонов (разбор, указанный в последнем пункте). Например, если нужно подсветить не все повторяющиеся слова, а только определённые словоформы, программе можно задать список, разделённый пробелами (например, «был была было были»; ограничений на количество слов нет, в разумных пределах), этот список будет сохраняться между сеансами. Если нужно подсветить не все повторяющиеся окончания, а только некоторые грамматические формы, можно вводить регулярные выражения. Например: (ть|ться)\b для окончаний инфинитивов, (сь|ся)\b для окончаний пассивных и возвратных форм, го\b для родительных падежей мужского рода.

Большая просьба принять всерьёз предупреждение по поводу производительности программы (3-й пункт справки). Например, поиск повторяющихся звукосочетаний в тексте максимального размера (40.000 знаков) с большим диапазоном расстояния между повторами (от 0 букв (рядом) до 3.000 букв (на одной странице)) и с большим диапазоном размеров элемента (от 1 до 10 звуков в элементе пары) может вызывать больше миллиарда переборов, не говоря уже о том, что выдаст труднообозримую кучу совпадений. Не стоит из научного интереса пробовать программу на прочность.

Можно сообщать об ошибках и странностях. Постараюсь ответить на вопросы и прислушаться к пожеланиям.