[identity profile] jeny-only-jeny.livejournal.com posting in [community profile] useful_faq
У меня такой непростой вопрос
Но может, тут есть люди, которые с этим сталкивались (кого тут только нет!)

Мне нужна программа (можно онлайн), которая анализирует текст количественно
Если конкретно, то мне нужно всего лишь, чтобы она выдала частоту встречаемости разных слов в тексте (желательно игнорируя падеж и число)

Грубо говоря, копируешь ей массив текста, а она выдает что-то вроде:
дерево - 6759 повторений
кот - 4567 повторений
я - 345 повторений
и т.д. в порядке убывания

Если она еще и облако тегов построит ан основе этих цифр, вообще, отлично

Возможно, это часть контент-анализа, я не спец...

Может, и нет таких программ вовсе...

Date: 2010-04-07 09:51 pm (UTC)
From: [identity profile] k-ratta.livejournal.com
http://webscript.ru/text/ делало такое, не знаю, работает ли сейчас.

Date: 2010-04-07 10:13 pm (UTC)
From: [identity profile] a1q1.livejournal.com
find+grep

Date: 2010-04-07 10:17 pm (UTC)
From: [identity profile] doppeltes.livejournal.com
это без падежей конечно :)

Date: 2010-04-07 10:48 pm (UTC)
From: [identity profile] a1q1.livejournal.com
find и в венде есть:)

Date: 2010-04-07 10:21 pm (UTC)
From: [identity profile] doppeltes.livejournal.com
в принципе на 90% ваша проблема решается с помощью стандартных утилит командной строки входящих во все ОС типа Unix, да и так доступны

но там конечно не просто будет разобраться если в с этим не знакомы

поэтому советую всех специалистов по unix'у посылать нафиг сразу



отдельную утилиту вам не посоветую. рекомендую сделать так

1. разбить весь текст на отдельные слова
2. удалить все знаки препинания
3. перевести все буквы в нижний регистр
4. отсортировать список слов
5. ...
6. profit

что-то типа того :) сорри, но утилитами unix это реально можно сделать одной командой :)
From: [identity profile] a1q1.livejournal.com
типа того? - find / -type f -exec grep "text" {} \;
или типа этого? - grep -rl 'что_ищем' /путь

автору поста:
качаешь http://en.wikipedia.org/wiki/UnxUtils
по этой ссылке - http://sourceforge.net/projects/unxutils/
и у тебя куча утилит. если ты и так в никсе то считай что у тебя уже давно всё есть:)
From: [identity profile] doppeltes.livejournal.com
хаха, хоть для чего это хрень сгодилась
From: [identity profile] a1q1.livejournal.com
а о такой хрене как повершелл вы не слышали? в винде оно есть из каропки, и также всё можно запросто сделать:))
From: [identity profile] haviras.livejournal.com
Ога, из коробки. На серваках - да. А на десктопах - ставить
From: [identity profile] a1q1.livejournal.com
да ну что вы:) ставить только на ХР, в висте вин 7 и в2к8 из коробки как раз:)
From: [identity profile] haviras.livejournal.com
Мдэ, наверное я слепой. Ну буду иметь ввиду
From: [identity profile] a1q1.livejournal.com
ну пуск-->программы--->стандартные---->Windows PowerShell вроде в вин7 и висте http://ru.wikipedia.org/wiki/Windows_PowerShell#PowerShell_2.0
From: [identity profile] haviras.livejournal.com
Полез в топор на ноуте у себя. Не нашел. Странно. Ушел думать

Date: 2010-04-07 11:10 pm (UTC)
From: [identity profile] a1q1.livejournal.com
а исчо у тебя в винде есть прекрасный шелл http://ru.wikipedia.org/wiki/Windows_PowerShell
там также всё просто:)) вот можно минут за 10 разобраца - http://blogs.technet.com/abeshkov/archive/2008/12/24/3172943.aspx

Date: 2010-04-08 01:02 am (UTC)
From: [identity profile] iskusatelnica.livejournal.com
Если найдете что-нибудь доступное, дайте знать. Я видела только как друг переделал программу для кассового аппарата для этих целей%)

Date: 2010-04-09 02:27 pm (UTC)
From: [identity profile] hans-zivers.livejournal.com
О госпади, все у них так сложно)) Поставь текстовый редактор, назвается TEA. Там есть такой анализ для любого текста, кол-во опред. слов.

Date: 2010-04-09 02:34 pm (UTC)
From: [identity profile] hans-zivers.livejournal.com
А это и так элементарно) Компонент для текст. редактора.