Количественный анализ текста
Apr. 8th, 2010 01:16 am![[identity profile]](https://www.dreamwidth.org/img/silk/identity/openid.png)
![[community profile]](https://www.dreamwidth.org/img/silk/identity/community.png)
У меня такой непростой вопрос
Но может, тут есть люди, которые с этим сталкивались (кого тут только нет!)
Мне нужна программа (можно онлайн), которая анализирует текст количественно
Если конкретно, то мне нужно всего лишь, чтобы она выдала частоту встречаемости разных слов в тексте (желательно игнорируя падеж и число)
Грубо говоря, копируешь ей массив текста, а она выдает что-то вроде:
дерево - 6759 повторений
кот - 4567 повторений
я - 345 повторений
и т.д. в порядке убывания
Если она еще и облако тегов построит ан основе этих цифр, вообще, отлично
Возможно, это часть контент-анализа, я не спец...
Может, и нет таких программ вовсе...
Но может, тут есть люди, которые с этим сталкивались (кого тут только нет!)
Мне нужна программа (можно онлайн), которая анализирует текст количественно
Если конкретно, то мне нужно всего лишь, чтобы она выдала частоту встречаемости разных слов в тексте (желательно игнорируя падеж и число)
Грубо говоря, копируешь ей массив текста, а она выдает что-то вроде:
дерево - 6759 повторений
кот - 4567 повторений
я - 345 повторений
и т.д. в порядке убывания
Если она еще и облако тегов построит ан основе этих цифр, вообще, отлично
Возможно, это часть контент-анализа, я не спец...
Может, и нет таких программ вовсе...
no subject
Date: 2010-04-07 09:51 pm (UTC)no subject
Date: 2010-04-07 10:13 pm (UTC)no subject
Date: 2010-04-07 10:17 pm (UTC)no subject
Date: 2010-04-07 10:48 pm (UTC)no subject
Date: 2010-04-07 10:21 pm (UTC)но там конечно не просто будет разобраться если в с этим не знакомы
поэтому советую всех специалистов по unix'у посылать нафиг сразу
отдельную утилиту вам не посоветую. рекомендую сделать так
1. разбить весь текст на отдельные слова
2. удалить все знаки препинания
3. перевести все буквы в нижний регистр
4. отсортировать список слов
5. ...
6. profit
что-то типа того :) сорри, но утилитами unix это реально можно сделать одной командой :)
можно сделать одной командой :)
Date: 2010-04-07 10:57 pm (UTC)или типа этого? - grep -rl 'что_ищем' /путь
автору поста:
качаешь http://en.wikipedia.org/wiki/UnxUtils
по этой ссылке - http://sourceforge.net/projects/unxutils/
и у тебя куча утилит. если ты и так в никсе то считай что у тебя уже давно всё есть:)
Re: можно сделать одной командой :)
Date: 2010-04-07 11:45 pm (UTC)Re: можно сделать одной командой :)
Date: 2010-04-07 11:55 pm (UTC)Re: можно сделать одной командой :)
Date: 2010-04-08 05:54 am (UTC)Re: можно сделать одной командой :)
Date: 2010-04-08 10:37 am (UTC)Re: можно сделать одной командой :)
Date: 2010-04-08 01:09 pm (UTC)Re: можно сделать одной командой :)
Date: 2010-04-08 02:25 pm (UTC)Re: можно сделать одной командой :)
Date: 2010-04-08 03:19 pm (UTC)no subject
Date: 2010-04-07 11:10 pm (UTC)там также всё просто:)) вот можно минут за 10 разобраца - http://blogs.technet.com/abeshkov/archive/2008/12/24/3172943.aspx
no subject
Date: 2010-04-08 01:02 am (UTC)no subject
Date: 2010-04-09 02:27 pm (UTC)no subject
Date: 2010-04-09 02:32 pm (UTC)я просто уверена, что это должно быть элементарно, как-то натыкалась в инете на прогу, которая таким образом анализирует любой ЖЖ, например
no subject
Date: 2010-04-09 02:34 pm (UTC)