[identity profile] roman753.livejournal.com posting in [community profile] useful_faq
Каким образом для файла .doc или .txt можно получить частотный словарь - таблицу с двумя столбцами (слово и частота его употребления в файле)

Date: 2012-09-24 02:33 pm (UTC)
From: [identity profile] zabodarius.livejournal.com
cat file.txt| sed -e 's/ /\n/g' | sort | uniq -c | sort -k 1,2 -n > file_sorted.txt

Date: 2012-09-24 03:10 pm (UTC)
From: [identity profile] morlos.livejournal.com
Предвижу вопрос "А это куда вставлять надо?".
Упд. Ну и с doc`ами не сработает.
Edited Date: 2012-09-24 03:11 pm (UTC)

Date: 2012-09-24 03:17 pm (UTC)
From: [identity profile] fox-12.livejournal.com
Для *.doc-ов - сначала конвертнуть в *.txt - дальше эта команда....

Date: 2012-09-25 07:47 am (UTC)
From: [identity profile] vsempesdets.livejournal.com
sed -e 's/\W//' поможет убрать знаки препинания.
еще на Perl'е можно написать скрипт используя Win32::Word::Declarative чтобы не конвертить .doc руками

Date: 2012-09-25 10:31 am (UTC)
From: [identity profile] a-konst.livejournal.com
Формально это задачу решает, но обычно при решении такой задачи хочется, чтобы слова в разных падежах/временах считали за одно.

Date: 2012-09-24 03:01 pm (UTC)
From: [identity profile] qegrandtua.livejournal.com
Поискать программку с названием Wordstat. Существует множество версий разной степени функциональности.

Date: 2012-09-24 03:13 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
http://provalisresearch.com/products/content-analysis-software/