useful_faq | Частотный словарь

Каким образом для файла .doc или .txt можно получить частотный словарь - таблицу с двумя столбцами (слово и частота его употребления в файле)

Flat | Top-Level Comments Only

From:

zabodarius.livejournal.com

cat file.txt| sed -e 's/ /\n/g' | sort | uniq -c | sort -k 1,2 -n > file_sorted.txt

From:

morlos.livejournal.com

Предвижу вопрос "А это куда вставлять надо?".
Упд. Ну и с doc`ами не сработает.

Edited Date: 2012-09-24 03:11 pm (UTC)

From:

fox-12.livejournal.com

Для *.doc-ов - сначала конвертнуть в *.txt - дальше эта команда....

From:

roman753.livejournal.com

как поменять столбцы местами и изменить сортировку(от большего к меньшему)?
P.S. Linux считает дефолтной ос? ))

From:

roman753.livejournal.com

Ещё есть проблема что она знаки препинания (?,.: ) вместе со словами учитывает.
Например "дома" и "дома," считает по разному.

From:

vsempesdets.livejournal.com

sed -e 's/\W//' поможет убрать знаки препинания.
еще на Perl'е можно написать скрипт используя Win32::Word::Declarative чтобы не конвертить .doc руками

From:

a-konst.livejournal.com

Формально это задачу решает, но обычно при решении такой задачи хочется, чтобы слова в разных падежах/временах считали за одно.

From:

qegrandtua.livejournal.com

Поискать программку с названием Wordstat. Существует множество версий разной степени функциональности.

From:

dr-trans.livejournal.com

http://provalisresearch.com/products/content-analysis-software/

Flat | Top-Level Comments Only

Полезные вопросы

Частотный словарь

Частотный словарь

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject