Полезные вопросы
Частотный словарь
Частотный словарь
Sep
.
24th
,
2012
06:25 pm
roman753.livejournal.com
posting in
useful_faq
Каким образом для файла .doc или .txt можно получить частотный словарь - таблицу с двумя столбцами (слово и частота его употребления в файле)
Flat
|
Top-Level Comments Only
no subject
Date:
2012-09-24 02:33 pm (UTC)
From:
zabodarius.livejournal.com
cat file.txt| sed -e 's/ /\n/g' | sort | uniq -c | sort -k 1,2 -n > file_sorted.txt
no subject
Date:
2012-09-24 03:10 pm (UTC)
From:
morlos.livejournal.com
Предвижу вопрос "А это куда вставлять надо?".
Упд. Ну и с doc`ами не сработает.
Edited
Date:
2012-09-24 03:11 pm (UTC)
no subject
Date:
2012-09-24 03:17 pm (UTC)
From:
fox-12.livejournal.com
Для *.doc-ов - сначала конвертнуть в *.txt - дальше эта команда....
no subject
Date:
2012-09-24 03:17 pm (UTC)
From:
roman753.livejournal.com
как поменять столбцы местами и изменить сортировку(от большего к меньшему)?
P.S. Linux считает дефолтной ос? ))
no subject
Date:
2012-09-24 03:24 pm (UTC)
From:
roman753.livejournal.com
Ещё есть проблема что она знаки препинания (?,.: ) вместе со словами учитывает.
Например "дома" и "дома," считает по разному.
no subject
Date:
2012-09-25 07:47 am (UTC)
From:
vsempesdets.livejournal.com
sed -e 's/\W//' поможет убрать знаки препинания.
еще на Perl'е можно написать скрипт используя Win32::Word::Declarative чтобы не конвертить .doc руками
no subject
Date:
2012-09-25 10:31 am (UTC)
From:
a-konst.livejournal.com
Формально это задачу решает, но обычно при решении такой задачи хочется, чтобы слова в разных падежах/временах считали за одно.
no subject
Date:
2012-09-24 03:01 pm (UTC)
From:
qegrandtua.livejournal.com
Поискать программку с названием Wordstat. Существует множество версий разной степени функциональности.
no subject
Date:
2012-09-24 03:13 pm (UTC)
From:
dr-trans.livejournal.com
http://provalisresearch.com/products/content-analysis-software/
8 comments
Reply
Flat
|
Top-Level Comments Only
no subject
Date: 2012-09-24 02:33 pm (UTC)no subject
Date: 2012-09-24 03:10 pm (UTC)Упд. Ну и с doc`ами не сработает.
no subject
Date: 2012-09-24 03:17 pm (UTC)no subject
Date: 2012-09-24 03:17 pm (UTC)P.S. Linux считает дефолтной ос? ))
no subject
Date: 2012-09-24 03:24 pm (UTC)Например "дома" и "дома," считает по разному.
no subject
Date: 2012-09-25 07:47 am (UTC)еще на Perl'е можно написать скрипт используя Win32::Word::Declarative чтобы не конвертить .doc руками
no subject
Date: 2012-09-25 10:31 am (UTC)no subject
Date: 2012-09-24 03:01 pm (UTC)no subject
Date: 2012-09-24 03:13 pm (UTC)