[identity profile] roman753.livejournal.com posting in [community profile] useful_faq
Каким образом для файла .doc или .txt можно получить частотный словарь - таблицу с двумя столбцами (слово и частота его употребления в файле)

Date: 2012-09-25 07:47 am (UTC)
From: [identity profile] vsempesdets.livejournal.com
sed -e 's/\W//' поможет убрать знаки препинания.
еще на Perl'е можно написать скрипт используя Win32::Word::Declarative чтобы не конвертить .doc руками