нечеткое сравнение строк
Oct. 22nd, 2009 01:22 pm![[identity profile]](https://www.dreamwidth.org/img/silk/identity/openid.png)
![[community profile]](https://www.dreamwidth.org/img/silk/identity/community.png)
господа, кто в теме, подскажите,
а есть что-нибудь круче и быстрее алгоритма Jaro-Winkler для нечеткого сравнения строк?
спасибо!
а есть что-нибудь круче и быстрее алгоритма Jaro-Winkler для нечеткого сравнения строк?
спасибо!
оффтоп
Date: 2009-10-23 10:34 am (UTC)вот оно: может ли у вас буква быть "более похожа" на вторую букву, чем третья буква на вторую букву? или для опечаток это только мешать будет?
Re: оффтоп
Date: 2009-10-23 10:37 am (UTC)мои задачи на порядок проще.
Re: оффтоп
Date: 2009-10-23 10:44 am (UTC)"розлечид" и "различит" - 60,4
"розлечид" и "разлучит" - 67.9
Re: оффтоп
Date: 2009-10-23 10:47 am (UTC)я проверил для всех вариантов выдает одно и тоже. но мой doublemetaphone рассчитан для европейских языков. и перед проверкой я их транслитерировал. результат - RSLX.
в своем деле я этот алгоритм использую для создания индекса по именам, что быстро выбирать похожие, а потом jaro-winkler проверяю схожесть. как-то так.