useful_faq | нечеткое сравнение строк

Джаро-Винклер

Сходство Джаро-Винклера (Jaro-Winkler similarity) было применено в переписи США и использовано в последующей обработке.

Для данных строк string1 и string2, их сходство задаётся формулой:

s = m/3a + m/3b + (m-t)/3m.

Здесь:

m - число соответствующих символов
a - длина string1
b - длина string2
t - число перестановок

Два символа считаются соответствующими, только если они находятся не дальше чем (max(a,b)/2 - 1). Первый соответствующий символ в string1 сравнивается с первым соответствующим символом в string2; второй соответствующий символ в string1 сравнивается со вторым соответствующим символом в string2, и так далее. Число соответствующих символов делённое на 2 даёт число перестановок.

Улучшенный метод Джаро-Винклера использует веса отличные от 1/3. Он также даёт меньший вес некоторым типам ошибок: визуального сканирования, клавишного ввода и в конце строки.
Примеры

1. Сходство ALEXANDRE и ALEKSANDER: (8/9 + 8/10 + (8-1)/8) / 3 = 0.85 (соответствуют A, L, E, A, N, D, R, E; 1 перестановка).

From:

gudguy.livejournal.com

ага, спасибо=)

From:

xytop.livejournal.com

мне шинглы не подходят. там многословный строки сравниваются. а у меня, от силы, пять - шесть слов в строке...

From:

gudguy.livejournal.com

http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B5%D0%B2%D0%B5%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0
может это тогда?

From:

xytop.livejournal.com

смотрел я его...

хотя, пожалуй, еще раз посмотрю...

хотя и в статье это пишут: "Расстояния между абсолютно разными короткими словами оказываются небольшими, в то время как расстояние между сильно похожими длинными словами оказываются значительными."

Edited Date: 2009-10-22 01:22 pm (UTC)

From:

staryi-pioner.livejournal.com

озвучить автоматически, звук фурье-анализировать до посинения? :)

From:

xytop.livejournal.com

тогда уж лучше - чак норис.

From:

staryi-pioner.livejournal.com

ну да.
в теме не рублю абсолютно, просто интересно - а что такое "нечеткое сравнение". что такое "похожесть", и как эти определения не сработают на конкретных примерах.

From:

xytop.livejournal.com

вот две строки: "ALEXANDRE" и "ALEKSANDER" если их сравнивать при помощи алгоритма Jaro-Winkler, то их схожесть - 0.85. можно сказать, что это одно и тоже, просто оператор вбивая первую строку ошибся.
глазами такое определить - без проблем, а машина буксует. машины, обычно, сравнивают побуквенно и если хоть одна буква не совпадает, то строки разные. обычно этого хватает. но бывают ситуации, когда важно отловить такие ошибки ввода. стандартная ситуация - перепись населения. большинство алгоритмов придумали для этого. многие еще в позапрошлом веке.
типа того...

From:

staryi-pioner.livejournal.com

а вот например олбанску мову олгаритм розлечид, али нет? или в основном именнно на ошибки ввода натравливается?

From:

xytop.livejournal.com

может и сдюжит. только если "олбанску мову" со словарной базой сравнивать. и то будет много разночтений. "розлечид" - одинаково подходит к словам "различит" и "разлучит"

From:

staryi-pioner.livejournal.com

ага. про розлечид пример хороший, ибо очевидно, что "у" там маловероятна. как раз таки по произношению, мне кажется. или это словарь нужен?

вот оно: может ли у вас буква быть "более похожа" на вторую букву, чем третья буква на вторую букву? или для опечаток это только мешать будет?

From:

xytop.livejournal.com

не... у меня все проще - мне фамилии надо сравнивать. а чтоб как вы пишите тут совсем много надо накручивать. и лингвистов (или как они там называются,кто в русском языке хорошо разбираются) привлекать.
мои задачи на порядок проще.

From:

xytop.livejournal.com

кстати, Jaro-Winkler говорит, что "разлучит" подходит больше, чем "различит"...
"розлечид" и "различит" - 60,4
"розлечид" и "разлучит" - 67.9

From:

xytop.livejournal.com

по произношению есть алгоритмы - metaphone, doublemetaphone. он специальным образом упрощает слова, основываясь на произношении. изначально был придуман для английского, но реализован и для некоторых европейских и даже для русского.

я проверил для всех вариантов выдает одно и тоже. но мой doublemetaphone рассчитан для европейских языков. и перед проверкой я их транслитерировал. результат - RSLX.

в своем деле я этот алгоритм использую для создания индекса по именам, что быстро выбирать похожие, а потом jaro-winkler проверяю схожесть. как-то так.

Edited Date: 2009-10-23 10:53 am (UTC)

Полезные вопросы

нечеткое сравнение строк

нечеткое сравнение строк

no subject

no subject

no subject

no subject

no subject

no subject

о! про шингл я и не знал. почитаю...

Re: о! про шингл я и не знал. почитаю...

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

оффтоп

Re: оффтоп

Re: оффтоп

Re: оффтоп