Полезные вопросы

интересные мысли, спасибо

From:

Чушь -- это то что вы сказали.
"Поздравляю, господин, саврамши!" ))

From:

zaharchenko

вы не поверите, но строка поискового запроса характеризуется набором символов которых во всех алфавитах ну скажем если рассмотрим тока юникод-16 примерно 99000 и поисковики их нормально сравнивают.

А если у слов разны окончания и приставки, и вобще морфология и все дела, а еще и ошибки орфографические и анаграммы нормально понимают, причем в обе стороны. Ну про то что еще язык документа и тематику распознают я не буду упоминать.

А то что в инете текстов ооооочень много и явно больше 10 в 9 -биллиона вашего, напомню. И индексируются они не прямым индексом, а как миниму обратным.

так что подучите матчасть.

А топиккастеру, скажу что технических проблем особо нету, все решаем и не мега сложно, просто тексты ищют гораздо-гораздо чаще чем картинки, и из-за этого нету смысла вкладывать деньги в такой сервис который почти не кто не будет использовать.

From:

да я вот тоже подумал, что технически это возможно, поэтому и спросил... Кстати, думаю, что такой сервис, хоть один, мог пригодиться бы людям ))

From:

akm-ca.livejournal.com

Вы не поверите, но я работаю в IT c 1985 года. Подозреваю, что это больше всей Вашей жизни. Так вот я знаю как оно там все работает в поисковиках, в частности - в Гугле и т.п и т.д. Вы удивитесь, когда узнаете, сколько людей в Гугле заняты просмотром сайтов и их индексированием(и это при том, что у Сергея очень и очень неординарный алгоритм).
А вот понимаете ли Вы, что есть еще и "глубина цвета", что измеряется в битах? Если картинка, скажем восьмибитная, то количество комбинаций цвета пиксела получается всего-то 2 в восьмой. А ежели цвет - 24-х битный, то количество комбинаций увеличивается несколько, да? Так что получается это несколько хм, больше того же алфавита. Сколько там в том же Юникоде символов? Неужели 2 в 24-й степени?
Много Вы видели тех же вордовских документов размером 5-6 мегабайт? А моя камера делает снимки в JPEG от 5 мегабайт только так, без проблем. И это в JPEG, который как известно, формат уже сжатый. Ну-ка, попробуйте сжать текст и картинку в JPEG, получится лиодинаковый процент сжатия? А есть еще много других форматов.
Да, проблему индексации частично можно решить за счет ключевых слов, включенных в тот же графический файл.
Только кто их добавляет к каждой фотографии? Стоковые фотографы, разве что.

Насколько понимаю, проблема в принципе решаемая, только пока что даже в рамках одного стокового банка она потребует столько вычислительных ресурсов, сколько ни одна фирма себе позволить не может.

From:

wolfus.livejournal.com

Какой вы категоричный. Вообще-то, вспоминая сервис поиска названий mp3, считаю, что поиск изображений вполне возможен. Что-нибудь типа фильтра "find edges" и преобразования уже этой довольно мелкой по объему инфы в некий фингерпринт, как у вышеупомянутого сервиса.
Другое дело что потянет это только гугль, ибо объем индексации - уууу ;)

From:

Похожим образом я рассуждал как раз в 1985-м году, когда впервые ставил перед собой задачу сравнения строк в Бейсике :-) Сначала все тоже казалось очень сложным (пробелы, большие-малые буковки, кодировки) а потом додумался привести обе сравниваемые строки к одному виду (в частности - сделать все буквы большими) и все стало гораздо проще.

Я к чему говорю - проблема, которую Вы так страшно описываете (с глубиной цвета, разрешением, картами цветопередачи) решается как раз вот так вот - преобразованием картинки к стандартным параметрам.

Хотя, по сути вопроса я тоже таких поисковиков не знаю, но такие системы должны существовать. В МВД, например...

Кстати, подумалось тут, что программы оптического распознавания символов - частный случай.

From:

...работают в очень узком диапазоне входных данных. Ибо точно описано, что именно нужно найти. Т.е. та же система подбора лиц артистов по фотографии вполне может "разглядеть" лицо в фото животного или в кроне дерева. Для картинки "в общем" нет данных об изображенном предмете.

From:

А кто говорил, что это - легко? Впрочем, тут мы можем уточнить. В вопросе речь шла именно не о распознавании "чего-то расплывчатого", а о поиске конкретной фотографии. Т.е., говоря языком учебника по физике. Дано: фотография, которая наверняка где-то публиковалась (иначе, как бы она попала в руки к автору?) Найти: эту фотографию.

Если сделать такое допущение (оно выглядит вполне логичным, не правда ли?) то задача поиска заметно упрощается. Особенно, если и фото и оригинал будут смасштабированы к одному размеру и глубине цвета.

Программу же распознавания я привел только как пример. Иллюстрацию. Ведь в принципе она работает похоже - берет фрагмент изображения, предполагая что этот квадратик из пикселей - буква. И ищет такой же у себя в библиотеке. Да, при этом допускаются некоторые несовпадения (огрехи сканирования) нивелируются различные шрифты. Но это - уже дополнительные условия. Принцип работы тот же.

Иллюстрацией же того, что это возможно в принципе можно рассматриватьи те сайты, что были приведены выше.

From:

...OCR работают совсем не так. А потому и масштабирование метода от поиска буквы до поиска большой картинки не работает.

Кстати, даже поиск точного подобия - задача сложнейшая, т.к. то, что мы глазом воспринимаем как одинаковые картинки, может выводиться совершенно разным набором пикселов.

From:

Пока мы тут обсуждаем как и почему это сделать невозможно, на других форумах говорят о том, как это может быть устроено:

http://forum.graphicon.ru/viewtopic.php?t=57

...или предлагают готовые программные продукты

http://www.imagedupeless.com/ru/

Кстати, никто и не говорит о точном подобии - поисковики тоже не выдают одну строку в качестве результата. Они лишь предлагают множество вариантов, из которых можно выбрать наиболее подходящий.

PS Поскольку проверять наши аргументы в этом затянувшемся споре мы не будем (ссылкам Вы не верите, а писать самому такую программу у меня пока в планах нет), предлагаю сворачиваться. Тем более, на исходный вопрос мы ответили - таких поисковиков, дающих точный результат, пока нет. А уж почему их пока нет и будут ли - это уже второй вопрос (с) анекдот

From:

Не смог удержаться. Вот цитата из описания принципа работы программы FineReader - одной из известнейшей программы для оцифровки текстов (http://www.docflow.ru/analytic_full.asp?param=30386) Дается описание Растровой классификации как одного из способов опознавания образа буквы:

=================================

Растровый классификатор.
Сравнивает символ с набором эталонов, поочередно накладывая изображения друг на друга. Эталонами в данном случае выступают специально подготовленные изображения; каждое из них объединяет в себе очертания множества вариантов написания того или иного символа. Гипотезы выдвигаются в зависимости от того, с какими эталонами точнее совпало изображение буквы. Сами эталоны строятся методом наложения друг на друга большого количества одних и тех же букв в разных вариантах начертания. Растровый классификатор работает быстро, однако высокой точности не обеспечивает. Широко используется в современных системах распознавания символов.

==================================

Разве тут не говорится о сравнении изображений?..

From:

...нет! Здесь идет речь о поиске объекта типа Буква. "поочередно накладывая изображения друг на друга" - ну, это некоторое упрощение, да? Сначала-то символ должен быть выделен. А об этом ни слова. Кроме того, OCR могут разбирать и рукописный текст. И ведь явно не по совпадению с известными начертаниями.

Что же касается доверия ссылкам на научпоп, то по данному вопросу для меня авторитетом являются сотрудники Лаборатории электронной микроскопии и обработки изображений (http://lemoi-www.dvgu.ru/DNN/Science/tabid/147/Default.aspx). В научпопе больше мракобесия, чем фактов.

From:

zaharchenko

контент менеджеры тоже в IT работают :)
а про все что вы сказали ответ один, нормализовать данные на входе надо ровно так же как и с текстом всегда их нормализуют.

From:

...задача в принципе, если искать не точное подобие. Опять же - если сравнивать одинаковый размер. Разные размеры даже одной картинки не определяются как похожие.

(deleted comment)

From:

zaharchenko

да это не так сложно, там заранее ограниченный сравнительно небольшой набор картинок с которым сравнивать будут, а если достаточную часть инета индексировать то там просто сильно большой индекс получиться, и все упрется в то что класстер придеться хороший собирать.

From:

lazyreader.livejournal.com

Когда человек ленивого ума сталкивается с техническими достижениями, вернее, когда ему эти достижения приносят на тарелочке, то у такого человека возникают самые фантастические представления о том, что просто, а что сложно.

Например, банальный новый интерфейс какой-нибудь оболочки операционной системы кому-то кажется верхом технической мысли, а задача распознавания произвольных изображений кажется ему достаточно простой - всего-то сервис в инете найти.

From:

когда человек с отсутствием ума пытается рассужда о чем то, это клиника

From:

lazyreader.livejournal.com

Когда человек употребляет выражения-паразиты типа "это клиника" - это и есть человек ленивого ума.

From:

"Выражений-паразитов" не бывает, мой друг, бывают "слова-паразиты". А то, что я употребил, называется "клише".
Так что низачот, дорогой мой человек пытливого ума.

From:

lazyreader.livejournal.com

Паразиты - они на то и паразиты, что всякие бывают; бывают даже мозговые паразиты, иначе называемые "мозговые вирусы" или "мемы".

А клише - да, такое выражение не меньший паразит среди выражений, чем слово-паразит среди слов.

From:

pushistyj-koshk.livejournal.com

Вот тут есть в зачаточном состоянии - http://labs.systemone.at/retrievr/ . А вообще адекватный поисковый мотор довольно сложно создать.

From:

хм, интересно, спасибо!

From:

pushistyj-koshk.livejournal.com

Вот еще пара ссылочег на почитать:
http://grail.cs.washington.edu/projects/query/
http://www.imgseek.net/
http://www.imgseek.net/sshot/

From:

Спасибо!

From:

3s3.livejournal.com

прикольнули первый каментирующие - видимо они зная матчать не смотрят дальше своего носа, а меж тем, я читал статью про подобный поиск в журнале компьюарт где-то 4 года назад, правда там упрощенная модель, скорее для клипартов.

поиск про доминирующему цвету точно есть (только ссылку потерял), значит не так долго ждать и до поиска, о котором ты спросил.
а пока, я бы выкладывал такие фотки, например сюда, и задавал бы вопрос о ней :)

From:

Ок, если что к тебе обращусь лично. ))
Про журнальную статью о поиске -- правильное наблюдение, которое пригодилось бы людям, у которых матчасть уже лезет из ушей ))

From:

legrus.livejournal.com

Поиск по доминирующему цвету встроен в picasa от гугла. Под рубрикой experimental.

From:

muf-dvr.livejournal.com

http://plushev.com/2007/08/20/1026/#more-1026

From:

...про то, что до сих пор поиск похожих изображений невозможен. О чем совершенно правильно говорил

lazyreader.

То, про что написано в статье, это детский лепет, построенный на простеньких алгоритмиках и эвристиках. Если что-то находится, то, как правильно сказано в статье, "воспринимается такой сервис скорее как развлечение".

На сегодняшний день задача математического поиска похожих изображенй не решена.

From:

muf-dvr.livejournal.com

Наверное, лучше не знать, что такой поиск невозможен. Просто успешно пользоваться им, и всё.

From:

Если результаты устраивают.

From:

спасибо. нашет там ссылку на сервис )

From:

Кстати, если Вам действительно интересно как это можно сделать, то в сети есть масса информации по этому поводу. Вот, к примеру:

http://www.artinfo.ru/eva/EVA2000M/eva-papers/200008/Baigarova-R.htm

From: