[identity profile] zexo.livejournal.com posting in [community profile] useful_faq
В ходе работы на нескольких проектах в последные пару лет у меня в полный рост встала проблема организации данных. Причем, если в первый год из этой пары приходилось работать с тщательно структурированными данными, которые были заботливо сложены в различные базы, то на самом последнем проекте вся входящая информация была представлена в Excele, причем в разных форматах.
В связи с таким бедствием тройка вопросов:
1. Есть ли в принципе дисциплина "Управление информацией" или "Управление данными"?
2. Если есть, как ее обычно зовут? Ну и подскажите какое-нибудь посвященное ей жж-сообщество/форум/блог/сайт/любой Интернет-ресурс.
3. Если статьи или книги, посвященные этой теме?

Date: 2007-05-22 11:09 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
Категоризация должна идти от задач.
По аналогии (утрируя) - если вам *совсем ничего* с файлами не нужно делать, то их можно вообще удалить нафиг. Если нужно искать фразу в тексте 1 раз в час, наверное, не составит труда искать её перебором по всем файлам. Если нужно искать по фразе, скажем, 30 пользователям одновременно и чтобы запрос обрабатывался не больше 5 секунд, нужно индексировать по содержанию (Sharepoint services вам в помощь). Если нужно делать выборку по цвету ("показать все чёрные документы" или "все красные"), соответственно, разделите их на чёрные и красные :)

В общем, напишите подробно, что именно вы собираетесь делать с полученным data set, и тогда можно будет думать, как это лучше всего реализовать.

Date: 2007-05-22 11:14 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
Хм... если я вас правильно понял, вы не программно собираетесь работать с данными, а вручную? Тогда вам, наверное, в помощь desktop search. Попробуйте WDS 3.01 (http://www.microsoft.com/downloads/details.aspx?FamilyID=738fc2de-49b9-4e69-9227-2206277ab7c9&displaylang=en) - я смогу помочь чем-могу ответами на вопросы, если появятся.

Date: 2007-05-23 06:33 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
1. WDS в этом смысле лучше - индексирование происходит в фоновом режиме, и реализован механизм "отката", который выражается в том, что когда пользователь начинает использовать компьютер (трогать мышь, клаву, работать в других приложениях), индексирование замедляется. Попробуйте - если вам покажется, что WDS тормозит систему, напишите мне, попробую вам помочь разобраться.

2. Желательно напишите конкретные примеры использования (зачем вам это нужно) я, может, попробую подыскать альтернативу. Насколько мне известно, поддержки тэгирования произвольных файлов пока нет (на Vista у фотографий есть тэги, но это, если я не ошибаюсь, только на Висте и только у фотографий), но (а) вы можете вставлять ключевые слова в имена файлов и каталогов (разделяя просто пробелом), после чего эти файлы будут легко отыскиваться по данным словам. Групповые операции с такими тэгами, конечно, будет осуществлять не всегда легко :( (б) WDS - это платформа, если вам очень-очень надо, я думаю, должен быть какой-то способ, чтобы вы могли привинтить эту фичу.

Про дисциплину я не могу дать вам ответа, потому что не знаю. Мне тоже любопытно, какой факультет заканчивают все эти люди, которые изобретают коробочки, папочки, наклеечки ^_^
Мне было бы любопытно самому услышать ответ на ваш вопрос.

Вообще странно, что вы столкнулись с этой проблемой при количестве файлов всего 2000. 2000 это всего 40 нажатий "page down" если на странице отображается список по 50 файлов. Даже если вы будете тратить по 5 секунд на просмотр списка, то 5*40 = 200 секунд, т.е. 3 минуты 20 секунд (т.е. тупо свалить все файлы в 1 каталог даст вам выигрыш во времени по сравнению с теми 5 минутами, которые вы, по вашим словам, тратите).

Date: 2007-05-23 06:33 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
т.е. 3 минуты 20 секунд - это максимум. В среднем будет вдвое меньше: 1 минута 40 секунд! :)