[identity profile] zexo.livejournal.com posting in [community profile] useful_faq
В ходе работы на нескольких проектах в последные пару лет у меня в полный рост встала проблема организации данных. Причем, если в первый год из этой пары приходилось работать с тщательно структурированными данными, которые были заботливо сложены в различные базы, то на самом последнем проекте вся входящая информация была представлена в Excele, причем в разных форматах.
В связи с таким бедствием тройка вопросов:
1. Есть ли в принципе дисциплина "Управление информацией" или "Управление данными"?
2. Если есть, как ее обычно зовут? Ну и подскажите какое-нибудь посвященное ей жж-сообщество/форум/блог/сайт/любой Интернет-ресурс.
3. Если статьи или книги, посвященные этой теме?

Date: 2007-05-21 03:59 pm (UTC)
From: [identity profile] hmyr.livejournal.com
Приветствую товарища по несчастью..

Date: 2007-05-21 04:12 pm (UTC)
From: [identity profile] hmyr.livejournal.com
Врядли где-то что-то найдется. Искал в свое время но так ничего и не нашел.
Обязательно обсудим..)

Date: 2007-05-21 05:14 pm (UTC)
From: [identity profile] blak-n-wait.livejournal.com
data mining? не совсем то, конечно - это скорее относится к упорядочиванию неупорядоченных данных и извлечения из них конкретных фактов

Date: 2007-05-21 06:05 pm (UTC)
From: [identity profile] led-mist.livejournal.com
я тут погуглила на досуге, вроде как Data management это дело называется. может as a starting point вам это поможет.

Самому интересно стало.

Date: 2007-05-21 07:55 pm (UTC)
From: [identity profile] ex-koryavi.livejournal.com
Как только найду что-нибудь,сообщу.

Re: Самому интересно стало.

Date: 2007-05-22 07:29 pm (UTC)
From: [identity profile] ex-koryavi.livejournal.com
Видимо,вам нужно что-то типа opensource СУБД,пользовательский вариант?

Немного не понимаю сути хранимых данных и необходимых операций с ними (у меня,правда,один большой экселевский файл с разворачивыемыми меню и кучей страниц+ ежемесячные обзоры периодики в .doc, которые я потом конвертирую в .html)
(deleted comment)

Date: 2007-05-22 11:09 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
Категоризация должна идти от задач.
По аналогии (утрируя) - если вам *совсем ничего* с файлами не нужно делать, то их можно вообще удалить нафиг. Если нужно искать фразу в тексте 1 раз в час, наверное, не составит труда искать её перебором по всем файлам. Если нужно искать по фразе, скажем, 30 пользователям одновременно и чтобы запрос обрабатывался не больше 5 секунд, нужно индексировать по содержанию (Sharepoint services вам в помощь). Если нужно делать выборку по цвету ("показать все чёрные документы" или "все красные"), соответственно, разделите их на чёрные и красные :)

В общем, напишите подробно, что именно вы собираетесь делать с полученным data set, и тогда можно будет думать, как это лучше всего реализовать.

Date: 2007-05-22 11:14 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
Хм... если я вас правильно понял, вы не программно собираетесь работать с данными, а вручную? Тогда вам, наверное, в помощь desktop search. Попробуйте WDS 3.01 (http://www.microsoft.com/downloads/details.aspx?FamilyID=738fc2de-49b9-4e69-9227-2206277ab7c9&displaylang=en) - я смогу помочь чем-могу ответами на вопросы, если появятся.

Date: 2007-05-23 06:33 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
1. WDS в этом смысле лучше - индексирование происходит в фоновом режиме, и реализован механизм "отката", который выражается в том, что когда пользователь начинает использовать компьютер (трогать мышь, клаву, работать в других приложениях), индексирование замедляется. Попробуйте - если вам покажется, что WDS тормозит систему, напишите мне, попробую вам помочь разобраться.

2. Желательно напишите конкретные примеры использования (зачем вам это нужно) я, может, попробую подыскать альтернативу. Насколько мне известно, поддержки тэгирования произвольных файлов пока нет (на Vista у фотографий есть тэги, но это, если я не ошибаюсь, только на Висте и только у фотографий), но (а) вы можете вставлять ключевые слова в имена файлов и каталогов (разделяя просто пробелом), после чего эти файлы будут легко отыскиваться по данным словам. Групповые операции с такими тэгами, конечно, будет осуществлять не всегда легко :( (б) WDS - это платформа, если вам очень-очень надо, я думаю, должен быть какой-то способ, чтобы вы могли привинтить эту фичу.

Про дисциплину я не могу дать вам ответа, потому что не знаю. Мне тоже любопытно, какой факультет заканчивают все эти люди, которые изобретают коробочки, папочки, наклеечки ^_^
Мне было бы любопытно самому услышать ответ на ваш вопрос.

Вообще странно, что вы столкнулись с этой проблемой при количестве файлов всего 2000. 2000 это всего 40 нажатий "page down" если на странице отображается список по 50 файлов. Даже если вы будете тратить по 5 секунд на просмотр списка, то 5*40 = 200 секунд, т.е. 3 минуты 20 секунд (т.е. тупо свалить все файлы в 1 каталог даст вам выигрыш во времени по сравнению с теми 5 минутами, которые вы, по вашим словам, тратите).

Date: 2007-05-23 06:33 am (UTC)
From: [identity profile] ex-neo-is-fl156.livejournal.com
т.е. 3 минуты 20 секунд - это максимум. В среднем будет вдвое меньше: 1 минута 40 секунд! :)
(deleted comment)