useful_faq | Управление информацией

В ходе работы на нескольких проектах в последные пару лет у меня в полный рост встала проблема организации данных. Причем, если в первый год из этой пары приходилось работать с тщательно структурированными данными, которые были заботливо сложены в различные базы, то на самом последнем проекте вся входящая информация была представлена в Excele, причем в разных форматах.
В связи с таким бедствием тройка вопросов:
1. Есть ли в принципе дисциплина "Управление информацией" или "Управление данными"?
2. Если есть, как ее обычно зовут? Ну и подскажите какое-нибудь посвященное ей жж-сообщество/форум/блог/сайт/любой Интернет-ресурс.
3. Если статьи или книги, посвященные этой теме?

Flat | Top-Level Comments Only

From:

zexo.livejournal.com

Да, нет. Преобразовывать данные в Excel я умею, задача в том, чтобы организовать хранение ~2000 файлов. Иерархическая структура каталогов при этом оказывается мало полезной. В результате я пришел к тому, что
1. Разделил файлы на несколько очень крупных категорий: входящие, моделирование (преобразование) исходящие, справочная информация, связанные с управлением проектом, инсталляшки софта.
2. Внутри каждой категории файлы поделил просто по датам их создания. Таким образом, в каждом каталоге было не более нескольких десятков файлов.
3. Пользовался практически всегда поиском, а не блужданием по дереву, но иногда все-таки от начала поиска до конца проходило минут по 5, что я считаю неприемлемо большим.

Соответственно, вопрос о том, как работать с таким "мясом".

From:

ex-neo-is-fl156.livejournal.com

Категоризация должна идти от задач.
По аналогии (утрируя) - если вам *совсем ничего* с файлами не нужно делать, то их можно вообще удалить нафиг. Если нужно искать фразу в тексте 1 раз в час, наверное, не составит труда искать её перебором по всем файлам. Если нужно искать по фразе, скажем, 30 пользователям одновременно и чтобы запрос обрабатывался не больше 5 секунд, нужно индексировать по содержанию (Sharepoint services вам в помощь). Если нужно делать выборку по цвету ("показать все чёрные документы" или "все красные"), соответственно, разделите их на чёрные и красные :)

В общем, напишите подробно, что именно вы собираетесь делать с полученным data set, и тогда можно будет думать, как это лучше всего реализовать.

From:

ex-neo-is-fl156.livejournal.com

Хм... если я вас правильно понял, вы не программно собираетесь работать с данными, а вручную? Тогда вам, наверное, в помощь desktop search. Попробуйте WDS 3.01 (http://www.microsoft.com/downloads/details.aspx?FamilyID=738fc2de-49b9-4e69-9227-2206277ab7c9&displaylang=en) - я смогу помочь чем-могу ответами на вопросы, если появятся.

From:

zexo.livejournal.com

Попробую, спасибо. Пробовал Google Desktop. Он меня не устроил по двум причинам:
1. Производительность. Ощутимо тормозил систему.
2. Не позволяет привязывать к документу метаинформацию, не содержащуюся в нем.
Пока мне кажется, что меня бы устроила пара возможностей: тегирование и привязка описания в свободной форме. И чтобы поиск можно было делать как по тексту внутри документа, так и по описанию + ограничивать только документами, имеющими определенный тег. К тому же предполагаю, что может возникнуть необходимость совершать массовые операции типа таких: всем документам с тегом A присвоить тег B, всем документам, которые выдаст данный поиск присвоить тег C.

Но с другой стороны изначально я спрашивал не про софт, а про дисциплину, потому что интересно, КАК обычно люди с такими данными работают, а не только С ПОМОЩЬЮ ЧЕГО я могу работать с такими данными, используя привычки выработанные в других областях.

From:

ex-neo-is-fl156.livejournal.com

1. WDS в этом смысле лучше - индексирование происходит в фоновом режиме, и реализован механизм "отката", который выражается в том, что когда пользователь начинает использовать компьютер (трогать мышь, клаву, работать в других приложениях), индексирование замедляется. Попробуйте - если вам покажется, что WDS тормозит систему, напишите мне, попробую вам помочь разобраться.

2. Желательно напишите конкретные примеры использования (зачем вам это нужно) я, может, попробую подыскать альтернативу. Насколько мне известно, поддержки тэгирования произвольных файлов пока нет (на Vista у фотографий есть тэги, но это, если я не ошибаюсь, только на Висте и только у фотографий), но (а) вы можете вставлять ключевые слова в имена файлов и каталогов (разделяя просто пробелом), после чего эти файлы будут легко отыскиваться по данным словам. Групповые операции с такими тэгами, конечно, будет осуществлять не всегда легко :( (б) WDS - это платформа, если вам очень-очень надо, я думаю, должен быть какой-то способ, чтобы вы могли привинтить эту фичу.

Про дисциплину я не могу дать вам ответа, потому что не знаю. Мне тоже любопытно, какой факультет заканчивают все эти люди, которые изобретают коробочки, папочки, наклеечки ^_^
Мне было бы любопытно самому услышать ответ на ваш вопрос.

Вообще странно, что вы столкнулись с этой проблемой при количестве файлов всего 2000. 2000 это всего 40 нажатий "page down" если на странице отображается список по 50 файлов. Даже если вы будете тратить по 5 секунд на просмотр списка, то 5*40 = 200 секунд, т.е. 3 минуты 20 секунд (т.е. тупо свалить все файлы в 1 каталог даст вам выигрыш во времени по сравнению с теми 5 минутами, которые вы, по вашим словам, тратите).

From:

zexo.livejournal.com

Спасибо за обстоятельный ответ и за то время, которые Вы мне уделяете.
Комфортным периодом поиска файла я бы назвал секунд 10-20, к тому же при просмотре списка "валом" велика вероятность то, что нужно пропустить. Я хочу добиться следующего: мне нужен определенный файл -- я открываю поиск, ввожу условие -- все кандидаты уместились в экран. Вводить ключевые слова в имена -- идея неплохая. Попробую в следующий раз применить.
Что-то типа тегирования любых файлов собирались реализовать в WinFS, но, как человечеству известно, увы.

Use cases примерно таковы:
1. (магистральный путь) Приходят данные, обрабатываются некой моделью (на Excel), сохраняются результаты, генерируется отчет.
2. (творческий путь) Дорабатывается сама модель. Через нее гоняются одни и те же данные. Тут, конечно не нужно сохранять результаты каждого прогона, но для модели и ее результатов хочется иметь, например, подневную версионность.
3. (путь бюрократа) Некая цифра в отчете, сделанном две недели назад, не понравилась потребителю. Он хочет понять, откуда она образовалась. В этом случае надо поднять a) версию исходных данных, на которых она рассчитана; b) версию, породившей ее модели.

From:

ex-neo-is-fl156.livejournal.com

т.е. 3 минуты 20 секунд - это максимум. В среднем будет вдвое меньше: 1 минута 40 секунд! :)

Flat | Top-Level Comments Only

Полезные вопросы

Управление информацией

Управление информацией

no subject

no subject

no subject

no subject

no subject

no subject

no subject