Управление информацией
May. 21st, 2007 07:08 pm![[identity profile]](https://www.dreamwidth.org/img/silk/identity/openid.png)
![[community profile]](https://www.dreamwidth.org/img/silk/identity/community.png)
В ходе работы на нескольких проектах в последные пару лет у меня в полный рост встала проблема организации данных. Причем, если в первый год из этой пары приходилось работать с тщательно структурированными данными, которые были заботливо сложены в различные базы, то на самом последнем проекте вся входящая информация была представлена в Excele, причем в разных форматах.
В связи с таким бедствием тройка вопросов:
1. Есть ли в принципе дисциплина "Управление информацией" или "Управление данными"?
2. Если есть, как ее обычно зовут? Ну и подскажите какое-нибудь посвященное ей жж-сообщество/форум/блог/сайт/любой Интернет-ресурс.
3. Если статьи или книги, посвященные этой теме?
В связи с таким бедствием тройка вопросов:
1. Есть ли в принципе дисциплина "Управление информацией" или "Управление данными"?
2. Если есть, как ее обычно зовут? Ну и подскажите какое-нибудь посвященное ей жж-сообщество/форум/блог/сайт/любой Интернет-ресурс.
3. Если статьи или книги, посвященные этой теме?
no subject
Date: 2007-05-22 10:59 am (UTC)1. Разделил файлы на несколько очень крупных категорий: входящие, моделирование (преобразование) исходящие, справочная информация, связанные с управлением проектом, инсталляшки софта.
2. Внутри каждой категории файлы поделил просто по датам их создания. Таким образом, в каждом каталоге было не более нескольких десятков файлов.
3. Пользовался практически всегда поиском, а не блужданием по дереву, но иногда все-таки от начала поиска до конца проходило минут по 5, что я считаю неприемлемо большим.
Соответственно, вопрос о том, как работать с таким "мясом".
no subject
Date: 2007-05-22 11:09 am (UTC)По аналогии (утрируя) - если вам *совсем ничего* с файлами не нужно делать, то их можно вообще удалить нафиг. Если нужно искать фразу в тексте 1 раз в час, наверное, не составит труда искать её перебором по всем файлам. Если нужно искать по фразе, скажем, 30 пользователям одновременно и чтобы запрос обрабатывался не больше 5 секунд, нужно индексировать по содержанию (Sharepoint services вам в помощь). Если нужно делать выборку по цвету ("показать все чёрные документы" или "все красные"), соответственно, разделите их на чёрные и красные :)
В общем, напишите подробно, что именно вы собираетесь делать с полученным data set, и тогда можно будет думать, как это лучше всего реализовать.
no subject
Date: 2007-05-22 11:14 am (UTC)no subject
Date: 2007-05-22 11:23 am (UTC)1. Производительность. Ощутимо тормозил систему.
2. Не позволяет привязывать к документу метаинформацию, не содержащуюся в нем.
Пока мне кажется, что меня бы устроила пара возможностей: тегирование и привязка описания в свободной форме. И чтобы поиск можно было делать как по тексту внутри документа, так и по описанию + ограничивать только документами, имеющими определенный тег. К тому же предполагаю, что может возникнуть необходимость совершать массовые операции типа таких: всем документам с тегом A присвоить тег B, всем документам, которые выдаст данный поиск присвоить тег C.
Но с другой стороны изначально я спрашивал не про софт, а про дисциплину, потому что интересно, КАК обычно люди с такими данными работают, а не только С ПОМОЩЬЮ ЧЕГО я могу работать с такими данными, используя привычки выработанные в других областях.
no subject
Date: 2007-05-23 06:33 am (UTC)2. Желательно напишите конкретные примеры использования (зачем вам это нужно) я, может, попробую подыскать альтернативу. Насколько мне известно, поддержки тэгирования произвольных файлов пока нет (на Vista у фотографий есть тэги, но это, если я не ошибаюсь, только на Висте и только у фотографий), но (а) вы можете вставлять ключевые слова в имена файлов и каталогов (разделяя просто пробелом), после чего эти файлы будут легко отыскиваться по данным словам. Групповые операции с такими тэгами, конечно, будет осуществлять не всегда легко :( (б) WDS - это платформа, если вам очень-очень надо, я думаю, должен быть какой-то способ, чтобы вы могли привинтить эту фичу.
Про дисциплину я не могу дать вам ответа, потому что не знаю. Мне тоже любопытно, какой факультет заканчивают все эти люди, которые изобретают коробочки, папочки, наклеечки ^_^
Мне было бы любопытно самому услышать ответ на ваш вопрос.
Вообще странно, что вы столкнулись с этой проблемой при количестве файлов всего 2000. 2000 это всего 40 нажатий "page down" если на странице отображается список по 50 файлов. Даже если вы будете тратить по 5 секунд на просмотр списка, то 5*40 = 200 секунд, т.е. 3 минуты 20 секунд (т.е. тупо свалить все файлы в 1 каталог даст вам выигрыш во времени по сравнению с теми 5 минутами, которые вы, по вашим словам, тратите).
no subject
Date: 2007-05-23 07:37 am (UTC)Комфортным периодом поиска файла я бы назвал секунд 10-20, к тому же при просмотре списка "валом" велика вероятность то, что нужно пропустить. Я хочу добиться следующего: мне нужен определенный файл -- я открываю поиск, ввожу условие -- все кандидаты уместились в экран. Вводить ключевые слова в имена -- идея неплохая. Попробую в следующий раз применить.
Что-то типа тегирования любых файлов собирались реализовать в WinFS, но, как человечеству известно, увы.
Use cases примерно таковы:
1. (магистральный путь) Приходят данные, обрабатываются некой моделью (на Excel), сохраняются результаты, генерируется отчет.
2. (творческий путь) Дорабатывается сама модель. Через нее гоняются одни и те же данные. Тут, конечно не нужно сохранять результаты каждого прогона, но для модели и ее результатов хочется иметь, например, подневную версионность.
3. (путь бюрократа) Некая цифра в отчете, сделанном две недели назад, не понравилась потребителю. Он хочет понять, откуда она образовалась. В этом случае надо поднять a) версию исходных данных, на которых она рассчитана; b) версию, породившей ее модели.
no subject
Date: 2007-05-23 06:33 am (UTC)