Управление информацией
May. 21st, 2007 07:08 pm![[identity profile]](https://www.dreamwidth.org/img/silk/identity/openid.png)
![[community profile]](https://www.dreamwidth.org/img/silk/identity/community.png)
В ходе работы на нескольких проектах в последные пару лет у меня в полный рост встала проблема организации данных. Причем, если в первый год из этой пары приходилось работать с тщательно структурированными данными, которые были заботливо сложены в различные базы, то на самом последнем проекте вся входящая информация была представлена в Excele, причем в разных форматах.
В связи с таким бедствием тройка вопросов:
1. Есть ли в принципе дисциплина "Управление информацией" или "Управление данными"?
2. Если есть, как ее обычно зовут? Ну и подскажите какое-нибудь посвященное ей жж-сообщество/форум/блог/сайт/любой Интернет-ресурс.
3. Если статьи или книги, посвященные этой теме?
В связи с таким бедствием тройка вопросов:
1. Есть ли в принципе дисциплина "Управление информацией" или "Управление данными"?
2. Если есть, как ее обычно зовут? Ну и подскажите какое-нибудь посвященное ей жж-сообщество/форум/блог/сайт/любой Интернет-ресурс.
3. Если статьи или книги, посвященные этой теме?
no subject
Date: 2007-05-21 03:59 pm (UTC)no subject
Date: 2007-05-21 04:06 pm (UTC)Вот я: http://eadishchev.moikrug.ru/
no subject
Date: 2007-05-21 04:12 pm (UTC)Обязательно обсудим..)
no subject
Date: 2007-05-21 05:14 pm (UTC)no subject
Date: 2007-05-21 06:42 pm (UTC)no subject
Date: 2007-05-21 06:05 pm (UTC)no subject
Date: 2007-05-21 06:42 pm (UTC)Самому интересно стало.
Date: 2007-05-21 07:55 pm (UTC)Re: Самому интересно стало.
Date: 2007-05-22 05:18 am (UTC)Re: Самому интересно стало.
Date: 2007-05-22 07:29 pm (UTC)Немного не понимаю сути хранимых данных и необходимых операций с ними (у меня,правда,один большой экселевский файл с разворачивыемыми меню и кучей страниц+ ежемесячные обзоры периодики в .doc, которые я потом конвертирую в .html)
Re: Самому интересно стало.
Date: 2007-05-22 08:34 pm (UTC)Хочется сохранять все. То есть отдельно входящие данные, отдельно версии унифицированного хранилища, отдельно модель (над моделью тоже идет творческая работа), отдельно результаты. Требуется всегда знать, откуда появился каждый файл, на каких исходных данных какой версией модели он считался, какая была логика исходящего отчета.
Если слишком сумбурно, напишите, попробую описать поструктурированнее.
no subject
Date: 2007-05-22 10:59 am (UTC)1. Разделил файлы на несколько очень крупных категорий: входящие, моделирование (преобразование) исходящие, справочная информация, связанные с управлением проектом, инсталляшки софта.
2. Внутри каждой категории файлы поделил просто по датам их создания. Таким образом, в каждом каталоге было не более нескольких десятков файлов.
3. Пользовался практически всегда поиском, а не блужданием по дереву, но иногда все-таки от начала поиска до конца проходило минут по 5, что я считаю неприемлемо большим.
Соответственно, вопрос о том, как работать с таким "мясом".
no subject
Date: 2007-05-22 11:09 am (UTC)По аналогии (утрируя) - если вам *совсем ничего* с файлами не нужно делать, то их можно вообще удалить нафиг. Если нужно искать фразу в тексте 1 раз в час, наверное, не составит труда искать её перебором по всем файлам. Если нужно искать по фразе, скажем, 30 пользователям одновременно и чтобы запрос обрабатывался не больше 5 секунд, нужно индексировать по содержанию (Sharepoint services вам в помощь). Если нужно делать выборку по цвету ("показать все чёрные документы" или "все красные"), соответственно, разделите их на чёрные и красные :)
В общем, напишите подробно, что именно вы собираетесь делать с полученным data set, и тогда можно будет думать, как это лучше всего реализовать.
no subject
Date: 2007-05-22 11:14 am (UTC)no subject
Date: 2007-05-22 11:23 am (UTC)1. Производительность. Ощутимо тормозил систему.
2. Не позволяет привязывать к документу метаинформацию, не содержащуюся в нем.
Пока мне кажется, что меня бы устроила пара возможностей: тегирование и привязка описания в свободной форме. И чтобы поиск можно было делать как по тексту внутри документа, так и по описанию + ограничивать только документами, имеющими определенный тег. К тому же предполагаю, что может возникнуть необходимость совершать массовые операции типа таких: всем документам с тегом A присвоить тег B, всем документам, которые выдаст данный поиск присвоить тег C.
Но с другой стороны изначально я спрашивал не про софт, а про дисциплину, потому что интересно, КАК обычно люди с такими данными работают, а не только С ПОМОЩЬЮ ЧЕГО я могу работать с такими данными, используя привычки выработанные в других областях.
no subject
Date: 2007-05-23 06:33 am (UTC)2. Желательно напишите конкретные примеры использования (зачем вам это нужно) я, может, попробую подыскать альтернативу. Насколько мне известно, поддержки тэгирования произвольных файлов пока нет (на Vista у фотографий есть тэги, но это, если я не ошибаюсь, только на Висте и только у фотографий), но (а) вы можете вставлять ключевые слова в имена файлов и каталогов (разделяя просто пробелом), после чего эти файлы будут легко отыскиваться по данным словам. Групповые операции с такими тэгами, конечно, будет осуществлять не всегда легко :( (б) WDS - это платформа, если вам очень-очень надо, я думаю, должен быть какой-то способ, чтобы вы могли привинтить эту фичу.
Про дисциплину я не могу дать вам ответа, потому что не знаю. Мне тоже любопытно, какой факультет заканчивают все эти люди, которые изобретают коробочки, папочки, наклеечки ^_^
Мне было бы любопытно самому услышать ответ на ваш вопрос.
Вообще странно, что вы столкнулись с этой проблемой при количестве файлов всего 2000. 2000 это всего 40 нажатий "page down" если на странице отображается список по 50 файлов. Даже если вы будете тратить по 5 секунд на просмотр списка, то 5*40 = 200 секунд, т.е. 3 минуты 20 секунд (т.е. тупо свалить все файлы в 1 каталог даст вам выигрыш во времени по сравнению с теми 5 минутами, которые вы, по вашим словам, тратите).
no subject
Date: 2007-05-23 07:37 am (UTC)Комфортным периодом поиска файла я бы назвал секунд 10-20, к тому же при просмотре списка "валом" велика вероятность то, что нужно пропустить. Я хочу добиться следующего: мне нужен определенный файл -- я открываю поиск, ввожу условие -- все кандидаты уместились в экран. Вводить ключевые слова в имена -- идея неплохая. Попробую в следующий раз применить.
Что-то типа тегирования любых файлов собирались реализовать в WinFS, но, как человечеству известно, увы.
Use cases примерно таковы:
1. (магистральный путь) Приходят данные, обрабатываются некой моделью (на Excel), сохраняются результаты, генерируется отчет.
2. (творческий путь) Дорабатывается сама модель. Через нее гоняются одни и те же данные. Тут, конечно не нужно сохранять результаты каждого прогона, но для модели и ее результатов хочется иметь, например, подневную версионность.
3. (путь бюрократа) Некая цифра в отчете, сделанном две недели назад, не понравилась потребителю. Он хочет понять, откуда она образовалась. В этом случае надо поднять a) версию исходных данных, на которых она рассчитана; b) версию, породившей ее модели.
no subject
Date: 2007-05-23 06:33 am (UTC)no subject
Date: 2007-05-22 11:00 am (UTC)