useful_faq | Управление информацией

В ходе работы на нескольких проектах в последные пару лет у меня в полный рост встала проблема организации данных. Причем, если в первый год из этой пары приходилось работать с тщательно структурированными данными, которые были заботливо сложены в различные базы, то на самом последнем проекте вся входящая информация была представлена в Excele, причем в разных форматах.
В связи с таким бедствием тройка вопросов:
1. Есть ли в принципе дисциплина "Управление информацией" или "Управление данными"?
2. Если есть, как ее обычно зовут? Ну и подскажите какое-нибудь посвященное ей жж-сообщество/форум/блог/сайт/любой Интернет-ресурс.
3. Если статьи или книги, посвященные этой теме?

Flat | Top-Level Comments Only

From:

hmyr.livejournal.com

Приветствую товарища по несчастью..

From:

zexo.livejournal.com

В принципе, "поплавав" немножно, я некоторые методы борьбы с хаосом выработал. Даже хочу их со временем оформить в статью. Но, конечно, не хочется повторять то, что человечеству уже известно, и размещать статью там, где ее никто не найдет (скажем, в собственном журнале). Так что если есть проблема и интерес к вопросу предлагаю не терять друг друга, а вопрос обсудить.
Вот я: http://eadishchev.moikrug.ru/

From:

hmyr.livejournal.com

Врядли где-то что-то найдется. Искал в свое время но так ничего и не нашел.
Обязательно обсудим..)

From:

blak-n-wait.livejournal.com

data mining? не совсем то, конечно - это скорее относится к упорядочиванию неупорядоченных данных и извлечения из них конкретных фактов

From:

zexo.livejournal.com

Data mining -- это не то, это статистическая обработка данных с целью выявления закономерностей. Данные (до обработки) должны быть уже структурированы.

From:

led-mist.livejournal.com

я тут погуглила на досуге, вроде как Data management это дело называется. может as a starting point вам это поможет.

From:

zexo.livejournal.com

Спасибо, будем посмотреть, надеюсь, поможет.

From:

ex-koryavi.livejournal.com

Как только найду что-нибудь,сообщу.

From:

zexo.livejournal.com

спасибо

From:

ex-koryavi.livejournal.com

Видимо,вам нужно что-то типа opensource СУБД,пользовательский вариант?

Немного не понимаю сути хранимых данных и необходимых операций с ними (у меня,правда,один большой экселевский файл с разворачивыемыми меню и кучей страниц+ ежемесячные обзоры периодики в .doc, которые я потом конвертирую в .html)

From:

zexo.livejournal.com

Нет, задача такая: есть много файлов. Каждый день присылают кучу новых данных, они конвертируются в один формат. Для сконвертированных данных поддерживается версионность (то есть мы хотим иногда вспоминать, какая была картина мира в прошлую пятницу). По этим данным происходит некий расчет -- то есть данные прогоняются через модель из нескольких Excel-файлов, результаты опять представляют из себя файлы в едином формате с версиями. Плюс время от времени генерируются отчеты. Помимо стандартных форм отчетов иногда просят особенные (а давайте так данные сгруппируем, а давайте в профиль посмотрим).
Хочется сохранять все. То есть отдельно входящие данные, отдельно версии унифицированного хранилища, отдельно модель (над моделью тоже идет творческая работа), отдельно результаты. Требуется всегда знать, откуда появился каждый файл, на каких исходных данных какой версией модели он считался, какая была логика исходящего отчета.
Если слишком сумбурно, напишите, попробую описать поструктурированнее.

(deleted comment)

From:

zexo.livejournal.com

Да, нет. Преобразовывать данные в Excel я умею, задача в том, чтобы организовать хранение ~2000 файлов. Иерархическая структура каталогов при этом оказывается мало полезной. В результате я пришел к тому, что
1. Разделил файлы на несколько очень крупных категорий: входящие, моделирование (преобразование) исходящие, справочная информация, связанные с управлением проектом, инсталляшки софта.
2. Внутри каждой категории файлы поделил просто по датам их создания. Таким образом, в каждом каталоге было не более нескольких десятков файлов.
3. Пользовался практически всегда поиском, а не блужданием по дереву, но иногда все-таки от начала поиска до конца проходило минут по 5, что я считаю неприемлемо большим.

Соответственно, вопрос о том, как работать с таким "мясом".

From:

ex-neo-is-fl156.livejournal.com

Категоризация должна идти от задач.
По аналогии (утрируя) - если вам *совсем ничего* с файлами не нужно делать, то их можно вообще удалить нафиг. Если нужно искать фразу в тексте 1 раз в час, наверное, не составит труда искать её перебором по всем файлам. Если нужно искать по фразе, скажем, 30 пользователям одновременно и чтобы запрос обрабатывался не больше 5 секунд, нужно индексировать по содержанию (Sharepoint services вам в помощь). Если нужно делать выборку по цвету ("показать все чёрные документы" или "все красные"), соответственно, разделите их на чёрные и красные :)

В общем, напишите подробно, что именно вы собираетесь делать с полученным data set, и тогда можно будет думать, как это лучше всего реализовать.

From:

ex-neo-is-fl156.livejournal.com

Хм... если я вас правильно понял, вы не программно собираетесь работать с данными, а вручную? Тогда вам, наверное, в помощь desktop search. Попробуйте WDS 3.01 (http://www.microsoft.com/downloads/details.aspx?FamilyID=738fc2de-49b9-4e69-9227-2206277ab7c9&displaylang=en) - я смогу помочь чем-могу ответами на вопросы, если появятся.

From:

zexo.livejournal.com

Попробую, спасибо. Пробовал Google Desktop. Он меня не устроил по двум причинам:
1. Производительность. Ощутимо тормозил систему.
2. Не позволяет привязывать к документу метаинформацию, не содержащуюся в нем.
Пока мне кажется, что меня бы устроила пара возможностей: тегирование и привязка описания в свободной форме. И чтобы поиск можно было делать как по тексту внутри документа, так и по описанию + ограничивать только документами, имеющими определенный тег. К тому же предполагаю, что может возникнуть необходимость совершать массовые операции типа таких: всем документам с тегом A присвоить тег B, всем документам, которые выдаст данный поиск присвоить тег C.

Но с другой стороны изначально я спрашивал не про софт, а про дисциплину, потому что интересно, КАК обычно люди с такими данными работают, а не только С ПОМОЩЬЮ ЧЕГО я могу работать с такими данными, используя привычки выработанные в других областях.

From:

ex-neo-is-fl156.livejournal.com

1. WDS в этом смысле лучше - индексирование происходит в фоновом режиме, и реализован механизм "отката", который выражается в том, что когда пользователь начинает использовать компьютер (трогать мышь, клаву, работать в других приложениях), индексирование замедляется. Попробуйте - если вам покажется, что WDS тормозит систему, напишите мне, попробую вам помочь разобраться.

2. Желательно напишите конкретные примеры использования (зачем вам это нужно) я, может, попробую подыскать альтернативу. Насколько мне известно, поддержки тэгирования произвольных файлов пока нет (на Vista у фотографий есть тэги, но это, если я не ошибаюсь, только на Висте и только у фотографий), но (а) вы можете вставлять ключевые слова в имена файлов и каталогов (разделяя просто пробелом), после чего эти файлы будут легко отыскиваться по данным словам. Групповые операции с такими тэгами, конечно, будет осуществлять не всегда легко :( (б) WDS - это платформа, если вам очень-очень надо, я думаю, должен быть какой-то способ, чтобы вы могли привинтить эту фичу.

Про дисциплину я не могу дать вам ответа, потому что не знаю. Мне тоже любопытно, какой факультет заканчивают все эти люди, которые изобретают коробочки, папочки, наклеечки ^_^
Мне было бы любопытно самому услышать ответ на ваш вопрос.

Вообще странно, что вы столкнулись с этой проблемой при количестве файлов всего 2000. 2000 это всего 40 нажатий "page down" если на странице отображается список по 50 файлов. Даже если вы будете тратить по 5 секунд на просмотр списка, то 5*40 = 200 секунд, т.е. 3 минуты 20 секунд (т.е. тупо свалить все файлы в 1 каталог даст вам выигрыш во времени по сравнению с теми 5 минутами, которые вы, по вашим словам, тратите).

From:

zexo.livejournal.com

Спасибо за обстоятельный ответ и за то время, которые Вы мне уделяете.
Комфортным периодом поиска файла я бы назвал секунд 10-20, к тому же при просмотре списка "валом" велика вероятность то, что нужно пропустить. Я хочу добиться следующего: мне нужен определенный файл -- я открываю поиск, ввожу условие -- все кандидаты уместились в экран. Вводить ключевые слова в имена -- идея неплохая. Попробую в следующий раз применить.
Что-то типа тегирования любых файлов собирались реализовать в WinFS, но, как человечеству известно, увы.

Use cases примерно таковы:
1. (магистральный путь) Приходят данные, обрабатываются некой моделью (на Excel), сохраняются результаты, генерируется отчет.
2. (творческий путь) Дорабатывается сама модель. Через нее гоняются одни и те же данные. Тут, конечно не нужно сохранять результаты каждого прогона, но для модели и ее результатов хочется иметь, например, подневную версионность.
3. (путь бюрократа) Некая цифра в отчете, сделанном две недели назад, не понравилась потребителю. Он хочет понять, откуда она образовалась. В этом случае надо поднять a) версию исходных данных, на которых она рассчитана; b) версию, породившей ее модели.

From:

ex-neo-is-fl156.livejournal.com

т.е. 3 минуты 20 секунд - это максимум. В среднем будет вдвое меньше: 1 минута 40 секунд! :)

(deleted comment)

From:

zexo.livejournal.com

уже ответил :)

Flat | Top-Level Comments Only

Полезные вопросы

Управление информацией

Управление информацией

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Самому интересно стало.

Re: Самому интересно стало.

Re: Самому интересно стало.

Re: Самому интересно стало.

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject