Историко-ориентированные системы

Sergniks

Претор
Историко-ориентированные информационные системы - класс систем, предназначенных для хранения, организации исторической информации, обеспечения доступа к ней и ее аналитической обработки в соответствии с потребностями исторических исследований и образования.
В использовании историко-ориентированных систем можно выделить следующие их типы:
- источнико-ориентированные системы
- проблемно-ориентированные системы;


- системы поддержки научных исследований.
- информационно-образовательные системы;

Среди приемов использования источнико-ориентированных баз можно выделить:
• поиск источников по заданной теме, хронологическому периоду, географической принадлежности;
• поиск источников по атрибутам;
• самостоятельное формулирование поисковых запросов для решения задач, например, поиск источников по заданному событию, персоналию и т. п.;
• анализ коллекции источников на основе предлагаемого системой поискового инструментария и каталога, получение количественных и качественных характеристик коллекции, их интерпретация;
• элементы традиционного источниковедческого анализа, извлеченные из системы источников.

Использование указанных приемов формирует как источниковедческие умения и навыки, так
и умения и навыки работы с электронными каталогами и информационного поиска.

Может кто нибудь поделится знанием об этом?
 

aeg

Принцепс сената
QUTE=Sergniks, Oct 26 2015, 18:24]• поиск источников по заданной теме, хронологическому периоду, географической принадлежности;
• поиск источников по атрибутам;

[/QUOTE]

Наверное, это обычная библиографическая база данных.

Например, есть такая по средневековью - RI OPAC:
http://opac.regesta-imperii.de/lang_en/thesaurus.php

Что там есть?

Прежде всего, она двуязычная. Можно переключиться на английский или немецкий варианты.

Имеется поиск (обычный, по словам заголовка, автору и тэгам тезауруса):
http://opac.regesta-imperii.de/lang_en/query.php

Систематический тезаурус:
http://opac.regesta-imperii.de/lang_en/thesaurus.php
содержит очень подробную иерархическую классификацию:
- по месту (Geography);
- по времени (Time);
- по темам (Topics);
- по авторам (Autoren/A-Z).

Раздел "Title Words" содержит полный индекс всех слов из названий текстов. Раздел "Authors" - полный список авторов.

Допускается неточный поиск, когда известно только примерное написание того, что ищется.

База содержит на сегодня 1,9 миллиона названий. Как первичных исторических источников, так и научных публикаций.

=============================

Более простая база есть по русскоязычной византинистике "Библиография русского византиноведения":

http://meridionalia.ru/Byzant/

Там ничего особенного, карточки и поиск по полям.

=============================

По античности есть библиографическая база Гномон. Её можно пользоваться онлайн:
http://www.gnomon.ku-eichstaett.de/Gnomon/en/Gnomon.html
а можно и скачать.
 

aeg

Принцепс сената
самостоятельное формулирование поисковых запросов для решения задач, например, поиск источников по заданному событию, персоналию и т. п.;

PBW:
http://blog.pbw.cch.kcl.ac.uk/

Просопографическая база данных по Византии 1025-1150 гг. Кроме персоналий там есть также описание событий с указанием всех источников и цитированием таковых.

анализ коллекции источников на основе предлагаемого системой поискового инструментария и каталога, получение количественных и качественных характеристик коллекции, их интерпретация;

Есть диски с источниками на греческом и латинском языках, а также папирусами. Для их чтения написаны программы с разными возможностями, например, Lector 2007:
http://www.maierphil.de/lector/

В том числе можно составлять конкордансы (список мест, где употребляется данное слово или словосочетание), а также сравнивать два источника и искать в них похожие фрагменты.

Сами диски тоже найти несложно.
 

alex55555

Эдил
Историко-ориентированные информационные системы - класс систем, предназначенных для хранения, организации исторической информации, обеспечения доступа к ней и ее аналитической обработки в соответствии с потребностями исторических исследований и образования.
Эти штуки очень сильно зависят от количества приложенных для их организации усилий. Можно тупо проиндексировать некие тексты поисковой системой и заявить - вот вам историко-ориентированная система. Но на самом деле это даже хуже чем Гугл, потому что алгоритмы поиска по тексту сильно хуже гугловых, а объём текстов сильно меньше доступных гуглу. Но самое главное - просто поиск по тексту не даёт возможности искать эффективно. То есть для изучения вопроса бывает необходимо не столько найти что-то по ключевым словам, сколько установить массу взаимосвязей между изучаемой темой и наполняющими её событиями и персонажами. Вот эти связи текстовый поиск не даёт. Приходится (как все мы знаем на примере гугла) читать случайно выданный текст, содержащий ключевые слова, самостоятельно отсеивать массу нерелевантных текстов, в небольшом количестве релевантных находить "наводки" на другие возможные источники информации, снова гуглить по наводкам, опять просеивать мегабайты текстов и т.д. по кругу.

Пример системы с данными по византии весьма показателен в сравнении с другими системами ориентированными на те же цели. В византийской системе информация доступна именно со связями. По связям можно легко и быстро перейти к источнику, ко всем остальным упоминаниям персоналии, к источникам на связанный с интересующими событиями год и т.д. То есть вместо дней, убитых на анализ объёмных текстов, можно за минуты докопаться до первоисточника информации по событию, найти другие источники с участниками события и т.д.

Для перевода системы с уровня "просто поиск по тексту" на уровень поиска по смысловым связям нужно что бы кто-то заранее проанализировал тексты и при помощи софта организовал бы из сырого материала базу знаний со смысловыми связями. Это довольно большая работа, поэтому по византии вся база пока лишь на полтора столетия. Но именно анализ с последующей организацией в виде базы знаний позволяет качественно изменить работу с историческими данными. А без анализа (и соответствующих усилий, приложенных кем-то) имеем жалкие подобия гугла.

В общем - хорошо, что хотя бы византийская база есть, надеюсь она послужит примером для администраторов от истории в плане необходимости создавать подобные базы (то есть тратить деньги на анализ и наполнение таких баз, ну и на создание софта).
 

aeg

Принцепс сената
В общем - хорошо, что хотя бы византийская база есть, надеюсь она послужит примером для администраторов от истории в плане необходимости создавать подобные базы (то есть тратить деньги на анализ и наполнение таких баз, ну и на создание софта).

Тут сделано даже ещё больше. Они создали движок, на котором можно самому сделать любую просопографическую базу. Например, на том же движке работает PASE, база по англо-саксам.

Если бы там была ещё поддержка скриптов, позволяющая писать свои макросы для создания запросов и обработки данных, было бы совсем хорошо.

Я как-то в одной программе сделал такую поддержку, и в результате пользователи сами смогли делать то, что раньше делал я.

Наполнение базы тоже можно частично автоматизировать.

Скорее требуются не базы, а инструменты для их создания.


 

Sergniks

Претор
QUTE=aeg, Oct 26 2015, 22:18]Наверное, это обычная библиографическая база данных.
Например, есть такая по средневековью - RI OPAC:
http://opac.regesta-imperii.de/lang_en/thesaurus.php
Имеется поиск (обычный, по словам заголовка, автору и тэгам тезауруса):
http://opac.regesta-imperii.de/lang_en/query.php
Систематический тезаурус:
http://opac.regesta-imperii.de/lang_en/thesaurus.php
содержит очень подробную иерархическую классификацию:
- по месту (Geography); - по времени (Time); - по темам (Topics); - по авторам (Autoren/A-Z).
Раздел "Title Words" содержит полный индекс всех слов из названий текстов. Раздел "Authors" - полный список авторов.
Допускается неточный поиск, когда известно только примерное написание того, что ищется.
База содержит на сегодня 1,9 миллиона названий. Как первичных исторических источников, так и научных публикаций.
=============================
Более простая база есть по русскоязычной византинистике "Библиография русского византиноведения":
http://meridionalia.ru/Byzant/
Там ничего особенного, карточки и поиск по полям.
=============================
По античности есть библиографическая база Гномон. Её можно пользоваться онлайн:
http://www.gnomon.ku-eichstaett.de/Gnomon/en/Gnomon.html
[/QUOTE]
Нет это не библиографические базы, которые появились очень давно. Это обычно текстово информационные.

например:
разработанная в МГУ база депутатов Государственной Думы 1906 г.
http://hist.msu.ru/Departments/Inf/Stud/duma_1906.mdb

разработанная в МГУ база депутатов Государственной Думы 1995 г.
http://hist.msu.ru/Departments/Inf/Stud/duma_1995.mdb

или Национальный корпус русского языка
http://ruscorpora.ru/index.html
20 мая 2012 года
Для общего доступа открыт Церковнославянский корпус как первый из разделов Исторического корпуса. Основу церковнославянского корпуса составляют современные богослужебные тексты (XIX-XX век) (60%). Кроме того, в корпусе представлены тексты других периодов (XVII-XVIII век) и жанров: писание, святоотеческие и др.

Открыт новый исторический корпус — корпус среднерусских текстов (XV — начало XVIII века). Объём корпуса — 3 млн словоупотреблений: литературные произведения, летописи, жития, деловые грамоты, бытовая переписка.

Исторические корпуса пополнились древнерусским корпусом и корпусом берестяных грамот.
 

alex55555

Эдил
Тут сделано даже ещё больше. Они создали движок, на котором можно самому сделать любую просопографическую базу. Например, на том же движке работает PASE, база по англо-саксам.
Здесь имеет место быть проблема курицы и яйца. Для создания базы знаний нужен софт, а для создания софта нужен пример базы. Инвесторы (администраторы) не страдают от избытка оптимизма и деньги дают чаще всего только под гарантированный доход. А какие гарантии пользы от софта, если нет примеров, показывающих пользу? Вот администраторы и зарезают финансирование. Поэтому нужно массовое распространение баз знаний, тогда администраторы, увидев, что "все так делают", тоже согласятся раскошелиться, что бы рейтинг вуза не уронить и т.д. Но массово такие базы отсутствуют. Поэтому некому оплатить создание софта, поэтому нет возможности самостоятельно создать такую базу заинтересованым историкам, поэтому нет массовости, поэтому некому оплатить...
Если бы там была ещё поддержка скриптов, позволяющая писать свои макросы для создания запросов и обработки данных, было бы совсем хорошо.
Как вы считаете, потребность в таких базах среди историков актуальна? Или это только ваше личное мнение о базах? На сколько массовым стало бы использование таких баз при наличии свободно доступных инструментов? Единицы или сотни историков заинтересовались бы? Если сотни - может быть массовость и развитие, если единицы - толку будет мало.
Наполнение базы тоже можно частично автоматизировать.
Без ручного анализа там никак. Нужно понимать смысл описываемого в тексте, поэтому все связи именно через ручную обработку пойдут. А просто проиндексировать текст и гугл умеет.
 

aeg

Принцепс сената
Можно и без денег сделать, для себя и для собственного удовольствия. Как Linux.

Что там нужно, тоже примерно понятно.
 

aeg

Принцепс сената
Можно. Только времени нужно немало. А простейшие варианты не интересны. Самое главное - наполнение не быстро получится.

Время от денег не зависит. С деньгами так же долго получится; человек за деньги или без денег будет работать с той же скоростью, в пределах своих возможностей.

А куда торопиться?

Если инструмент удачно сделан, то наполнение базы пойдёт намного быстрее. Например, движок может предлагать автозаполнение на основании уже введённых данных.

 

Sergniks

Претор
Как вы считаете, потребность в таких базах среди историков актуальна? Или это только ваше личное мнение о базах? На сколько массовым стало бы использование таких баз при наличии свободно доступных инструментов? Единицы или сотни историков заинтересовались бы? Если сотни - может быть массовость и развитие, если единицы - толку будет мало.
Таких информационных систем уже много:

"Каталог историко-ориентированных систем":

http://digitalhistory.ru/

и PBW там.
 

alex55555

Эдил
А куда торопиться?
Ну в общем да, сильной спешки нет. Но ведь приятно узнать что-то быстрее и не ждать годы.
Если инструмент удачно сделан, то наполнение базы пойдёт намного быстрее. Например, движок может предлагать автозаполнение на основании уже введённых данных.
Да, можно сделать удобный инструмент. Может даже когда-нибудь за это возьмусь. Но хороший инструмент требует хорошего времени, что останавливает. Потому что потратить год на инструмент с целью потом сэкономить день/неделю на поиске выглядит как-то "криво". Правда возможно новое качество, когда те или иные гипотезы доказываются/опровергаются очень быстро и в результате производительность в плане скорости понимания истины сильно возрастает. Но всё равно, инструмент для одного пользователя вряд ли окупит затраты времени этого пользователя на его создание. Поэтому нужен массовый инструмент и масса пользователей. А в плане создания и привлечения пользователей это ещё больше временных затрат при сильно не гарантированном привлечении участников.

В общем - индивидуальные усилия случайны и не конкуренты усилиям институтов. Поэтому расчитывать на них не очень правильно. Хотя надеяться можно.
 

alex55555

Эдил
Таких информационных систем уже много:

"Каталог историко-ориентированных систем":

http://digitalhistory.ru/

и PBW там.
Таких мало. То, что "и PBW там" не говорит нам о большом количестве качественных систем. Большая часть ссылок там на простые тексты и даже вообще есть указания на название статьи в журнале или бумажной книги вместо какой-либо другой информации. Качества по прежнему нет, а количество собранных в одном месте ссылок на обычные интернет-ресурсы и на названия статей не приведёт к появлению качества.

Например. В теме про Византию поднят вопрос о причинах её падения. Одна из важнейших причин падения - состояние экономики. Как найти данные о экономике Византии используя набор из тысячи ссылок на тексты и названия статей в журналах? Ответ - никак. То есть проще найти одну книгу по истории Византии и почитать в ней про экономику, чем перерывать тысячу ссылок на непонятно что. А вот в качественно организованной базе знаний поиск был бы примерно такой - ограничиваем категории цитат из античных источников группами "экономика", "сельское хозяйство", "ремёсла" и получаем выдержки в хронологическом порядке. Вряд ли выдержки из источников по Византии за 100 лет по экономике займут много места, поэтому можно будет их все прочитать. А если в базе ещё есть фильтр по цифровым данным, то добавим его дополнительно к ограничению по группам и получим только цитаты по экономике с цифрами, чем ещё уменьшим объём выдачи текстов. Сравните такой подход с перебором тысячи ссылок.
 

aeg

Принцепс сената
Базы депутатов - это тоже обычная просопографическая база. Берутся какие-то персоналии, связанные общим признаком (например, философы, жители древних Афин, спартанцы периода после Александра Македонского, выпускники Сорбонны) и собираются со своими признаками в базу.

А корпус текстов - это даже не историческая база, а лингвистическая. По корпусной лингвистике. "Вся англо-саксонская литература на языке оригинала". Собираются все тексты, делается их разметка (отмечаются начала книг, глав, параграфов и пр.), лемматизация, выделяются слова и словосочетания и помещаются в индекс для упрощения поиска. Чтобы получилась историческая, её надо дополнить относящимися к истории индексами, например, указателями персоналий или предметными указателями.
 

aeg

Принцепс сената
Можно для начала не замахиваться на Вильяма нашего Шекспира, а сделать что-то небольшое, но полезное.

Например, базу по наместникам римских провинций.

Потом дополнить её другими римскими магистратами.

Или из древних текстов что-то соорудить шедевральное.

Наполнить базу проблемы нет. Текстов оцифровано много.
 

aeg

Принцепс сената
Только не такое как PBW, где надо пару аспирантур закончить, что бы с пользой применять. :)

Там инструкция есть, как пользоваться. Можно научиться читать и без аспирантуры обойтись.

Ввести в форму поиска слова и нажать кнопочку. Вот и вся премудрость. А потом прочитать то, что нашлось. По персоналии там выдаётся имя, родственники, национальность, религиозная принадлежность, связанные с данным человеком события и пр. А события сгруппированы по годам и по правлениям византийских императоров. Каких-то сложных запросов на поиск там нет.
 

Sergniks

Претор
Там инструкция есть, как пользоваться. Можно научиться читать и без аспирантуры обойтись.

Ввести в форму поиска слова и нажать кнопочку. Вот и вся премудрость. А потом прочитать то, что нашлось. По персоналии там выдаётся имя, родственники, национальность, религиозная принадлежность, связанные с данным человеком события и пр. А события сгруппированы по годам и по правлениям византийских императоров. Каких-то сложных запросов на поиск там нет.
Событий ненашел, может просто не те персоны. Однако надо знать английский латынь, греческий и визанийскую историю глубже универ курса.
 

aeg

Принцепс сената
Событий ненашел, может просто не те персоны. Однако надо знать английский латынь, греческий и визанийскую историю глубже универ курса.

Надо в хронологической таблице смотреть:
http://db.pbw.kcl.ac.uk/jsp/narrativetree.jsp

Там есть кнопки для правлений императоров (Reigns), событий (Events) и годов (Year).

Если их нажать, то появляются списки. В "событиях" список событий, в остальных двух, он же, сгруппированный по императорам или годам.

Достаточно английского языка. Описание событий на английском полностью соответствует источникам на среднегреческом. Это пересказ источников.
 

aeg

Принцепс сената
Только не такое как PBW, где надо пару аспирантур закончить, что бы с пользой применять. :)

Так мы же не применять собираемся, а создать, чтобы другие пользовались.

Бумажные аналоги PBW давно уже существуют в большом количестве. Это и PIR для ранней Римской империи до 260 г. н. э., и его продолжение PLRE для поздней Римской империи и ранней Византии до времени Ираклия, и несколько изданий по византийской просопографии, включая 12-томник для Палеологов. Все книги можно найти в электронном виде, часть есть и в виде баз.

Сделать из бумажной или электронной книги базу особых трудностей не вызовет.
 
Верх