1. Введение. О методологии и архитектуре

Растущее количество и увеличивающееся разнообразие информационных систем, существующих в современном информационном пространстве и актуально используемых в деятельности конкретных организаций — библиотек, музеев, университетов — ставит в повестку дня вопрос об их функциональной интеграции, как в пределах локальных сетей, так и в различных конфигурациях внешней информационной среды.

При этом нам кажется важным сделать акцент не просто на интеграции ресурсов в рамках той или иной технической платформы, а на интеграции поисковых (и презентационных) сервисов. Мы делаем это в рамках методологии мультимодального взаимодействия и конверсационного анализа [1], а с точки зрения стиля программного проектирования — в рамках парадигмы сервис-ориентированной распределенной среды.

Методология мультимодального взаимодействия (и конверсационного анализа) предполагает рассмотрение любого «действия» человека — в том числе, например, пользователя информационной системы — с точки зрения взаимодействия различных «модальностей» информации: текста, графики (статических образов), аудио (речи), видео (динамических образов) и т.д. для организации комплексного смыслового поля, в котором находится человек в реальном жизненном пространстве, а пользователь, соответственно — в информационном пространстве.

Парадигма сервис-ориентированной архитектуры (СОА, SOA англ. service-oriented architecture) — это модульный подход к разработке программного обеспечения, основанный на использовании распределенных, слабо связанных компонентов, оснащенных стандартными интерфейсами для взаимодействия по стандартным протоколам [2].

Мы в наших разработках ориентируемся на веб-сервисы и веб-протоколы.

В статье рассматривается организация мультимодальной информационной среды, включающей в себя виртуальный гипермедиа атлас с локациями, относящимися к жизни и деятельности М.В. Ломоносова, и электронную полнотекстовую библиотеку, включающую в себя ресурсы, относящиеся к деятельности М.В. Ломоносова (но не только). Работы проводятся в интересах Архангельского краеведческого музея и направлены на поэтапное создание современной информационной среды для поддержки основной деятельности музея (экспозиции, выставки, экскурсии), а также полнофункционального виртуального музея.

2. Виртуальный атлас на основе технологии Google Earth

Функциональную часть распределенной информационной среды «Пространство Ломоносова» составляет виртуальный гипермедиа атлас «Земля Ломоносова». Он создается на основе технологии Google Earth [3] (бесплатная версия) и содержит около 100 локаций («метки» на глобусе), связанных с именем и деятельностью М.В. Ломоносова.

Рис. 1. Скриншот страницы виртуального атласа Google Earth с локацией «Усть-Рудица, 1752» и этикеткой локации, в которой выделена ссылка на автоматический запрос к библиотеке.

Эти локации содержат краткое описание содержания локации (в терминах музейного дела — это «этикетки предмета»), а также ссылку на автоматический запрос к полнотекстовой библиотеке с ресурсами по ломоносовской тематике.

На глобусе могут быть размещены также ссылки на другие элементы создаваемой информационной среды: электронные экспозиции и выставки, тематические электронные коллекции с поиском и навигацией (например, в разработке находится мультимодальная коллекция «Концепты Ломоносова», посвященная особенностям понятийно-концептуального аппарата в научном творчестве М.В. Ломоносова), другие специализированные базы данных. Их взаимодействие между собой каждый раз определяется и организуется сообразно поставленным задачам.

3. Полнотекстовая библиотека на основе информационной системы T-Libra

Важнейшей частью создаваемой информационной среды является электронная библиотека с возможностями гибкого тематического полнотекстового поиска.

Физически библиотека может находиться на любом компьютере (сервере), имеющем связь с Интернет, а логически — в составе децентрализованной распределенной информационной среды.

Используемая в различных проектах информационная система T-Libra, предназначенная для создания многофункциональных электронных полнотекстовых библиотек (разработка ООО «Константа», Архангельск), функционирует в клиент-серверной Интернет/Интранет архитектуре. На стороне пользователя предполагается лишь наличие Интернет-браузера и стандартных прикладных программ по работе с файловыми ресурсами. На стороне сервера — операционная система Windows, СУБД MySQL (или аналогичная по функционалу), веб-сервер Apache, сервер приложения (ООО «Константа»). Вся бизнес-логика вынесена в сервер приложения [4].

Примечание: T-Libra может функционировать также в распределенной однородной информационной среде: на серверах участников этой среды должна быть установлена ИС T-Libra; пользователь запускает сквозной запрос с любого из серверов и получает результаты от всех тех серверов, к которым разрешен доступ [5]. Таким образом реализована модель децентрализованной среды под управлением пользовательского браузера, обращающегося к множеству независимых серверов, находящихся в ведении различных организаций (архитектура «машины метапоиска», Metasearch engine [6]. Этот подход вполне укладывается в парадигму распределенных информационных систем [7], достаточен для целей полнотекстового поиска и позволяет не рассматривать более сложные варианты.

3.1. Сервисы полнотекстового поиска

В текущей версии электронной библиотеки имеются абзацно-ориентированный и частотно-ориентированный типы полнотекстового поиска. При этом абзацно-ориентированный поиск представлен разновидностями работы как в локальной, так и в распределенной среде.

Абзацно-ориентированный поиск предназначен для поиска и презентации текста с точностью до отдельных авторских абзацев, содержащих заданную пользователем терминологическую структуру (тем самым эксплицируется горизонтальный микроконтекст, в котором в составе абзаца находятся искомые термины). Авторский абзац выбран в качестве естественной единицы смыслового членения текста. Обеспечивается поддержка нескольких видов и различных форм презентации результатов этого поиска.

Простой (однослойный) тематический поиск с одним комплексным полем для ввода терминов и использованием для этих терминов операторов логического объединения, обязательного исключения или обязательного включения термина в запрос. Результатом поиска является список абзацев, удовлетворяющих заданным условиям.

Каждый из абзацев, входящих в результаты запроса, может быть одним кликом мышки раскрыт до своего полного вида. Используя опцию «Контекст» в левом вертикальном меню, можно последовательно раскрыть абзацы до и после найденного — вплоть до кластера из семи абзацев (три абзаца «до», три абзаца «после», плюс сам абзац — результат запроса).

С этой же экранной страницы имеется возможность посмотреть соответствующий ресурс (статью, книгу и т.д.) в файловом виде; ресурс при этом может быть представлен в различных форматах: текстового документа, графического образа документа (важно для архивных ресурсов), сопровождающего документ аудио- или видеофайла (важно для организации электронных выставок и коллекций).

Имеется также возможность оценки пользователем найденных абзацев и затем автоматизированной сборки выбранных абзацев с помощью опции «Собрать тему». В результате пользователь получает файл, в котором собраны тематически ориентированные абзацы из  различных документов электронной библиотеки и указаны ресурсы (вместе с их библиографическими описаниями), откуда эти абзацы взяты. На клиентском (пользовательском) компьютере этот итоговый файл может быть записан на переносимый носитель информации (флэшку) или распечатан.

Расширенный (многослойный) тематический поиск содержит функционал дополнительной тематической фокусировки запроса. Соответствующий инструментарий включает в себя:

а) формирование нескольких поисковых полей («слоев»)

б) включение в запрос дополнительных количественных параметров его фокусировки.

Поисковое поле «слой» представляет собой технический инструмент для выделения того или иного содержательного «аспекта» интересующей пользователя «темы»; всего может быть сформировано от 2 до 8 слоев. Например, в первом слое вводим термин «Ломоносов», во втором — «Усть-Рудица», в третьем — «мозаика». Тем самым в структуре запроса тематика «Ломоносов» специализирована (аспектуализирована) в связи с «Усть-Рудицей» и «мозаикой».

Еще более точная тематическая фокусировка запроса достигается за счет выполнения следующих дополнительных условий:

  • указание минимально необходимого количества поисковых слоев (от 2 до 8)
  • указание максимального расстояния между терминами, принадлежащими разным слоям — от 0, когда слова из двух разных слоев запроса в составе абзаца примыкают друг к другу (например, «Сийское Евангелие»), до произвольной величины.

В запросе «от глобуса — к библиотеке» (составленном экспертами) используется, как правило, многослойный абзацно-ориентированный запрос.

Рис. 2. Скриншот страницы с результатом автоматического запроса «от локации Усть-Рудица — к полнотекстовой библиотеке».

В результате трехслойного запроса (рисунок 2: слой 1– «Ломоносов», слой 2 – «мозаика цветное художественное стекло», слой 3 – «Петербург Усть-Рудица»; расстояние между словами в разных слоях не более 8 слов) найдено 24 релевантных абзаца в 5 документах (по базе объемом около 3500 документов). Термины внутри одного слоя подчиняются операции логического объединения, термины в разных слоях — операции логического пересечения.

Каждый из абзацев одним кликом может быть раскрыт до своего полного вида (рисунок 3).

Рис. 3. Раскрыт один из найденных абзацев (из книги В.В.Данилевского «Ломоносов и художественное стекло»). Термины запроса, удовлетворяющие условиям его фокусировки, подкрашены красным цветом текста на желтом фоне.

Далее можно воспользоваться сервисами самой библиотеки. Например, актуализировать контекст, в котором находится найденный абзац (кнопка «Контекст» в меню) — можно открыть абзац до и абзац после абзаца-результата запроса, а также в целом кластер из 7 абзацев: три абзаца до и три абзаца после найденного, плюс сам абзац результата запроса.

Можно также организовать самые разные запросы по интересующей пользователя теме (уже безотносительно к гипермедиа атласу), затем воспользоваться опцией «Собрать тему» и получить файл с отобранными абзацами и ссылками на ресурсы, из которых они взяты. Наконец, можно открыть сами файлы ресурсов в различных форматах (кнопка «Ресурсы» в электронной карточке соответствующего документа).

Таким образом, поиск «от виртуального глобуса — к электронной библиотеке» позволяет в интерактивном режиме связать локации на глобусе с релевантными тематическими абзацами электронной библиотеки, тем самым актуализовать культурно-исторический контекст соответствующих событий и имен, связанных с деятельностью М.В. Ломоносова.

В настоящее время ведутся работы по решению обратной, более сложной задачи — автоматизированному поиску «от библиотеки – к виртуальному глобусу»: от найденного в библиотеке абзаца одним кликом получить те локации на глобусе, которые тематически релевантны содержанию абзаца. Это предполагает включение в состав поисковых сервисов более глубокого семантического анализа текста/контекста, «достающего» до смысловых единиц информации.

4. Заключение

В целом информационную среду в составе [виртуальный гипермедиа атлас + полнотекстовая библиотека] мы рассматриваем как один из вариантов построения унифицированного мультимодального портала для входа в информационную среду «Пространство Ломоносова».

За счет развития ресурсов и сервисов гипермедиа атласа, присоединения к ним различных тематических коллекций, функциональной интеграции этих элементов в составе атласа, а также двусторонней интеграции между атласом и полнотекстовой библиотекой мы получаем возможность многопланового расширения и углубления информационной среды современного музея.

Сказанное относится, разумеется, не только к ломоносовской тематике.

В перспективных планах музея — применение методологии мультимодального взаимодействия и технологии сервис-ориентированных систем для таких важных комплексных тем, как «Наследие Архангельского епархиального древлехранилища» (с него началась коллекция Архангельского краеведческого музея), «Словесность Русского Севера: тексты, контексты, образы», «Северная икона в музейном информационном пространстве», «Народная культура Русского Севера», «Новодвинская крепость», «Освоение Арктики» и т.д.

Примечание. Трехлетний опыт работы в рамках изложенной выше программной среды показал, что ряд функций, которые хотелось бы реализовать в рамках унифицированного мультимодального портала, не вполне соответствует функционалу Google Earth. В частности, не может быть эффективно решена задача создания интерактивных виртуальных экскурсий с изменяемой пользователем траекторией движения по музейным артефактам. В связи с этим в настоящее время ведутся разработки интегрированной программной среды (коллекции + библиотека + интерактивная виртуальная экскурсия), полностью построенной в интерфейсе браузера. Это же относится к созданию полнофункционального виртуального музея.

Публикация подготовлена при поддержке гранта РГНФ № 14-03-12017.

Bibreference

International

(2017) Lomonosov’s Universum: the Experience for Functional Integration of Virtual Atlas and Full-Text Library. Culture and technologies studies. Vol. 2, № 1. P. 6-12. Available at:  http://cat.itmo.ru/en/2017/v2-i/229, DOI: 10.17586/2587-800X-2017-2-1-6-12

Russian GOST 7.0.5 - 2008

Lomonosov’s Universum: the Experience for Functional Integration of Virtual Atlas and Full-Text Library [electronic text] // Culture and technologies studies. 2017. Vol.  2. № 1. P. 6-12. URL:  http://cat.itmo.ru/en/2017/v2-i/229, DOI: 10.17586/2587-800X-2017-2-1-6-12

DOI
10.17586/2587-800X-2017-2-1-6-12
References
  1. Turchik A. Mul'timodal'noe vzaimodeistvie: issledovatel'skie vozmozhnosti primeneniya konversatsionnogo analiza [Multimodal interaction: the research possibilities of applying the conversion analysis]. Sociological Review. 2011, V. 10, no. 1–2, pp. 164–175.
  2. Servis-orientirovannaya arkhitektura [Service-oriented architecture]. Wikipedia. URL: https://ru.wikipedia.org/wiki/Servis-orientirovannaya_arkhitektura (accessed 15.04.2016).
  3. Google Earth. URL: http://itc.ua/articles/google_earth_22033/ (accessed 15.04.2016).
  4. Lyapin S.Kh. Servisy elektronnoi polnotekstovoi biblioteki dlya obrazovaniya, nauki i kul'tury [Services of electronic full-text library for education, science and culture]. Scientific periodicals: problems and solutions.  2013, no. 2(14), pp. 9–17.
  5. Lyapin S.Kh., Kukovyakin A.V., Mbogo I.A., Tolstikova I.I, Chugunov A.V. Servisy polnotekstovogo poiska v raspredelennoi informatsionnoi srede (proekt humanitariana) [Full-text search services in a distributed information environment (humanitariana project)]. Scientific and Technical Herald of Information Technologies, Mechanics and Optics. 2015, V. 15, no. 1, pp. 155–162.
  6. Metasearch engine. Wikipedia. URL:http://en.wikipedia.org/wiki/Metasearch_engine (accessed 16.04.2016).
  7. Tanenbaum E., Van Steen M. Raspredelennye sistemy. Printsipy i paradigm [Distributed systems. Principles and paradigms]. St. Petersburg, Piter Publ., 2003. 877 p.
English