Практикум Краткая версия Глава Общие сведения - korshu.ru o_O
Главная
Поиск по ключевым словам:
страница 1
Похожие работы
Название работы Кол-во страниц Размер
Краткая оценка возможной обстановки на территории 1 160.97kb.
Одобрен Советом Федерации 9 ноября 2011 года (В редакции федеральных... 5 1965.34kb.
Налогоплательщик юл версия 15 1 126.79kb.
Особенности вышивки на трикотажном полотне 1 50.48kb.
1. общие сведения 4 Особенности системы 4 Используемые термины 6... 7 912kb.
Программа курса Пользователь программы AutoCad 1 41.63kb.
Общие сведения о языке и языках язык и языкознание 15 1057.54kb.
История развития ос windows windows 0 1 80.21kb.
План урока. Тема : Общие сведения о системах жидкостного и воздушного... 1 121.79kb.
П. Вычегодский Общие сведения «Темная сенсорная комната» 1 229.31kb.
Руководство разработчика Общие сведения Требования к установке Установка 1 150.18kb.
Уничтожение торсионных исследований в России Независимое расследование 22 3708.83kb.
Инструкция по работе с сервисом «sms-платеж» 1 218.94kb.

Практикум Краткая версия Глава Общие сведения - страница №1/1


Университетская информационная система РОССИЯ

Практикум

Краткая версия



Глава 1. Общие сведения

Университетская информационная система РОССИЯ (УИС РОССИЯ) создана и поддерживается как база электронных ресурсов для исследований и образования в области экономики, социологии, политологии, международных отношений и других гуманитарных наук и с 2000 года открыта для коллективного доступа университетов, вузов, научных институтов РФ и специалистов.

В текущей версии системы – свыше 60 коллекций. Список коллекций в приложении. Все коллекции получены из первоисточников по прямым Соглашениям о сотрудничестве НИВЦ МГУ с правообладателями – информационными партнерами проекта.

1.1. Академический (научный) сервис


Компьютерные и Интернет-технологии увеличивают исследовательский потенциал в гуманитарных науках, расширяя круг и ускоряя доступ к информационным источникам. Машиночитаемая форма ресурсов обеспечивает возможности, недоступные при работе с печатными изданиями, - формирование электронной информационной базы, поддерживающей исследования общественных процессов в динамике за ряд лет, использование методов обработки данных и документов и приемы анализа, недоступных при работе с традиционными источниками. Создание и поддержание тематических электронных ресурсов, разработка дополнительных элементов функциональности системы и пользовательского сервиса, ориентированных на профессиональные потребности исследователей и преподавателей – долговременный и трудоемкий процесс. Практика университетских сообществ мира доказывает рациональность поддержания сети информационных ресурсов для коллективного использования в рамках университетского и исследовательского сообщества.
УИС РОССИЯ - один из ресурсов, создаваемых научным сообществом страны. Система целенаправленно формируется с учетом потребностей исследователей и преподавателей по гуманитарным наукам и предоставляет механизм поиска и анализа информации и дополнительные сервисы, ориентированные на профессиональные интересы специалистов. Известно, что более половины времени исследователя уходит на поиск и предварительный просмотр документов, с учетом постоянно растущего объема ресурсов, доступных по Интернет, затраты времени возрастают. В рамках проекта выполняется комплекс работ по предварительной технической и содержательной предобработке документов и данных, переводу в форматы, удобные для анализа, поддержанию в актуальном состоянии комплекса методических документов и классификаторов. Этот комплекс работ обеспечивает дополнительную функциональность системы – академический сервис – и экономит время исследователя на этапе поиска, обработки, организации информации и предварительного анализа.
В УИС РОССИЯ электронные коллекции на входе в систему проходят через следующие процедуры:

  • перевод данных, поступающих их разных источников, в единообразный формат хранения;

  • библиографическая обработка источников (краткая форма);

  • библиографическая обработка документов и статистических таблиц, приписывание библиографического описания источника к каждому документу.

На следующем этапе обработки производится содержательный анализ документов и данных на базе комплекса лингвистических процессоров (технология АЛОТ). В автоматическом режиме производится:



  • систематизация/классификация документов по Тезаурусу и нескольким рубрикаторам;

  • рубрицирование статей научных изданий дополнительно по рубрикаторам ГРНТИ (Государственный рубрикатор научно-технической информации) и JEL (Journal of Economic Literature);

  • аннотирование полнотекстовых документов;

  • терминологический анализ и индексирование по Тезаурусу заголовков статистических таблиц и названий показателей.

Специальный комплекс работ дополнительно выполняется для статистических коллекций. В автоматизированном режиме под контролем оператора осуществляется конвертация табличных данных в формат MS Excel 97. Одновременно проводится проверка правильности оформления таблиц и данных и исправление неточностей. К таблицам сборников Госкомстата России подверстываются соответствующие разделы Методологических пояснений и термины Глоссария, производятся процедуры, поддерживающие визуализацию данных на графиках и картах.


Академический сервис включает в себя работы по поддержанию в актуальном состоянии классификаторов и регулирующих документов. Например, на основании закона о бюджете ежегодно обновляется список ведомств -распорядителей бюджетных средств, уточняется бюджетная классификация расходов.
Комплекс лингвистических исследований и разработанных на их основе программных процедур, технических и научно-вспомогательных работ обеспечивают дополнительные элементы пользовательского сервиса, предоставляемые в рамках УИС РОССИЯ:

  • просмотр аннотаций на документы;

  • гибкие процедуры уточнения запроса;

  • функцию импорта статистических таблиц, в том числе содержащихся в аналитических докладах и научных изданиях, в формате MS Excel 97;

  • доступ по гиперссылкам из текста статистических и аналитических материалов к соответствующим методологическим пояснениям (в полном и сокращенном варианте),

  • аналогичный доступ к терминам Глоссария;

  • представление статистических данных и результатов запроса на графиках и картах-схемах;

  • использование русскоязычного интерфейса при работе с англоязычными ресурсами системы;

  • обновление типовых пользовательских запросов в автоматическом режиме.


В 2003 году основные статистические сборники Госкомстата России, данные Министерства финансов РФ по бюджетной статистике переведены в формат реляционных баз, что обеспечивает дополнительные аналитические возможности - формирование сводных таблиц на основе пользовательского запроса и визуализацию показателей во временном и территориальном разрезе.
Ведутся работы по созданию комплекса он-лайновых сервисов, в том числе визуальный анализ данных, расчет вторичных переменных с использованием встроенных функций, сценариев и открытой пользовательской формы, а также отображение данных на карте-схеме в разрезе субъектов Российской Федерации и федеральных округов.

1.2. Предметно-ориентированные ресурсы


В рамках проекта поддерживаются предметно-ориентированные ресурсы – базы данных «Бюджетная система РФ» (см. Главу 4) и «Статистика России» (см. Главу 5), интегрированные с УИС РОССИЯ.
Коллектив УИС РОССИЯ регулярно проводит анкетирование пользователей, анализирует пожелания по содержательному и функциональному развитию системы. Порядок включения дополнительных коллекций, а также направления разработки и развития предметно-ориентированных ресурсов и пользовательских сервисов определяется Экспертным советом проекта. Решения принимаются с учетом возможностей коллектива.

1.3. Доступ к УИС РОССИЯ

Имеется 3 уровня доступа к ресурсам и сервисам системы.



Полный доступ (Уровень доступа=DEFAULT) - доступ ко всем коллекциям УИС РОССИЯ. Предоставляется всем университетам, вузам, научным институтам РФ после регистрации. Для регистрации Руководитель Организации направляет письмо с просьбой о регистрации Организации как коллективного пользователя УИС РОССИЯ, гарантирует использование ресурсов только для учебных и исследовательских целей и сообщает данные Ответственного представителя от Организации.

Письмо направляется имя Директора Научно-исследовательского вычислительного центра МГУ им. М.В. Ломоносова Тихонравова Александра Владимировича по факсу 095 938 2136.

Ответственному представителю направляется сообщение с просьбой выслать IP-адреса классов коллективного доступа и регистрационная форма для индивидуального доступа преподавателей и научных сотрудников Организации. Ограничений на количество пользователей нет.

Доступ по свободной регистрации через Интернет (Уровень доступа=GUEST) дает возможность пользователю искать и просматривать аннотации по всем коллекциям, но получать полные тексты документов только из коллекций, разрешенных правообладателями для свободного доступа.

Доступ с ограниченными полномочиями (Уровень доступа=FREE) открыт без регистрации. При этом пользователь может производить поиск и просматривать аннотации по коллекциям, разрешенным правообладателями для свободного доступа. Просмотр документов возможен только для ограниченного круга коллекций.

Доступ для студентов (Уровень доступа STUDENT) – открыты все коллекции, некоторые ограничения на объем скачиваемых документов.

Глава 2.  Главная страница сайта УИС РОССИЯ

Интерфейс и функциональные особенности УИС РОССИЯ ориентированы на профессиональные потребности исследователей.



Рис.1. Главная страница


Первый блок (Рис.1-1) – О проекте, содержит общие сведения об УИС РОССИЯ, полный список коллекций, описание сервисов, список информационных партнеров и участников. Специальный раздел – о зеркалировании УИС РОССИЯ (организация, процедура, требования к аппаратной и программной платформе).
Второй блок (Рис.1-2) – Поиск по ресурсам УИС РОССИЯ. Блок разделен на 2 части. В верхней части дана строка для ввода запроса незарегистрированных пользователей (уровень доступа FREE). На этом уровне пользователь может производить поиск и просматривать аннотации по коллекциям, разрешенным правообладателями для свободного доступа. Просмотр документов возможен только для ограниченного круга коллекций.
Ниже (рис.1-3) приведена форма авторизации зарегистрированного пользователя - введение логина и пароля. Регистрация для новых пользователей доступна по ссылке «Зарегистрироваться». По ссылке «Забыли пароль» можно восстановить логин и пароль.
Третий блок – «Ресурсы Университетской информационной системы РОССИЯ».
Доступ к разделам «Интегрированная коллекция», «Бюджетная система России», «Статистика России», «Соционет/Repec», «Выборы в России», «Парламент России», «Ресурсы зарубежных организаций» возможен как по клавишам быстрого перехода (Рис.1-4), так и из каждого из разделов на Главной странице (Рис.1-5-9).
В разделе «Новые ресурсы» (Рис.1-9) даются сведения о новых коллекциях и сервисах, предоставленных за последний месяц.
Внизу страницы – раздел о технологических решениях УИС РОССИЯ.

Глава 3. Поиск документов в УИС РОССИЯ

УИС РОССИЯ интегрирует в единой поисковой среде свыше 60 коллекций, которые поступают в систему в разных форматах. Чтобы обеспечить полноценный поиск как по отдельной коллекции, так и сквозной поиск одновременно по всем коллекциям был разработан специальный интерфейс.


Интерфейс разработан после обсуждений с преподавателями вузов, экспертами исследовательских центров, сотрудников аналитических подразделений органов государственной власти.
На рисунке 3.1 представлен основной экран поисковой системы УИС РОССИЯ, который появляется после входа в систему зарегистрированного пользователя. Интерфейс поиска документа отличается от используемых в других системах, однако функционален и удобен, если освоить несколько простых принципов, положенных в его основу.
Имеются как стандартные и привычные средства поиска, так и специальные инструменты для анализа результатов запроса, которые позволяют оперативно уточнять запрос, чем сокращают время на поиск документов при решении сложных исследовательских задач.





Рис.3.1. Окно поиска для пользователей с полным доступом к системе
(уровень DEFAULT)
В верхней части окна (Рис.3.1.-1) – клавиши быстрого доступа к разделам и коллекциям УИС РОССИИ. Слева (Рис.3.1.-2) - панель, отображающая учетные данные пользователя (имя пользователя, уровень доступа).

3.1. Стандартные возможности поиска

Если Вы не хотите использовать специальные возможности поисковой машины УИС РОССИЯ, то можете действовать традиционным путем. Введите в окно запроса (Рис.3.1. 3) строку на обычном языке (русском или английском), точно также как это делается в распространенных поисковых системах (Яндекс, Рамблер, Апорт и т.п.), и нажмите на кнопку «искать» (Рис.3.1. 4).


При этом поиск будет производиться с учетом русской и английской морфологии.
По умолчанию поиск будет производиться по всем коллекциям, которые открыты пользователю с Вашим уровнем доступа.

3.2. Основной сценарий поиска


УИС РОССИЯ предоставляет пользователю дополнительные возможности для поиска и аналитической работы в полнотекстовых коллекциях.
Основной сценарий поиска достаточно прост:

  • выбрать коллекции, в которых Вы хотите проводить поиск (см. п.3.3);

  • задать условия поиска (по контексту, по тематике, по формальным атрибутам), при этом выбрать нужное значение атрибута Вам помогут специальные визуальные конструкторы запроса (см. п.3.4);

  • осуществить поиск. Система (см. п.3.5) найдет не просто найти наиболее релевантные (наиболее соответствующие) Вашему запросу документы, но обоснует свой выбор, а также проанализирует результаты запроса;

  • при этом специальные элементы интерфейса - информеры – помогут Вам уточнить запрос (см. п.3.6).

3.3. Выбор коллекций


На первом шаге работы с системой пользователь формирует список коллекций для поиска.
Коллекции сгруппированы по типам источников в иерархическое меню (Рис.3.1. 3). Справа от названия типа источника (Издания государственных органов, Средства массовой информации и т.д.) расположены ссылки «список коллекций» (Рис.3.1.–7). По умолчанию, для поиска отмечены все коллекции всех типов.
Для выбора конкретных коллекций следует отменить выделение всех коллекций (нажать на кнопку Все коллекции) и затем отметить только нужный тип:

  • снять «галочку» слева от названия;

  • нажать на кнопку “список коллекций». Пользователь получает перечень всех коллекций данного типа.

  • пользователь может выбрать для поиска все коллекции этого типа или отметить только некоторые.







Рис.3.2. Развернутый список коллекций для пользователя с уровнем доступа DEFAULT. Выбраны (Рис.3.2–2) коллекции газеты «Известия» и «Независимая газета», а также все коллекции типа «Научные издания».
Для поиска может быть выбрано любое число коллекций из всех типов доступных источников.
По ссылке «описание» (Рис.3.2. 3) Вы переходите на страницу, где сообщаются краткие сведения о коллекции (Рис.3.3. 1). Здесь же приведены дата и оглавление последнего номера, который доступен в УИС РОССИЯ (Рис.3.3.-2). На левой панели обычно дан календарь, по которому можно быстро перейти на нужную дату.
Для пользователей с уровнем доступа FREE (незарегистрированный) или GUEST (свободная регистрация) основной экран выглядит несколько по другому (Рис.3.4).

Рис.3.3 Описание коллекции (на примере, газеты «Ведомости»)





Рис.3.4. Окно поиска для пользователей с ограниченными полномочиями


(уровень FREE и GUEST)

Вверху слева (Рис.3.4.-1) - панель, отображающая данные пользователя и уровень доступа. Под полем ввода текста запроса приведена таблица с описанием возможностей доступа для пользователей FREE и GUEST. (Рис.3.4. 2). Поиск и просмотр документов ограничен коллекциями, разрешенными правообладателями для свободного доступа. (Рис.3.4. 3).



3.4. Формирование условий запроса

В УИС РОССИЯ реализовано несколько видов поиска - поиск по контексту и поиск с использованием специальных атрибутов.



3.4.1. Запрос по контексту

Как уже отмечалось в п.3.1 запрос по контексту сделать просто - в окно запроса (Рис.3.6) вручную вводятся слова, которые могут разделяться логическими операторами и скобками (см. п.3.4.3).


Слова могут указываться в любой грамматической форме и задаваться с шаблонами “*” и “?”. Например, по шаблону “развед*” могут быть найдены документы со словами “разведчик” или “разведданные” или «разведывательная деятельность» и т.п.. В слове, содержащем символ шаблона, должно быть, как минимум, две буквы. Иначе это слово игнорируется

Рис.3.5. Результаты запроса при контекстном поиске.



3.4.2. Поиск по точной форме слова

Для слов, заключенных в кавычки, морфологический анализ не производится и находятся документы, содержащие слова только в указанной форме. Если несколько слов заключено в кавычки, то находятся только документы, содержащие каждое из слов в указанной форме. Такого рода поиск может быть эффективен при поиске имен собственных, названий организаций, географических названий. Например, «Банк Российский кредит», газета «Вести».


Кавычки эквивалентны атрибуту "Словоформа" (точная форма слова). Например, запрос

"переписи населения"

эквивалентен запросу

/Словоформа="переписи" /Словоформа="населения".


По такому запросу будут найдены документы, содержащие слова "переписи" и "населения", но не будут учитываться при поиске слова "перепись" и "населением". (Рис. 3.6)

Рис.3.6. Результаты запроса при контекстном поиске по точным слова


3.4.3. Логические операторы

Допустимы следующие логические операторы:




Оператор


Синонимы

Описание

И

И, AND, and, &, +, пробел

Будут найдены документы, содержащие все слова запроса. Если слова разделены пробелом, то подразумевается именно этот оператор.


ИЛИ

Или, OR, or, |

Будут найдены документы, содержащие хотя бы одно из слов, соединенных этим оператором.


НЕ

не, NOT, not, -

Будут исключены документы, содержащие указанные слова.


( )

 

Задают порядок применения операторов.

При помощи логических операторов И, ИЛИ, НЕ и скобок в УИС РОССИЯ можно составлять запросы любой сложности (Рис.3.8.).


Рис.3.8. Пример сложного запроса с использованием операторов.


3.4.4. Поиск по атрибутам

В УИС РОССИЯ документы также можно искать по некоторым атрибутам, которые автоматически определяются для документа на этапе загрузки.


Атрибуты делятся на:

  • общие для всех коллекций (то есть для любых документов имеются атрибуты указанных типов);

  • специальные для отдельных коллекций (подробнее см.п.3.4.8).

Атрибут/атрибуты общие для всех коллекций пользователь выбирает из перечня (Рис.3.9.–1). Выбрав атрибут, пользователь может ввести значение в окно справа и нажать кнопку «добавить». Для некоторых атрибутов значения можно выбрать из списка для этого надо нажать на кнопку «список».





Рис.3.9. Начало формирования запроса по общим атрибутам



Другой классификацией атрибутов является разделение на:



  • тематические (понятия тезауруса, рубрики рубрикаторов) (см.п.3.4.5);

  • и формальные (дата, авторы, номер и т.п.) (см. пп.3.4.6.-3.4.8).

3.4.5. Тематический поиск

В УИС РОССИЯ реализованы следующие виды тематического поиска:


  • поиск с использованием Общественно-политического тезауруса;

  • поиск с использованием нескольких рубрикаторов (фиксированных авторитетных тематических словарей).

Соответствующие поисковые индексы получены автоматически как результат АЛОТ (Автоматизированная лингвистическая обработка текстов) – см. описание по ссылке «Технологические решения УИС РОССИЯ» на Главной странице.


Поиск по Тезаурусу


Информационно-поисковый Общественно-политический тезаурус (далее – Тезаурус) разработан АНО Центр информационных исследований (с 1994 года) специально для УИС РОССИЯ:

  • для автоматического терминологического индексирования потока текстов;

  • для определения тематики текста и автоматического рубрицирования одновременно по нескольким рубрикаторам;

  • для автоматического аннотирования содержания текста;

  • для тематического расширения запроса;

  • для анализа результатов поиска;

  • для поддержки многоязычного поиска.

Тезаурус реализован в виде иерархической сети понятий и терминов со связями между ними и встроен в поисковый механизм системы. В текущей версии Тезаурус включает более 29,000 понятий, 70,000 терминов, 110,000 прямых и 750,000 наследуемых отношений между понятиями.


Тезаурус покрывает 95-99% терминологии любого русскоязычного текста жанра «деловая проза» в общественно-политической области (после 1991 года).
Каждое понятие сопровождается совокупностью подчиненных ему по иерархии понятий и терминов - деревом Тезауруса. Деревья Тезауруса используются для расширения и уточнения запроса. Соответствующая процедура называется расширением по дереву.
При поиске по Тезаурусу без расширения по дереву релевантными считаются документы, содержащие хотя бы один синоним (термин) выбранного для поиска понятия Тезауруса.
При поиске по Тезаурусу с расширением по дереву релевантными считаются документы, содержащие хотя бы один синоним выбранного понятия или (с несколько меньшим весом) хотя бы один синоним понятий из дерева выбранного понятия.
Таким образом, выбор в запрос одного понятия может оказаться равносилен выбору сотен и тысяч слов и словосочетаний, которые уже подобраны для Вас заранее экспертами-лингвистами, участвующими в проекте УИС РОССИЯ.
Необходимо подчеркнуть, что Общественно-политический тезаурус УИС РОССИЯ дает значительное расширение результатов поиска без потери точности. Это достигается благодаря комплексу оригинальных технологий, описанному во многих отечественных и зарубежных научных публикаций.
Тезаурус – большой лингвистический ресурс. Поэтому поиск с использованием Тезауруса состоит из следующей последовательности шагов:

  • поиск нужного понятия;

  • выбор подходящего условия включения понятия в запрос;

  • выбор следующего понятия или исполнение запроса.


Рис.3.10. Поиск подходящего термина для запроса
Для поиска по Тезаурусу пользователь выбирает из списка общих атрибутов опцию «Тезаурус ЦИИ», вводит в крайнем правом окне термин (в данном случае было введено слово «миграция») и нажимает на кнопку «список». Появляется список понятий Тезауруса, где хотя бы один термин содержит введенное слово (Рис.12-1).
Пользователь выбирает наиболее подхолящее понятие, например, «Вынужденная миграция населения» и задает правило учета этого понятия в условиях запроса с помощью клавиш, расположенных слева:

« + » - строго данное понятие,

« +t » - понятие с расширением по дереву,

« - » - исключить термин,

« -t » - исключить термин и нижестоящие понятия.
В ситуации, изображенной на Рисунке 12 пользователь выбрал кнопку «+t». (Рис12 2). В окне запроса появляется новое условие (Рис.13-3):

/Термин_расш=«Вынужденная миграция населения»


Этот прием избавляет от процедуры ввода длинных строк в условия запроса.
Теперь, если пользователь нажимает на клавишу «искать», то система выдает документы, содержащие один из терминов:

  • «вынужденная миграция населения»;

  • «насильственное выселение»;

  • «насильственное переселение»;

  • «вынужденная миграция».

или термины, приписанные подчиненным понятиям «БЕЖЕНЕЦ» («беженка», «беженский»), «ВЫНУЖДЕННЫЕ ПЕРЕСЕЛЕНЦЫ» («вынужденный мигрант») и т.д.
Использование опции «расширение по дереву Тезауруса» при поиске с использованием географических названий позволяет найти все географические названия и административные единицы. При поиске по термину ЮГО-ВОСТОЧНАЯ СИБИРЬ будут выданы также документы, содержащие : БАЙКАЛ, ЗАБАЙКАЛЬЕ, БУРЯТИЯ, ЧИТИНСКАЯ ОБЛАСТЬ, ПРИБАЙКАЛЬЕ и т.д.
Разница в количестве документов, найденных при контекстном поиске и при поиске по Тезаурусу с использованием синонимического ряда и деревьев Тезауруса, может быть существенной (в десятки раз). При этом при тезаурусном поиске в УИС РОССИЯ выше не только полнота, но и точность поиска – релевантность документов запросу1.
Особенно впечатляющих результатов удается добиваться, формируя запрос из нескольких понятий с расширением по дереву. В частности можно эффективно анализировать документы следующей тематики:

/Термин_расш = «ПРЕСТУПНОСТЬ»


and /Термин_расш= «СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ ОКРУГ»

или, например,

/Термин_расш = «МИГРАЦИЯ»
and /Термин_расш= «АМУРСКАЯ ОБЛАСТЬ»

Подобного рода анализ практически невозможен с использованием только средств контекстного поиска.


Рис.3.11. Пример статьи,


найденной по термину «супружество» с расширением по дереву.

На Рис.3.11 приведен пример статьи, найденной по понятию «супружество» с расширением по дереву, встречаются термины «брак», «бракосочетание», «жених» и «невеста», «сваха». При этом сам термин «супружество» не встречается.


Найденные в документе термины подсвечиваются – красным цветом – синонимы понятия, использованного в запросе, фиолетовым цветом – синонимы подчиненных понятий.

Уточнение запроса по Тезаурусу

Запрос может быть также уточнен путем просмотра тезаурусной статьи понятия (Рис.3.12), которая получается при переходе по ссылке, связанной с понятием.


При этом пользователь, «двигаясь» по связям между понятиями, может выбрать более подходящую ему тематику, тем самым уточнить смысл своего запроса.

Рис.3.12. Тезаурусная статья для понятия


ВЫНУЖДЕННАЯ МИГРАЦИЯ НАСЕЛЕНИЯ

Разрешения многозначности терминов с помощью Тезауруса

В русском языке присутствуют многозначные слова (около 10% всех слов), которые означают разные понятия, при запросе по таким терминам точность поиска может снижаться.


Например, слово «разведка» многозначно и означает два понятия - ГЕОЛОГИЧЕСКАЯ РАЗВЕДКА и РАЗВЕДЫВАТЕЛЬНАЯ ДЕЯТЕЛЬНОСТЬ. (Рис.3.13).
При контекстном поиске по слову «разведка», полученные документы будут вперемежку соответствовать то одному значению данного слова, то другому.
Для разрешения многозначности терминов можно использовать Тезаурус, где эти два понятия формируют два поддерева, и при поиске для каждого значения будут найдены различные совокупности текстов1.
В УИС РОССИЯ многозначность снимается на этапе индексирования (предварительной обработки документа) за счет учета описанных в Тезаурусе связей между понятиями.
Кроме того, большинство многозначных терминов «окружено» однозначно понимаемыми словосочетаниями. Пользователь может выбрать именно их, тем самым, получая более точные результаты поиска. Например, «ВНЕШНЯЯ РАЗВЕДКА» (Рис.3.13).

Рис.3.13. Многозначность терминов


Поиск по рубрикаторам


В текущей версии системы для всех коллекций доступны два рубрикатора:

  • Рубрикатор 1 – рубрикатор УИС РОССИЯ – предназначен для обработки и поиска, прежде всего, нормативно-правовой информации. Содержит 180 рубрик, три уровня вложенности. Список рубрик может быть представлен в алфавитном и иерархическом порядке (Рис. 3.14.– 1).

  • Рубрикатор 2 – Рубрикатор LIV - Legislative Indexing Vocabulary - верхний уровень тезауруса Исследовательской службы Библиотеки Конгресса США (80 рубрик). Применяется для анализа материалов СМИ, правовой информации.

Для поиска по рубрикаторам необходимо в списке общих атрибутов выбрать опцию «Рубрикатор 1» или, соответственно, «Рубрикатор 2», затем нажать на кнопку «список» и выбрать рубрику, кликнув на кнопку «+».


Рис.3.14. Выбор рубрики


при иерархическом представлении рубрикатора УИС РОССИЯ

Для каждой рубрики и подрубрики справа в скобках указано количество соответствующих ей документов во всех коллекциях УИС РОССИЯ (Рис.3.14. 2). Нажатие на соответствующую цифру-ссылку будет равносильно запросу на выборку таких документов.



3.4.6. Поиск по датам

Для поиска по определенной дате или интервалу дат в списке атрибутов выбрать опцию Дата, ввести нужную дату в крайнем правом окне строки и нажать кнопку добавить.


Интервал дат указывается через «-».Имеются некоторые шаблоны дат:


Шаблон

Описание

*

Текущая дата (сегодняшний день).

01.03.2003

Все документы за 1 марта 2003 года

05.03.2003-07.04.2003

Все документы с 5 марта по 7 апреля 2003 года включительно

01.03.2003-*

Все документы с 1 марта по сегодняшний день.

03.2003

Все документы за март 2003 года

2003

Все документы за 2003 год

3.4.7. Поиск по словарям

Используется при определении нормализованных слов при контекстном поиске, удобен для слов, имеющих несколько написаний (позволяет учесть также ошибки написания). На Рис.3.15 представлено, как писалась фамилия «Шеварнадзе» в документах УИС РОССИЯ.


Рис.3.15. Выбор лемм из словаря



Рис.3.16. Карточка специальных атрибутов для коллекции газеты «Ведомости»



3.4.8. Поиск по специальным атрибутам для отдельных коллекций

«Кликнув» на название коллекции, пользователь получает карточку со списком атрибутов для поиска по этой коллекции. Реквизиты коллекции включают и поля/атрибуты, специфичные для каждой коллекции.


Значения атрибутов можно ввести или выбрать из списка, кликнув на клавишу «список» справа от названия атрибута.
Заполнив поле/поля специальных атрибутов, пользователь нажимает на кнопку «добавить», и выбранные значения появляются в поисковом окне.

Рис.3.17. Список атрибута «Автор» для газеты «Ведомости»


На Рис.3.17 представлено начало списка авторов для газеты «Ведомости». Справа от фамилии в скобках указано, сколько статей этого автора доступны в коллекции газеты «Ведомости».
Для выбора фамилии автора пользователь нажимает на клавишу «+» слева от фамилии, при этом фамилия автора добавляется в запрос. Для выполнения запроса пользователь нажимает на кнопку «искать» и получает тексты статей.

3.5. Результаты запроса

Выберем для примера коллекцию газеты «Ведомости». В поле ввода текста запроса (Рис.3.18.–1) пишем, например, слово «брак», нажимаем кнопку «искать».


Рис.3.18. Результаты поиска для газеты «Ведомости»

Документы, найденные по запросу, выдаются в виде списка карточек (Рис.3.18. 4).
При нажатии на ссылку в карточке Вы получите полный текст документа в текущем окне. При нажатии на зеленую прямоугольную иконку, расположенную слева от карточки, текст документа раскроется в новом окне. При нажатии на «урезанную» зеленую иконку слева (Рис.3.18 2) Вы получите текст автоматически построенной аннотации документа.
В карточке и в тексте документа подсвечиваются контекстные и тематические элементы, соответствующие введенным условиям запроса.
Для каждого документа указана степень его релевантности запросу (в скобках в процентах). По умолчанию, документы выдаются отсортированными по степени релевантности. Документы можно сортировать и по дате, перейдя на опцию «сортировать по дате».
На этом этапе можно провести уточнение запроса по специальным атрибутам - по дате/интервалу дат, автору/авторам. Опция доступна по клику на клавишу «Атрибуты коллекции» (Рис.3.18.-3).
3.6. Анализ результатов запроса

3.6.1. Тематические информеры

Терминологический анализ документов

При выполнении запроса система одновременно производит терминологический анализ массива выдаваемых документов и определяет основные тематические линии.


Анализ результатов запроса представляется в виде таблицы (информера) со списком понятий Тезауруса, наиболее характерных для документов, полученных в результате исполнения запроса.
Список терминов упорядочивается по убыванию значимости. Степень важности термина обозначается цветом — более значимые термины имеют более теплые цвета.
Результат анализа массива по запросу на слово «брак» в коллекции газеты «Ведомости» представлен в виде таблицы справа от списка карточек документов (Рис. 3.18.–5). По запросу на слово «брак» найдено 126 статей, первая статья о супружестве, вторая – о производственном процессе на заводе и бракованных изделиях.

Рис.3.19. Пример информера для контекстного запроса по слову брак


Используя клавиши в таблице-информере (Рис.3.19), пользователь может уточнить запрос. Нажимая на ссылки-кнопки слева от каждого понятия, можно добавить в запрос новые условия:

«+» – добавить условие, чтобы результаты нового запроса содержали термины строго этого понятия,

«+t» – «с расширением по дереву» - термины выбранного понятия или термины подчиненных по дереву понятий,

«-» – исключить термины выбранного понятия,

«- t» – исключить термины выбранного понятия и все его нижестоящие термины.
Таким образом, одним «кликом мышки» можно уточнять запрос, чрезвычайно быстро формируя даже сложные запросы.

Подробный тематический анализ результатов запроса

По умолчанию выполняется «краткий анализ» результатов запроса (по первым 200 документам). Пользователь с уровнем доступа DEFAULT может получить и подробный тематический анализ запроса, нажав на соответствующую кнопку в таблице-информере краткого анализа.


Рис.3.20. Пример информера подробного тематического анализа запроса

В информере подробного тематического анализа показывается (Рис.3.20) дополнительно количество документов по каждому понятию:


  • выданных по выполненному запросу (+),

  • то, которое будет выдано при поиске с расширением по окрестности (+t),

  • при исключении этого термина из запроса (-),

  • при исключении всех нижестоящих значений (-t).

С помощью кнопок «▲», «▲t,» «▼», «▼t» пользователь может изменить порядок выдачи документов:



  • повысить вес термина «▲»,

  • и всех значений с расширением по дереву «▲t»;

  • или понизить вес термина «▼»;

  • и всех нижестоящих значений «▼t».

3.6.2. Другие информеры

В планах развития УИС РОССИЯ распространить механизм информеров – процедур для оперативного анализа и уточнения запросов – на все атрибуты документов.


Для некоторых коллекций («Соционет», «Стенограммы Государственной Думы ФС РФ») это доступно уже сейчас.
Например, для ресурса СОЦИОНЕТ разработаны специальные аналитические функции:

  • перечень авторов публикаций на заданную тему;

  • перечень серий, в которых опубликованы статьи данного автора и т.п.;

В результате, можно оперативно, последовательно используя информеры разных типов, получать ответы на следующие вопросы:



  • «Кто занимается указанной тематикой»;

  • «Где (в каких организациях) занимаются указанной тематикой»;

  • «Тематика» публикаций данного автора;

  • «Кто соавторы данного автора»;

  • «В каких еще изданиях/сериях публикуется данный автор»

  • и т.д.


Глава 4. База данных «Бюджетная система РФ»


4.1. Разделы базы

БД "Бюджетная система РФ" состоит из нескольких блоков. Основной блок - Бюджетный процесс - содержит документы, сгруппированные в соответствии с уровнями бюджетной системы (федеральный, региональный, местный), этапами бюджетного процесса и годами.


Первый этап бюджетного процесса - составление и внесение проекта бюджета в орган представительной власти. В соответствующем разделе сайта размещены документы, предшествующие или сопутствующие внесению проекта бюджета на рассмотрение органом представительной власти. На федеральном уровне к таким документам относятся Послание Президента РФ Федеральному Собранию, Бюджетное послание Президента РФ, непосредственно проект федерального бюджета, подготовленный к внесению в Государственную Думу ФС РФ и др.
Второй этап - рассмотрение и утверждение бюджета. В данном разделе размещены нормативно-правовые документы, сопровождающие рассмотрение законопроекта о бюджете в органе представительной власти, стенограммы парламентских слушаний, на которых обсуждался законопроект о бюджете, материалы работы согласительных комиссий, аналитические материалы, выпускаемые в процессе рассмотрения бюджета органами исполнительной власти, профильными комитетами представительного органа власти, а также исследовательскими институтами и аналитическими центрами.
Третий этап - исполнение бюджета. К этому разделу относятся документы, принятые в процессе исполнения бюджета – на федеральном уровне отчеты Министерства финансов об исполнении бюджета, мониторинги текущей экономической ситуации, материалы Федерального казначейства по исполнению бюджета, оценки и комментарии экспертного сообщества.
Финансовый контроль - раздел, содержащий материалы работы Счетной палаты, прочих контрольных палат, Федерального казначейства, Центрального банка, аналитические материалы по указанному вопросу, публикуемые независимыми исследователями и аналитическими агентствами.
Внутри каждого раздела документы классифицируются по типам, источнику и общим темам, охватывающим те или иные аспекты реализации бюджетного процесса. Среди представленных материалов выделяются официальные документы (издаваемые органами государственной власти и местного самоуправления), нормативно-правовые документы и др.
Помимо основного блока бюджетный процесс, в системе представлены такие разделы как хроника прохождения законопроектов о федеральном бюджете; программы правительства и политических объединений; аналитические материалы институтов и исследовательских центров; статистика, материалы научных изданий.

В разделе хроника прохождения законопроектов о федеральном бюджете в реферативном виде представлена информация (со ссылками на опубликованные материалы) о стадиях прохождения законопроектов о федеральном бюджете с 1996 года по настоящее время.


Раздел программы правительства и политических объединений содержит концепцию социально-экономического развития РФ на долгосрочную перспективу, актуальную версию и архив программ социально-экономического развития РФ на среднесрочный период, а также программы крупнейших политических партий.
В разделе аналитические материалы институтов и исследовательских центров представлены монографии, статьи, комментарии и прочие виды публикаций, издаваемых такими исследовательскими институтами и центрами как:

  • Институт «Восток-Запад»;

  • Институт экономики переходного периода;

  • Центр развития;

  • Центр фискальной политики;

  • Фонд «Бюро экономического анализа»;

  • Центр «Стратегия»

  • и т.д.

Кроме того, в разделе представлены работы экспертов проекта «Бюджетная система РФ» и материалы, присланные пользователями проекта.
В разделе статистика представлены основные статистические данные, характеризующие состояние государственных финансов за период с 1998 года по настоящее время. Источники статистических данных – сборники Госкомстата России – Российский статистический ежегодник, Финансы России, Краткосрочные экономические показатели РФ, и публикации Экономической экспертной группы.
Кроме того, в разделе приведены прогнозы основных социально-экономических показателей, которые разрабатываются специалистами Центра развития, Экономической экспертной группы, Центра экономического анализа «Интерфакс» и Министерства экономического развития и торговли РФ.
В раздел материалы научных изданий включены:

  • Вестник Банка России (полный архив номеров за 1999-2003 гг.);

  • Аналитический вестник Совета Федерации (полный архив номеров за 1997-2003 гг.);

  • Бюллетени Счетной палаты (архив номеров за 1999-2003 гг.);

  • Обзор экономики России (архив номеров за 1996 – 2002 гг.);

  • Журнал «Федерализм» (архив статей по бюджетной тематике за 1999-2000 гг.); Журнал «Вопросы экономики» (архив статей по бюджетной тематике за 1994-2002 гг.);

  • Журнал «Проблемы прогнозирования» (архив статей по бюджетной тематике за 2000-2003 гг.).


4.2. Навигация и панель инструментов

Рис.4.1
Панель инструментов в левой части окна обеспечивает функции:



  1. переход на Главную страницу сайта,

  2. вызов глоссария,

  3. вызов информационно-справочной системы,

  4. вызов реляционной базы по бюджетной статистике

  5. вызов службы «Вопрос экспертам»,

  6. ссылка на гостевую книгу

  7. вызов форума,

  8. навигацию по иерархическому списку документов. Стрелка вверх - возврат в оглавление вышестоящего уровня, стрелка вправо - переход к следующему документу, стрелка влево - к предыдущему документу.

  9. вызов поиска,

  10. открытие законов о федеральном бюджете за 1994-2003 гг.

  11. открытие таких нормативных актов как Бюджетный кодекс, Налоговый кодекс, Закон о бюджетной классификации.


Глоссарий включает толкование около 180 терминов по бюджетной тематике. При составлении Глоссария использованы Бюджетный и Налоговый Кодексы, Современный финансово-кредитный словарь1, Большой толковый словарь экономических и юридических терминов2 и др.
В разделе Вопрос экспертам пользователь может задать вопрос по тематике сайта.

Эксперты отвечают на вопросы, как правило, в течение 2-4 дней.
В Гостевой книге пользователи оставляют отзывы и предложения по содержанию и функциональности сайта.
Для поиска по сайту пользователь нажимает кнопку Поиск в панели инструментов на начальной странице сайта. Поисковая строка доступна с любой страницы сайта в верхней части страницы.


Пользователь получает стандартную карточку запроса УИС РОССИЯ, где представлены все коллекции «Бюджетной системы РФ».

Рис. 4.2. Экран поиска


Далее поиск осуществляется также как по коллекциям УИС РОССИЯ (см. Главу 3).

По сайту возможен простой поиск и расширенный поиск. При простом поиске пользователь вводит искомое слово / словосочетание в поисковую строку (Рис.4.3.-1) и кликает на ссылку Исполнить запрос (4.3.-2).



Рис.4.3.
Поиск будет производиться по всем коллекциям, включенным в базу данных.
Расширенный поиск с выбором отдельных коллекций и использованием рубрикаторов, Общественно-политического тезауруса и специальных атрибутов доступен по ссылке Расширенный поиск (Рис 4.3.-3).

4.3. Реляционная база по бюджетной статистике

Реляционная база "Бюджетная статистика Российской Федерации" интегрирует данные из законов о бюджете (федеральных и региональных) и отчетов об исполнении федерального бюджета и бюджетов субъектов РФ, публикуемые Министерством финансов РФ.



4.3.1. Ведомственная классификация расходов федерального бюджета"

Раздел создан на основе законов о федеральном бюджете на 1997-2001 годы. Раздел будет обновляться с использованием данных за последующие годы.


Рис. 4.4. Выбор ведомств-главных распорядителей средств государственного бюджета


Процедура построения сводной таблицы включает три этапа: выбор главных распорядителей бюджетных средств, выбор состава показателей и выбор периодов времени, для которых будет построена сводная таблица.
Главные распорядители выбираются из списка и помечаются «галочкой». Серым цветом обозначены те распорядители, которые были упразднены или реорганизованы. Если пользователя интересуют ведомства, которые были упразднены или реорганизованы, он получает справку о правопреемнике/правопреемниках упраздненных ведомств и может посмотреть данные с учетом изменений.
На втором этапе выбирается показатель (один или несколько). Показатели объединены в иерархическое дерево и отражают расходование средств на основные государственные функции (разделы функциональной классификации расходов бюджета)

Рис.4.5. Разделы функциональной классификации расходов


Каждый из разделов функциональной классификации (показатели второго уровня) включает подразделы (показатели третьего уровня), список которых раскрывается при клике на раздел.


Подразделы функциональной классификации включают в себя виды расходов (показатели четвертого уровня), список которых можно увидеть, кликнув на показатель третьего уровня.

Рис. 4.6. Виды расходов по подразделу «Общее образование» раздела «Образование»


Наконец, при клике на показатель четвертого уровня вызывается список целевых статей расходов (показателей самого нижнего, пятого уровня).

Рис.4.7. Целевые статьи ведомственных расходов


на общее образование раздела «Образование»
Некоторые показатели третьего уровня (подразделы) имеют схожие названия, причем одни показатели раскрываются до нижних уровней, а некоторые не оформлены ссылками и не раскрываются до видов расходов и целевых статей расходов. Это объясняется тем, что в период с 1997 по 2001 год названия разделов функциональной классификации несколько менялись, а в 1997 и 1998 годах виды расходов (показатели четвертого уровня) и целевые статьи (показатели пятого уровня) расходов в федеральных законах о федеральном бюджете не публиковались.

На третьем этапе выбирается период времени – год или несколько лет. После того, как выбраны распорядители, показатели и период, нужно нажать на ссылку "Таблица!", и пользователь получит сводную таблицу

Для построения новой таблицы, необходимо повторить всю процедуру сначала.

Пример

Необходимо узнать, сколько средств тратили в период с 1997 по 2001 год на образование Министерство образования, Министерство культуры и Министерство здравоохранения.

Находим в разделе "Распорядители" требуемые министерства и отмечаем их «галочкой».


Далее пользователь заходит в раздел "Показатели" и выбирает "Образование", после чего в разделе "Период времени" выбирает все годы с 1997 по 2001 год.


Наконец, нажимаем на ссылку "Таблица!" и получаем результат.



ГЛАВА 5. БАЗА ДАННЫХ “CТАТИСТИКА РОССИИ”

База данных формируется как предметно-ориентированный ресурс в составе УИС РОССИЯ, включает документы и данные по социально-экономическому развитию Российской Федерации.

В состав ресурса входят следующие коллекции документов:


  • Госкомстат России. Ежегодные статистические сборники;

  • Госкомстата России. Краткосрочные экономические показатели;

  • Госкомстата России. Социально-экономическое положение России;

  • Межгосударственный статистический комитет СНГ;

  • Министерство экономического развития и торговли РФ. Мониторинг;

  • Фонд “Содействие развитию и построению Индекса потребительских настроений”. Мониторинг;

  • РЕЦЭП. Обзор экономики России.

Основной информационный партнер в рамках данного проекта – Государственный комитет по статистике РФ (Госкомстат России).

По условию соглашений с правообладателями, большинство коллекций БД “Статистика России” находится в регламентированном доступе, и для полноценной работы с ресурсом необходимо иметь уровень доступа DEFAULT. Доступ к базе данных “Статистика России” осуществляется с Главной страницы УИС РОССИЯ (www.cir.ru)



Рис. 5.1. Ссылка на базу данных “Статистика России” на Главной странице УИС РОССИЯ


5.1. Средства навигации

Помимо поисковой системы, навигация по статистическим материалам может осуществляться с помощью иерархического оглавления. Переход к иерархическому оглавлению статистических материалов осуществляется следующим образом: либо с Главной страницы УИС РОССИЯ путем нажатия на гиперссылку “Статистика России”, как это было показано выше, либо из других окон поисковой системы путем нажатия на ссылку “Статистика России” в верхней части экрана.



Рис. 5.2. Ссылка на БД “Статистика России” из поискового окна УИС РОССИЯ



Внимание ! В ноябре-декабре 2003 года проводится реструктурация БД “Статистика России”. На этот период доступ к обновляемым коллекциям – по кнопке “Сборники” в правой нижней части экрана (Рис 5.3)

Рис. 5.3. Доступ к оглавлению статистических сборников



Рис. 5.4. Разделы Сводного оглавления

Также с Главной страницы базы данных “Статистика России” доступен переход к разделам Сводного оглавления статистических материалов – “Россия и страны мира”, “Регионы России” и “Отрасли экономики”.

Все указанные оглавления являются иерархическими, нижний их уровень - перечень собственно аналитических таблиц и графических материалов в составе определенного раздела.



Рис. 5.5. Оглавление статистического сборника

Цифрами на рис. 5.5 показаны:

1 - название раздела сборника или сводного оглавления;

2 - подразделы сборника. Оформлены внутренними гиперссылками в документе;

3 - ссылка на методологические пояснения к разделу;

4 - ссылки к таблицам (графикам, диаграммам), входящим в состав данного раздела сборника.

К отдельным разделам сборников доступны методологические пояснения, раскрывающие состав и содержание основных показателей, рассчитываемых в российской статистической практике. Вызов методологии осуществляется с помощью гиперссылки “Методологические пояснения” из оглавления раздела. По мере выхода новых статистических сборников содержание методологических пояснений обновляется.



Рис. 5.6. Методологические пояснения к разделу статистического сборника

В левой части экрана доступна навигационная панель инструментов, содержащая ссылки на главную страницу УИС РОССИЯ (рис. 5.7–1) и БД “Статистика России” (рис. 5.7–2), вызов поисковой системы (рис.5.7–3), а также переход к предыдущей/последующей таблице (разделу) (рис. 5.7–4) и возврат к оглавлению вышестоящего уровня (рис. 5.7–5).

Рис. 5.7. Навигационная панель инструментов

Иерархическое оглавление позволяет перейти к искомым статистическим документам. Статистические таблицы, графики и диаграммы представляют собой самостоятельные HTML-документы. Каждый из них является отдельной поисковой единицей.

Рис. 5.8. Статистическая таблица


5.2. Элементы академического сервиса

Материалы БД “Статистика России” структурированы с выделением самостоятельных смысловых блоков. Имеющиеся сноски к таблицам и графикам выносятся в нижнюю часть экрана и оформляются гиперссылками (рис. 5.9–1). Каждый документ сопровождается ссылкой на первоисточник с указанием названия сборника и полных реквизитов издания (рис. 5.9–2). Указывается название раздела сборника, в котором был опубликован соответствующий документ (рис. 5.9–3), название также оформляется гиперссылкой, ведущей к оглавлению раздела.

Все статистические таблицы конвертируются в формат MS Excel. Получить таблицу в данном формате можно путем нажатия на соответствующую гиперссылку в нижней части экрана. Для скачивания доступны документы как в архивированном (рис. 5.9–4), так и в распакованном виде (рис. 5.9–5).

Рис. 5.9. Элементы академического сервиса в статистических сборниках

Таблицы в формате MS Excel предназначены для загрузки и последующего анализа с помощью различных программных пакетов (Microsoft Excel, Lotus 1-2-3, SPSS, Statistica и других). С их помощью пользователь имеет возможность визуализировать данные путем построения собственных графиков и диаграмм, а также рассчитывать вторичные переменные.

Рис. 5.10. Импорт аналитических таблиц в формате MS Excel

Документы БД “Статистика России” имеют методологическое сопровождение, выполненное в виде нескольких уровней. Первым элементом методологического сопровождения являются ссылки к терминам Глоссария. Присутствующие в статистических таблицах термины оформляются гиперссылками. Глоссарии ежегодно актуализируются.

Рис. 5.11. Гиперссылочный вызов терминов Глоссария

Также имеется возможность вызова кратких методологических комментариев, описывающих состав показателей, рассчитываемых российской статистикой, и методы их исчисления. Источником являются статистические сборники соответствующего года издания.

Рис. 5.12. Краткие методологические пояснения

Помимо кратких методологических пояснений, в базе данных представлен развернутый справочник “Методологические положения по статистике”, опубликованный Госкомстатом России. Ссылка на этот справочник имеется на Главной странице БД “Статистика России”.

Рис. 5.13. Ссылка на справочник “Методологические положения по статистике” на Главной странице БД “Статистика России”

Справочник оформлен в виде электронной книги с гипертекстовым доступом и описывает ключевые стандарты российского статистического учета.

Рис. 5.14. Раздел методологического справочника


5.3. Аналитические материалы



Помимо статистических материалов, в БД “Статистика России” представлены аналитические материалы Госкомстата России (ежемесячный аналитический доклад “Социально-экономическое положение России”), мониторинг Минэкономразвития РФ и ряд других публикаций. Доступ к аналитическим материалам осуществляется либо с помощью поисковой системы, либо по гиперссылке с Главной страницы БД “Статистика России”. (Рис. 5.15)



Рис. 5.15. Ссылка на аналитические материалы на Главной странице БД “Статистика России”

Принципы структуризации публикации и основные элементы академического сервиса в разделе “Аналитические материалы” аналогичны другим разделам ресурса. Документы разделяются на самостоятельные смысловые блоки, таблицы образуют отдельные HTML-файлы. Таким образом, предоставляется возможность поиска отдельно как по текстовым, так и по табличным документам.

Рис. 5.16. Пример оформления аналитического доклада

Все табличные материалы доступны для скачивания в формате Microsoft Excel (рис. 5.17–1). Документы сопровождаются ссылками на первоисточник (рис. 5.17–2), сайт информационного провайдера (рис. 5.17–3), а также на методологические пояснения при их наличии (рис. 5.17–4).

Рис. 5.17. Оформление табличных материалов в аналитическом докладе


5.4. Поисковые возможности БД “Статистика России”



В рамках БД “Статистика России” доступен интегрированный поиск документов с использованием всех поисковых возможностей УИС РОССИЯ: поиск по словарю, реквизитам, рубрикаторам и Общественно-политическому Тезаурусу. Конечной поисковой единицей выступает аналитическая таблица, а также графический иллюстративный материал или отдельный раздел аналитического доклада.



Рис. 5.18-ст. Коллекции БД “Статистика России”

На рис. 5.19 приведен пример запроса к документам базы (выбраны коллекции Госкомстата России) на поиск данных о поступлении налогов в бюджеты различных уровней, за исключением внебюджетных фондов, за ряд последних лет.

Запрос содержит следующие атрибуты:



  1. рубрика “Бюджет” рубрикатора 1. Поиск ведется только среди документов по бюджетной тематике (рис. 5.19–1);

  2. дата. Указывается период времени, за который необходимо получить данную информацию. В данном случае это период с 1 января 1999 г. по 1 января 2002 года. (рис. 5.19–2);

  3. термин Тезауруса “Налог” с расширением по дереву. Таким образом, помимо слова “налог”, в поиске будут автоматически присутствовать документы, содержащие связанные термины “сбор” и др. (рис. 5.19–3);

  4. исключение термина Тезауруса “Внебюджетный фонд” с расширением. Таким образом, из поиска исключаются документы, содержащие упоминание о внебюджетных фондах (рис. 5.19–4).

Рис. 5.19. Пример поискового запроса к БД “Статистика России”

Результатом запроса является список из 399 документов. Как видно из приведенного рисунка, наиболее релевантными данному запросу являются аналитические доклады Госкомстата России, содержащие информацию о поступлении налогов и сборов в федеральный бюджет РФ. Найденные термины выделены красным цветом. В правой части экрана приведена – таблица-информер - краткий тематический анализ результатов запроса, который позволяет уточнять атрибуты поиска (подробнее см. Главу 3).

Рис. 5.20. Результат поискового запроса


5.5. Реляционная база по социально-экономической статистике



С 2003 года ведутся работы по созданию реляционной базы статистических данных на основе официальных публикаций Госкомстата России и других статистико-производящих ведомств. На первом этапе в формат реляционной базы последовательно переводятся ежегодные сборники Госкомстата России. Реляционная база - интегрированный элемент ресурса “Статистика России”, осуществляется по ссылке с главной страницы УИС РОССИЯ (рис. 5.21).



Рис. 5.21. Ссылка на реляционную базу по социально-экономической статистике на Главной странице УИС РОССИЯ

База данных поддерживает поиск значения конкретного показателя (или группы показателей) по состоянию на определенный период времени и с необходимой территориальной привязкой. Конечной поисковой единицей в рамках реляционной базы выступает не предварительно составленная таблица, а значение отдельного показателя. Систематизация данных осуществляется путем применения единого каталога статистических показателей, из которого пользователю предлагается выбрать один или несколько индикаторов для отображения в сводной таблице. Вывод данных может быть осуществлен в различном территориальном разрезе: для России в целом, по федеральным округам или отдельным субъектам Российской Федерации.

Интерфейс базы поддерживает построение сводных аналитических таблиц на основе пользовательского запроса. Пользователь может выбрать несколько показателей, в том числе полученных из различных первоисточников, которые будут сведены в единую таблицу для определенного периода времени и по сопоставимому кругу регионов.

Для выбора нужного раздела базы необходимо выполнить следующую последовательно действий:

1. вызвать список доступных баз данных (рис. 5.22–1);

2. выбрать нужную базу (рис. 5.22–2);

3. нажать кнопку “Изменить” (рис. 5.22–3).



Рис. 5.22. Выбор раздела реляционной базы

После этого в основном окне будет отображен список показателей, представленных в выбранном разделе базы.

Процесс построения сводной таблицы включает три промежуточных этапа: выбор состава отображаемых показателей, объектов территориального деления и периодов времени, для которых будет построена сводная таблица.



Рис. 5.23. Выбор показателей реляционной базы для отображения в итоговой таблице

Выбор показателей, которые будут отображены в итоговой таблице, осуществляется в окне "Показатели" (рис. 5.23–1). Доступные данные систематизированы с помощью единого каталога статистических показателей, имеющего иерархическую структуру. С его помощью необходимо выбрать один или несколько (не более десяти) индикаторов. Выбранные показатели отмечаются “галочкой” (рис. 5.23–2). При нажатии на ссылку "выбрать все" (рис. 5.23–3) будут автоматически отмечены все показатели нижестоящего уровня, относящиеся к данному разделу каталога. При переходе к последующим этапам построения таблицы результаты выбора сохраняются, и состав отобранных показателей будет отображаться в верхней части окна браузера (рис. 5.23–4).

Воспользовавшись ссылкой "Далее" (рис. 5.24–1) из окна "Показатели", или кликнув по ссылке "Территориальное деление" (рис. 5.24–2), переходим ко второму обязательному этапу построения сводной таблицы - выбору объектов территориального деления. Вывод данных может быть осуществлен в различном территориальном разрезе: для России в целом, по федеральным округам или отдельным субъектам Федерации. Классификатор объектов территориального деления также имеет последовательно раскрывающуюся иерархическую структуру. Первый его уровень - это Российская Федерация в целом (рис. 5.24–3). Второй уровень - федеральные округа (рис. 5.24–4). Наконец, третий уровень представляет собой перечень субъектов Федерации (рис. 5.24–5). На данном этапе возможен возврат к выбору показателей (с помощью кнопки "Назад" (рис. 5.24–6) или ссылки "Показатели" (рис. 5.24–7)) и переход к завершающему этапу построения сводной таблицы (кнопка "Далее" или ссылка "Период времени" (рис. 5.24–8)).



Рис. 5.24. Выбор объектов территориального деления

Выбор периода времени, для которого будут отображены все исходные данные в сводной таблице, осуществляется в меню "Период времени" (рис. 5.25–1). В настоящее время показатели, загруженные в базу, представлены в годовом исчислении. Необходимо отметить один год или несколько лет (рис. 5.25–2), за которые будут выведены значения выбранных показателей.

После того, как указаны все необходимые атрибуты выводимых данных - показатели, объекты территориального деления и период времени, - может быть построена сводная таблица. Процедура осуществляется нажатием кнопки "ТАБЛИЦА!" (рис. 5.25–3) в правой верхней части рабочего окна. Если какой-либо из атрибутов был пропущен, выдается сообщение об ошибке.



Рис. 5.25. Выбор периода времени



Сводная таблица статистических данных имеет следующую структуру. По столбцам таблицы приведены названия показателей (рис. 5.26–1), периоды времени (рис. 5.26–2) и единицы измерения (рис. 5.26-3), по строкам перечислены выбранные объекты территориального деления (рис. 5.26–4). В нижней части таблицы приведены ссылки на источник получения данных (рис. 5.26–5). Воспользовавшись данными ссылками, можно вызвать на экран исходные таблицы Госкомстата России, представленные в основном разделе БД “Статистика России”.

Рис. 5.26. Сводная таблица


5.6. Визуализация статистических данных на карте-схеме



Любой показатель сводной таблицы можно отобразить на карте-схеме, воспользовавшись соответствующей ссылкой в заголовке столбцов таблицы. Использование картографической формы представления результатов обеспечивает наглядность при изучении территориального распределения выбранных показателей. Средства картографирования содержат ряд дополнительных функций, позволяющих более углубленно изучать статистические данные в региональном разрезе. При перемещении курсора над объектами территории выдается название соответствующего объекта и точное значение показателя, по которому построена текущая картограмма. Можно осуществлять поиск объектов территории на карте путем выбора их названий из списка (рис. 5.27–1). Для более детального исследования предусмотрена возможность масштабирования картограммы (рис. 5.27–2).

Кроме того, модуль отображения данных на карте позволяет наблюдать динамику выбранного показателя по различным регионам страны в заданном временном интервале. Динамическое представление данных (рис. 5.27–3) реализовано с помощью средств мультипликации и обеспечивает возможность плавной смены картограмм, построенных за ряд лет, в одном окне браузера. Можно также просматривать анимацию в пошаговом режиме. Использование данной функции повышает наглядность представления статистических данных, способствует выявлению пространственных взаимосвязей и тенденций развития разнообразных процессов и явлений, происходящих на исследуемой территории.

Рис. 5.27. Визуализация данных с помощью карты-схемы




1 См., например, Добров Б.В., Лукашевич Н.В., Тезаурус и автоматическое концептуальное индексирование в Университетской информационной системе РОССИЯ // Третья Всероссийская конференция по Электронным Библиотекам «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - Петрозаводск, 2001 – С.78-82.

1 Следует иметь в виду, что разрешение многозначости представляет собой серьезную научную проблему. Использование Тезауруса тоже будет приводить к определенного рода ошибкам, однако их количество будет меньшим, чем при простом контекстном поиске.

1 Современный финансово-кредитный словарь/П.р. М. Г. Лапусты, П.С. Никольского. - М.:ИНФРА-М, 2002, с.80

2 Кураков Л.П., Кураков В.Л. Большой толковый словарь экономических и юридических терминов. - М.: Вуз и школа, 2001 г.