УПРАВЛЕНИЕ ДАННЫМИ

Дисциплина "Управление данными" подразумевает рассмотрение таких аспектов, как:
1. Типы и модели данных. Понятия базы и банка данных. Реляционная модель данных. Отношения и нормализация. Жизненный цикл и принципы построения БД.
2. Типология БД. Документные, фактографические, гипертекстовые и мультимедийные данные и БД. Объектно-распределённые, распределённые и иные БД.
3. Разработка БД с использованием средств СУБД Microsoft Access. Создание БД, таблиц (поля, индексы и ключи), схема данных. Отношения и связи между таблицами. Запросы. Создание отчётов на основе таблиц и запросов.
4. Основные понятия ER-диаграмм. Разработка ER-моделей.


Данные базы данных обычно хранятся в файлах данных, ассоциированных с соответствующим табличным пространством (tablespace), представляющим логические элементы.

Файлы данных – это физические структуры, каждая из которых связана с одним табличным пространством.

Любой файл данных может ассоциироваться только с одним табличным пространством и только с одной базой данных.

При создании файла ему распределяют необходимое количество дисковой памяти, которое первоначального не содержит никаких данных.

Схемы и объекты схемы
Схема
(Schema) представляет собой набор (коллекцию) объектов, например, таблиц.

Объекты схемы – это логические структуры, непосредственно относящиеся к данным базы данных.

Объекты схемы включают такие следующие структуры: таблицы, представления, последовательности, хранимые процедуры, синонимы, индексы, кластеры и связи баз данных.

Не существует взаимосвязи между табличным пространством и схемой. Объекты одной и той же схемы могут находиться в разных табличных пространствах, и одно и то же табличное пространство может содержать объекты из разных схем.

Таблица (Table) – это основная единица хранения данных в базе данных.

В таблицах базы данных хранятся все, доступные пользователям, данные в виде строк и столбцов.

Каждая таблица определяется именем таблицы и набором столбцов.

Каждому столбцу дается имя столбца, тип данных, ширина (размер) или масштаб и могут быть определены дополнительные свойства. После того, как таблица создана, в неё можно включать строки с действительными данными. Такие строки таблицы можно опрашивать, удалять или обновлять. Кроме того, для данной таблицы можно определить ограничения целостности (рассматриваются далее).

Последовательность (Sequence) – это генерируемые уникальные порядковые номера, которые могут использоваться как значения числовых столбцов таблиц базы данных.

Последовательности упрощают прикладное программирование, автоматически генерируя уникальные числовые значения для строк одной или нескольких таблиц. Номера, генерируемые последовательностью, независимы от таблиц, поэтому одну и ту же последовательность можно использовать для нескольких таблиц. К последовательности могут обращаться различные пользователи и получать действительные порядковые номера.

Транзакция (Transaction) (модуль фиксации) – это логический модуль, состоящий из набора изменений (вставок, обновлений и удалений). Транзакции должны сохраняться в базе данных, или должен быть выполнен их откат, поэтому фиксируют все изменения в транзакции, или ни одно из них. Транзакция начинается когда пользователь подключается к базе данных и начинает с ней работать.

Откат на уровне оператора означает, что для конкретного оператора будут сохранены все внесённые им изменения, или ни одно из них не будет выполнено.

Вопросы управления данными в значительной степени связаны с используемыми для этого языками и интерфейсами. К основным двум языкам, используемым в реляционных базах данных, относят Xbase и SQL.

Для персональных компьютеров основным языком баз данных изначально был язык, использованный в семействе продуктов dBase (dBase II, III, dBase III+ и dBase IV**). И после появления SQL в середине 1980-х годов язык dBase, получивший название Xbase, использовался на платформе ПК.

Язык SQL (англ. «Structured Query Language») используется с середины 1970-х годов. Одной из первых коммерческих его реализаций была появившаяся в 1979 году система ORACLE. В начале 1980-х годов появляется первая, основанная на языке SQL, реляционная СУБД.

В SQL используют термины: таблицы, строки и столбцы вместо реляционных терминов: отношение, кортеж (запись) и атрибут.

SQL стал основным многоплатформенным языком для реляционных СУБД, в том числе и для ПК. Специалисты полагают, что использование SQL на платформе ПК будет продолжаться наряду с интерфейсами СУБД, основанными на Xbase.

Концепция создания и использования объектно-ориентированного SQL появилась в процессе сближения реляционных и объектно-ориентированных баз данных и появления стандарта языка ODMG (англ. «Object Database Management Group»).

Управление данными осуществляется с помощью СУБД. Современные СУБД обычно представляют собой распределённые многопользовательские системы, работающие с распределёнными базами данных (РаБД), обеспечивая в различные моменты времени доступ к данным нескольких различных удалённых баз данных. Управление распределёнными информационными ресурсами в базах данных достаточно сложно.

Централизованные архитектуры всё чаще заменяются системами, основан-ными на использовании распределённых вычислительных ресурсов. Управление распределенными информационными ресурсами - одна из сложнейших тем в сфере исследований баз данных и управления информацией.

В самом простом понимании термин «распределенная база данных» может обозначать некоторое приложение, выполняющееся в одной компьютерной системе и осуществляющее в различные моменты времени доступ к данным нескольких различных удалённых баз данных.

Распределенная база данных – это совокупность логически взаимосвязанных баз данных, распределённых в компьютерной сети.

РаБД предлагается рассматривать как конфигурацию, где клиентские приложения, выполняющиеся на компьютерах (ПК или рабочих станциях), обращаются к данным из множества баз данных с помощью стандартизованного программного обеспечения промежуточного слоя (middleware), такого, как ODBC (англ. «Open DataBase Connectivity»). Такие РаБД функционируют на основе интерфейса удаленного вызова процедур и не производят самих операций доступа и манипулирования удаленными данными.

Система управления распределенной базой данных (РаСУБД) – это программная система, обеспечивающая управление распределённой базой данных и прозрачность её для пользователей.

Выделяют различные степени прозрачности: от единой модели базы дан-ных, охватывающей всю предметную область системы со всеми приложениями, которые работают с этой глобальной моделью данных, до распределения, управляемого на основе архитектур клиент-сервер и аппаратного кодирования информации о местоположении данных средствами сервера данных.

Одним из важных способов распределения данных является тиражирование.

Тиражирование (репликация) практически означает создание дубликатов данных.

Множество различных физических копий объекта базы данных (обычно таблицы), для которых в соответствии с определёнными в базе данных правилами, поддерживается синхронизация (идентичность) с некоторой «главной» копией называют репликатами.

Теоретически значения всех данных в тиражированных объектах должны незамедлительно автоматически синхронизироваться друг с другом. На практике это правило обычно несколько ослабляется. В некоторых системах репликаты используются только в режиме чтения, и они обновляются в соответствии с заданным расписанием. Допускается модификация отдельных значений в копиях. Эти изменения распространяются в соответствии с установленными процедурами планирования и координации.