Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
БД Экзамен.docx
Скачиваний:
4
Добавлен:
21.09.2019
Размер:
268.9 Кб
Скачать

1—

1.Основные компоненты системы баз данных

Основными компонентами системы баз данных являются сама БД, СУБД, оборудование, организационно – методическое обеспечение. СУБД включает язык описания данных (ЯОД), язык манипулирования данными (ЯМД) – SQL, резидентный модуль СУБД, постоянно находящийся в оперативной памяти ЭВМ.

База данных – это данные, организованные в виде набора записей определенной структуры и хранящиеся в файлах, где помимо самих данных, содержится описание их структуры.

СУБД – это программно–технологический комплекс, интегрирующий аппаратные средства, БД на технических носителях, программное обеспечение управления БД в самом широком смысле этого термина (операции выборки, линейных преобразований БД и других), а также программируемую логику и набор процедур.

ЯОД позволяет описать БД в терминах, принятых в конкретной СУБД

ЯМД позволяет управлять данными (выбирать, сортировать, создавать и др.).

2.Методы контроля данных

Процесс управления качеством данных можно разделить на следующие этапы: определение качества исходных данных:

– определение правил обеспечения качества этих данных

– разработка процессов очистки данных

– внедрение этих процессов

– контроль данных.

Для этапа исследования можно использовать средства профилирования – они осуществляют быстрый анализ данных во всех исходных системах, выдавая заключение и предлагая инструкции по построению обработки данных. Определение и построение правил обеспечения качества данных крайне важно для стандартизации, сравнения и консолидации данных.

Проверка качества данных становится отдельным этапом работ при загрузке БД. Обеспечение качества данных – нетривиальная задача. Основными методами контроля являются:

  • Самоконтроль;

  • Дублирование операций (или части операций) при вводе информации (двойной ввод);

  • Применение помехоустойчивых кодов, базирующихся на использовании признаков делимости чисел (четность, нечетность) запрещении использования некоторых символов, введение избыточной информации в передаваемые данные;

  • Осуществление программно-логического контроля (совместимость, непротиворечивость, нахождение в некотором заданном интервале значений, дополнение атрибутов до заданного формата поля, контроль существования значения атрибута, сравнение из различных источников).

Для сведения к минимуму потерь от случайных искажений требуется создавать или использовать уже готовые программы:

  • Ведения системного журнала СУБД, подробно фиксирующего каждую операцию над БД (описание транзакции, адреса компьютера, пользователя, время, тип и адрес изменения данных, значение данных до и после выполнения транзакции);

  • Контроля достоверности, использующие соответствующие методы контроля данных;

  • Отката, контрольных точек и повторного исполнения транзакции, вызвавшей искажение БД.

Учитывая характер наиболее массовых ошибок, целесообразно предусматривать две категории алгоритмов качества данных на каждом этапе преобразования информации:

  • Контроль соблюдения форматов записи данных на носитель (синтаксический контроль);

  • Контроль числовых значений параметров и признанных характеристик измерений при вводе данных (семантический контроль);

  • Контроль выходной информации из БД (прагматический контроль)

Синтаксический – это по существу контроль достоверности данных, не затрагивающий содержательного смыслового аспекта информации. Предметом этого контроля являются контроль форматов представления данных, шаблонов и масок ввода данных, наличия атрибутов (их номенклатуры), порядка следования, наличие служебных признаков в структуре сообщения, упорядоченности данных, появления запрещенных символов, комбинаций, полноты поступления первичной информации и сопровождающих ее метаданных.

Семантический контроль оценивает смысловое содержание информации, его логичность, непротиворечивость, диапазон возможных значений параметров (предельные значения, область значений), динамику их изменения, возможных отклонений.

Прагматический контроль определяет потребительскую ценность (полезность) информации для пользователя, своевременность и актуальность данных, их полноту и доступность. Реализуется экспертной и социологической оценкой данных.

Новые технологии создают еще одно препятствие к управлению качеством данных. Появляются огромные объемы данных в реальном времени.

Получив информацию для массовой рассылки, проверьте её на корректность. Типичные признаки «грязных данных» — дублирующиеся записи, неправильная информация, неверно скомпонованные поля и несоответствие почтовым требованиям. Тщательность подготовки данных отнюдь не гарантирует от проблем: иногда объединяются несколько файлов с данными, при этом создаются сотни дублирующихся записей.

При создании БД очень часто используют средства очистки. К сожалению, такой подход, позволяет только удалить ошибочные данные. Средства очистки данных выполняют базовые функции контроля данных:

  • проверка значений атрибутов БД на пределы допустимого диапазона;

  • проверка орфографии;

  • проверка стандартных сокращений;

  • поиск неверных кодов.

По назначению контроль различается на профилактический, рабочий и генезисный. Профилактический – тестовый контроль - проводить как можно чаще, включать во все этапы переработки. Рабочий контроль (диагностический) - проверка работоспособности системы – установление места и причины неисправности. Генезисный проводится для выяснения технического состояния системы в прошлые моменты времени с целью определения причин сбоев и отказов системы, имевших место в прошлом, сбор статистических данных об ошибках, их характере – типах ошибок, величине, последствиях этих ошибок для пользователя.

По способу реализации контроль может быть организационный, программный, аппаратный, и комбинированный.

Организационный контроль представляет собой комплекс мероприятий, предназначенный для выявления ошибок на всех этапах переработки данных с участием человека. Методами организационного контроля являются разработка нормативных документов, обучение, выборочная проверка, контроль комплектности документов, сроков и условий передачи документов, условий и длительности хранения технических носителей данных, кондиционности бланков (носителей) и качества их заполнения, визуальный осмотр. Необходимо обеспечить правильный подбор и обучение персонала, на который будут возложены проведение наблюдения, систематический контроль за ходом наблюдений, широкая разъяснительная работа. Следует предусмотреть соответствующие меры во избежание сознательного искажения фактов, приписок и т.д., что является не только нарушением государственной дисциплины, но и прямым преступлением, наносящим вред интересам дела.

Программный контроль основан на программировании логических методов проверки достоверности данных. Примерами логического контроля являются:

  • наличие связей между отдельными измеряемыми показателями, например, влажность измеренная и вычисленная по значениям сухого и смочено термометра;

  • сравнение с измеренными параметрами на соседнем приборе, станции;

  • экстраполяция значений, статистический прогноз;

  • интерполяция данных между двумя измеренными значениями во времени или пространстве.

Аппаратный контроль – контроль значений параметров на этапе измерений - включается в платы, служащие для преобразования данных из физических значений в натуральные (сопротивление в температуру, электропроводность в соленость воды, и т.п.).

По степени выявления и корректировки ошибок контроль делится на:

  • Обнаруживающий, фиксирующий только сам факт наличия или отсутствия ошибки;

  • Локализующий, позволяющий определить и место ошибки, например, искаженный символ, атрибут, др.;

  • Исправляющий, выполняющий функции обнаружения, локализации и исправления ошибки.

Примерами исправляющих методов являются:

Анализ текста свободного формата для выявления в данных имен и адресов позволяет идентифицировать компонент имени, должности, организации и адреса даже в случае непоследовательно введенных данных. Стандартизация слов, связанных с описанием организации, позволяет программе полностью проверить данные о организации - включая и сокращения - и стандартизировать описание организации в едином согласованном формате.

Стандартизация представления значений некоторых полей. Данные имен и адресов могут вводиться в различных форматах, многие из которых вполне грамматически корректны. Например, "Улица", "Ул." и "Ул" обозначают одно и то же очевидное понятие в составе адреса. Существуют и другие стандарты для этих и других подобных случаев. Программы стандартизации трансформируют такие поля в согласованный набор обозначений.

Проверка допустимости - средства распознавания допустимых международных и национальных адресов, проверяют допустимость адресных данных.

Для выявления и устранения допущенных при регистрации ошибок может применяться счетный и логический контроль собранного материала.

Счетный контроль заключается в проверке точности арифметических расчетов, применявшихся при составлении отчетности или путем сравнения полученных данных с другими источниками по этому же вопросу.

Примером логического сопоставления могут служить листы переписи населения. Так, например, в переписном листе двухлетний мальчик показан женатым, а девятилетний ребенок — грамотным. Ясно, что полученные ответы на вопросы неверны. Подобные записи требуют уточнений сведений и исправления допущенных ошибок. Примером сравнения могут быть сведения о заработной плате работников промышленного предприятия, которые имеются в отчете по труду и в отчете по себестоимости продукции. В торговле примером такого логического контроля может служить сопоставление сведений о фонде оплаты труда, содержащихся как в отчетности по труду, так и в отчете по издержкам обращения.

Оформление результатов контроля данных

Данные наблюдения считаются принятыми, если они прошли контроль и, если потребовалось, в них внесены исправления.

Основными показателями качества контроля данных являются:

  • Экономические – материальные, трудовые и временные затраты на контроль;

  • Технико-эксплуатационные – алгоритмическая сложность контроля, вид и величина получаемой избыточности, точность и надежность контроля, универсальность - возможность использовать на различных этапах технологического процесса переработки данных, при решении различных задач, обработки различных видов данных;

  • Системные – удобство работы, наглядность и форма представления результатов, требования к квалификации и количеству операторов, конфигурация компьютера, необходимое программное обеспечение.

С целью унификации и стандартизации методов контроля данных для международного обмена данными разработаны Руководства по алгоритмам и процедурам контроля данных, представляемых в систему международного обмена данными. В них сделана попытка рассмотреть алгоритмы и процедуры "базового" или общего контроля, которые в максимальной степени беспристрастны и опираются на общеизвестные физические законы и не допускающие множества толкований логических категорий.

Как бы тщательно ни был составлен инструментарий наблюдения, проведен инструктаж исполнителей, материалы измерения всегда нуждаются в контроле. Прежде всего, проверяется полнота охвата наблюдениями. С этой целью производится сверка данных по спискам, пересчитываются заполненные документы. Одновременно на этой стадии проверяется полнота заполнения форм отчетности, анкет и т.д.

Содержанием контроля данных является выполнение комплекса проверок, позволяющих убедиться в общей пригодности данных для решения различных научных и производственных задач.

Проблема контроля данных очень сложная и требует отдельного рассмотрения в зависимости от специфики конкретного вида данных. Контроль данных на технических носителях состоит их трех этапов:

  • контроль сопроводительных документов и форматов записи (тестирование носителя данных, получение контрольных распечаток);

  • проверка соответствия полноты и содержания массивов программе наблюдений;

  • контроль значений физических параметров и характеристик пространственно-временного размещения наблюдений (проверка упорядоченности данных, полноты наблюдений, реальности данных, соблюдения физических законов, проверка на статистические критерии, закономерностей изменения данных в пространстве и во времени).

Подготовка данных к обмену представляет собой передачу сведений о контроле и калибровке измерительных приборов, о массиве данных, об оценке его качества. Выполнение всех этих этапов контроля позволяет повысить качество обмениваемых комплектов данных.