Метаданные документа


Содержание

Метаданные документа

Последний раз про метаданные в офисных документах я писал более года назад в этой заметке «Извлечение скрытых метаданных из документов MS Office«.

Я какое-то время назад очень активно интересовался этой темой, в последнее время появилось много другого любопытного и метаданные документов отошли на второй план, однако в практических целях иногда знание того что и как искать помогает.

Всех нюансов, конечно, не расскажешь, но кое что в дополнение и повторение к ранее написанному у меня есть. Единственно — примеров не будет. Те примеры что у меня сейчас на руках, могут оказаться не самые приятными для тех кто документы готовил. Так что примеры как-нибудь в другой раз.

Если ранее я писал что есть два типа метаданных — метаданные документа и метаданные связанных объектов, то теперь вынужден признать что, на самом деле, метаданных куда больше. Вернее даже не метаданных, а информации идентифицирующей автора и окружение.

Фактически я бы разделил эту идентификационную информацию на 4 типа:

метаданные документа – свойства (properties) документа которые обычно забывают удалить при сохранении и пересылке.

метаданные вложенных объектов — свойства вложенных OLE объектов и изображений.

маркеры — данные в гипертексте документа идентифицирующие его владельца.

скрытые данные — информация в участках документа недоступных для визуального просмотра.

Для каждого из типов идентификационной информации имеются свои ограничения доступности и характера содержимого.

1. Метаданные документа

Это свойства документа которые видны если открыть его «Свойства» в Эксплорере Windows или открыв в соответствующей программе MS Office. Про эти свойства, казалось бы, должны знать все и последние версии MS Office включают возможности удаления этих метаданных. Однако на практике это далеко не так. Часто метаданные забывают почистить и удалить и там можно увидеть «чувствительную информацию» о том кто был на самом деле автором документа,

2. Метаданные вложенных объектов

Об этом я писал в прошлой заметке и повторю сейчас. Вложенные объекты — это так называемые OLE объекты или контейнеры StructuredStorage содержащие другие документы/объекты с которыми умеет работать MS Office. Ещё вернее что объекты с которыми вообще умеет работать MS Windows, но в данном случае чуть упростим.

Если описать это ещё проще, то когда Вы готовите таблицу в Excel, а потом вставляете её в презентацию — это вставка OLE объекта. Точно также если вы делаете диаграмму в Visio и потом вставляете её в презентацию или документ — это вставка OLE объекта, если только вы не преобразовали вначале диаграмму в изображение.

Особенность этих вложенных объектов в том что каждый из них несёт свой собственный набор свойств заданных в той программе в которой данный объект создавался. Если Вы вложили таблицу Excel — значит у документа будут свойства которые указаны в Excel. Если объект Visio, то свойства заданные в Visio.

Коварство этой ситуации в том в что, что если Вы создаёте объект не в родной его программе, а через меню другой офисной программы через «Вставить объект», то у Вас не будет возможности отредактировать свойства документа. А также если Вы работаете над документом вместе с кем-то и этот кто-то вставил объект, то в свойствах этого объекта будут метаданные с компьютера того пользователя и они там останутся.

Вложенные объекты можно извлечь несколькими способами, но большая часть из них весьма техническая и требует знаний того как устроены документы MS Office внутри, поэтому самый практичный способ — сохранить документ в одном из форматов OpenXML и распаковать его любимым ZIP распаковщиком. В результате, OLE объекты будут в папке embeddings. Впрочем я ранее уже это описывал и заметке на которую я сослался вначале этого поста есть подробное описание процесса.

Однако, вложенными объектами могут быть не только OLE объекты. К этой же категории носителей информации можно отнести изображения. В изображениях может сохранятся информация EXIF (в JPEG файлах) и XMP. Подобное встречается гораздо реже, в основном если кто-то необдуманно вставляет в документы необработанные фотографии. Извлечь изображения можно по тому же рецепту — преобразовать в OpenXML, распаковать и заглянуть в папку media.

3. «Маркёры»

Это очень условное название для той информации которая может присутствовать в тексте документа и позволяет узнать более о его авторе. К подобной информации можно отнести:

обсуждения и комментарии в режим правки. Иногда (в последнее время всё реже) авторы документов забывают про режим правки и публикуют документ со всей историей обсужения, заметками и так далее.

ссылки. В некоторых случаях, сознательно или по ошибке в документах остаются ссылки на локальные документы того же пользователя или документы в его локальной сети. Чаще всего эти ссылки указывают на файлы на Desktop или же в папке «Мои документы«. Главное что такие ссылки позволяют узнать — локальное имя пользователя извлекаемой из пути к данному документу.

4. Скрытые данные

Кроме вполне очевидных данных (маркёров) в тексте есть некое количество данных которые скрыты в блоках бинарных файлов о предназначении которых можно знать или догадываться. Например, в Excel файлах есть специальный блок PLS содержащий информацию о принтерах. Он содержит точно название модели принтера и его название и, скорее всего некую дополнительную информацию.

В некоторых случаях в скрытых данных присутствуют адреса файлов и пути которые могут быть интерпретированы так же как данные в ссылках, а то есть позволят извлечь информацию о локальном аккаунте пользователя.

А как собственно получить все эти данные?

Инструменты

Существует довольно большое число инструментов по работе с метаданными, но чего-то универсального не нет. Каждый из инструментов имеет свои плюсы и минусы и многие из них (но не все) описаны в статье Document Metadata Extraction в Forensics Wiki —http://www.forensicswiki.org/wiki/Document_Metadata_Extraction здесь много ссылок на инструменты и библиотеки.

MS Office 2007-2010 для преобразования из бинарных форматов MS Office в OpenXML. В данном случае OpenOffice не подойдёт поскольку он не сохраняет OLE объекты

Strings — утилитка из пакета Sysinternals позволяющая извлечь строковые переменные.

OffVis — это такая специальная утилита от Microsoft позволяющая копатся в глубинах офисных документов. При глубоком анализе документов и выковыриванию PLS блоков из файлов Excel — незаменима. Скачать можно здесь http://download.techworld.com/3214034/microsoft-offvis-11/

Metadata Extraction Tool — бесплатная утилитка по извлечению метаданных из офисных документов, PDF, изображений и так далее. заглядывает неглубоко и находит не всё http://meta-extractor.sourceforge.net/

Catalogue — собирает метаданные из разного типа файлов http://peccatte.karefil.com/software/Catalogue/CatalogueENG.htm

— Metadata Analyzer — извлекает метаданные (только базовые) http://smartpctools.com/metadata/

Document Trace Remover — убирает метаданные http://smartpctools.com/trace_remover/

Oracle Outside In — инструмент для разработчиков, поддерживает около 500 форматов файлов http://www.oracle.com/us/technologies/embedded/025613.htm

Это, конечно, совсем не предел тем вокруг извлечения информации. Есть также метаданные и способы их выковыривания из документов PDF и OpenOffice, электронных писем и так далее.

Кроме того есть масса нераскрытых возможностей связанных с неполным описанием бинарных проприетарных форматов.

Метаданные (стр. 1 из 2)

федеральное агентство по образованию

Реферат

Различие между данными и метаданными

Классификация и структура метаданных

Проблемы стандартизации метаданных

Метаданные (от греч. Meta и лат. Data), буквально переводится как «данные о данных», информация о другом наборе данных.

1. Метаданные — это структурированные, кодированные данные, которые описывают характеристики объектов-носителей информации, способствующие идентификации, обнаружению, оценке и управлению этими объектами.

2. Метаданные (Майкл Брэкет) – любые данные об информационных ресурсах организации».

3. Метаданные (Адриен Танненбаум) – детальное описание сущности данных.

4. Метаданные – это данные о данных, информация об информации, описание контента.

Различие между данными и метаданными

Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:

1. что-то может являться как данными, так и метаданными. Так, заголовок статьи можно одновременно отнести как к метаданным (как элемент метаданных — заголовок), так и к собственно данным (поскольку заголовок является частью самого текста).

2. данные и метаданные могут меняться ролями. На стихотворение, рассматриваемое как данные, может быть написана музыка, в этом случае всё стихотворение может быть «прикреплено» к музыкальному файлу и в этом случае рассматриваться как метаданные. Таким образом, отнесение к одной или другой категории зависит от точки зрения (или пространства имён, системы отсчёта).

Классификация и структура метаданных

Существуют различные классификации метаданных, отличающиеся между собой, главным образом, степенью детализации. Две большие группы:

1. Метаданные описания контента. Контентные метаданные охватывают описание всех аспектов данного информационного объекта, как отдельной сущности. Иногда их дополнительно подразделяют на структурные и описательные.

2. Административные метаданные. Административные метаданные объединяют различные группы и отличаются большим разнообразием. Например, они позволяют владельцу ресурса проводить четкую и гибкую политику в отношении информационного объекта, включая авторизацию, аутентификацию, управление авторскими правами, доступом, а также служат для идентификации и категоризации объектов в рамках специальной коллекции или организации. Метаданные для архивирования могут включать в себя не только метаданные, необходимые для нахождения ресурсов, возможные правила и условия доступа и т.д., но и периоды времени для классифицированной информации, информацию об открытом или закрытом хранении, данные об использовании, историю миграции с одной объединение аппаратной платформы на другую и т.д. Другая группа административных метаданных может использоваться для позиционирования данного информационного ресурса в контексте группы подобных документов, информационно-поисковой системы, предметной области и т.д. Существует группа административных метаданных, которые можно назвать «техническими» . В качестве примера можно назвать схемы хранения данных в базах данных, схемы распределенных баз данных и др. Наконец, метаданные можно использовать для «кодирования» содержательной информации о том, для каких групп пользователей предназначен ресурс, для ориентирования пользователей относительно его философского, мировоззренческого смысла (т.е. метаданные будут содержать сравнительную и оценочную компоненты, призванные помочь пользователю «встроить» данную информацию в структуру его миропонимания).

Метаданные состоят из элементов, объединенных в наборы. Широко известным примером набора элементов метаданных является т.н. Дублинское ядро (Dublin Core, DC). Такие наборы разрабатываются с различными целями (например, для описания различных информационных объектов) различными организациями, которые предпринимают в случае целесообразности усилия по распространению и стандартизации своих разработок. В том случае, если набор элементов метаданных рассматривается и принимается соответствующей уполномоченной организацией (например, International Standart Organisation, ISO), он становится официальным стандартом метаданных.

Необходимо подчеркнуть, что реальные наборы метаданных обычно содержат элементы как контентных, так и административных метаданных. Т.е. необходимо понимать, что вышеприведенное разделение вполне условное, хотя есть несколько специализированных наборов именно для целей администрирования.

метаданные информационный стандартизация интернет

Метаданные – понятие исключительно широкое и емкое. Данный обзор ориентирован прежде всего на пользователей и создателей электронных информационных ресурсов. Применительно к этой области применения, роль метаданных об электронных ресурсах, прежде всего, состоит в:

предоставлении возможностей более быстрого, точного и полного обнаружения необходимых ресурсов;

обеспечении гибких и разнообразных механизмов отбора в соответствии с требованиями пользователя (поисковым запросом);

предоставлении информации о необходимых требованиях к возможностям использования (требуемое прикладное программное обеспечение, свободное дисковое пространство и т.п.);


управлении жизненным циклом информационных ресурсов (создания, использования и храненения цифровых документов).

Метаданные способны ускорить процесс международного доступа к информации, т.к. могут быть представлены на языках, отличных от языка объекта.

Возможности использования метаданных исключительно широки и еще до конца не осознанны. Например, метаданные можно использовать для объединения и оценки электронных объектов в рамках обучающих ситуаций. Можно предположить, что роль метаданных для учебных материалов, а также метаданных для документов, которые, по мнению пользователя, могут быть интегрированы в образовательный процесс, будет постоянно возрастать. Рабочая группа по разработке образовательных элементов набора метаданных занимается определением дополнительных элементов и квалификаторов в конкретных областях.

Проблемы стандартизации метаданных

Электронные информационные ресурсы интернета в целом и различных информационных систем в частности различаются исключительным разнообразием. Поэтому единственное средство описания метаданных не может удовлетворить все потребности и решить все возникающие задачи. Кроме этого, даже если такой универсальный стандарт и был бы разработан и утвержден, нет возможности добиться его неуклонного выполнения всеми создателями информационных ресурсов. Затем, возникает сложный многофакторный выбор, т.к. подобный стандарт неизбежно будет исключительно сложным и громоздким, что влечет большие затраты на его имплементацию, поддержку, сопровождение, обучение персонала и т.п. Другой аспект связан с тем, что значительная часть ресурсов в сети создается непрофессионалами, которые и не могут, и не хотят вникать в сложные правила генерации метаданных различных типов. Исходя из сказанного, можно предложить ряд принципов, определяющих политику в области метаданных в перспективных информационных системах (ИС) в публичном интернете (например, электронных библиотеках):

поддерживать несколько наборов метаданных, заведомо покрывающих все перспективные потребности ИС;

обеспечить отображение всех наборов в один, принятый за стандарт обмена;

хранить все метаданные в центральном каталоге метаданных;

если создателю коллекции или ИС необходим оригинальный набор элементов метаданных, то на нем лежит ответственность за разработку методов его отображения в один из распространенных стандартов.

Метаданные на уровне коллекций и ИС оправданно создавать с участием профессионалов в данной предметной области, а на уровне объектов (документов) метаданные желательно генерировать автоматически, для чего требуется разработка или использование соответствующего программного обеспечения.

При этом в каталоге метаданных могут храниться записи:

на уровне коллекции (содержание, предназначение, протоколы, форматы, наборы, условия доступа) – созданные специалистами в наборе элементов, принятом за стандарт обмена (например, Дублинское ядро);

на уровне объекта (документа, item) – в одном из поддерживаемых данной ИС стандартов метаданных;

нормализованные записи на уровне объектов – отражение оригинального набора элементов метаданных в некоторый формат обмена.

Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.

Формат метаданных — представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. П.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).

Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.

Форматы метаданных часто разрабатываются международными организациями, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов.

HackWare.ru

Этичный хакинг и тестирование на проникновение, информационная безопасность

Как посмотреть метаданные файлов MS Word. Как удалить и редактировать метаданные Word

Метаданные в файлах Word

В файле MS Word и вообще во всех офисных документах MS Office содержится множество метаданных.

Если нужно извлечь метаданные из файлов MS Word без открытия файла в редакторе Word, то можно воспользоваться специальными утилитами.

При этом популярный инструмент mat, который используется для показа и очистки метаданных, работает с файлами MS Word не очень хорошо:

На самом деле, мало что понятно и показанная информация кажется скорее мусором. Но полезные данные имеются, это строки:

В них говориться, что файлы docProps/core.xml и docProps/app.xml содержат потенциально пагубное содержимое. Но самих данных с помощью этой программы мы увидеть не можем.

Если попытаться проанализировать файл .docm (документ MS Word с поддержкой макросов):

То программа просто напишет, что не может обработать этот файл:

Это при том, что формат .docm имеет минимальное отличие от формата .docx — пара дополнительных файлов внутри (с описанием макросов и второй файл с самими макросами).

Имеется ещё одна версия mat2. Попробуем её:

Здесь всё намного лучше, выведены почти все метаданные файла.

Попробуем проанализировать формат .docm:

Как посмотреть метаданные файла .docm

Программа mat2 не в курсе, что .docm это такой же файл, как и .docx. Зато мы это знаем и можем пойти совсем простым путём — просто изменим (или добавим) расширение файла на .docx:

Теперь метаданные отлично извлекутся:

Как сделать выводимую в mat2 информацию более читаемой

Можно заметить, что вывод команды mat2 преимущественно состоит из строк, не несущих особой смысловой нагрузки:

Выводимая информация станет намного более ясной для восприятия, если мы просто уберём показ этих строк:

Что показывает mat2

Программа mat2 выводит название узлов XML файлов, которые имеют говорящие имена. А именно:

  • AppVersion — версия приложения
  • Application — приложение
  • Characters — всего символов
  • CharactersWithSpaces — всего символов с пробелами
  • DocSecurity — безопасность документа
  • HyperlinksChanged — ссылки изменены
  • Lines — всего строк в документе
  • LinksUpToDate — ссылки обновлены
  • Pages — всего страниц в документе
  • Paragraphs — всего параграфов в документе
  • ScaleCrop — масштабирование/обрезка
  • SharedDoc — совместный документ
  • Template — используемый шаблон
  • TitlesOfParts — имена частей
  • TotalTime — общее время правки
  • Words — всего слов в документе
  • cp:lastModifiedBy — кем последний раз изменён документ
  • cp:lastPrinted — дата последней печати документа
  • cp:revision — всего редакций документа (количество правок и сохранений)
  • dc:creator — кем документ создан
Илон Маск рекомендует:  Что такое код mcrypt_encrypt

Как посмотреть метаданные документов MS Office без дополнительных программ

На самом деле, новый формат документов, например, файлов Word .docx представляет собой zip архив, в котором собраны преимущественно xml файлы (также там могут быть изображения, макросы, другие бинарные файлы).

Для ручного анализа я создал новый файл file3.docx и добавил туда картинку с GPS координатами и другими метаданными. Программы mat и mat2 показали присутствие изображения, но сами метаданные из него не вывели.

Итак, к файлу file3.docx можно добавить расширение .zip и после этого распаковать его содержимое как архив.

Медиафайлы при распаковке находятся в папке /word/media/.

Программа mat2 не смогла найти в изображении метаданных:

Программа mat также ничего не нашла:

Видимо, при вставке изображений в документы Word, они пересохраняются программой и при этом все метаданные теряются. Но их хотя бы можно просто открыть и посмотреть:

Метаданные документа содержаться в файлах docProps/core.xml и docProps/app.xml. Я открыл их в IDE NetBeans и для удобства чтения выбрал опцию форматирования документа, поскольку в начальном виде весь документ записан в одну строку, трудную для восприятия.

Файл docProps/core.xml:

Файл docProps/app.xml:

В файле core.xml имеются даты создания и изменения, которые не выводит даже программа mat2. Возможно, есть ещё какие-то поля, которые невозможно увидеть кроме как открыв эти файлы.

В каком файле Word содержаться макросы

Информация о макросах записана в файл /word/vbaData.xml, а сами макросы сохранены в /word/vbaProject.bin — этот файл является бинарным.

В каком файле Word записан текст документа

Текст документа сохраняется в файл /word/document.xml. В этом документе используется особая разметка на основе открывающихся и закрывающихся тегов и их свойствах.

Как очистить метаданные файла MS Word

Очистить метаданные документов MS Office, в том числе Word, можно прямо в самой программе для редактирования. Далее показано на примере Word.

В меню нажмите Файл:

Далее во вкладке Сведения найдите кнопку Поиск проблем и в выпадающем меню выберите Инспектор документов:

Если документ не сохранён, то перед анализом будет предложено сохранить его.

Нажмите кнопку Проверить:

Обратите внимание на пункт Свойства документа и персональные данные — при желании, нажмите кнопку Удалить всё:


Удаление метаданных офисных файлов в Linux

Программа mat вроде бы как успешно удаляет метаданные из файла:

Об этом говорит вывод:

Но полученный файл невозможно открыть ни в одной программе…

Программа mat2 успешно справилась с задачей и удалила все метаданные:

Обратите внимание, что она не очищает файл, а создаёт новый без метаданных, в данном случае имя файла без метаданных будет file3.cleaned.docx, что касается файла file3.docx, то он останется без изменений.

Итак, если вам действительно нужно удалить метаданные файла .docx не открывая его в редакторе Word, то алгоритм действий следующий:

  1. Добавьте к файлу расширение .zip.
  2. Распакуйте полученный архив.
  3. Откройте файлы docProps/core.xml и docProps/app.xml и замените данные на нужные вам. После редактирования сохраните эти файлы
  4. Выберите все распакованные каталоги и файлы и запакуйте всё это в zip архив.
  5. К полученному архиву добавьте расширение .docx
  6. Нужно проверить, что документ не повреждён и сохранил свою работоспособность. Чтобы в него не сохранились новые метаданные, на всякий случай сделайте копию нового документа и проверьте его.

Кстати, таким образом можно не только удалять, но и спуфить (подменять) метаданные офисных документов:

Обратите внимание на даты создания, изменения, печати и номер редакции:

Много лет назад аналогичный «разбор» и «сборку» файлов я делал даже на PHP (я редактировал содержимое файлов Word для целей обхода Антиплагиата) — рабочие файлы Word получались при упаковке их с помощью класса ZipArchive при использовании метода сжатия по умолчанию.

Заключение

Метаданные могут содержать важную информацию, вплоть до ФИО автора документа, поэтому им нужно уделять особое внимание.

В плане показа и очистки метаданных из документов MS Office такими инструментами как mat и mat2, то первая их не показывает и портит файл при очистке, вторая их показывает, и успешно очищает файл.

Самый простой способ очистить метаданные в документе Word и в других офисных программах — сделать это прямо в соответствущем редакторе MS Office.

В следующей статье мы будем разбираться с метаданными файла LibreOffice.

Метаданные в HTML

Тег обеспечивает метаданные о HTML документе. Метаданные не отображаются на странице, но интерпретируются браузерами и поисковыми системами.

Мета элементы, как правило, используются, чтобы указать описание страницы, ключевые слова, автора документа и другие метаданные. Разрешается и, как правило, необходимо использовать несколько метатегов. Тег всегда размещается внутри тега .

Указание кодировки документа

Тег позволяет сообщить браузеру посетителя, какой набор символов и какую кодировку необходимо установить на веб-странице. Атрибут charset (HTML тега ) задает кодировку символов для HTML документа.

В данном примере мы задали кодировку документа UTF-8 с использованием элемента и атрибута charset . Кодировка UTF-8 одна из общепринятых и стандартизированных кодировок текста, которая позволяет хранить символы Юникода.

Стандарт HTML 5 не запрашивает конкретную кодировку, но дает рекомендацию использовать кодировку UTF-8. Не рекомендуется использовать кодировки ASCII, CESU-8, UTF-7, BOCU-1, SCSU и UTF-32 по различным причинам.

Считается хорошей практикой, и настоятельно рекомендуется определять набор символов (кодировку), используя атрибут charset . Атрибут charset является лишь частью алгоритма определения кодировки страницы браузером. Рекомендуется указывать кодировку символов первым элементом (если используется несколько). Обратите внимание, что для одного документа указывается только одна кодировка.

В теории, любая кодировка может быть использована, но ни один браузер не понимает их все. Используя более распространенную кодировку символов, увеличивает шанс того, что браузер будет её понимать. Полный перечень кодировок доступен на сайте iana.org.

Часто используемые мета-теги

Метаданные разделены на две основные группы:

  • первая группа — значения атрибута name.
  • вторая группа — значения атрибута http-equiv.

Атрибут name отвечает за текстовую информацию о странице, её авторе, содержит рекомендации для поисковых систем, а атрибут http-equiv формирует гипертекстовый заголовок страницы и определяет его обработку.

Совместно с элементом используется еще один атрибут — content, его основная задача заключается в том, чтобы задать значения, связанное с атрибутами name и http-equiv, в зависимости от контекста. Если один из этих атрибутов указан, то атрибут content должен обязательно присутствовать, чтобы задать значение. Если атрибут http-equiv используется, то атрибут name не должен устанавливаться в мета-теге.

Рассмотрим часто используемые варианты использования тега :

Описание в данном теге довольно важное, его учитывают поисковые машины при индексации. Атрибут content в данном примере содержит описание конкретной веб-страницы сайта. Не рекомендуется использовать длинные описания.

Представляет собой список ключевых слов (касающиеся конкретной страницы). Ходит много споров о том учитывается или нет поисковыми системами это значение, исходя из перечня, используемых метатегов в Google, то он не учитывает этот мета тег, а Яндекс, в некоторых случаях оставляет за собой право его использовать.

Определяет автора контента:

Давайте рассмотрим пример использования этих мета тегов:

В данном примере мы использовали три элемента :

  • первый мета элемент описывает содержимое документа (значением атрибута name мы указали, что это описание страницы ( description ), а текстовое содержимое указали в атрибуте content. Это описание могут использовать поисковые машины для отображения результатов поиска.
  • второй мета элемент описывает ключевые слова в документе (значением атрибута name мы указали, что это ключевые слова ( keywords ), а текстовое содержимое указали в атрибуте content. Ключевые слова могут использоваться некотрыми поисковыми машинами.
  • третий мета элемент описывает имя автора документа (значением атрибута name мы указали, что это автор документа ( author ), а имя автора указали в атрибуте content.

Атрибут http-equiv

Атрибут http-equiv фактически эквивалентен гипертекстовому заголовку (имитация http-заголовка), формируют заголовок страницы и определяют его обработку. Как правило, они управляют действиями браузеров и используются для формирования информации, выдаваемой обычными http-заголовками. Название заголовка указывается в атрибуте http-equiv, а значение указывается в атрибуте content. В некоторых случаях могут автоматически быть переведены в настоящие HTTP-заголовки.

Давайте рассмотрим пример его использования:

В данном примере мы использовали три элемента для которых были указаны различные значения атрибута http-equiv:

  • первый мета элемент, указывает, что страница будет перезагружена (значение refresh ) через 15 секунд и перейдет по указанному URL (значения, указанные в атрибуте content). Если адрес URL не указан, то страница просто будет перезагружена.
  • второй мета элемент разрешает загрузку ресурсов (изображения, шрифты, скрипты и так далее) только с использованием https. Это стало доступным благодаря использованию значения content-security-policy , которое позволяет с использованием атрибута content определить правила (политику) для обслуживаемых ресурсов.

Индексация страниц

Используется поисковыми системами при индексации страниц:

Значение атрибута Определение
noindex запрещает индексирование документа.
nofollow запрещает проход по ссылкам в документе.
index разрешает индексирование документа.
follow разрешает проход по ссылкам в документе.

Настройка области просмотра

Обращаю Ваше внимание на то, что область просмотра определяет, как веб-страница отображается на мобильном устройстве, если она не задана, то ширина страницы считается равной стандартному значению, и она уменьшается на мобильном устройстве, чтобы поместиться на его экране.

Для того, чтобы мобильные браузеры автоматически не изменяли размер страниц сайта, необходимо в теге разместить метатег, который сообщает браузеру, как обрабатывать размеры страницы и изменять ее масштаб:

  • Атрибут name задает имя документа метаданным, значение «viewport» дает подсказку браузеру о размере начального размера области просмотра. Функция атрибута content задать значения для этого атрибута.
  • Значение w > атрибута content сообщает, что ширина страницы устанавливается в соответствии с размером экрана устройства в аппаратно-независимых пикселях (device-independent pixel, dip), что позволяет странице пересчитывать положение элементов для корректного отображения на различных экранах. По аналогии допускается указать значения для высоты height=device-height .
  • Значение initial-scale=1 атрибута content сообщает браузеру, что необходимо установить соответствие 1:1 для пикселей CSS и аппаратно-независимых пикселей вне зависимости от ориентации устройства (альбомной или портретной).

Если все страницы Вашего сайта адаптированы для просмотра на мобильных устройствах, то размещение вышеуказанного мета тега является обязательным.

Значение атрибута Определение
width Определяет ширину в пикселях области просмотра (значение — положительное целое число или device-width ).
height Определяет высоту в пикселях области просмотра (значение — положительное целое число или device-height ).
initial-scale Определяет соотношение между шириной устройства ( device-width в портретном режиме или device-height в ландшафтном режиме) и размером области просмотра. Чем больше число, тем выше масштаб. Значение — положительное целое число от 0.0 до 10.0.
minimum-scale Определяет минимальное значение zoom (оно должно быть меньше или равно maximum-scale ). Значение — положительное целое число от 0.0 до 10.0.
maximum-scale Определяет максимальное значение zoom (оно должно быть больше или равно minimum-scale ). Значение — положительное целое число от 0.0 до 10.0.
user-scalable Логическое значение, которое определяет, может ли пользователь увеличить масштаб веб-страницы. Значение по умолчанию yes (пользователь может увеличивать масштаб).

Управление режимами Internet Explorer

Заключительный мета-тег, который должен присутствовать на Ваших страницах, позволяет в зависимости от указанного значения content сообщить браузеру Internet Explorer как отображать документ (в каком режиме) в зависимости от версии, которая используется в данный момент:

Атрибут content задает режим для страницы, например, чтобы имитировать работу Internet Explorer 7, укажите IE=EmulateIE7 . Укажите IE=5 , IE=7 или IE=8 , чтобы выбрать один из этих режимов совместимости. Также можно задать IE=edge , чтобы использовать в Internet Explorer 8 наивысший доступный режим. Значение IE=edge сообщает браузеру пользователя, что необходимо использовать последний доступный режим отображения документа, используйте это значение на своих страницах.

Грамотное размещение метаданных на каждой странице Вашего сайта, сделает его привлекательным для поисковых машин и упростит процесс индексации.

Вопросы и задачи по теме

Перед тем как перейти к изучению СSS 3 ответьте на следующий вопрос:

  • Какие четыре мета тега необходимо обязательно использовать, если страница Вашего сайта информационная и адаптирована под мобильные приложения?

1. Настоятельно рекомендуется определять набор символов (кодировку) в документе:

2. Описание в следующем мета-теге довольно важное, его учитывают поисковые машины при индексации и используют в поисковой выдаче:


3. Для того, чтобы мобильные браузеры автоматически не изменяли размер страниц сайта, необходимо использовать следующий мета-тег:

4. Для корректного (однотипного) отображения страниц в браузерах Internet Explorer необходимо использовать следующий мета-тег:

Содержание, метаданные и контекст открытых данных

Результат публикации данных в свободном и бесплатном доступе напрямую зависит от их состава и качества. Чем более полными и корректными окажутся публичные данные, тем выше будет эффективность их использования и тем больше пользователей предпочтет поработать с ними.

В отношении любых передаваемых данных, особенно публичных, необходимо всегда оценивать три их ключевых аспекта: состав (содержание), описание (метаданные) и окружение (контекст).

Настоящая публикация продолжает тему открытых, разделяемых и делегируемых данных и относится ко всем этим трем указанным категориям.

Организация данных

Первый важный аспект публичных данных связан с их содержимым и с их внутренней организацией.

Смысл

Всякие хорошие данные обладают некоторым полезным смыслом. Бессмысленная информацию в любом виде непригодна для последующей обработки и анализа в любом виде деятельности с помощью любых инструментов.

Цифровые данные, о которых идет речь в данной публикации, являясь первичными или даже вторичными, в той или иной мере отображают результат определенного сбора информации. Осуществляемый сбор информации позволяет записывать некоторые качественные и количественные значения свойств объектов, процессов, явлений, событий и т.п. Структурно-организованные регистрируемые сведения сохраняются как цифровые данные на соответствующих носителях. Очевидно, что таким образом полученные данные прямо (первичные) или косвенно (вторичные) определяют некий предметный смысл.

Учитывая тот факт, что на данные прямое и неотделимое влияние оказывает человеческий фактор, всегда можно говорить о том, что они описывают не объективную реальность, а некоторое понимание человеком той объективной реальности, о которой он целевым образом собирает сведения. Иными словами, данные всегда содержат некую долю субъективности в своем содержимом или в структуре и описывают воспринимаемую модель из заданной предметной области.

Именно тот факт, что данные в той или иной степени описывают некоторый смысл целевой модели, возможен последующий их анализ и выявление важных атрибутов такой модели.

Смысл, который содержат данные определяет необходимость и важность их публикации. Например, особый социальный и экономический смысл имеют государственные статистические данные – отсюда, очевидная задача их издания как в виде цифровых датасетов, так и в виде специальных переработанных сборников. Если данные не несут какой-то важный смысл для пользователей или вообще представляют собой бессмысленную регистрацию потока явлений и событий, то они не будут востребованы. Это утверждение наводит на определенную мысль о том, что публиковать стоит цифровые наборы с хорошо формализованным смыслом.

На то, какой смысл имеют данные влияет их уровень передела.

Наиболее ценными с этой точки зрения и обладающие неискаженным смыслом являются собранные первичные данные. Чем больше обработок было произведено с данными, тем больше смысл искажается и видоизменяется. Отсюда необходимость явно указывать количество и качество переделов данных.

Смысл содержащийся в данных накладывает свой отпечаток на их структуру.

Структура

В данных всегда можно выделить некие неделимые минимальные целостные единицы.
Причем такие неделимые целостные единицы всегда обладают смыслом большим, чем прямым. Например, символ (в простейшем виде) не несет никакое дополнительное значение, кроме того, что он представляет собой некую букву алфавита, цифру или специальное обозначение в тексте. С другой стороны, слово, кроме того, что представляет некий набор тех же символов, имеет смысловое понятийное значение и определяет некий объект (существительное), атрибут (прилагательное), действие (глагол) и т.д. Поэтому деление слова на символы – деление минимальной целостной единицы – приводит к потере его понятийного значения.

Выбор минимальной целостной и неделимой единицы является субъективным понятием в рамках заданной тематики и целей пользователя.

Например, для каких-то целей, может быть установлено, что неделимой единицей признается не отдельное слово, а целое предложение. В то же время даже некоторые форматы могут задавать особенности построения минимальных единиц данных. Например, в рамках электронных таблиц достаточно просто и удобно принимать за минимальную единицу данных содержимое отдельной ячейки. Однако во многом, выбор целостной единицы данных обусловлен совокупностью критериев предметной области данных и способом их записи.

После того, как задано понятие минимальной неделимой единицы данных, возникает и понятие структуры всей совокупности целевых данных. Так для электронной таблицы, единицы данных формируют наборы данных в виде строк или столбцов, а в последующем группируются в таблицы (листы) и наборы таблиц (книги).

Удобно выделять два уровня группировки целостных единиц данных:

  • первичный – группировка (объединение, упорядочивание) непосредственно элементарных неделимых целостных единиц данных;
  • вторичный – группировка (объединение, упорядочивание) первично и вторично сгруппированных единиц данных.

Задаваемая структура данных опирается на некоторое дополнительное определение их характеристик, поэтому прямо или косвенно обуславливает присутствие метаданных.

Структуру данных необходимо иметь для возможности производить какую-либо осмысленную их обработку.

Операции с данными производятся непосредственно с неделимыми целостными единицами или с их группами. Причем даже есть возможность обрабатывать неделимые целостные единицы тем или иным образом создавая из них новые. Например, это позволяет делать функционал электронных таблицы: обрабатывать содержимое отдельной ячейки и разделять её на некие составные элементы, но при этом основной акцент в подобном приложении всё-таки сделан на обработке ячеек как на простейших обрабатываемых элементарных единицах.

Илон Маск рекомендует:  Шаблон сайта фотогалереи HTML, CSS, Шрифты, Photoshop (psd), 2 страницы

Второй ключевой особенностью выделения в цифровых данных отдельных целостных единиц и последующей их группировки – это возможность идентификации.

Назначение уникального абсолютного или относительного имени как для неделимой части данных, так и для упорядоченного набора данных значительно расширяет функционал обработки. Адресация, реферирование, рекурсия, классификация и множество дополнительных простых или сложнейших операций применимы к именованным или идентифицированным элементам данных с последующим возвратам к первоисточнику (история ссылок).

Ещё одна полезная и важная особенность структуры данных, как производная от идентификации заключается в связывании отдельных элементов данных по тем или иным критериям или задачам. Связывание фактически приводит к появлению такого функционала как вторичное структурирование, нелинейное упорядочивание, гиперссылки, альтернативные пути обхода и т.п. Если сопроводить связь некоторыми дополнительными атрибутами, то можно выделить даже особый класс объектов-описателей и выстроить сложные зависимые структуры доселе невообразимых форм и сочетаний. Именно за счет связывания появляется некая динамика в данных.

Структурирование данных привносит значительный вклад в возможности их не только цифровой обработки, но и смысловой аналитики.

Моделирование правильных и эффективных структур цифровых данных достаточно сложная и ответственная компетенция которая может давать хороший результат только при совмещении знаний информационных технологий и предметной области. Удачно заданная структура позволяет удобно и результативно работать с данными как человеку, так и машине. Иными словами, правильный выбор структуры позволяет быстро распознавать упорядоченные данные непосредственно человеком или созданными алгоритмами.

Структура данных, как уже упоминалось, может зависеть от формата записи и хранения данных, но это ещё не сам формат. А значит она может трансформироваться. И значит в рамках одного и того же формата могут задаваться разные структуры. В подавляющих случаях на практике, для значительного упрощения и для большей эффективности, структура тесно взаимосвязана с форматом.

Формат

В контексте данной публикации «формат» – это способ сохранения данных в физической обособленной единице (файл, запись, таблица, поток) на заданном носителе.

Формат определяет возможности прочитать и принять данные в обработку как человеком, так и алгоритмом. Если структура задает содержательную организацию данных, то формат представляет собой техническую сторону их записи и хранения.

С учетом того, что цифровые данные неотъемлемы от машинных носителей, формат реализуется на трех машино-зависимых слоях, выбором соответствующего способа форматирования на каждом из слоев:

  1. Кодировка данных – выбранный способ установки кодов для конечного набора символов или понятий задействованных и допустимых для записи данных. Например, кодировка символов UTF-8 или ASCII.
  2. Нотация данных – выбранный способ формализованной записи упорядоченных данных. Например, CSV или XML.
  3. Схема данных – выбранный способ специальной организации разных элементов данных по предопределенным метаданным. Например, для XML – это выбор XSD, для CSV – это выбор схемы таблицы (полей и связей).

Чем выше слой, тем более он предметно-ориентирован и зависит от смысла данных. На 3-ем слое – схема данных – формат почти полностью смешивается с предметной областью целевых данных.

Кодировка символов – это достаточно понятная и урегулирования часть, которая в целом пришла к относительной теоретической и практической стабильности. Тем не менее даже в этом вопросе практика применения оставляет желать лучшего. Что уж говорить о нотации и схеме данных, особенно в применении к публичным данным. Множество факторов и противоречивых интересов, замешанных на свободных стандартах и платных мощных инструментах.

Ключевой фактор выбора нотации данных, как одного из уровней форматирования, состоит непосредственно в структуре данных.

Например, если структурирование данных сведено к таблице, то очевидно, что удобно будет её отформатировать, скорее, как CSV, чем как HTML. С другой стороны, задача может быть поставлена так, что выбор будет сделан в пользу XML. Кажется, совсем уж экзотическим, но вполне возможно нотировать таблицу данных и как последовательность команд INSERT (SQL) для каждой из строк.

Для публичных данных наиболее предпочтительным являются простые, свободные и распространенные форматы. Приоритетной, например, для открытых государственных данных выглядит связка: [Unicode + CSV|XML + custom_scheme]. Причем custom-схема данных часто описывается в «паспорте открытых данных».

Конечно же можно и нужно развивать форматы передаваемых и публикуемых данных. Но в большей степени новинки из этой области будут восприняты на частном уровне или при защищенном трансфере данных. Для публичных данных пока останутся более понятными и актуальными те форматы, которые получили массовое распространение и для работы, с которыми существует множество как платных, так и бесплатных инструментов, которыми привыкли пользоваться аналитики.

Вопрос повторного использования данных может быть неверно отнесен к особенностям их форматирования, но это скорее вопрос правильного их структурирования. Именно на уровне структуры цифровых данных появляется возможность связывания и организации ссылок. Формат лишь только определяет фактические правила записи и разрешения ссылок. В том числе формат может задавать или поддерживать «межформатные» правила ссылок, чтобы у пользователя появилась возможность сослаться в одном наборе или элементе данных на другой.

Описание данных

Второй аспект публичных данных – это их эффективное описание, которое в конечном итоге превращается в метаданные. Если для внутренних или защищаемых при передаче данных этот аспект может быть на какое-то время упущен из виду, то для данных, которые размещаются в сети открыто и бесплатно – это очень важно для их последующего эффективного использования.

Для целостной передачи публичных данных, самый лучший способ – это сохранять метаданные «внутри» самих данных. То есть таким образом записывать оригинальные цифровые данные, чтобы они параллельно сопровождались некоторыми атрибутами, а структура записи позволяла алгоритмам извлекать заложенные в неё метаданные.

Что достаточно хорошо можно делать, например, в рамках XML-нотации: где разметка уже определяет тип элемента (узел, атрибут, документ), а применение атрибутов и имен пространств открывает возможности для внедрения метаданных. Однако чтение данных совмещенных с их описанием, как минимум, требует овладения более сложными компетенциями и инструментами. Гораздо понятней и очевидней для большинства пользователей получать чистые данные с наименованием и заголовками. Но это в свою очередь вызывает свои проблемы в чтении и понимании данных. До выработки единых и понятных стандартов в этом направлении пока далеко.

Метаданные должны включать:

    Описание смысла данных:

  • a. наименование
  • b. краткое описание
  • c. описание предметной области
  • d. точка зрения
  • e. цель сбора и представления данных
  • f. уровень переработки данных
  • g. ограничения по использованию с точки зрения предметной области
  • h. иллюстративные модели и схемы для сложных данных
  • i. тезаурус понятий, связанных с данными (или отсылка к валидному тезаурусу)
  • j. ссылки на источники данных (первичные данные) и на способ сбора данных
  • k. маркировка данных по времени, месту, актуальности, зависимости, значимости и т.д.
  • l. отсылки к контекстным цифровым данным или иным полезным сведениям
  • m. возможные проблемы со смысловой целостностью данных и рекомендованные пути их решения

  • Описание структуры данных:

    • a. базовые элементы структуры (целостные и неделимые)
    • b. принципы группировки и связывания элементарных и производных единиц данных
    • c. приоритетные и вторичные валидные взаимозависимости элементов структуры данных
    • d. наличие и возможные базовые типа элементов структуры
    • e. отсылка или формализация принципов построения структуры данных или её трансформации
    • f. допустимость внешних ссылок на элементы, входящие в структуру данных
    • g. применяемые стандарты для построения структуры
    • h. ограничения по структуре данных
    • i. возможные проблемы со структурной целостностью данных и рекомендованные пути их решения

  • Описание формата данных:

    • a. применяемый формат кодирования данных (ссылка или описание)
    • b. применяемый формат нотации данных (ссылка или описание)
    • c. применяемый формат схемы данных (ссылка или описание)
    • d. рекомендуемые инструменты для работы с форматом данных (алгоритмы, спецификации, протоколы, программные пакеты, сервисы и др.)
    • e. особенности применения формата данных
    • f. возможные ошибки и проблемы применения формата данных
    • g. обоснование применения формата данных (по необходимости)
    • h. предусмотренные (проверенные) варианты конвертации в другие форматы
    • i. техническая оценка качества соответствия данных заданному формату (особенно в тех случаях, когда данные могут содержать ошибки форматирования)
    • j. возможные проблемы с целостностью данных на уровне формата и рекомендованные пути их решения
  • Чем больше и полней формируются метаданные сопровождающие пакет цифровых данных, тем мощнее будет их последующее использование для извлечения полезных знаний и тем результативнее будет обратный эффект от новых знаний на систему, которую описывают исходные данные.

    Как минимум, пользователю надо обозначить состав и назначение данных, а также дать указание на машинный формат их записи и хранения. Кроме того, хорошо, если метаданные включают оценку качества данных.

    Для понимания того, что следует включать в метаданные, можно рассмотреть операции, в которых они фактически применяется или требуются к применению. Вот наиболее важные семь из них с точки зрения двух непосредственно взаимодействующих ролей в рамках public-схемы трансфера данных:

    1. Идентификация данных

    • Поставщик назначает наименование и определяет предметную область для набора данных
    • Получатель восстанавливает название, назначение, предметную область и систему взаимодействующих объектов, которую описывает набор данных

    2. Аутентификация данных

    • Поставщик задает факторы возможной и допустимой проверки подлинности и качества (в т.ч. релевантности, актуальности, адекватности) публикуемого набора данных
    • Получатель понимает возможный способ проверки подлинности и качества (в т.ч. релевантности, актуальности, адекватности) набора данных и, в случае необходимости, осуществляет проверку



    3. Авторизация данных

    • Поставщик определяет и формализует кто является по отношению к набору данных автором, владельцем и издателем, а также устанавливает кому доступны публикуемые данные, на каких условиях и для чего
    • Получатель проверяет и оценивает кто создал, владеет и поставляет набор данных, а также проходит проверку на возможность и целесообразность их использования

    4. Оценка данных

    • Поставщик измеряет количество данных (в рамках выбранной структуры и формата) и дает оценку качества данных
    • Получатель изучает установленные объемы данных (в рамках указанной структуры и формата) и проверяет выданную оценку качества данных на предмет возможного использования

    5. Ограничения данных

    • Поставщик задает различные ограничения (по смыслу, структуре и формату) для публикуемого набора данных и издает данные в соответствии с ограничениями
    • Получатель выясняет какие ограничения (по смыслу, структуре и формату) наложены на набор данных и работает с данными с их учетом

    6. Передача данных

    • Поставщик комплектует данные в целостный набор и в рамках установленных условий (контракта трансфера данных) передает их напрямую или открывает к ним доступ
    • Получатель принимает напрямую или загружает из открытого доступа скомплектованный целостный набор данных по установленным условиям

    7. Обработка данных

    • Поставщик предварительно (перед публикацией) обрабатывает данные в набор в соответствии с имеющейся задачей публикации
    • Получатель обрабатывает принятые данные для своих целей в рамках известных ему обстоятельств публикации

    Качество публичных данных начинается с качества их метаданных.

    Окружение данных

    Особую роль в отдельных ситуациях начинает играть третий аспект публичных данных – окружение.

    Это наиболее сложный из трех рассматриваемых (другие два – содержание и метаданные) – но он наиболее ценный для стратегического и тематического развития аналитики и поиска знаний, особенно с подключением смежной проблематики.

    В пространстве публичных данных – контекстом для заданного набора будут являются все иные данные с которыми их смогут корректно связать аналитики по тем или иным основаниям.
    Правильно указать контекст можно только если для основных данных правильно задана предметная область и их назначение.

    Контекстные связываются с основными данные несколькими способами:

      Прямое ссылочное связывание – через указание прямых ссылок на сторонние наборы данных, которые публикуются тем же издателем или публикуются иными лицами в открытом доступе. Контекст служит в этом ключе официальным расширением данных. Очевидно, что прямое связывание публичных данных с закрытыми или платными является примером не совсем добросовестного издателя.

    Косвенное предметное связывание – через определение для основных данных названия, тематики, назначения, релевантности и актуальности. Пользователь самостоятельно изучает заданную предметную область и осуществляет поиск данных, которые составляют интересующий его контекст. Кроме очевидных примеров предметного связывания, стоит упомянуть варианты математического связывания: по показателям распределения, частотности или иным. А также варианты связывания по сходным атрибутам или по идентичным основаниям.

  • Связывание имплементацией – через включение в основные данные фрагментов других данных в результате чего устанавливается неочевидная ссылочная или предметная связь. Если получатель достаточно четко понимает «внедрение» контекста в основу, то он также четко понимает суть контекстных данных. Достаточно часто подобный способ связывания основан на включении в основные данные уникальных или условно-уникальных идентификаторов контекстных данных. В отличии от прямого ссылочного связывания, связывание имплементацией не предусматривает включение явной адресации на элементы контекстных данных и категорически не предусматривает какие-либо ссылки на контекстные наборы. А в отличии от косвенного предметного связывания, имплементация все-таки предусматривает указание определенных идентифицирующих фрагментов контекста в основу.
  • Любые данные можно с той или иной точки зрения считать контекстом по отношению к основным.Это субъективный аспект аналитики. Весь вопрос заключается в решаемых задачах и целесообразности.

    Постоянное разукрупнение анализируемого массива данных путем поиска и подключения к нему дополнительного окружения не может считаться нормой, если является самоцелью. Поэтому рациональным подходом можно назвать обстоятельную работу по тщательному планированию исследования данных в рамках которого обозначают и придерживаются ограниченного набора. Вопрос «а какие данные ещё нужны?» должен задаваться на ключевых этапах анализа в случаях, когда действительно требуется расширить смысловой фронт исследований.

    Контекст редко принимается во внимание при публикации данных или при их использовании, либо воспринимается как некое само собой разумеющееся действие по увеличение массива данных. Однако именно неограниченная возможность расширения основы контекстом и многочисленные варианты комбинирования данных позволяют получить преимущество публичного использования данных перед закрытым. В этой связи приоритетным является развитие хранилищ общедоступных и общезначимых цифровых данных, которые составляют контекст для любых данных в заданной предметной области. Например, при работе с экономическими данными может оказаться крайне полезным иметь в свободном доступе общеприменимые справочники, классификаторы, каталоги (например ОКВЭД, КЛАДР, БИК, ЕГРЮЛ и т.п.)

    В этих же целях крайне полезны создаваемые и развиваемые тематические «порталы» и «хабы» открытых данных.

    Метаданные документа

    Последний раз про метаданные в офисных документах я писал более года назад в этой заметке «Извлечение скрытых метаданных из документов MS Office«.

    Я какое-то время назад очень активно интересовался этой темой, в последнее время появилось много другого любопытного и метаданные документов отошли на второй план, однако в практических целях иногда знание того что и как искать помогает.

    Всех нюансов, конечно, не расскажешь, но кое что в дополнение и повторение к ранее написанному у меня есть. Единственно — примеров не будет. Те примеры что у меня сейчас на руках, могут оказаться не самые приятными для тех кто документы готовил. Так что примеры как-нибудь в другой раз.

    Если ранее я писал что есть два типа метаданных — метаданные документа и метаданные связанных объектов, то теперь вынужден признать что, на самом деле, метаданных куда больше. Вернее даже не метаданных, а информации идентифицирующей автора и окружение.

    Фактически я бы разделил эту идентификационную информацию на 4 типа:

    метаданные документа – свойства (properties) документа которые обычно забывают удалить при сохранении и пересылке.

    метаданные вложенных объектов — свойства вложенных OLE объектов и изображений.

    маркеры — данные в гипертексте документа идентифицирующие его владельца.

    скрытые данные — информация в участках документа недоступных для визуального просмотра.

    Для каждого из типов идентификационной информации имеются свои ограничения доступности и характера содержимого.

    1. Метаданные документа

    Это свойства документа которые видны если открыть его «Свойства» в Эксплорере Windows или открыв в соответствующей программе MS Office. Про эти свойства, казалось бы, должны знать все и последние версии MS Office включают возможности удаления этих метаданных. Однако на практике это далеко не так. Часто метаданные забывают почистить и удалить и там можно увидеть «чувствительную информацию» о том кто был на самом деле автором документа,

    2. Метаданные вложенных объектов

    Об этом я писал в прошлой заметке и повторю сейчас. Вложенные объекты — это так называемые OLE объекты или контейнеры StructuredStorage содержащие другие документы/объекты с которыми умеет работать MS Office. Ещё вернее что объекты с которыми вообще умеет работать MS Windows, но в данном случае чуть упростим.

    Если описать это ещё проще, то когда Вы готовите таблицу в Excel, а потом вставляете её в презентацию — это вставка OLE объекта. Точно также если вы делаете диаграмму в Visio и потом вставляете её в презентацию или документ — это вставка OLE объекта, если только вы не преобразовали вначале диаграмму в изображение.

    Особенность этих вложенных объектов в том что каждый из них несёт свой собственный набор свойств заданных в той программе в которой данный объект создавался. Если Вы вложили таблицу Excel — значит у документа будут свойства которые указаны в Excel. Если объект Visio, то свойства заданные в Visio.

    Коварство этой ситуации в том в что, что если Вы создаёте объект не в родной его программе, а через меню другой офисной программы через «Вставить объект», то у Вас не будет возможности отредактировать свойства документа. А также если Вы работаете над документом вместе с кем-то и этот кто-то вставил объект, то в свойствах этого объекта будут метаданные с компьютера того пользователя и они там останутся.

    Вложенные объекты можно извлечь несколькими способами, но большая часть из них весьма техническая и требует знаний того как устроены документы MS Office внутри, поэтому самый практичный способ — сохранить документ в одном из форматов OpenXML и распаковать его любимым ZIP распаковщиком. В результате, OLE объекты будут в папке embeddings. Впрочем я ранее уже это описывал и заметке на которую я сослался вначале этого поста есть подробное описание процесса.

    Однако, вложенными объектами могут быть не только OLE объекты. К этой же категории носителей информации можно отнести изображения. В изображениях может сохранятся информация EXIF (в JPEG файлах) и XMP. Подобное встречается гораздо реже, в основном если кто-то необдуманно вставляет в документы необработанные фотографии. Извлечь изображения можно по тому же рецепту — преобразовать в OpenXML, распаковать и заглянуть в папку media.

    Илон Маск рекомендует:  Пишем инсталлятор

    3. «Маркёры»

    Это очень условное название для той информации которая может присутствовать в тексте документа и позволяет узнать более о его авторе. К подобной информации можно отнести:

    обсуждения и комментарии в режим правки. Иногда (в последнее время всё реже) авторы документов забывают про режим правки и публикуют документ со всей историей обсужения, заметками и так далее.

    ссылки. В некоторых случаях, сознательно или по ошибке в документах остаются ссылки на локальные документы того же пользователя или документы в его локальной сети. Чаще всего эти ссылки указывают на файлы на Desktop или же в папке «Мои документы«. Главное что такие ссылки позволяют узнать — локальное имя пользователя извлекаемой из пути к данному документу.

    4. Скрытые данные

    Кроме вполне очевидных данных (маркёров) в тексте есть некое количество данных которые скрыты в блоках бинарных файлов о предназначении которых можно знать или догадываться. Например, в Excel файлах есть специальный блок PLS содержащий информацию о принтерах. Он содержит точно название модели принтера и его название и, скорее всего некую дополнительную информацию.

    В некоторых случаях в скрытых данных присутствуют адреса файлов и пути которые могут быть интерпретированы так же как данные в ссылках, а то есть позволят извлечь информацию о локальном аккаунте пользователя.

    А как собственно получить все эти данные?

    Инструменты

    Существует довольно большое число инструментов по работе с метаданными, но чего-то универсального не нет. Каждый из инструментов имеет свои плюсы и минусы и многие из них (но не все) описаны в статье Document Metadata Extraction в Forensics Wiki —http://www.forensicswiki.org/wiki/Document_Metadata_Extraction здесь много ссылок на инструменты и библиотеки.

    MS Office 2007-2010 для преобразования из бинарных форматов MS Office в OpenXML. В данном случае OpenOffice не подойдёт поскольку он не сохраняет OLE объекты

    Strings — утилитка из пакета Sysinternals позволяющая извлечь строковые переменные.

    OffVis — это такая специальная утилита от Microsoft позволяющая копатся в глубинах офисных документов. При глубоком анализе документов и выковыриванию PLS блоков из файлов Excel — незаменима. Скачать можно здесь http://download.techworld.com/3214034/microsoft-offvis-11/

    Metadata Extraction Tool — бесплатная утилитка по извлечению метаданных из офисных документов, PDF, изображений и так далее. заглядывает неглубоко и находит не всё http://meta-extractor.sourceforge.net/

    Catalogue — собирает метаданные из разного типа файлов http://peccatte.karefil.com/software/Catalogue/CatalogueENG.htm

    — Metadata Analyzer — извлекает метаданные (только базовые) http://smartpctools.com/metadata/

    Document Trace Remover — убирает метаданные http://smartpctools.com/trace_remover/

    Oracle Outside In — инструмент для разработчиков, поддерживает около 500 форматов файлов http://www.oracle.com/us/technologies/embedded/025613.htm

    Это, конечно, совсем не предел тем вокруг извлечения информации. Есть также метаданные и способы их выковыривания из документов PDF и OpenOffice, электронных писем и так далее.


    Кроме того есть масса нераскрытых возможностей связанных с неполным описанием бинарных проприетарных форматов.

    Метаданные об управлении документами

    Управление метаданными — неотъемлемая часть управления документами,

    обеспечивающая выполнение множества различных функций и целей. В контексте

    управления документами метаданные определяются как данные, описывающие контекст,

    содержание и структуру документов, а также процессы управления ими на протяжении всего

    жизненного цикла документа (ИСО 15489-1, подраздел 3.12). Сами по себе метаданные

    являются структурированной или полуструктурированной информацией, позволяющей

    создавать, регистрировать, классифицировать, обеспечивать доступ, хранение и размещение

    документов, в рамках и за пределами одной либо нескольких областей деятельности. Каждая

    из этих областей представляет сферу интеллектуального языкового общения, социальной

    и/или организационной деятельности определенной группы людей, разделяющих

    определенные ценности и обладающих определенными знаниями. Метаданные об

    управлении документами допускается использовать для идентификации, подтверждения

    подлинности и контекстуализации документов и людей, процессов и систем, которые

    создают, управляют, поддерживают и используют документы, а также для принципов

    политики, на которых строится управление ими (см. 9.1).

    Первоначально метаданные определяют документ в момент его ввода, фиксируя его связь

    с контекстом деловой деятельности и устанавливая контроль над ним. В течение жизненного

    цикла документов или их совокупностей новые слои метаданных будут добавляться в

    процессе использования документов во вновь проводимых деловых операциях. Это означает,

    что метаданные продолжают накапливать информацию, касающуюся контекста управления

    документами и деловых процессов, в которых используются документы, и соотносятся с

    содержательными и структурными изменениями документа. Метаданные могут быть

    источником информации о многократном использовании документа многими системами и

    для множества целей. Метаданные, применяемые к документам в течение всего их

    жизненного цикла, можно продолжать использовать после того, как сами документы

    перестанут быть востребованы в деловых целях и будут переданы на хранение.

    Метаданные обеспечивают аутентичность, надежность, применимость и целостность

    документов, обеспечивают управление ими и понимание информационных объектов как

    физических, так аналоговых и цифровых. Однако метаданными также необходимо

    Портал нормативных документов info@opengost.ru

    Документ скачан с портала нормативных документов www.OpenGost.ru

    Управление документами всегда включает в себя управление метаданными. Однако

    электронная среда требует иного выражения традиционных требований и иных механизмов

    для идентификации, ввода, определения свойств и использования метаданных. В

    электронной среде документы нормативного характера — это документы, сопровождаемые

    метаданными, определяющими их нормативный статус. Этот нормативный статус должен

    быть четко документирован, а не подразумеваться, как в некоторых процессах управления

    бумажными документами. В электронной среде очень важно обеспечить гарантию того,

    чтобы в системах, которые создают, осуществляют ввод и управление документами,

    осуществлялось создание и ввод метаданных об управлении документами. И, наоборот,

    электронная среда предоставляет новые возможности для определения и создания

    метаданных, а также для обеспечения полного, своевременного ввода документов. Эти

    документы могут быть свидетельствами транзакций или непосредственно быть

    Метаданные (стр. 1 из 2)

    федеральное агентство по образованию

    Реферат

    Различие между данными и метаданными

    Классификация и структура метаданных

    Проблемы стандартизации метаданных

    Метаданные (от греч. Meta и лат. Data), буквально переводится как «данные о данных», информация о другом наборе данных.

    1. Метаданные — это структурированные, кодированные данные, которые описывают характеристики объектов-носителей информации, способствующие идентификации, обнаружению, оценке и управлению этими объектами.

    2. Метаданные (Майкл Брэкет) – любые данные об информационных ресурсах организации».

    3. Метаданные (Адриен Танненбаум) – детальное описание сущности данных.

    4. Метаданные – это данные о данных, информация об информации, описание контента.

    Различие между данными и метаданными

    Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:

    1. что-то может являться как данными, так и метаданными. Так, заголовок статьи можно одновременно отнести как к метаданным (как элемент метаданных — заголовок), так и к собственно данным (поскольку заголовок является частью самого текста).

    2. данные и метаданные могут меняться ролями. На стихотворение, рассматриваемое как данные, может быть написана музыка, в этом случае всё стихотворение может быть «прикреплено» к музыкальному файлу и в этом случае рассматриваться как метаданные. Таким образом, отнесение к одной или другой категории зависит от точки зрения (или пространства имён, системы отсчёта).

    Классификация и структура метаданных

    Существуют различные классификации метаданных, отличающиеся между собой, главным образом, степенью детализации. Две большие группы:

    1. Метаданные описания контента. Контентные метаданные охватывают описание всех аспектов данного информационного объекта, как отдельной сущности. Иногда их дополнительно подразделяют на структурные и описательные.

    2. Административные метаданные. Административные метаданные объединяют различные группы и отличаются большим разнообразием. Например, они позволяют владельцу ресурса проводить четкую и гибкую политику в отношении информационного объекта, включая авторизацию, аутентификацию, управление авторскими правами, доступом, а также служат для идентификации и категоризации объектов в рамках специальной коллекции или организации. Метаданные для архивирования могут включать в себя не только метаданные, необходимые для нахождения ресурсов, возможные правила и условия доступа и т.д., но и периоды времени для классифицированной информации, информацию об открытом или закрытом хранении, данные об использовании, историю миграции с одной объединение аппаратной платформы на другую и т.д. Другая группа административных метаданных может использоваться для позиционирования данного информационного ресурса в контексте группы подобных документов, информационно-поисковой системы, предметной области и т.д. Существует группа административных метаданных, которые можно назвать «техническими» . В качестве примера можно назвать схемы хранения данных в базах данных, схемы распределенных баз данных и др. Наконец, метаданные можно использовать для «кодирования» содержательной информации о том, для каких групп пользователей предназначен ресурс, для ориентирования пользователей относительно его философского, мировоззренческого смысла (т.е. метаданные будут содержать сравнительную и оценочную компоненты, призванные помочь пользователю «встроить» данную информацию в структуру его миропонимания).

    Метаданные состоят из элементов, объединенных в наборы. Широко известным примером набора элементов метаданных является т.н. Дублинское ядро (Dublin Core, DC). Такие наборы разрабатываются с различными целями (например, для описания различных информационных объектов) различными организациями, которые предпринимают в случае целесообразности усилия по распространению и стандартизации своих разработок. В том случае, если набор элементов метаданных рассматривается и принимается соответствующей уполномоченной организацией (например, International Standart Organisation, ISO), он становится официальным стандартом метаданных.

    Необходимо подчеркнуть, что реальные наборы метаданных обычно содержат элементы как контентных, так и административных метаданных. Т.е. необходимо понимать, что вышеприведенное разделение вполне условное, хотя есть несколько специализированных наборов именно для целей администрирования.


    метаданные информационный стандартизация интернет

    Метаданные – понятие исключительно широкое и емкое. Данный обзор ориентирован прежде всего на пользователей и создателей электронных информационных ресурсов. Применительно к этой области применения, роль метаданных об электронных ресурсах, прежде всего, состоит в:

    предоставлении возможностей более быстрого, точного и полного обнаружения необходимых ресурсов;

    обеспечении гибких и разнообразных механизмов отбора в соответствии с требованиями пользователя (поисковым запросом);

    предоставлении информации о необходимых требованиях к возможностям использования (требуемое прикладное программное обеспечение, свободное дисковое пространство и т.п.);

    управлении жизненным циклом информационных ресурсов (создания, использования и храненения цифровых документов).

    Метаданные способны ускорить процесс международного доступа к информации, т.к. могут быть представлены на языках, отличных от языка объекта.

    Возможности использования метаданных исключительно широки и еще до конца не осознанны. Например, метаданные можно использовать для объединения и оценки электронных объектов в рамках обучающих ситуаций. Можно предположить, что роль метаданных для учебных материалов, а также метаданных для документов, которые, по мнению пользователя, могут быть интегрированы в образовательный процесс, будет постоянно возрастать. Рабочая группа по разработке образовательных элементов набора метаданных занимается определением дополнительных элементов и квалификаторов в конкретных областях.

    Проблемы стандартизации метаданных

    Электронные информационные ресурсы интернета в целом и различных информационных систем в частности различаются исключительным разнообразием. Поэтому единственное средство описания метаданных не может удовлетворить все потребности и решить все возникающие задачи. Кроме этого, даже если такой универсальный стандарт и был бы разработан и утвержден, нет возможности добиться его неуклонного выполнения всеми создателями информационных ресурсов. Затем, возникает сложный многофакторный выбор, т.к. подобный стандарт неизбежно будет исключительно сложным и громоздким, что влечет большие затраты на его имплементацию, поддержку, сопровождение, обучение персонала и т.п. Другой аспект связан с тем, что значительная часть ресурсов в сети создается непрофессионалами, которые и не могут, и не хотят вникать в сложные правила генерации метаданных различных типов. Исходя из сказанного, можно предложить ряд принципов, определяющих политику в области метаданных в перспективных информационных системах (ИС) в публичном интернете (например, электронных библиотеках):

    поддерживать несколько наборов метаданных, заведомо покрывающих все перспективные потребности ИС;

    обеспечить отображение всех наборов в один, принятый за стандарт обмена;

    хранить все метаданные в центральном каталоге метаданных;

    если создателю коллекции или ИС необходим оригинальный набор элементов метаданных, то на нем лежит ответственность за разработку методов его отображения в один из распространенных стандартов.

    Метаданные на уровне коллекций и ИС оправданно создавать с участием профессионалов в данной предметной области, а на уровне объектов (документов) метаданные желательно генерировать автоматически, для чего требуется разработка или использование соответствующего программного обеспечения.

    При этом в каталоге метаданных могут храниться записи:

    на уровне коллекции (содержание, предназначение, протоколы, форматы, наборы, условия доступа) – созданные специалистами в наборе элементов, принятом за стандарт обмена (например, Дублинское ядро);

    на уровне объекта (документа, item) – в одном из поддерживаемых данной ИС стандартов метаданных;

    нормализованные записи на уровне объектов – отражение оригинального набора элементов метаданных в некоторый формат обмена.

    Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.

    Формат метаданных — представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. П.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).

    Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.

    Форматы метаданных часто разрабатываются международными организациями, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов.

    Профессия — 1С

    Работа с метаданными

    рубрики: Метаданные | Дата: 6 Февраль, 2020

    Что такое метаданные

    Метаданные представляют собой структуру базы данных 1С:Предприятия. То есть это структура в которой описываются справочники, документы, регистры, перечисления и т.д., а также подчиненные им элементы: табличные части, реквизиты, измерения ресурсы и прочее. Визуально мы можем наблюдать эту структуру в конфигураторе, когда открываем дерево конфигурации.

    Редактирование метаданных возможно только в режиме конфигуратора, но в языке 1С существуют методы и функции, которые осуществляют программный доступ к метаданным в режиме чтения.

    Зачем нужна работа с метаданными

    Бывают ситуации когда надо обработать по одному правилу все схожие между собой объекты. Допустим нам надо написать обработку, которая будет производить некие действия со всеми справочниками у которых есть реквизит Товар. Без использования метаданных надо будет проанализировать вручную всю ветку со справочниками в дереве конфигурации и для каждого справочника написать отдельный код. А с использованием метаданных мы можем программно обойти все справочники, а затем для каждого справочника можем проанализировать все его реквизиты. И в случае если искомый реквизит найден обработать все элементы справочника. Этот подход значительно уменьшит количество кода и предварительной ручной работы. Опять же если в конфигурацию будет добавлен новый справочник, в первом случае (без использования метаданных) необходимо будет дорабатывать обработку. Если же были использованы метаданные, никакой доработки не потребуется.

    Также метаданные можно использовать в случае работы с реквизитами составного типа. Когда в зависимости от метаданных реквизита может различаться алгоритм работы программы.

    Примеры

    Обход метаданных в цикле

    В качестве первого примера рассмотрим обход в цикле всех справочников и для каждого справочника также в цикле обход всех его реквизитов. Доступ к метаданным осуществляется с использованием свойства глобального контекста Метаданные. Вот код который выполняет данную задачу

    Получение метаданных по ссылке объекта

    Зачастую возникает ситуация когда надо получить метаданные по ссылке какого-нибудь объекта. Это может быть элемент справочника, документ и т.д. И здесь нам поможет метод НайтиПоТипу( ). Этот метод позволяет получить метаданные по типу объекта. Соответственно если у нас есть ссылка нам надо сначала узнать ее тип. Сделать это поможет функция ТипЗнч( ). В качестве примера возьмем справочник Пользователи (т.к. он есть наверное во всех конфигурациях). Выберем из него первый попавшийся элемент и получим по нему метаданные.

    Получение метаданных по полному имени

    Cуществует еще один метод, который позволяет получить метаданные по полному имени объекта. Речь идет о методе НайтиПоПолномуИмени( ). Если взять тот же справочник Пользователи, то его полное имя выглядить как Справочник.Пользователи. Соответственно код для получения метаданных справочника Пользователи по полному имени выглядит вот так

    Если выбирать между получением метаданных по ссылке и по полному имени, то мне больше по душе метод НайтиПоТипу( ).

    Конечно Имя и Синоним, в примерах выше — это лишь малая часть информации, которую можно извлечь из метаданных. Но тут как говориться Shift + F9 в помощь.

    Метаданные документа

    Составление диапазонов IP

    Узнать информацию о себе

    Извлечение информации из кэша и веб архивов

    Обход запрета показа исходного HTML кода, обход социальных блокировщиков

    Продвинутое использование поисковых систем

    Работа с кодировками

    Инструменты противодействия CloudFlare

    Изображения и метаданные

    Информация о номерах телефонов

    Сканеры уязвимостей веб-сайтов

    Сканеры уязвимостей, открытых портов и запущенных служб веб-серверов

    Субдомены и скрытые файлы

    Получение информации по MAC-адресам

    Анализ работы веб-сервера

    Работа с хешами

    Анализ электронных писем

    Анализ исполнимых файлов

    Лучший хостинг Рунета:

    Показать все доступные метаданные файла

    Метаданные внутри файла могут много рассказать о вас. Камеры записывают данные о том, когда и где была снята фотография, какая камера использовалась. Офисные документы вроде pdf или Office автоматически добавляют информацию об авторе и компании в документы и таблицы. Вполне возможно, что вы не хотите раскрывать эту информацию в сети.

    Полностью поддерживаются следующие форматы:

    • Portable Network Graphics (.png)
    • JPEG (.jpg, .jpeg, …)
    • TIFF (.tif, tiff, …)
    • Open Documents (.odt, .odx, .ods, …)
    • Office OpenXml (.docx, .pptx, .xlsx, …)
    • Portable Document Fileformat (.pdf)
    • Tape ARchives (.tar, .tar.bz2, …)
    • MPEG AUdio (.mp3, .mp2, .mp1, …)
    • Ogg Vorbis (.ogg, …)
    • Free Lossless Audio Codec (.flac)
    • Torrent (.torrent)

    Вы также можете пробовать другие файлы, в том числе архивы.

    Понравилась статья? Поделиться с друзьями:
    Кодинг, CSS и SQL