Описание форматов звуковых файлов выборок


Содержание

Форматы звуковых файлов

Читайте также:

  1. FC — команда сравнения файлов
  2. Вставка файлов и диаграмм
  3. Выбор директории размещения системных файлов
  4. Выделение файлов и папок
  5. Выполнение поиска файлов
  6. Генерация на сверхзвуковых частотах
  7. Директории. Логическая структура файлового архива.
  8. Дополнительные форматы
  9. Загрузка (скачивание) файлов
  10. Закончить работу в среде редактора Word, перейти на поле Проводника. Удостовериться в правильности сохранения файлов.
  11. Занятие 10. ФАЙЛОВАЯ СИСТЕМА
  12. Защита файлов.

Мы рассмотрим различные форматы звуковых файлов:

WAVE (.wav) — наиболее широко распространенный звуковой формат. Используется в OC Windows для хранения звуковых файлов. В его основе лежит формат RIFF (Resource Interchange File Format), позволяющий сохранять произвольные данные в структурированном виде. Для записи звука используются различные способы сжатия, поскольку звуковые файлы имеют большой объем. Самый простой способ сжатия — импульсно-кодовая модуляция (Pulse Code Modulation, PCM), но он не обеспечивает достаточно хорошего сжатия.

AU (.au,.snd) — формат звуковых файлов, используемый на рабочих станциях фирмы Sun (.au) и в операционной системе NeXT (.snd). Получил широкое распространение в сети Internet, на ранней стадии развития которой играл роль стандартного формата для звуковой информации.

MPEG-3 (.mp3) — формат звуковых файлов, один из наиболее популярных на сегодняшний день. Был разработан для сохранения звуков, отличных от человеческой речи. Используется для оцифровки музыкальных записей. Предшествующие версии формата: MP1 и MP2. При кодировании применяется психоакустическая компрессия, при которой из мелодии удаляются звуки, плохо воспринимаемые человеческим ухом. Ранние версии обеспечивают худшую компрессию, но менее требовательны к ресурсам компьютера при воспроизведении. Характеристики процессора напрямую влияют на качество звучания, — чем слабее процессор, тем больше искажения звука.

MIDI (.mid) — цифровой интерфейс музыкальных инструментов (Musical Instrument Digital Interface). Этот стандарт разработан в начале 80-х годов для электронных музыкальных инструментов и компьютеров. MIDI определяет обмен данными между музыкальными и звуковыми синтезаторами разных производителей. Интерфейс MIDI представляет собой протокол передачи музыкальных нот и мелодий. Но данные MIDI не являются цифровым звуком — это сокращенная форма записи музыки в числовой форме. MIDI-файл представляет собой последовательность команд, которыми записаны действия, например, нажатие клавиши на пианино или поворот регулятора. Эти команды, посылаемые на устройство воспроизведения MIDI-файлов, управляют звучанием, небольшое MIDI-сообщение может вызвать воспроизведение звука или последовательности звуков на музыкальном инструменте или синтезаторе, поэтому MIDI-файлы занимают меньший объём (единица звукового звучания в секунду), чем эквивалентные файлы оцифрованного звука.

MOD (.mod) — музыкальный формат, в нем хранятся образцы оцифрованного звука, которые можно затем использовать как шаблоны для индивидуальных нот. Файлы в этом формате начинаются с набора образцов звука, за которыми следуют ноты и информация о длительности. Каждая нота воспроизводится с помощью одного из приведенных в начале звуковых шаблонов. Такой файл относительно невелик и имеет структуру, базирующуюся на нотах. Это облегчает его редактирование с помощью программ, имитирующих традиционную музыкальную запись. Он, в отличие от MIDI-файла, полностью задает звук, что позволяет воспроизводить его на любой компьютерной платформе.

IFF (.iff) — Interchange File Format – формат, первоначально разработанный для компьютерной платформы Amiga. Сейчас также используется на компакт-дисках в форме CD-I. Его структура очень похожа на структуру формата RIFF.

AIFF (.aiff) — Audio Interchange File Format — формат для обмена звуковыми данными, используется на компьютерных платформах Silicon Graphics и Mac. Во многом напоминает формат Wave, однако в отличие от него позволяет использовать оцифрованный звук и шаблоны. Многие программы способны открывать файлы в этом формате.

RealAudio (.ra, .ram) — формат, разработанный для воспроизведения звука в Internet в реальном времени. Разработан фирмой Real Networks (www.real.com). Получающееся качество в лучшем случае соответствует посредственной аудиокассете, для качественной записи музыкальных произведений использование формата mp3 более предпочтительно.

4.3. MIDI и цифровой звук: достоинства и недостатки

Формат WAVE представляет собой один из многочисленных, но далеко не единственный формат для записи цифрового звука. В отличие от MIDI-данных данные цифрового звука действительно представляют звук, записанный в виде тысяч единиц, называемых квантами (samples). Цифровые данные представляют амплитуду (или громкость) звука в дискретные моменты времени. Звучание цифровых данных не зависит от устройства воспроизведения и поэтому их звучание всегда одинаково. Но за это приходится расплачиваться большими объемами звуковых файлов.

MIDI-данные по отношению к цифровым данным — то же самое, что и векторная графика по отношению к растровым изображениям. То есть MIDI-данные зависят от устройств воспроизведения звука, а цифровые данные не зависят. Так же как вид векторных графических изображений зависит от принтера или экрана монитора, так и звучание MIDI-файлов зависит от MIDI-устройства для воспроизведения этих файлов. Аналогично, звучание мелодии, сыгранной на концертном фортепиано, будет отличаться от звучания этой же мелодии на простом пианино. Цифровые данные, с другой стороны, идентичны и не зависят от системы воспроизведения. Стандарт MIDI в этом смысле аналогичен стандарту PostScript и позволяет управлять инструментами на понятном языке.

По сравнению с цифровым звуком MIDI имеет следующие преимущества:

§ MIDI-файлы занимают меньший объем памяти, и размер этих файлов не влияет на качество звучания. В среднем MIDI-файлы в 200 — 1000 раз меньше цифровых файлов и поэтому занимают малый объем в оперативной памяти, на дисках, и для них не требуется больших ресурсов центрального процессора.

§ В некоторых случаях звучание MIDI-файлов лучше, чем цифровых аудиофайлов. При этом источник звучания MIDI-файлов должен быть высокого качества.

§ Вы можете изменять длину MIDI-файлов, изменяя темп звучания и при этом сохраняя качество и громкость звучания. MIDI-данные можно легко редактировать, даже на уровне отдельных нот. Вы можете манипулировать небольшими сегментами MIDI-композиции (с точностью до миллисекунд), что невозможно в случае цифрового звука.

Основной недостаток MIDI-файла вытекает из его достоинств. Поскольку MIDI-данные не являются сами по себе звуком, то воспроизведение будет настолько точным, насколько устройство воспроизведения MIDI-данных идентично устройству, которое использовалось для создания исходного файла. Даже звук MIDI-инструмента в соответствии со стандартом General MIDI зависит от электронного устройства воспроизведения и используемого при этом метода. MIDI-звук не используют для воспроизведения речи.

Основное преимущество цифрового аудио перед MIDI-звучанием заключается в том, что качество воспроизведения цифрового звука всегда постоянно, и здесь MIDI-звучание уступает цифровому звучанию. Существуют две причины, по которым следует работать с цифровым звуком:

§ более широкий выбор программ и систем, которые поддерживают работу с цифровым звуком;

§ для подготовки и создания цифровых звуковых элементов не требуется знание музыкальной теории, чего не скажешь о MIDI-данных.

Дата добавления: 2014-12-16 ; Просмотров: 3784 ; Нарушение авторских прав? ;

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Формат WAVE файлов

WAVE – это формат хранения оцифрованных аудио данных. Данный формат поддерживает данные различной битности, с различной частотой выборки и числом каналов. Данный формат весьма популярен на платформах стандарта IBM PC (и совместимых с ним).

Этот формат подразумевает хранение аудио данных в особых блоках, которые называют чанками (chunks).

Форматы данных

Организация данных

Все данные хранятся в виде 8-ми битовых чисел, расположенных таким образом, что младшая часть слова данных записывается первой.

Word : | байт 0 | байт 1 |

Integer : | байт 0 | байт 1 | байт 2 | | байт 3 |

Структура файла

Wav файл представляет собой набор из многочисленных чанков разного типа. Важнейшим чанком является чанк формата (Format chunk – «fmt»), который содержит важные параметры звуковых данных, например частоту выборки. Другим важным чанком является чанк данных (Data chunk), который и определяет форму аудио сигнала. Присутствие других дополнительных чанков (optional chunks) не обязательно.

Все приложения использующие wav файлы должны уметь читать обязательные чанки, и уметь выборочно игнорировать дополнительные чанки. Программы, предназначенные для копирования wav файлов должны копировать все чанки, даже те которые он не может интерпретировать. Порядок следования чанков разного типа может быть произвольным. Исключение составляет чанк формата, который должен предшествовать чанку данных. Некоторые грубо написанные программы всегда интерпретируют первый чанк (после RIFF заголовка) как чанк формата, хотя в спецификации формата подразумевается, что первый чанк может быть не только чанком формата, но и дополнительным чанком.

Рассмотрим схему простейшего wav файла

Формат wav файла создавался и модифицировался без всякой координации множеством авторов (каждый из которых вносил свои специфические чанки). В результате он получился отчасти противоречивым, например 8-ми битные данные являются беззнаковыми, а 16-битные – числа со знаком.

Элементы выборок и фреймы

Важнейшими понятиями при интерпретация wave файлов, являются понятия элементы выборок и фреймы. Элемент выборки представляет собой мгновенное значение амплитуды сигнала. Данные длинной более 8-ми бит хранятся в виде блока размером от 9 до 32 бит состоящего из двух смежных слов (определяется значением поля wBitsPerSample, в чанке формата, для несжатого подстандарта PCM ). Например для 16 битного формата (2х8 бит) диапазон значений амплитуд от -32768 ($8000) до 32767 ($7FFF). Для формата 8бит и меньше (1 беззнаковый байт) диапазон значений амплитуд от 0 до 255.

В связи с архитектурой современных процессоров было решено, что при сохранении данных размер выборки будет округлятся до величины кратной 8-битам. Для АЦП с разрядностью не более 8-бит данные сохраняются в 8-ми битном формате. Для АЦП с разрядностью от 9 до 16 бит элемент выборки будет 16 битным числом со знаком.

Для АЦП с разрядностью от 17 до 24 бит выборка будет 3-х байтной. Для АЦП с разрядностью от 25 до32 бит выборка будет двойным знаковым 32 битным словом. И т.д.

Кроме того, биты данных (не кратных 8) должны быть выровнены по левому краю. Например 12 битные данные (записываются 16-ти битным словом) выравниваются следующим образом – данные выборки записываются с 4-го по 15 бит включительно, биты от 0 до 3 устанавливаются в нуль. Т.о. число 101000010111 записывается как

Но в файл данные будут записаны так

При многоканальной записи элементы выборок записываются поочередно. Так для стерео записи в начале пишется одна выборка левого канала, затем правого, затем следующая выборка левого и т.д. Такое расположение выборок упрощает пересылку данных в ЦАП. Блок из нескольких выборок воспроизводимых одновременно называется фреймом. В нашем примере фрейм это блок, состоящий из двух выборок (левого и правого каналов)

Для одноканальной записи, фрейм состоит просто из одной выборки. Для многоканальной записи правила составления фрейма следующие:

Выборки в пределах одного фрейма записываются непрерывно один за другим без неиспользованных байтов между ними. Следует отметить, что все вышеупомянутое относится к формату записи без сжатия ( PCM ).

Чанк формат (Format Chunk)

Чанк Формат (« fmt ») описывает фундаментальные параметры данных, частоту выборки, разрядность данных и число каналов цифровой звукозаписи.

ChankFormat – может иметь и дополнительные поля, поэтому нельзя игнорировать поле

chunkSize – определяющее размер записи минус 8 бит (поля chunkID и chunkSize ),.

Значение chunkedID всегда равно “fmt “. Звуковые данные могут хранится без сжатия, тогда выборки хранятся как было описано в разделе Элементы выборок и фреймы. В случае формата со сжатием размеры выборок могут отличаться от разрядности звуковых данных. На наличие сжатия указывает поле wFormatTag. В этом случае его значение wFormatTag отличается от единицы. Кроме того в ChankFormat появятся несколько полей идентифицирующие метод сжатия.

— Первое дополнительное поле (типа Word ) определяет длину добавочного блока(после этого поля).

-Далее следует специальный чанк ( Fact chunk ) содержащий переменную типа Cardinal , определяющую размер всех аудио данных (в несжатом ввиде). Размер задается в выборках. Существует большое количество методов сжатия. Детальное описание каждого из них можно посмотреть на сайте Microsoft .

Если никакое сжатие не используется (то есть, wFormatTag = 1), то после ChankFormat нет дополнительных служебных полей.

Поле wChannels содержит число звуковых каналов. Значение 1 указывает на моно звучание, значение 2 стерео ,4 четыре канала звука и т.д. Напомню, что выборки многоканальных записей чередуются, а элементарный блок из таких данных образуют Фрейм. Реальные данные хранятся в чанке данных ( Data Chunk ), который будет описан позже.

-Поле dwSamplesPerSec хранит частоту выборок в секунду (то есть, Герц). Существуют три стандарта MPC — 11025, 22050, и 44100 ГЦ, хотя допускается использование других частот.

— Поле dwAvgBytesPerSec указывает, сколько байтов проигрываются каждую секунду. dwAvgBytesPerSec может использоваться приложением, чтобы оценить, буфер какого размера необходим, для того чтобы должным образом воспроизводить звук без проблем связанных с прерыванием воспроизведения звука. Его значение должно быть равно результату произведения dwSamplesPerSec * wBlockAlign округленного в большую сторону.

— Поле wBlockAlign должно быть равно значению выражения

wChannels * ( wBitsPerSample div 8) округленному в большую сторону. По существу, wBlockAlign — размер фреймов в байтов. (т.о. фрейм для 16-битовой выборки равен 2 байтом, фрейм для 16-битовой стерео выборки 4 байта. И т.д).

В каждом звуковом файле может быть не более одного чанка формата.

Чанк данных (Data Chunk)

Чанк данных содержит фреймы звуковых данных (все каналы звуковых данных)

-Значение ID всегда равно ‘data’.

chunkSize — число байтов в чанке минус 8 байт (поля ; ‘>chunkSize ) кроме того, не учитываются байты выравнивания структуры. Помните, что описание данных хранится в чанке формата. Все вышеперечисленное относится только к несжатому формату.

-Массив waveformData содержит собственно выборки, порядок их следования и выравнивание описано в разделе выборки и фреймы. Число фреймов можно вычислить, разделив значение chunkSize на wBlockAlign чанка формата.

Чанк данных является необходимой частью любого звукового файла. В одном файле может присутствовать только один чанк данных.

В заключение хочется напомнить, что существуют множество других чанков таких как например Cue Chunk(вроде описания данного аудио файла), Playlist chunk, Associated Data List, Label Chunk, Note Chunk, Labeled Text Chunk, Sampler Chunk, Instrument Chunk Format. Для воспроизведения аудио их надо просто игнорировать.

Пример чтения wav

Продолжение чтение wav файлов (мой пример).

А теперь попробуем правельно прочитать прочитать wav файл как этого требует формат.

Аудио-форматы: виды, предназначение, отличия

Аудио-форматы — это разновидности файлов, предназначенные для хранения цифровых аудиоданных в компьютерной системе. Битовая компоновка аудиоданных (за исключением метаданных) называется форматом кодирования аудио и может быть несжатой или сжатой. Сжатие используется для того, чтобы уменьшить размер файла, что часто сочетается с потерей качества звука. Звук также может быть сырым битовым потоком в формате кодирования аудио, но обычно он встраивается в формат аудиоданных с определенным слоем хранения.

Что они собой представляют?

Аудиофайл — это набор информации, который состоит из данных о частоте и амплитуде звука, сохраненный для последующих воспроизведений.

Аудио-форматы могут играть роль контейнера для необработанных данных, а также использовать аудиокодеки. Зачастую эти понятия смешивают и путают.

Кодек выполняет кодирование и декодирование необработанных аудиоданных, в то время как эти закодированные данные обычно хранятся в файле-контейнере. Несмотря на то что большинство форматов звуковых файлов поддерживают только один тип данных кодирования аудио (созданных с помощью аудиокодера), формат мультимедийного контейнера (например, Matroska или AVI) может поддерживать несколько типов аудио- и видеоданных.

Разновидности по объему и качеству

Форматы аудио-файлов могут быть выделены в следующие группы:


1. Несжатые – такие как WAV, AIFF, AU или необработанные PCM без заголовков.

2. Форматы со сжатием без потерь – к примеру, FLAC, AudioMonkey’s (расширение файла .ape), WavPack (расширение файла .wv), TTA, ATRAC AdvancedLossless, ALAC (расширение имени файла .m4a), MPEG-4 SLS, MPEG-4 ALS, MPEG-4 DST, WindowsMediaAudioLossless (WMA без потерь) и Shorten (SHN).

3. Форматы с компрессией с потерями качества – например, Opus, MP3, Vorbis, Musepack, AAC, ATRAC и Windows Media Audio Lossy (сжатые WMA).

Основной тип

Одним из основных несжатых аудиоформатов является LPCM. По своей сути он представляет собой разновидность PCM и подобен Digital Audio (формат аудио CD-дисков). Он является разновидностью, наиболее широко используемой низкоуровневыми API и цифроаналоговыми преобразователями. Несмотря на то что LPCM может храниться на компьютере в виде необработанного звукового формата, он обычно находится в WAV-файле в Windows или в .aiff на macOS.

WAV и AIFF

Цифровой аудиоформат AIFF основан на формате файла обмена (IFF), а WAV — на аналогичной разновидности файла обмена ресурсами (RIFF). WAV и AIFF предназначены для хранения широкого спектра аудиоформатов как без потерь качества, так и с потерями. Они просто добавляют небольшой заголовок, содержащий метаданные, перед звуковой составляющей, чтобы обозначить формат аудио (например, LPCM с конкретной частотой дискретизации, битовой глубиной, порядковыми номерами и количеством каналов). Поскольку WAV и AIFF широко поддерживаются и могут хранить LPCM, они являются подходящими файловыми форматами для хранения и архивирования оригинальной записи.

Новое поколение

BWF (Broadcast Wave Format) — это стандартный аудиоформат, созданный Европейским радиовещательным союзом в качестве преемника WAV. Он имеет массу улучшений, в числе которых возможность хранить более надежные метаданные в файле. Это основной формат записи, используемый во многих профессиональных рабочих станциях в телевизионной и киноиндустрии. Файлы BWF включают в себя стандартизированную метку времени, которая позволяет легко синхронизировать звук с отдельным элементом изображения. Автономные многодорожечные рекордеры AETA, Sound Devices, Zaxcom, HHB Communications Ltd, Fostex, Nagra, Aaton, и TASCAM всегда используют BWF как предпочтительный формат.

Аудиоформаты со сжатием и без

Такая разновидность сохраняет данные в меньшем объеме без потери информации. Исходные данные при этом могут быть воссозданы из такой версии.

Несжатые аудио-форматы кодируют звук и тишину с одинаковым количеством битов в единицу времени. Кодирование минуты абсолютной тишины создает файл такого же размера, как и минуты музыки. Однако в сжатом формате музыка будет занимать меньший файл, чем оригинальная запись, а тишина почти не будет занимать места.

Форматы аудио-файлов такого типа включают в себя FLAC, WavPack, AudioMonkey, ALAC (Apple Lossless). Они обеспечивают коэффициент сжатия около 2:1 (то есть файлы занимают половину пространства PCM). Разработка в форматах сжатия без потерь направлена ​​на сокращение времени обработки при сохранении хорошего качества звука.

Сжатый аудиоформат с потерями

Это позволяет еще больше уменьшить размер файла, удалив часть аудиоинформации и упростив данные. Это, конечно же, приводит к тому, что качество аудио-форматов становится значительно хуже. При этом используются различные методы (чаще путем использования психоакустики), чтобы удалить части звука, которые наименее влияют на воспринимаемое качество, и минимизировать количество слышимого шума, добавленного во время процесса сжатия. Популярный MP3-формат, пожалуй, выступает самым известным примером. Кроме того, AAC, который можно найти в iTunesMusicStore, также широко распространен. Большинство форматов предлагают разный диапазон степеней сжатия, обычно измеряемый в битовой скорости. Чем ниже скорость, тем меньше файл, и тем значительнее потеря качества.

Какие форматы известны в настоящее время?

.3GP — формат мультимедийного контейнера, который может содержать собственные форматы AMR, AMR-WB или AMR-WB+, а также некоторые открытые разновидности.

.AAC (Advanced Audio Coding) — основан на стандартах MPEG-2 и MPEG-4. Файлы AAC обычно представляют собой контейнеры ADTS или ADIF.

.AAX (Audible.com) — формат аудиокниги, который представляет собой файл M4B с изменяемым битрейтом (обеспечивающий высокое качество), зашифрованный с помощью DRM. MPB содержит AAC- или ALAC-кодированный звук в контейнере MPEG-4.

.AIFF — стандартный формат аудиофайла, используемый Apple. Его можно считать эквивалентом WAV.

.AMR (AMR-NB) – тип аудио, используемый в основном для записи речи.

.APE (Ashland Monkey’s) – формат аудио со сжатием без потери качества.

.M4A — аудио в MPEG-4, используемый Apple для незащищенной музыки, загруженной из iTunes Music Store. Аудио в файле M4A обычно кодируется AAC, хотя ALAC также может использоваться без потерь качества.

.M4P — Apple-версия AAC с патентованным управлением цифровыми правами, разработанная Apple для использования в музыке, загруженной из iTunes Music Store.

.MMF– вид аудио от Samsung, используемый в мелодии звонка. Он был разработан Yamaha и представляет собой формат мультимедийных данных.

.MP3 -формат MPEG Layer III Audio. Это самый распространенный вид звукового файла, используемый сегодня. Также он известен как MPEG-1 или MPEG-2 и представляет собой своеобразный формат аудиокодирования для цифрового звука. Он использует форму сжатия данных с потерями для кодирования информации с применением неточных приближений и отбрасывания частичных данных. Все это выполняется с целью уменьшения размеров файлов, как правило, в 10 раз, по сравнению с компакт-диском. При этом сохраняется качество звука, сравнимое с несжатым. По сравнению с цифровым аудиокачеством CD, качество сжатия MP3 обычно достигает 75-95 % по уменьшению размера. Таким образом, файлы этот типа составляют от 1/4 до 1/20 размера исходного цифрового аудиопотока. Это важно для обеспечения передачи и хранения файлов, особенно в наши дни, когда обмен информацией распространен очень широко. Основой для такого сравнения является формат цифрового аудио CD, который требует 1411200 бит/с. Обычно используемой настройкой кодирования MP3 является CBR 128 кбит/с, в результате получается файл размером 1/11 (= 9 %) от размера исходного файла качества CD, то есть с 91 % сжатием.

Сжатие MP3 с потерей работает, уменьшая (или приближая) точность некоторых частей непрерывного звука, которые считаются недоступными для слухового разрешения большинства людей. Этот метод обычно называют перцепционным кодированием или «психоакустикой». Он использует психоакустические модели для отбрасывания или уменьшения точности компонентов, менее слышимых для человеческого слуха, а затем записывает оставшуюся информацию эффективным образом.

.MPC (ранее известный как MPEGplus, MPEG+ или MP+) — представляет собой аудиокодек с открытым исходным кодом, специально оптимизированный для прозрачного сжатия стерео/аудио с битрейтом 160-180 Кбит/с.

Формат .OGG, .OGA, MOGG — свободный открытый контейнерный тип, поддерживающий множество других видов, самым популярным из которых является аудиоформат Vorbis. Он предлагает сжатие, подобное MP3, но менее популярное. VJGG (Multi-Track-Single-Logical-StreamOgg-Vorbis) является многоканальным или многодорожечным файловым форматом OGG.

.WAV — стандартный формат файла звукового файла, используемый в основном на ПК с ОС Windows. Обычно используется для хранения несжатых (PCM) звуковых файлов качества CD, что означает, что они могут быть большими по размеру — около 10 МБ в минуту. Эти файлы могут также содержать данные, закодированные с помощью различных кодеков, для уменьшения размера (например, перевода в формат GSM или MP3). WAV-файлы используют структуру RIFF. Этот формат наиболее хорошо сохраняет качество файлов.

.WMA — формат Microsoft Windows Media Audio. Разработан с возможностями управления цифровыми правами (DRM) для защиты от копирования. Ранее был распространен так же широко, как формат OGG или MP3.

.WV — формат, созданный для видео в формате HTML5.

Для аудиокниг

.AOT Audible.com — контейнер аудиокниги с низким битрейтом с DRM, содержащий аудио, закодированное как MP3 или ACELP-речевой кодек.

.M4B — расширение аудиокниги/подкаста с кодировкой AAC или ALAC в контейнере MPEG-4. Оба формата могут содержать метаданные, включая маркеры глав, изображения и гиперссылки. Кроме того, M4B допускает «закладки» (запоминание последнего места прослушивания), в то время как M4A этого не делает.

Разработанные для определенной цели

.ACT — это сжатый аудиоформат ADPCM до 8 кбит/с. В нем происходит запись с большинства китайских MP3- и MP4-плееров и диктофонов.

.AU — стандартный формат аудиофайла, используемый Sun, Unix и Java. Аудио в файлах AU может быть в виде PCM или же сжатым с помощью кодеков μ-law, a-law или G729.

.AWB (AMR-WB) — аудио, используемое в основном для речи, аналогично спецификации ITU-T G.722.2.

.DCT – его использует программное обеспечение NCH. Это формат переменных кодеков, предназначенных для диктовки. Он имеет информацию заголовка диктовки и может быть зашифрован (как того требуют медицинские законы конфиденциальности). Можно также сказать, что это проприетарный формат программного обеспечения NCH.

.DSS — файлы Olympus DSS являются собственными форматами Olympus. Это довольно старый и плохой кодек. GSM или MP3, как правило, предпочтительнее, если их позволяет использовать рекордер. Это дает возможность хранить дополнительные данные в заголовке файла.

.DVF — это собственный формат Sony для сжатых голосовых файлов, обычно используемый диктофонами этой компании.

.GSM — разработанный для использования в телефонии в Европе. Это лучший аудио-формат для качественного звучания голоса по телефону. Хороший компромисс между размером и качеством файла. Также стоит отметить, что WAV-файлы иногда могут быть закодированы с помощью кодека GSM.

.MSV — собственный формат Sony для сжатых голосовых файлов Memory Stick.

Интернет-форматы

.FLAC — формат файла для Free Lossless Audio Codec, кодек сжатия аудио без потерь качества.

.IKLAX – это многодорожечный цифровой аудиоформат, позволяющий выполнять различные действия с музыкальными данными, например, при размешивании и компоновке томов.

.IVS — проприетарная версия с Digital Rights Management, разработанная компанией 3D Solar UK Ltd для использования в музыке, загружаемой из музыкального магазина Tronme, а также для интерактивной музыки и видеоплеера.

.OPUS (Internet Engineering Task Force) — формат сжатия аудиоданных с потерями качества, разработанный рабочей группой Internet Engineering Task Force (IETF) и созданный специально для интерактивных приложений реального времени через интернет. Представлен в качестве открытого типа, стандартизованного с помощью RFC 6716, его эталонная реализация предоставляется в соответствии с лицензией BSD на 3 раздела.

Илон Маск рекомендует:  Превью картинки с открытием оригинала на чистом JS.

.RA, .RM — формат Real Audio, предназначенный для потоковой передачи звука через интернет. При этом .RA позволяет хранить файлы в автономном режиме на компьютере со всеми аудиоданными, содержащимися в самом файле. Программы для аудио-форматов этого типа в настоящее время считаются устаревшими.

Наиболее редкие

.RAW — необработанный файл может содержать аудио в любом формате, но обычно используется с аудиоданными PCM. Он используется редко, за исключением технических испытаний.

.SLN – утвержденный линейный формат PCM, используемый Asterisk. До версии v.10, стандартными типами аудио были 16-битные Signed Linea.

.Vox- чаще всего использует кодек Dialogic ADPCM (Adaptive Differential Pulse Code Modulation). Подобно другим форматам ADPCM, он сжимает данные до 4 бит. Файлы формата Vox подобны волновым файлам, за исключением того, что они не содержат информации о самом файле, поэтому форматы воспроизведения аудио могут отличаться. Для этого понадобится сначала указать частоту дискретизации кодека и количество каналов.

WAV DATA как “сидят данные”

Нашел много инфы про WAV формат , но про сами данные как они лежат не совсем понятно. Может кто из гуру подскажет. В частности есть хорошая статья http://www.frolov-lib.ru/books/bsp/v15/ch2_4.htm где вроде как и расписано в разделе «Формат файла WAV» что :

Для монофонического сигнала с дискретностью 8 бит звуковые данные представляют собой массив однобайтовых значений, каждое из которых является выборкой сигнала. Для стереофонического сигнала с дискретностью 8 бит звуковые данных имеют формат массива двухбайтовых слов, причем младший байт слова соответствует левому каналу, а старший — правому. Формат звуковых данных с дискретностью 16 бит выглядит аналогично. Для монофонического сигнала данные хранятся в массиве 16-битовых слов. Для стереофонического используется массив двойных слов, причем младшему слову соответствует левый канал, а старшему — правый. Диапазон изменения значений выборок сигнала определяется дискретизацией. Для 8-битовых данных он составляет от 0 до 255 (0xff), причем отсутствию сигнала (полной тишине) соответствует значение 128 (0x80). Для 16-битовых данных диапазон изменения составляет от -32768 (-0x8000) до 32767 (0x7fff), отсутствию сигнала соответствует значение 0.

Если прочитать из вырезки сказано что при дискретности 8 бит младший байт слова соответствует левому каналу, а старший — правому. НО ЕСЛИ мы возьмем из байта FF (8 бит) младший байт то там вместится только 15 максимально (F-15) откуда же там будет 128 . 128 будет если из FF (255) разделить на 2 но никак у них сказано что младший байт слова соответствует левому каналу. Такая же ситуация и с 16 битной дискретизацией.

Есть данные (WAV) моносигнал на 16 бит: Как они сидят в памяти (файле). Из текст видно что сидят как

|два байта|два байта|два байта|

и опять таки диапазон значений от -32768 до 32768 . Отсутствие сигнала 0 ? Если от 0 до 32767 меняется громкость то что тогда до -32767

Ну и такая же ерунда со стерео-данными на 16 бит.

Вообще интересно сделать элементарное увеличение/уменьшение громкости звука . не используя bass . по чистым данным wav файла.

Вроде как теоретически достатачно пройти по данным и их вытащить байт ,придавить например +1 и записать его назад.

Основные форматы звуковых файлов. Сравнительный анализ параметров наиболее часто используемых форматов

Формат файла, определяющий структуру представления звуковых данных при хранении на запоминающем устройстве компьютера. Изменение длины аудиофайла при переходе от стереофонической записи к монофонической. Цифровой аналог записи на магнитофонную ленту.

Рубрика Программирование, компьютеры и кибернетика
Вид доклад
Язык русский
Дата добавления 20.02.2014
Размер файла 11,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

Формат файла определяет структуру и особенности представления звуковых данных при хранении на запоминающем устройстве ПК. Выделяют три группы звуковых форматов файлов:

— аудиоформаты без сжатия, такие как (WAV, AIFF);

— аудиоформаты со сжатием без потерь ( FLAC) метод сжатия данных при использовании которого закодированные данные могут быть восстановлены с точностью до бита;

— аудиоформаты, с применением сжатия с потерями (mp3, ogg) метод сжатия (компрессии) данных, при использовании которого распакованные данные отличаются от исходных, но степень отличия не является существенной с точки зрения их дальнейшего использования.

WAV-файлы — это полный аналог записи на магнитофонную ленту, только значения амплитуды сигнала записывается не в аналоговом виде, а в виде последовательности цифровых кодов, соответствующих значению амплитуды звукового согнала в каждый момент времени сигнала.

Для записи WAV-файла необходима специальная аппаратура, включающая аналого-цифровой преобразователь, который в последовательные моменты времени замеряет амплитуды сигнала и записывает их в память компьютера в виде 8-ми или 16-ти разрядных кодов, и для воспроизведения цифро-аналоговый преобразователь, который по записанным кодам, восстанавливает амплитуду согнала, т.е. приводит его к исходному виду.

Файлы с расширением .WAV, к сожалению, довольно громоздки — занимают сотни Кбайт на каждую минуту записи. Так, например, знакомый всем звук аккорда, который проигрывается при завершении загрузки ОС WINDOWS 95 и звучит 6,12 секунды, занимает 135 876 байт.


Информация при записи WAVE-файлов сжимается как аппаратными входящими в состав звуковой платы, так и программными, входящими в состав операционной системы, средствами для уменьшения размеров файла.

Размер файлов зависит, прежде всего, от частоты квантования, задающей число выборок (отсчетов) звукового сигнала в единицу времени. Именно эти выборки представляются АЦП в виде двоичных чисел, несущих информацию о мгновенном значении сигнала в моменты выборок. Звуковые компакт-диски, к примеру, имеют частоту квантования 44.1 кГц. Частота квантования должна быть вдвое выше высшей частоты спектра звуковых сигналов. Практически частота квантования в 44.1 кГц позволяет записывать (и затем воспроизводить) весь частотный диапазон звуковых сигналов — от 20 до 20 000 Гц.

Однако для записей умеренного качества достаточен более узкий диапазон частот — например, для разборчивой речи от примерно 400 до 3 500 Гц. Поэтому при записи WAVE-файлов предусматривается ряд частот квантования, чаще всего от 5 Кгц. до 44-45 Кгц., а точность измерения уровня сигнала может быть выбрана 8 или 16 разрядов. Чем ниже частоты квантования, чем меньше точность измерения, тем меньше (пропорционально) размер WAVE-файлов и хуже качество воспроизведения звука.

Переход от двухканальной (стереофонической) записи с одноканальной (монофонической) уменьшает длину звуковых файлов вдвое. Проигрыватели WAVE-файлов обычно автоматически распознают тип записи и частоту квантования.

AIFF наряду с WAV, является одним из форматов используемых в профессиональных аудио и видео приложениях, так как в отличие от более популярного формата mp3 в нём звук не имеет потерь в качестве. Как и любые несжатые файлы, файлы AIFF занимают намного больше дискового пространства, чем их сжатые аналоги: одна минута стерео звука с частотой дискретизации 44,1 кГц и размером выборки 16 бит занимает около 10МБ.

FLAC популярный свободный кодек, предназначенный для сжатия аудиоданных без потерь.

В отличие от аудио-кодеков, обеспечивающих сжатие с потерями, и FLAC не удаляет никакой информации из аудиопотока и подходит как для прослушивания музыки на высококачественной звуковоспроизводящей аппаратуре, так и для архивирования аудиоколлекции.

Сегодня формат FLAC поддерживается множеством аудиоприложений и портативных аудиоплееров, а также имеет большое количество аппаратных реализаций. По состоянию на 10.03.2010 в libflac-1.2.1 определены следующие типы блоков: StreamInfo, Padding, Application, SeekTable, VorbisComment, CueSheet, Picture, Unknown. Блоки метаданных могут быть любого размера, новые блоки могут быть легко добавлены. Декодер пропускает неизвестные ему блоки метаданных.

Блок STREAMINFO является обязательным. В нём содержатся данные, позволяющие декодеру настроить буферы, частоту дискретизации, количество каналов, количество бит на семпл и количество семплов. Также в блок записывается подпись MD5 несжатых аудиоданных. Это полезно для проверки всего потока после его передачи.

Другие блоки предназначены для резервирования места, хранения таблиц точек поиска, тегов, список разметки аудиодисков, а также данных для конкретных приложений. Опции для добавления блоков PADDING или точек поиска приведены ниже. FLAC не нуждается в точках поиска, однако они позволяют значительно увеличить скорость доступа, а также могут быть использованы для расстановки меток в аудио редакторах.

Существует четыре версии алгоритма сжатия файлов MPEG, которые обозначаются как MPEG-1 — MPEG-4. В Internet наиболее часто используется версия MPEG-1, хотя по мере развития коммуникационных технологий будут внедряться и остальные варианты. Стандарт MPEG-1 определяет три уровня, каждому из которых соответствует свой собственный формат. Усложненные алгоритмы более высокого уровня требуют более длительного времени работы, однако обеспечивают более высокие степени сжатия при сохранении практически точного соответствия оригиналу. Уровень I обеспечивает самую высокую скорость кодирования, а уровень III дает наибольшую степень сжатия при сопоставимом качестве звука. Для звуковых файлов наиболее часто используется MPEG-1 уровня III (расширения файлов .МР3) Все уровни основаны на психоакустических моделях, которые обосновывают выбор частотных составляющих сигнала, которые могут быть отброшены без ущерба для субъективного восприятия качества звучания. Файлы MPEG-1 уровня III сохраняют практически неотличимое от несжатого оригинала качество звучания при степени сжатия до 12:1.

Эта система кодирования звуковых файлов, чрезвычайно широко распространенной в Internet. Существуют специальные музыкальные сервера или отдельные музыкальные страницы, на которых имеются ссылки на музыкальные произведения.

Преимущества данной технологии в том, что информация передается клиенту непосредственно с транслирующего сервера без предварительной загрузки и сохранения на жестком диске компьютера. Однако, качество воспроизведения сильно зависит от скорости канала и качества связи по нему. На линии 14.4 кб/сек — нормальное воспроизведение монофонной программы, на 28.8 кб/сек — стереопрограммы с качеством близким к УКВ приему, на ISDN линиях качество близко к компакт-диску.

Ogg Vorbis — это относительно новый универсальный формат аудио компрессии, официально вышедший летом 2002 года. Он принадлежит к тому же типу форматов, что и МР3, то есть к форматам компрессии с потерями. Психоаккустическая модель, используемая в Ogg Vorbis, по принципам действия близка к МР3, но и только — математическая обработка и практическая реализация этой модели в корне отличаются, что позволяет авторам объявить свой формат совершенно независимым от всех предшественников. звуковой цифровой стереофонический аудиофайл

Главное неоспоримое преимущество формата Ogg Vorbis — это его полная открытость и свободность. Более того, в нем использована новейшая и наиболее качественная психоаккустическая модель, из-за чего соотношение битрейт/качество значительно ниже, чем у других форматов. Как результат — качество звука лучше, но размер файла меньше.

В формате имеется большое количество достоинств. Например, формат Ogg Vorbis не ограничивает пользователя только двумя аудио каналами (стерео — левый и правый). Он поддерживает до 225 отдельных каналов с частотой дискретизации до 192kHz и разрядностью до 32bit (чего не позволяет ни один формат сжатия с потерями), поэтому Ogg Vorbis великолепно подходит для кодирования 6-ти канального звука DVD-Audio. К тому же, формат OGG Vorbis — sample accurate. Это гарантирует, что звуковые данные перед кодированием и после декодирования не будут иметь смещений или дополнительных/потерянных сэмплов относительно друг друга. Это легко оценить, когда вы кодируете non-stop музыку (когда один трек постепенно входит в другой) — в итоге сохранится целостность звука.

MIDI-файлы не являются непосредственной записью звуков, а представляют собой набор команд, какой музыкальный инструмент, какую ноту, какой длительности (и некоторые другие характеристики) использовать. Реальной звуковой информации такие файлы не несут. Они просто указывают, когда и в какой момент должен звучать тот или иной музыкальный инструмент. По какому каналу, с какой громкостью и какими иными звуковыми параметрами. Словом, MIDI-файлы являются набором инструкций для синтезатора музыкальных звуков. Можно сказать, что они подобны нотам, по которым исполняется музыкальное произведение — не случайно есть программы, которые по таким файлам действительно воссоздают нотные записи музыки!

Однако, как и сами ноты это не музыка и для получения ее нужен исполнитель и музыкальный инструмент, так и MIDI-файлы требуют для получения музыки своего инструмента — синтезатора музыки — в простом случае это звуковая плата компьютера. Принцип синтеза здесь следующий — в памяти звуковой платы записываются образцы звучания всех нот нескольких инструментов, от трех до двадцати инструментов. В соответствии с командами из файла, извлекается тот или иной эталон, возможно, модифицируется — изменяется тембр, громкость, высота и преобразуется в аналоговый сигнал и подается на выходной усилитель.

Эти файлы используются для записи и воспроизведения инструментальной музыки и генерации музыкального сопровождения и аранжировки музыкальных произведений.

Такой подход приводит к тому, что MIDI-файлы имеют значительно меньший размер, чем файлы с информацией о реальных звуках. С частотным диапазоном и частотами квантования размеры MIDI-файлов никоим образом не связаны. В результате запись даже довольно длинного музыкального произведения занимает обычно десятки Кбайт (редко до 150-200 Кбайт). Если преобразовать MIDI- файл размером в 20 кб. В WAV-файл, то последний будет около 3 Мб. MIDI-файлы поддерживают работу как обычных музыкальных синтезаторов, использующих частотную модуляцию FM (Frequense Modulation), так и более новых волновых синтезаторов WS.

Размещено на Allbest.ru

Подобные документы

Формат звукового файла wav, способ его кодирования. Реализация возможностей воспроизведения звука в среде программирования MATLAB. Составление функциональной схемы программы. Апробирование информационной технологии воспроизведения звуковых файлов.

курсовая работа [1,2 M], добавлен 13.02.2020

Векторный способ записи графических данных. Tехнология сжатия файлов изображений Djvu. Скорость кодирования и размеры сжатых файлов. Сетевые графические форматы. Особенности работы в программе Djvu Solo в упрощенном виде. Разновидности стандарта jpeg.

реферат [23,5 K], добавлен 01.04.2010

Генерирование и сохранение мелодии в виде звукового файла формата wav. Проведение частотного анализа полученного сигнала. Зависимость объема wav-файлов от разрядности кодирования сигнала. Спектр нот записанного wav-файла с заданной разрядностью.

лабораторная работа [191,0 K], добавлен 30.03.2015

Восприятие звуковых раздражений. Частота, амплитуда, фаза как характеристики звука. Представление и способы передачи цифровой информации. Особенности дискретизации звука. Способы записи информации: бит в бит; сжатие; структура болванки CD-R; запись CD-R.

реферат [23,4 K], добавлен 10.11.2009

Работа с файлами на языке Pascal. Типы файлов: типизированные, текстовые, нетипизированные. Сущность процедуры и функции. Использование процедуры Read и Write для операций чтения и записи в типизированном файле. Листинг программы и экранные формы.

лабораторная работа [38,4 K], добавлен 13.02.2009

Описание используемых в программе операторов, процедур, функций. Директива include. Правила объявления и определения функций в СИ++. Блок-схема алгоритма программы. Подпрограммы чтения из файла и записи в файл. Использование заголовочных файлов.

курсовая работа [346,8 K], добавлен 26.04.2012

Основные сведения о звуковых волнах, их характеристики и спектральное представление звука. Виды искажений, помехи и шумы. Состав звуковых плат. Назначение и стандарты midi-систем. Запись и передача звука, формат mp3. Основные программные интерфейсы.

курс лекций [811,6 K], добавлен 08.07.2010

Редактирование аналоговых и цифровых изображений. Описание графических форматов файла. Алгоритм отображения файла и реализации эффектов. Программа для работы с графическими форматами. Назначение и взаимодействие модулей. Перечень процедур и функций.

курсовая работа [516,8 K], добавлен 28.05.2013

Этапы создания базы данных. Тестирование программной продукции с распечаткой всех используемых форм. Способ хранения данных. Блок-схемы к запросам. Алгоритмы выполнения каждого запроса. Вывод на экран простейшего интерфейса. Открытие файлов для записи.

дипломная работа [549,4 K], добавлен 05.11.2011

Сущность и виды компакт-привода (оптического привода), история его появления. Формат хранения данных на диске. Считывание информации с диска. Скорость чтения/записи CD. Суть технологии записи высокой плотности. Технические особенности CD и DVD дисков.

контрольная работа [26,1 K], добавлен 04.10.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Разновидности аудио форматов

Практическое занятие №1

Тема: Изучение звуковых файлов на примере звукового редактора Audacity

Цель: Получение практических навыков по обработки и редактирования звука

Ключевые положения

Общие сведения

Звуковые файлы —файлы, содержащие цифровую запись аудиоданных (голоса, музыкальных произведений или их фрагментов и других звуков любой природы). Существуют два основных типа звуковых файлов: с оцифрованным звуком и нотной записью. Звуковые файлы представляют собой неотъемлемую составную часть мультимедиа.

1.1.1 Файлы с оцифрованным звуком [digitized sound files] — звуковые файлы, в которых исходная непрерывная («аналоговая») форма сигнала записана в виде последовательности коротких дискретных значений амплитуд звукового сигнала, измеренных («выбранный) через одинаковые промежутки времени и имеющих между собой весьма малый интервал. Процесс замены непрерывного сигнала последовательностью его значений называют дискретизацией [sampling], а такую форму записи — импульсно-кодовой [pulse code]. Аппаратная реализация обработки оцифрованного звука состоит в том, что АЦП преобразует аналоговый сигнал в множество цифровых замеров, а при воспроизведении ЦАП осуществляет обратный процесс — преобразование цифрового сигнала в аналоговый. Файлы с оцифрованным звуком бывают двух видов: с заголовком и без заголовка.

Разновидности аудио форматов

Формат хранения звукового контента в цифровом типе во многом зависит от метода квантования аналогово-цифровым конвертором. В современной звуковой технике самыми распространенными являются следующие два вида квантования:

  • импульсно-кодовая модуляция
  • сигма-дельта-модуляция

Основные понятия:

Выборка, отсчет (квантование звукового сигнала)[sample] — дискретное («мгновенное») значение, соответствующее минимальному фрагменту исходного звукового сигнала, который подается на вход аналого-цифрового преобразователя (АЦП) при записи звука или получается с использованием цифро-аналогового преобразователя (ЦАП) при его воспроизведении. Выборка характеризует амплитуду звукового сигнала и обычно представляет собой целое число (8 или 16 бит). Может производиться по одному каналу (моно), двум (стерео) или большему числу каналов. Процесс разделения сигнала на выборки называется квантованием [quantizing].

— Разрядность дискретизации [Sample size] —величина, определяющая количество бит на один канал. Разрядность дискретизации определяет точность замера и качество записи звука. В частности, она влияет на величину отношения сигнала к шуму (signal-to-noise-ratio). Чем выше разрядность дискретизации, тем выше качество записи и воспроизведения звука. Однако при увеличении ее значения существенно растет и объем записи.

— Частота дискретизации [sampling rate] —величина, которая определяет, сколько раз в секунду производится считывание выборок из аналогового сигнала. При цифровой записи звуков частота дискретизации измеряется в герцах и килогерцах. Чем выше частота дискретизации, тем выше качество звука. Однако соответственно увеличивается и объем записи. Для определения оптимальной частоты и разрядности необходимо найти компромисс между звуковым качеством и размером данных. О принципе подхода к выбору частоты дискретизации.

Зачастую разрядность и частоту дискретизации устанавливают для разных звуковых девайсов сохранения и проигрывания как формата хранения цифрового аудио (стандарты 24б/192кГц; 16б/48кГц) Формат аудио-файла вычисляет структуру и специфику образования цифрового аудио контента при хранении на ЗУ ПК. Для сжатия аудио данных используются различные аудеокодеки, при помощи которых производится сжатие данных в аудио потоках, что значительно может экономить размер файла, не теряя качества звучания. Различают 3 категории аудио форматов:

  • звуковые форматы без сжатия (WAV, AIFF, WAVE)
  • звуковые форматы со сжатием без потерь (APE, FLAC)
  • звуковые форматы, с применением сжатия с потерями (mp3, ogg, acc, WNA)

Файлы с заголовком[files with heading] — один из двух видов файлов с оцифрованным звуком. В заголовке указываются параметры, которые характеризуют оцифрованный звук, включая: частоту дискретизации; количество битов на отсчет (8 или 16); количество каналов —моно (1) или стерео (2); ASCII-символы, описывающие тип файла; длину записанных данных в байтах; номер версии формата; метод компрессии; величину смещения блока данных относительно начала файла и др.

Некоторые звуковые редакторы (GoldWave, Cool Ed it) позволяют импортировать файлы с оцифрованным звуком без заголовка. При этом запрашиваются: частота дискретизации, количество битов на отсчет, количество каналов. Затем информацию можно экспортировать (сохранить) в файле с заголовком (.wav, .voc). Заголовок.voc можно дополнить и утилитой VOCHDR, а полученный файл конвертировать B.wav утилитой VOC2WAV (VOCHDR и VOC2WAV входят в поставку Sound Blaster 16).

1.1.2 Файлы с нотной записью [song file, music file] — звуковые файлы, которые содержат последовательность команд, сообщающих какую ноту и каким инструментом и как долго нужно воспроизводить в тот или иной момент времени. Формат может предусматривать одновременную игру нескольких музыкальных инструментов, в этом случае говорят о соответствующем количестве голосов. Например, плата Sound Blaster 16 поддерживает 20-голосный синтез. Размер такого файла может быть в десятки и сотни раз меньше файлов с оцифрованным звуком. Однако такие файлы не могут воспроизводить речь, природные и любые другие звуки, а только музыку без слов. Это связано с тем, что в микросхеме звуковой платы записаны заранее синтезированные звуки основных музыкальных инструментов и, соответственно, воспроизводить музыку можно только теми инструментами, которые имеются в наличии, т. е. какие инструменты есть в оркестре, те и будут воспроизводить музыку.

При воспроизведении файлов с нотной записью могут использоваться следующие виды синтеза звука:

FM-синтез [FM-synthesis] — синтез с использованием частотной модуляции, при которой формируется частота звучания соответствующей ноты. Данный метод позволяет успешно имитировать реальные музыкальные инструменты (пианино, гитару и т. п.);

wavetabIе-синтез [wavetable-synthesis] — «Табличный синтез»: использует оцифровку нот реальных инструментов. Получение требуемой ноты производится путем оцифровки одной ноты реального инструмента. Исходные оцифровки содержатся в файле с нотной записью или в отдельном файле (такие файлы одновременно являются файлами с нотной записью и содержат оцифрованный звук).

Последний способ сначала применялся для проигрывания.mod файлов на компьютере Amiga, затем благодаря своей гибкости и большому количеству файлов этого формата получил широкое распространение на различных типах компьютеров: IBM-совместимых, Macintosh, SPARCstation. Оцифровки инструментов (samples) в.mod файле —8-битные, со знаком, без заголовка; частота дискретизации 10 кГц, получены путем применения линейной ИКМ. Причем оцифрована одна нота каждого инструмента («до» первой октавы). В файле может быть до 31 оцифровки, каждая длиной до 128 Кбайт (обычно меньше). Звуковые платы при проигрывании файлов формата MIDI используют FM- или wavetable-синтез (wavetable-синтвз поддерживают немногие звуковые платы, например SoundBlaster AWE32).

Основные аудио форматы

AA (Audible Audio Book File) – формат является закрытым, разработан компанией Audible. Применяется, для записи аудиокниг, которые продаются через сервисы Audible и iTunes. Существует возможность замедлять или ускорять скорость прослушивания файлов – digital pitch, возможность оставлять закладки при прослушивании аудио книг, защита файлов, при доставке звуковых записей посредством internet.

AAC (Advanced Audio Coding) – формат аудио-файла с меньшей потерей качества при кодировании, чем Mp3 при одинаковых размерах. Кодирование музыки без потерь качества оригинала с помощью профиля ALAC. AAC – семейство алгоритмов аудио кодирования MPEG4. В отличие от гибридного набора фильтров mp3, AAC использует MDST технологию (модифицированное косинусное преобразование) – это значит, что слушатель получает более лучшее качество звука, чем при MP3 кодировании с таким же или меньшим битрейтом. Возможные расширения AAC файлов: [.m4a],[.m4b],[.m4p].

Также AAC — это широкополосный алгоритм кодирования аудио, который использует два основных принципа кодирования для сильного уменьшения количества данных, требуемых для передачи высококачественного цифрового аудио. Данный формат является одним из наиболее качественных, использующих сжатие с потерями, поддерживаемый большинством современного оборудования, в том числе портативного.

На 2009 год распространён значительно меньше, чем MP3 и другие альтернативные решения. AAC (Advanced Audio Coding) изначально создавался как преемник MP3 с улучшенным качеством кодирования. Формат AAC, официально известный как ISO/IEC 13818-7, вышел в свет в 1997 как новая, седьмая, часть семьи MPEG-2. Существует также формат AAC, известный как MPEG-4 Часть 3.

Преимущества AAC перед MP3:

— до 48 звуковых каналов;

— большая эффективность кодирования как при постоянном, так и при переменном битрейте;

— частоты дискретизации от 8 Гц до 96 кГц (MP3: 8 Гц — 48 кГц);


— более гибкий режим Joint stereo.

ADX – основанный на АДИКМ проприетарный формат сжатия с потерями и хранения звукозаписи, разработанный CRI Middleware специально для использования в видеоиграх. Наиболее характерная особенность — возможность зациклить звукозапись, что делает применение формата удобным для использования в качестве фоновой музыки в различных играх, поддерживающих этот медиаконтейнер. Его поддерживают множество игр для SEGA Dreamcast некоторые игры для PlayStation 2 и GameCube.

В отличие MP3, в нём не применяется психоакустическая модель уменьшения объёма данных о звуке (уменьшения его сложности). Вместо этого модель ADPCM использует для сохранения образцов запись данных относительной ошибки функции предсказания, что означает бо́льшую сохранность исходного сигнала после кодирования; по существу, сжатие ADPCM, вместо использования полных переразмерянных образцов звукозаписи, предоставляет образцы отклонения сигнала от предыдущего значения, которые имеют гораздо меньший размер, обычно — 4 бита. Для человеческого уха такое отклонение находится на уровне шума, что делает потерю качества едва заметной.

AIFF – это стандартный формат файлов для сохранения аудиоданных на платформе Macintosh. Если вам когда-нибудь потребуется пересылать аудиофайлы между персональным компьютером и компьютером Macintosh, используйте именно этот формат. Он поддерживает 8- и 16-битные монофонические и стереофонические аудиоданные. Файлы этого формата могут содержать заголовок Mac-Binary, а могут и не иметь его. Если файл данного типа не содержит заголовка Mac-Binary, он, скорее всего, имеет расширение aif. Если файл данного типа содержит заголовок Mac-Binary, то Sound Forge откроет его, но идентифицирует как файл формата Macintosh Resource (см. следующий раздел). В этом случае файл, скорее всего, имеет расширение snd. Замечание При сохранении файлов на компьютерах Macintosh к ним добавляется так называемый заголовок Mac-Binary. Это маленький фрагмент информации, записываемый в начале файла, идентифицирующий тип файла для операционной системы Mac OS и других приложений. Таким способом компьютеры Macintosh сообщают, что содержит файл: текст, графику или, например, аудиоданные.

AMR (Adaptive multi rate) [.amr] — адаптивное кодирование с переменной скоростью. Стандарт кодирования звуковых файлов, специально предназначенный для сжатия сигнала в речевом диапазоне частот. Стандартизован ETSI (European Telecommunications Standards Institute). Использование AMR позволяет обеспечить высокую ёмкость сети с одновременно высоким качеством передачи речи. AMR обладает широким набором скоростей кодирования/декодирования речи и позволяет гибко переключаться на различные режимы в зависимости от окружающих условий или загрузки сети, в любых условиях обеспечивая кристально чистую передачу голоса.

APE – (Monkey‘s Audio) [.ape] – разработчик Мэтью Т. Эшланд – формат цифрового звука без потерь качества (lossless). Кодек Monkey’s Audio выпускается только для платформы Microsoft Windows, хотя существует ряд неофициальных кодеков для MacOS, Linux, BeOS. Файлы Monkey’s Audio используют следующие расширения: .ape – для хранения аудио и .apl – для хранения метаданных. Данный формат не является свободным, т.к. лицензия на него серьезно ограничивает распространение.

Apple Lossless [.m4a] – это аудио кодек, разработанный Apple Inc, для сжатия цифровой музыки без потерь данных. Apple Lossless данные хранятся в контейнере MP4 с расширением .m4a. Хотя Apple Lossless имеет такое же расширение файла, как AAC, это не AAC, кодек схож с другими Lossless кодеками, такими как FLAC и др. Плеер iPod с док разъемом (не shuffle) и последней прошивкой может проигрывать файлы в формате Apple Lossless. Он не использует какие-либо управления цифровыми правами (DRM), но, с учётом характера контейнера, считается, что DRM может применяться к ALAC.

Илон Маск рекомендует:  PAnsiChar - Тип Delphi

Тесты показали, что сжатые в ALAC файлы получаются примерно от 40 % до 60 % размера оригиналов в зависимости от вида музыки, подобно другим Lossless форматам. Кроме того, скорость, с которой он может быть декодирован, делает его полезным для устройств с ограниченной производительностью, такие как iPod.

Apple Lossless Encoder был представлен в качестве одного из компонентов QuickTime 6.5.1 28 апреля 2004 года и как функция iTunes 4.5. Кодек используется также в AirPort Express в AirTunes осуществления.

Декодер для Apple Lossless формата теперь есть в открытых источниках библиотеки libavcodec. Это означает, что любой мультимедийный проигрыватель на основе этой библиотеки, включая мультимедиа VLC и MPlayer, может иметь возможность играть Apple Lossless файлы.

CDDA (Compact Disc Digital Audio) — звуковой компакт-диск, международный стандарт хранения оцифрованного звука на компакт-дисках, представленный фирмами Philips и Sony. Звуковая информация представлена в импульсно-кодовой модуляции с частотой дискретизации 44,1 кГц и битрейтом 1411,2 кбит/с, 16 бит стерео.

Спецификация аудио в стандарте Red Book:

— максимальное время всех записей составляет 79,8 минут;

— минимальное время трека — 4 секунды (включая 2-секундную паузу);

— максимальное количество треков — 99;

— максимальное число точек отсчёта (разделов трека) — 99 без ограничений по времени;

— долженприсутствовать International Standard Recording Code (ISRC).

DTS – (Digital Theater System), по сути – это DolbyDigital, а точнее его конкурент. Формат DTS использует минимальный уровень сжатия, чем Dolby, так что фактически он звучит лучше, что доказывают на практике DVD диски, на которых записаны дорожки в DTS или в DDформате.

DTS это цифровая театральная система — семейство систем цифровой многоканальной звукозаписи, созданное компанией «Диджитал Тиэтер Систем» для демонстрации цифровых фонограмм в кинотеатрах синхронно с прокатными фильмокопиями. Кроме сопровождения плёночных фильмокопий, обе системы (DTS иDolbyDigital) в упрощённом виде используются на оптических видеодисках для домашнего просмотра. DTS использует меньший уровень сжатия, чем Dolby, но абсолютного превосходства нет ни у одной из систем. Споры о преимуществах DTSили DolbyDigital не прекращаются по сей день. Формат DTSStereo практически идентичен DolbySurround. DTS поддерживает как 5.1-канальный, так и 7.1-канальный варианты звука. DTS в домашних театрах допускает полный битрейт (1509,75 кбит/с).

FLAC (свободный кодек из проекта Ogg) [.flac] – (англ. Free Lossless Audio Codec — свободный аудио-кодек без потерь) — популярный свободный кодек для сжатия аудио. В отличие от кодеков с потерями Ogg Vorbis, MP3 и AAC, FLAC не удаляет никакой информации из аудиопотока и подходит как для прослушивания музыки на высокачественной звуковоспроизводящей аппаратуре, так и для архивирования аудиоколлекции. На сегодня формат FLAC поддерживается многими аудиоприложениями. Чтобы хранить основные типы метаданных, базовый декодер использует теги ID3v1 и ID3v2, поэтому их можно свободно добавлять и редактировать.

MIDI (Musical Instrument Digital Interface) – цифровой интерфейс музыкальных инструментов. Это стандарт цифровой звукозаписи на формат обмена данными между электронными музыкальными инструментами.

Интерфейс позволяет единообразно кодировать в цифровой форме такие данные как нажатие клавиш, настройку громкости и других акустических параметров, выбор тембра, темпа, тональности и др., с точной привязкой во времени. В системе кодировок присутствует множество свободных команд, которые производители, программисты и пользователи могут использовать по своему усмотрению. Поэтому интерфейс MIDI позволяет, помимо исполнения музыки, синхронизировать управление другим оборудованием, например, осветительным, пиротехническим и т.п.

Последовательность MIDI-команд может быть записана на любой цифровой носитель в виде файла, передана по любым каналам связи. Воспроизводящее устройство или программа называется синтезатором (секвенсором) MIDI и фактически является автоматическим музыкальным инструментом.

MP2 (MPEG-1 Audio Layer II или Musicam) [.mp2] – один из трёх форматов (уровень 2) сжатия звука с потерями, определённых в стандарте MPEG-1. Применяется в цифровом радиовещании DAB и устаревшем стандарте Video CD, который в 90-е годы использовался для распространения фильмов на оптических компакт-дисках и существовал до широкого распространения DVD.

Кодер MPEG-1 Audio Layer 2 развился из аудиокодека MUSICAM (Masking pattern adapted Universal Subband Integrated Coding And Multiplexing — универсальное полосное кодирование и мультиплексирование с адаптацией к шаблону маскировки), разработанного CCETT, Philips и IRT в 1989 как часть исследований EUREKA 147 европейских межправительственных разработок для систем цифрового радиовещания для стационарных, портативных и мобильных приёмных устройств. Основные параметры MPEG-1 Audio были унаследованы из MUSICAM, включая банк фильтров, обработку во временной области, размер аудиокадра и т.д. Однако, после дополнительного усовершенствования, алгоритм MUSICAM не был использован в финальной версии стандарта MPEG-1 Layer II.

MP3 (MPEG Layer 3) [.mp3] — третий формат кодирования звуковой дорожки MPEG — лицензируемый формат файла для хранения аудио-информации. На данный момент MP3 является самым известным и популярным из распространённых форматов цифрового кодирования звуковой информации с потерями. Он широко используется в файлообменных сетях для оценочной передачи музыкальных произведений. Формат может проигрываться практически в любой популярной операционной системе, на практически любом портативном аудио-плеере, а также поддерживается всеми современными моделями музыкальных центров и DVD-плееров.

В формате MP3 используется алгоритм сжатия с потерями, разработанный для существенного уменьшения размера данных, необходимых для воспроизведения записи и обеспечения качества воспроизведения очень близкого к оригинальному (по мнению большинства слушателей), хотя меломаны говорят об ощутимом различии. При создании MP3 со средним битрейтом 128 кбит/с в результате получается файл, размер которого примерно равен 1/10 от оригинального файла с аудио CD. MP3 файлы могут создаваться с высоким или низким битрейтом, который влияет на качество файла-результата. Принцип сжатия заключается в снижении точности некоторых частей звукового потока, что практически неразличимо для слуха большинства людей. Данный метод называют кодированием восприятия. При этом на первом этапе строится диаграмма звука в виде последовательности коротких промежутков времени, затем на ней удаляется информация не различимая человеческим ухом, а оставшаяся информация сохраняется в компактном виде. Данный подход похож на метод сжатия, используемый при сжатии картинок в формат JPEG. Многие музыкальные гурманы, предпочитают сжимать музыку с максимальным качеством – 320 kbps, либо переходить на другие форматы, например FLAC, где битрейт в среднем

MusePack [.mpc] – нелицензируемый формат файла для хранения аудиоинформации, распространяемый по GNUGeneralPublicLicense.

В Musepack’е применяется разбиение на полосы частот, поэтому он относится к так называемым subband-кодекам. Основная особенность — точная настройка психоакустики, что позволяет работать с чистым VBR-кодированием (кодирование с переменным битрейтом). Основной задачей Musepack является прозрачность звучания закодированной музыки.

В современных форматах, таких как: MP3, Vorbis, AAC, AC3, WMA производится второе dct-преобразование, что позволяет им добиться лучшего качества на средних и низких битрейтах, но не позволяет добиться высоких результатов на более высоких. MusePack не производит второго dct-преобразования, что позволяет достичь непревзойденного качества на битрейтах выше 180.

Так же как в AAC и некоторых других современных форматах, в Musepack производится спаривание каналов по полосам частот, что незначительно отражается на качестве, но позволяет сильно сэкономить на размере. В MP3 спаривание каналов производится не по полосам частот, а для всей полосы целиком, разбивая сигнал на частотные подполосы, затем производит разложение сигнала в ряд косинусов (MDCT — частный случай преобразования Фурье) и записывает округленные (квантованные) значения полученных после преобразования коэффициентов (квантование происходит в соответствии с проводимым психоакустическим анализом). MPC же после разбиения сигнала на частотные подполосы просто производит переквантование (опираясь на психоакустику) амплитудного сигнала в каждой подполосе и полученные округленные (квантованные) значения записывает в выходной поток. Этим же фактом объясняется и большая скорость компрессии и декомпрессии MPC.

MOD – формат разработан для платформы Amiga. Каждый файл MOD содержит оцифрованные записи real звучания инструментов, так называемые сэмплы, чем-то похож на структуру MIDI. Cj или композитор, пишущий в формате MOD, применяет программу, называемую трэкером, в которой указывает, какой именно инструмент, в какое время, какой нотой и октавой должен прозвучать – эта последовательность нот записывается в список – трек, а несколько параллельно звучащих треков образуют блок, называемый паттерном. Совокупность паттернов образует модуль – файл в формате MOD, с расширением .mod. Одна линейка трекера соответствует одному реальному каналу, в котором cj может проиграть или отредактировать пронумерованные ноты. Нотам могут назначаться различные “орнаментами” – например: тремоло, глиссандо и т.д.

OGG [.ogv], [.oga], [.ogx], [.ogg] – открытый стандарт формата мультимедиа контейнера, являющийся основным файловым и потоковым форматом для мультимедиа кодеков фонда Xiph.Org, а также название проекта, занимающегося разработкой этого формата и кодеков для него. Как и все технологии, разрабатываемые под эгидой Xiph.Org, формат Ogg является открытым и свободным стандартом, не имеющим патентных или лицензионных ограничений.

Ogg является всего лишь контейнером. Музыка или видео сжимаются кодеками, а результат обработки хранится в подобных контейнерах. Контейнеры Ogg могут хранить потоки, закодированные несколькими кодеками. Например, файл с видео и звуком может содержать данные, закодированные аудио и видео кодеками.

В контейнере Ogg можно хранить звук и видео в различных форматах (таких как MPEG-4, Dirac, MP3 и другие).

RealAudio [.ra], [.ram] – Пропиарный стандарт на потоковое вещание и на формат медиафайлов, принадлежащий фирме «RealNetworksProductsandServices».RealAudio впервые представленный в составе пакета RealAudio 10, кодек для сжатия звука без потери качества.

Среди плюсов данного кодека — поддержка потокового вещания, очень быстрое декодирование. К минусам относят закрытость кода и отсутствие многоканальности. Доступен для MicrosoftWindows, Macintosh и GNU/Linux.

RKAU [.rka] – Среди всех аудиокодеков RKAU занимает совершенно особое место. Во-первых это – самый маленький (всего 25kB!) и самый быстрый кодер. Во-вторых помимо того, что он является программой сжатия звука без потерь (lossless), в нём предусмотрены режимы сжатия с потерями, обеспечивающие большую, нежели все известные lossless-алгоритмы, степень сжатия. Однако благодаря особенностям алгоритма, лежащего в основе rkau искажения, вносимые кодеком лежат не в спектральной (как в случае психоакустических моделей кодеров MP3, MP+, AAC и других), а в реальной области. То есть имеют, грубо говоря, нелинейную природу, как и искажения большинства трактов. При этом не происходит потери мелких деталей и микропланов фонограммы. Однако если “переусердствовать” в этом отношении, то звук может стать совершенно неудобоваримым: в звучании появятся жёсткие шумоподобные артефакты, а само звучание приобретёт ярко выраженное окрашивание.

В иерархии аудиокодеков программа rkau стоит стовершенно особняком. Она настолько оригинальна, что не имеет аналогов среди прочих алгоритмов сжатия аудиоданных. Малый размер программы-кодера (25kB) и высокая скорость работы при сходных с остальными lossless-алгритмами степенями сжатия выводят rkau в безусловные лидеры. И хотя самым эффективным lossless-кодером можно считать OptimFROG, рассмотренный в прдыдущей части статьи, rkau лишь ненамного отстаёт от него по эффективности. Однако при активации режима сжатия “с потерями”, rkau даже в режиме наивысшего качества оставляет далеко позади все lossless-алгоритмы, приближаясь по эффективности к программ, основанным на психоакустической модели (MP3, MP+, AAC, VQF и другие). При этом не происходит характерной для MPEG-подобных алгоритмов потери микропланов и нюансов исходного аудиоматериала, а неизбежно возникающие при этом артефакты можно заметить только на очень качественной аппаратуре при многократном сравнительном прослушивании.

Shorten [.shn] – представляет собой формат, используемый для сжатия аудиоданных. Это форма сжатия файлов используется для сжатия CD-качества ,tpgjnthm аудио файлов (44,1 кГц, 16 бит, стерео PCM). Этот формат до сих пор используется некоторыми людьми, потому что по закону продаются концертные записи в, которые кодируются как Shorten файлы.

Speex [.spx] – это свободный кодек для сжатия речевого сигнала, который может использоваться в приложениях «голос-через-интернет» (VoIP). С высокой вероятностью он не имеет никаких патентных ограничений и лицензирован под последней версией лицензии BSD (без третьей статьи). Сжатые кодеком Speexданные можно хранить либо в формате хранения звуковых данных Ogg, либо передавать напрямую с помощью пакетов UDP/RTP.

Разработчики противопоставляют свою разработку другим открытым кодекам, например, кодеку Vorbis, утверждая, что именно кодек Speex лучше всего подходит для передачи голоса по сети с ненадёжной доставкой пакетов данных. При этом авторы разработки специально подчёркивают, что кодек подходит для использования в сетях с ненадёжной передачей пакетов, то есть либо пакет пришёл, либо нет.

Speex относится к классу так называемых CodeExcitedLinearPrediction (CELP)-кодеков, то есть кодеков, построенных на основе так называемого Линейного Предсказательного кодирования ЛПК. ЛПК использует для аппроксимации отрезка речевого сигнала цифровой фильтр только с обратными связями (т. н. «авторегрессионный фильтр»). Коэффициенты этого фильтра «подгоняются» под отрезок сигнала с помощью процедуры Левинсона (в западной литературе — Левинсона-Дурбина). CELP-модификация ЛПК предусматривает наличие т. н. «кодовой книги», которая содержит предопределённые наборы возбуждающих ЛПК-фильтр единичных импульсов.

Речевой сигнал в кодеке Speex разбивается на неперекрывающиеся отрезки длительностью 20 мс (160 отсчётов при 8 КГц). При этом, для оценки возбуждающего набора вышеуказанный отрезок разбивается на четыре подотрезка длительностью 5 мс соответственно. На каждом из подотрезков отыскиваются возбуждающие наборы импульсов как текущего подотрезка (из кодовой книги), так и двух предыдущих подотрезков. В отличие от других кодеков, с целью избежать патентных ограничений, Speex не использует алгебраическое кодирование, а только векторное. Возбуждения двух предыдущих подотрезков складываются с переменными весами, в отличие от ряда других кодеков, где используются переменные положения по времени.

По заявлению разработчиков, Speex оптимизирован для получения высококачественного речевого сигнала при низких скоростях. Кодек Speex также позволяет использовать переменную степень сжатия сигнала и поддерживает сигналы с различной шириной полосы: сверхширокополосный (частота дискретизации 32 кГц), широкополосный (16 кГц) и узкополосный (8 кГц).

TAK (Tom‘slossless Audio Kompressor) [.tak] – Аудиокодек и формат сжатия цифрового звука без потерь. Отличается высокой степенью сжатия и скоростью кодирования и декодирования. Распространяется бесплатно вместе c набором программного обеспечения для кодирования и воспроизведения, а также плагинами к популярным плеерам: Winamp, foobar2000 и др. Разработчик — Thomas Becker, Германия. Относительно новый кодек. Первая финальная версия 1.0 была опубликована 26 января 2007 года.

Формат продолжает активно развиваться (последняя версия 1.1.1) и в настоящее время, согласно проводимому опросу на форуме hydrogenaudio.org, входит в число трёх наиболее популярных форматов аудиосжатия без потерь (после FLAC и WavPack)

TTA (True Audio) – бесплатный, аудио кодек, осуществляющий сжатие музыкальных файлов без потерь в режиме реального времени. Кодек основан на адаптивных предсказывающих фильтрах и обладает всеми улучшенными характеристиками, как и большинство современных кодеров. Сжатый размер файлов будет на 30 % – 70 % меньше, чем original music file. TTA формат поддерживает тэги ID3v1 и ID3v2. Используя True Audio кодек, можно разместить до 20 audio CD на одном DVD-R диске.

TwinVQ (Transform-domain Weighted Interleave Vector Quanization) — векторное квантование с трансформными доменами и взвешенным чередованием), разработанной в Японии в лаборатории NTTHumanInterfaceLabolatories.

VQF-файлы примерно на 30-35 % меньше, чем MP3, при одинаковом качестве звука. Потоку 128 Кбит/с у файлов MP3 соответствует поток 80 Кбит/с у файлов VQF. У этих достоинств есть и обратная сторона. При декодировании загрузка процессора также на 30 % выше, чем при декодировании MP3. Это определяет повышенные требования к компьютеру, на котором планируется проигрывать такие файлы.

Тесты показывают превосходство VQF по всем параметрам на нижних частотах и гораздо меньшее искажение формы сигнала с большим динамическим диапазоном (реальная музыка). Однако по завалу верхних частот звукового спектра VQF на 2-3 дБ уступает MP3 на частотах выше 15 кГц. Это впрочем, легко компенсируется настройкой эквалайзера плеера, что объективно ставит VQF на ступень выше по качеству звука по сравнению с MP3.

VQF (Interleave Vector Quanization) – разработан в Японии и основывается на технологии TwinVQ. Если сравнить VQF и MP3, то первый формат на 30-50% будет “компактнее”, при одинаковом качестве звука. Это дает VQF – значительное преимущество перед MP3 форматом. Но процесс при кодировании, декодировании (decoder) VQF, занимает примерно на 30% больше ресурсов процессора PC, чем Mp3 аудио.

Тесты показывают превосходство TwinVQ по всем параметрам на нижних частотах и гораздо меньшее искажение формы сигнала с большим динамическим диапазоном (реальная музыка). Однако по завалу верхних частот звукового спектра TwinVQ на 2-3 дБ уступает MP3 на частотах выше 15 кГц. Это впрочем, легко компенсируется настройкой эквалайзера плеера, что объективно ставит TwinVQ на ступень выше по качеству звука по сравнению с MP3.

Vorbis [.ogg] – свободный формат сжатия звука с потерями, официально появившийся летом 2002 года. По функциональности и качеству аналогичен таким кодекам как AAC, AC3 и VQF, превосходящим MP3. Психоакустическая модель, используемая в Vorbis, по принципам действия близка к MP3 и подобным, однако математическая обработка и практическая реализация этой модели существенно отличаются, что позволило авторам объявить свой формат совершенно независимым от всех предшественников.

Ogg Vorbis по умолчанию использует переменный битрейт, при этом значения последнего не ограничены какими-то жёсткими значениями, и он может варьироваться даже на 1 kbps. При этом стоит заметить, что форматом жёстко не ограничен максимальный битрейт, и при максимальных настройках кодирования он может варьировать от 500 до 1000 кбит/с. Такой же гибкостью обладает частота дискретизации — пользователям предоставляется любой выбор в пределах от 2 до 192 кГц.

Vorbis был разработан сообществом «Xiphophorus» для того, чтобы заменить все платные запатентованные аудио форматы. Несмотря на то, что это самый молодой формат из всех конкурентов MP3, Ogg Vorbis имеет полную поддержку на всех популярных платформах (Microsoft Windows, Linux, Apple Mac OS, PocketPC, Palm, Symbian, DOS, FreeBSD, BeOS и др.), а также большое количество аппаратных реализаций. Однако несмотря на все свои преимущества перед конкурентами, популярность данного формата пока невелика.

WAV (Waveform audio format) [.wav], [.wave] – разработан совместно с IBM. Формат записи (стерео- или моно-) звука без сжатия. Так всего одна минута стереозаписи звука сделанная с CD-качеством (частота дискретизации 44,1 КГц) содержит 60 с х 44100Гц х 2 канала = 5 292 000 отсчетов. На каждый отсчет может приходиться 8 или 16 бит. Таким образом, в варианте 8 бит на отсчет, одна минута звука займет в памяти 42 336 000 бит = 5 292 000 байт (около 5 Мб).

WavPack [.wv], [.wvс] – Бесплатный аудиокодек c открытым исходным кодом для сжатия аудио без потери качества. Разработан Дэвидом Бриантом.

WavPack формат позволяет сжимать (и восстанавливать) 8-, 16-, 24- и 32-битные аудиофайлы в .WAV формате. Он также поддерживает потоки звук вокруг и высокие частоты дискретизации (sampling rate). Как у других способов компрессии без потери качества, эффективность сжатия зависит от исходных данных, но обычно она лежит в диапазоне между 30 % и 70 % для обычной популярной музыки, немного выше для классической музыки и других источников с более широким динамическим диапазоном.

WavPack также включает уникальный «гибридный» режим, который предоставляет все преимущества сжатия без потерь с дополнительным бонусом: вместо создания одного файла, в этом режиме создается относительно небольшой файл высокого (точнее, указанного при кодировании) качества с потерей (.WV), который может проигрываться сам по себе, а также файл «коррекции» (.WVC), который (в комбинации с предыдущим .WV) позволяет полностью восстановить оригинал. Для некоторых пользователей это означает, что им никогда не придётся выбирать между сжатием без потерь и с потерей качества.

WMA (Windows Media Audio) [.wma] – лицензируемый формат файла, разработанный компанией Microsoft для хранения и трансляции аудио-информации.Изначально формат WMA позиционировался как альтернатива MP3, но на сегодняшний день Microsoft противопоставляет ему формат AAC (используется в популярном онлайновом музыкальном магазине iTunes).

Номинально формат WMA характеризуется хорошей способностью сжатия, что позволяет ему «обходить» формат MP3 и конкурировать по параметрам с форматами Ogg Vorbis и AAC. Но как было показано независимыми тестами, а также при субъективной оценке качество форматов все таки не является однозначно эквивалетным, а преимущество даже перед MP3 однозначным, как это утверждается компанией Microsoft. Особенно стоит отметить что ранние версии формата (или его реализации) имели проблемы на низких скоростях потока. Также многие меломаны и владельцы цифровых плееров недолюбливают формат WMA за низкую стойкость к ошибкам. Если при кодировании/передаче файла WMA некоторая часть его повреждается, то воспроизведение файла становится невозможным, как после места повреждения, так и за несколько десятков секунд до него. (Для сравнения: при повреждении файла формата MP3, его всё ещё можно воспроизвести от начала до самого места повреждения, затем пропустить несколько секунд и воспроизвести дальше до конца; иногда же ошибки в несколько байт в файле MP3 бывают на слух малозаметны или не заметны вообще.) Однако данный формат постоянно развивается, так что можно предполагать, качество будет оптимизироваться.

Большинство портативных аудиоплейеров поддерживает формат WMA наряду с MP3. Данный формат очень плохо поддерживается на альтернативных платформах (вследствие его закрытости).

Microsoft включила в WMA поддержку цифровой системы управления авторскими правами (DRM) (система защиты). Основным следствием ее является невозможность прослушивать защищенные композиции на других компьютерах, кроме того, на котором композиция была загружена из музыкального магазина.

В последних версиях формата, начиная с Windows Media Audio 9.1, предусмотрено кодирование без потери качества англ. lossless, многоканальное кодирование объемного звука и кодирование голоса.

Дата добавления: 2020-10-27 ; просмотров: 923 | Нарушение авторских прав

ТОП10 аудио форматов – рейтинг и преимущества

Как показали реальные полевые исследования – хорошая задумка составить рейтинг первой десятки лучших из лучших аудио форматов оказалась задачей в принципе невыполнимой.

Слишком разные условия соревнования для неравных участников. Кроме того, в наше благое дело помочь людям в выборе самого лучшего звукового продукта вмешиваются некие коррупционные схемы или лобби транснациональных корпораций в сфере аудио записи.

Самый популярный в мире формат MP3 попал в лидеры народной любви исключительно из-за многомиллиардных вливаний в промоушн. А если брать по качеству звучания то так себе. И даже в отношении сжатия и экономии дискового пространства тоже не самый высоко-компрессионный.

Поэтому было принято компромиссное решение – разделить подопытных на три группы и уже по группам вести сравнение и выявление лидеров.

Три типа аудио форматов

  • Без сжатия.
  • Сжатие без потерь.
  • Сжатие с потерями.

Форматы записи звука без сжатия демонстрируют все свое лучшее только на высококачественном, профессиональном звуковоспроизводящем оборудовании.


Если у вас в руках бюджетный планшет или смартфон – то в вашем гаджете будет звучать прекрасная музыка, но ее не услышите просто потому, что программно-аппаратный ресурс и динамики либо наушники не способны воспроизводить такого высокого качества звучания.

С другой стороны, если вы запустите звукозапись MP3 через профессиональные стереосистемы и усилители – вы услышите в динамиках такой шум и скрежет, что опять-таки такого рода использование окажется совершенно бессмысленным.

Рейтинг аудио по типу звуковоспроизводящего оборудования

  1. Для профессионального оборудования – форматы аудио без сжатия.
  2. Для полу-профессионального оборудования – форматы аудио со сжатием. Но без потерь.
  3. Для бюджетного оборудования – форматы аудио со сжатие и с потерями.

В первом случае оборудование настолько дорогое, что беспокоиться об экономии денег на носителях просто смешно.

Во втором случае обладатель устройства Apple за тысячу долларов тоже очевидно сможет себе позвонить потратить на пару сотен баксов на объемистую память.

В третьем случае, раз уже денег едва удалось наскрести на дешевенький смартфончик – то экономия на размерах хранимой музыки очень важна. Ну а слушать на телефоне симфонический оркестр в Hi-Fi все равно никто не собирается. Разве что закачать рингтон из классики для прикола, чтобы выглядеть крутым перцем в глазах помидорок.

На этом увертюра заканчивается, приступаем к изложению темы.

Форматы аудио для высокого качества звучания

Сюда относятся несжатые форматы.

  • PCM – импульсно кодовая модуляция. Оригинальный аналоговый звук дискретируется “как есть”, без каких либо изменений.

PCM – наиболее распространенный формат записи звука, используемый на CD и DVD дисках. Многоканальное долби, сурраунд, при условии качественных динамиков звучание почти один-в-один с живым исполнением.

Если любите засесть перед домашним кинотеатром и погрузиться с сопереживание главным и второстепенным героям кинофильма – самое то.

Довольно древний формат, разработан аж в 1991 году. Ну, так старые мастера всегда думали о высоком качестве.

Многие считают WAV несжатым форматом. Но на самом деле – это контейнер и там могут содержаться в том числе и сжатые файлы.

В большинстве случаев WAV содержит несжатый звук в формате PCM. Поэтому и качество высокое. Но и на одну минуту записи тратится около 32MB памяти.

Достаточно хорошая совместимость по Windows и Mac.

Аналог WAV от разработчиков Apple. Тоже контейнер и тоже содержит чаще всего звук в формате PCM. Хорошая совместимость с Windows.

Сжатые аудио форматы с потерями

Поистине народные форматы для всех.

По стандарту MPEG-1 Audio Layer 3. Появился еще в 1993 году и мгновенно завоевал всеобщую любовь именно своей экономичностью в потреблении памяти.

  • На одном CD можно хранить всю дискографию любимой группы.
  • Несколько дисков забросить в бардачок и можешь наслаждаться музыкой на всем пути из Калининграда во Владивосток.
  • Можно за это время прослушать все книги всех писателей, достойных чтобы их слушать.

Формат MP3 – это такой звуковой скопец, у которого вырезали все самое нехочу, зато начали проявляться способности к накопительству и экономии. Так и MP3 – ну очень экономичный формат.

Основное преимущество – поддерживается на всем, что только играет и поет.

Продвинутый способ аудио кодирования. Младший, но продвинутый брат MP3. Имеет слегка улучшенные звуковые характеристики и большую степень сжатия.

Применяется на Android, iOS, iTunes, YouTube, Nintendo и последних версиях PlayStation.

Тоже народный формат, но для немного более продвинутого народа. Что и отражено в названии.

В общем, это не формат, а контейнер и, по сути, название OGG ни о чем не говорит в отношении содержащегося в нем звука.

Однако чаше всего содержит кодек Vorbis.

  • Значительно улучшено качество звучания относительно других форматов звука с потерями при сжатии.
  • Предоставляется возможность при одинаковом качестве звучания записывать файлы с меньшим весом.

Еще более экономичный формат, чем MP3.

Проблема – формат OGG свободный, поэтому никто в его промоушн денег не вкладывает. Так что может поддерживается далеко не везде и могут возникнуть несовместимости.

Илон Маск рекомендует:  Что такое код initatomtable

Тогда придется конвертировать в MP3.

Проприетарный формат от Microsoft, поэтому, хотя является улучшенной версией MP3 и OGG – широкого применения не получил и не поддерживается на большинстве устройств и платформ.

Совет. Если есть возможность использовать WMA вместо MP3 – используйте первый. Экономичнее и приятнее на слух.

Сжатые форматы аудио без потерь

Для обладателей продвинутых, дорогостоящих устройств, брендовых мобильных и настольных компьютеров в комплектации с высококачественными наушниками и динамиками.

Недостатком таких форматов является то, что размеры файлов одинаковой по длительности записи будут примерно в два или три раза больше.

Однако хотя декларируется сжатие без потерь, не путайте с Hi-Fi аудиозаписями. Минимальные, пусть и заметные только для музыкантов потери все же есть.

Свободный аудио кодек без потерь. Его преимущество в широкой популярности, почти что как у MP3.

  • Степень сжатия составляет до 60% исходного файла.
  • Поддерживается на большинстве программных платформ и устройств.

Может быть выгодной альтернативой при записи CD-дисков. Почти неотличимо по звучанию, но бонус в виде экономии почти половины дискового пространства.

Формат для владельцев устройств бренда Apple, поскольку на других может и не поддерживаться.

Немного менее хорош, чем FLAC в отношении степени сжатия.

Но владельцам Apple просто не остается выбора – бесплатный формат FLAC не поддевается из принципа на iOS и iTunes.

WMA Lossless

Улучшенная версия вышеупомянутого WMA. Незначительно уступает FLAC и ALAC. Обладает существенным преимуществом перед ALAC ,так как WMA хорошо поддерживается на Windows и Mac.

Однако широкого распространения не имеет, поэтому если у вас в пользовании много разных устройств – вероятна несовместимость.

Вердикт

Ну вот, мы рассмотрели все самые известные, распространенные и имеющие лучшие параметры аудио форматы и вкратце рассказали об особенностях их использования.

Так что теперь вы сможете уверенно определиться– в каком случае и в какой формат лучше конвертировать ваши звукозаписи, музыку и аудиокниги.

Описание аудио форматов

Существуют различные понятия звукового формата.

Формат представления звуковых данных в цифровом виде зависит от способа квантования цифро-аналоговым преобразователем (ЦАП). В звукотехнике в настоящее время наиболее распространены два вида квантования: импульсно-кодовая модуляция, сигма-дельта-модуляция.

Под импульсно-кодовой модуляцией (ИКМ) понимается передача непрерывных функций при помощи двоичного кода.

Сигма-дельта-модуляция представляет сигнал на основе принципа избыточной дискретизации и формирования шума квантования. За счет избыточной дискретизации снижается уровень шума в полосе, содержащей полезный сигнал.

Зачастую разрядность квантования и частоту дискретизации указывают для различных звуковых устройств записи и воспроизведения как формат представления цифрового звука (24 бита/192 кГц; 16 бит/48 кГц).

Формат файла определяет структуру и особенности представления звуковых данных при хранении на запоминающем устройстве ПК. Для устранения избыточности аудио данных используются аудиокодеки, при помощи которых производится сжатие аудиоданных. Выделяют две группы звуковых форматов файлов:

Аудио форматы без потерь (WAV, AIFF, FLAC).

Сжатие данных без потерь (lossless coding) — это способ сжатия (уплотнения) данных, позволяющий осуществлять стопроцентное восстановление исходных данных из сжатой формы (под понятием «исходные данные» здесь подразумевают исходные цифровые данные до сжатия).

Кодирование без потерь базируется на идее удаления из аудио сигнала так называемой статистической избыточности. Чтобы сократить (уплотнить) занимаемый сигнал аудиоданными объем, проводят статистический анализ массива обрабатываемого цифрового сигнала с целью выявления наиболее часто встречающихся цифровых последовательностей его значений и перекодирования таких последовательностей короткими кодами, а последовательностей, встречающихся редко, — длинными кодами. Такое перекодирование сигнала сокращает общий объем данных, т.е. уменьшает общее количество бит, необходимых для их записи. Этот способ сжатия не влечет за собой вообще никаких потерь информации, а сжатые аудиоданные абсолютно точно восстанавливаются в их исходный вид путем обратного преобразования.

К кодекам, которые осуществляют кодирование без потерь можно отнести:

Waveform Audio File Format (WAVE, WAV, от англ. waveform — «форма сигнала») — формат файла-контейнера для хранения записи оцифрованного аудиопотока. Этот контейнер как правило используется для хранения несжатого звука в импульсно-кодовой модуляции. Однако контейнер не налагает каких-либо ограничений на используемый алгоритм кодирования.

Audio Interchange File Format (AIFF) — звуковые данные в стандартном файле формата AIFF представляют собой несжатую импульсно-кодовую модуляцию. Также существует и сжатая версия формата AIFF, которую называют AIFC (изредка AIFF-C), в которой для сжатия могут быть использованы различные кодеки. AIFF, наряду с SDII и WAV, является одним из форматов используемых в профессиональных аудио и видео приложениях, так как в отличие от более популярного формата mp3 в нём звук не имеет потерь в качестве. Как и любые несжатые файлы, файлы AIFF занимают намного больше дискового пространства чем их сжатые аналоги: одна минута стерео звука с частотой дискретизации 44,1 кГц и размером выборки 16 бит занимает около 10МБ. Стандартное расширение файлов: .AIFF или .AIF, для сжатого варианта должно применяться расширение .AIFC.

Free Lossless Audio Codec (FLAC) — популярный свободный кодек, предназначенный для сжатия аудиоданных без потерь. FLAC не удаляет никакой информации из аудиопотока и подходит как для прослушивания музыки на высококачественной звуковоспроизводящей аппаратуре, так и для архивирования аудиоколлекции. На сегодня формат FLAC поддерживается множеством аудиоприложений, а также имеет большое количество аппаратных реализаций от телефонов до автомобильных проигрывателей. У FLACа нет настроек для работы с потерями, это гарантия того, что материал не будет испорчен на стадии сжатия. Кодирование лучше делать с настройками максимального сжатия: -8.

Аудио форматы, с применением сжатия с потерями (mp3, ogg, wma). К кодированию аудиоданных с потерями часто прибегают при необходимости высококачественного (с точки зрения качества звучания) кодирования информации. В этом случае используется идея об имеющей место в реальном звуке так называемой акустической избыточности цифровой звуковой информации.

Оказывается, что с учетом этих особенностей большинство реальных звуковых сигналов являются избыточными, т.е. в них присутствует многочисленные составляющие, совершенно незаметные и практически не воспринимаемые слуховой системой человека. Следует заметить, что требования, предъявляемые к качеству звучания аудио материалов, сильно разнятся в зависимости от использования последних, т.е. от их целевого назначения. Поэтому там где требования к качеству звучания не слишком высоки, можно прибегать к намеренному занижению качества звучания с целью «упрощения» кодируемых данных, т.е. кодированию с потерями.

Правильное применение методов кодирования с потерями может очень существенно увеличить эффективность компрессии по сравнению с кодированием без потерь и при этом в полной мере удовлетворить требования к качеству звучания. Однако в отличие от кодеров без потерь, не вносящих вообще никаких изменений в сжимаемые данные, кодирование с потерями «вмешивается» в исходную информацию и преобразует её, что всегда приводит к частичной потере исходной акустической информации. Эффективность кодирования напрямую зависит от степени этого вмешательства.

Таким образом, в целом, кодирование аудио сигнала с потерями заключается в его переквантовании с переменными параметрами, динамически зависящими от текущей формы маскирующих порогов, которые, в свою очередь зависят от формы (спектрального состава) самого сигнала.

К кодекам, которые осуществляют сжатие с потерями относятся:


MPEG layer 3 — самый популярный формат сжатия на сегодняшний день. Формат МР3 (MPEG Layer 3) был разработан, после ряда промежуточных форматов, институтом Фраунхофера в Германии. Вообще то, формат .МР3 основан на обмане человеческого уха. После некоторых исследований выяснилось, что человеческому слуху свойственно адаптироваться к появлению новых звуков, что выражается в повышении порога слышимости. Поэтому одни звуки способны маскировать (то есть, делать субъективно неслышимыми) другие. Вот и в этом формате часть звуков, которые, как считает соответствующая теория, делаются неслышимыми, просто убираются из общего звучания. После чего получившийся «полуфабрикат» кодируется по методу Хоффмана. Обязательно следует учитывать то, что в формате МР3 программы, сжимающие звук из оригинального, не являются стандартизированными, то есть каждый грамотный программист может реализовать свою схему сжатия. А стандартам подчиняются только декодеры, что приводит к тому, что качество воспроизведения формата МР3 далеко не всегда зависит от плеера, проигрывающего этот файл. В связи с разными способностями и пристрастиями реализаторов различных кодеров, одни из них лучше справляются с симфонической музыкой, другие — с роком и металлом, третьи — с рэпом и рэйвом и так далее.

Появившийся в 2001 году кодек MP3 Pro был создан компанией Coding Technologies совместно с Thomson Multimedia. В его основе лежит МР3, и в результате он получился полностью совместимым с MP3 назад и лишь частично вперед. В нем используется технология SBR (Spectral Band Replication), за счет чего кодек обеспечивает хорошее качество на низких битрейтах. Однако качество кодирования на средних и высоких скоростях передачи данных уступает качеству почти всех других кодеков. В итоге MP3 Pro применяется больше для трансляций в интернете и демонстраций фрагментов новых музыкальных композиций.

Формат Ogg Vorbis — относительно новый универсальный формат записи звука с потерями данных. Он принадлежит к тому же типу форматов аудиосжатия, что и МР3 и WMA, а психоакустическая модель, описывающая особенности человеческого слуха, в соответствии с которыми производится сжатие, по принципам действия близка к МР3. Радикальным же отличием этого формата стала математическая обработка и практическая реализация этой модели. В этом формате пороговая максимальная частота оцифровки не 44 кГц как в MP3, а 48, что теоретически улучшает качество звука. Также следует отметить, что теоретическое число каналов не ограничено двумя, как обычно, а достигает 255. Файлы, закодированные в этом формате, меньше таких же файлов в МР3. Распространение формата сдерживалось недостаточной поддержкой со стороны производителей аппаратуры.

Windows Media Audio 9 Lossless (WMA) — аудио-кодек для сжатия без потерь фирмы Microsoft, представленный в начале 2003 года. Сжатый этим кодеком аудио компакт-диск занимает от 206 до 411 Мб, при битрейте звуковых файлов от 470 кбит/с до 1.08 Мбит/с. Кодек входит в состав пакета Windows Media, использует расширение файла .wma, поддерживает 6 дискретных каналов. Официально выпущен только для Windows и Mac OS X. Microsoft включила в WMA поддержку цифровой системы управления авторскими правами (DRM) (система защиты). Основным следствием её является невозможность прослушивать защищенные композиции на других компьютерах, кроме того, на котором композиция была загружена из музыкального магазина.

Advanced Audio Coding (AAC) — формат аудиофайла с меньшей потерей качества при кодировании, чем MP3 при одинаковых размерах. Это широкополосный алгоритм кодирования аудио, который использует два основных принципа кодирования для сильного уменьшения количества данных, требуемых для передачи высококачественного цифрового аудио. Данный формат является одним из наиболее качественных, использующих сжатие с потерями, поддерживаемый большинством современного оборудования, в том числе портативного. Обладает следующими преимуществами перед mp3:

До 48 звуковых каналов;

Большая эффективность кодирования как при постоянном, так и при переменном битрейте;

Частоты дискретизации от 8 Гц до 96 кГц (MP3: 8 Гц — 48 кГц);

Более гибкий режим Joint stereo.

Некоторые виды цифрового звука в сравнении приведены в таблице 1.

Описание форматов звуковых файлов выборок

Теперь кратко расскажем об основных форматах звуковых файлов. Практически каждая звуковая карта IBM PC-совместимого компьютера имеет программные средства для воспроизведения файлов в форматах WAV и MIDI Возможность работы с другими форматами зависит от конкретного типа самой карты и, разумеется, от поставляемого с ней программного обеспечения. В программный комплект часто включаются средства для преобразования форматов звуковых файлов.

Раньше звук записывался с применением метода PCM (Pulse Code Modulation — импульсно-кодовая модуляция), который был разработан в 1960-х годах для нужд цифровой телефонной связи. После внесения небольших изменений, делающих записываемый с его помощью звук более подходящим для воспроизведения на персональных компьютерах, данный метод используется и сейчас, только называется он теперь по-другому. В данном случае речь идет об известном очень многим пользователям формате WAV. Этот формат довольно популярен и позволяет хранить достаточно качественный звук, в частности музыку и голосовые данные. Но, к сожалению, он очень громоздок: WAV-файлы могут быть просто огромными, особенно при записи с высокой частотой дискретизации и большой битовой глубиной. Например, стереозапись песни, которая звучит в течение четырех минут, произведенная с частотой дискретизации 44 кГц и глубиной 16 бит, занимает более 40 Мбайт памяти!

Однако человеческое ухо не различает мельчайшие вариации звука, записанного с такими характеристиками. Поэтому программисты разработали алгоритмы хранения WAV-файлов в сжатом виде, когда теряется часть неразличимых нюансов. Реализующие их программы называются компрессорами-декомпрессорами или просто кодеками. Самый известный из них — Fraunhoffer MPEG Layer 3, чаще называемый МРЗ (по расширению создаваемых с его помощью файлов).

С применением алгоритма МРЗ файл можно сжать без потери качества звучания примерно в 12 раз. Перед сжатием нужно выбрать подходящую скорость передачи битов (bit rate) — количество битов сжатого файла, передаваемых декодеру за одну секунду. Чем выше данный показатель, тем лучше качество звучания. Заметим, что скорость передачи данных аудиофайлов МРЗ обычно измеряется в тысячах битов за секунду (кбит/с). В разных кодеках она может изменяться в пределах от 24 до 320 кбит/с, однако в проигрывателях аудиокомпакт-дисков всегда составляет 128 кбит/с.

С помощью любой звуковой карты можно воспроизводить звукозаписи. На ней имеется процессор, предназначенный для интерпретации файлов стандартизированного формата MIDI (Musical Instrument Digital Interface — цифровой интерфейс музыкальных инструментов). Необходимо отметить, что MIDI-файл является не совсем обычным музыкальным файлом. В отличие от WAV-файла, примерно одинаково звучащего на любом компьютере, MIDI-файл содержит лишь указания по воспроизведению музыки, передаваемые встроенным в звуковую плату «инструментам», поэтому результирующий звук сильно зависит от возможностей и характеристик последних. MIDI-файл представляет собой файл, содержащий информацию о длительности и громкости проигрывания нот, а также инструментах, на которых они должны быть исполнены, и т. д. Вы можете представить его себе как обыкновенные ноты (на бумаге), передаваемые «электронному оркестру» звуковой платы. MIDI-файлы имеют расширение mid.

Формат MIDI менее популярен, чем форматы WAV и МРЗ, однако его поддерживают все компьютеры, на которых инсталлирована Windows, и все звуковые платы.

Основное достоинство MIDI-файлов заключается в их небольших размерах. Например, первая часть пятой симфонии Бетховена, записанная в виде высококачественного WAV-файла, занимает 78 Мбайт памяти, а будучи записанной в виде MIDI-файла — всего 60 Кбайт!

Качество воспроизведения записи во многом зависит от аппаратного обеспечения, а точнее, от характеристик конкретной звуковой платы. Существуют две основные аппаратные технологии проигрывания MIDI-файлов; FM-синтез и синтез на основе волновых таблиц.

Другие форматы файлов

Форматы WAV, МРЗ и MIDI относятся к числу наиболее популярных, но существует и множество других форматов, имеющих различную степень распространенности.

Ш ASX. Один из новейших форматов звуковых файлов. Для его воспроизведения требуется Проигрыватель Windows Media версии 8.0.

Ш ASM, WMA. Форматы сжатых звуковых файлов, которые часто используются в Интернете при воспроизведении потокового аудио.

Ш RM. Файлы, записанные в данном формате, могут содержать либо только звук, либо только видео. Это «родной» формат RealMedia — популярного проигрывателя, широко используемого в Интернете.

Ш AIFF. Популярный звуковой формат, применяемый в компьютерах Macintosh. AIFF-файлы часто встречаются на веб-узлах, и для их воспроизведения можно использовать широко известный проигрыватель QuickTime.

Ш MOD, VOC. Два устаревших формата, которые компания Creative Labs продвигала на рынке компьютерных технологий в начале 1990-х годов. В настоящее время они встречаются редко, однако большая часть проигрывателей способна их воспроизводить.

Ш AU. Еще один популярный формат Macintosh, который распознают многие проигрыватели.

Приведенный список, как вы понимаете, далеко не полный. Общее количество звуковых форматов давно превысило сотню, но подавляющая их часть используется крайне редко.

Возможности хранения звука в компьютере не исчерпываются использованием файлов аудиозаписей и MIDI-файлов. Видеофайлы тоже могут содержать встроенный звук. Однако для его воспроизведения программа-проигрыватель должна поддерживать конкретный формат видеофайлов. Самыми популярными видеоформатами являются AVI, MPEG, MOV, ASF и RM.

Работа многих приложений, в том числе игр, также сопровождается различными звуками. В недавнем прошлом игры и некоторые приложения часто содержали звуковые файлы собственных форматов, но сегодня в них применяются стандартные форматы WAV, MP3 и MIDI

Потоковое мультимедиа невероятно популярно в Интернете. Под этим термином подразумевают широковещательную передачу аудио- и видеоданных с воспроизведением на компьютерах пользователей и немедленным удалением после просмотра. Вещание Интернет-радиостанций происходит с использованием технологии потокового мультимедиа. Двумя самыми популярными из числа поддерживающих их проигрывателей являются Windows Media и Winamp. Хранятся файлы потокового мультимедиа в форматах ASF и RM.

Синтез и воспроизведение звука

В общем виде процесс воспроизведения звука на компьютере выглядит следующим образом. Звуковая информация хранится в виде файлов или звуковой дорожки на соответствующем носителе. Программа, осуществляющая воспроизведение звуковых файлов, считывает данные, которые хранятся на этом носителе, и превращает их при помощи программных и аппаратных средств в стандартный звуковой поток. После этого звуковой поток обрабатывается драйвером активного звуковоспроизводящего устройства.

В типичной Windows-системе имеется множество программ, которые способны воспроизводить звук. Прежде всего, в любой такой системе есть приложение Проигрыватель Windows Media — пожалуй, самый мощный из всех музыкальных проигрывателей. Довольно широкое распространение получили проигрыватели Winamp и LightAlloy.

Синтез с частотной модуляцией

В ранних звуковых платах использовалась технология электронной эмуляции различных инструментов, называемая синтезом с частотной модуляцией (FM-синтезом). Пользователь с помощью специальной программы мог дать процессору звуковой карты команду воспроизвести несколько нот, как, предположим, на фортепиано, и проигрываемый звук действительно отдаленно напоминал звучание этого музыкального инструмента. Однако в случае применения более высоких или низких частот звучание становилось слишком «механичным».

Синтез на основе волновых таблиц

В попытке «оживить» синтезируемый звук производители ранних плат встраивали в них записи звуков реальных музыкальных инструментов и других звуков. Благодаря этой технологии многие современные платы воспроизводят звуки инструментов значительно реалистичнее, чем старые FM-платы. Получив команду проиграть ноту си, как на фортепиано или альте, звуковой процессор считывает из собственной памяти заранее записанный WAV-файл и модифицирует его в соответствии с конкретными установками. Эта технология называется синтезом на основе волновых таблиц (Wave Table, WT) или просто волновым синтезом (WT-синтезом). Числом инструментов, записи которых хранятся в памяти платы, определяется такая ее характеристика, как полифония. Хорошие платы содержат записи 64 инструментов, а самые лучшие, профессиональные, — 256, 320 и более.

Аудиоинформация в мультимедийных технологиях

Звуковая информация (аудиоинформация) в мультимедийных системах технологически обычно представляется в виде аудиоряда , то есть последовательности значений амплитуды звукового давления, записанных в цифровой форме.

Аудиоряд может включать речь, музыку, эффекты (звуки типа шума, грома, скрипа и т.д.). Файлы, содержащие цифровую запись аудиоданных (голоса, музыкальных произведений или их фрагментов и других звуков любой природы).

Существуют два основных типа звуковых файлов: с оцифрованным звуком и нотной записью .

Файлы с оцифрованным звуком

Звуковые файлы , в которых исходная непрерывная («аналоговая») форма сигнала записана в виде последовательности коротких дискретных значений амплитуд звукового сигнала, измеренных («выбранных») через одинаковые промежутки времени и имеющих между собой весьма малый интервал. Процесс замены непрерывного сигнала последовательностью его значений называют дискретизацией , а такую форму записи — импульсно-кодовой модуляцией , ИКМ (англ. Pulse Code Modulation – PCM). Аппаратная реализация обработки оцифрованного звука состоит в том, что АЦП преобразует аналоговый сигнал во множество цифровых замеров, а при воспроизведении ЦАП осуществляет обратный процесс — преобразование цифрового сигнала в аналоговый. Файлы с оцифрованным звуком бывают двух видов: с заголовком и без заголовка.

Основные понятия, термины и другие данные, связанные с оцифровкой звука

Выборка , отсчет (звукового сигнала) — дискретное («мгновенное») значение, соответствующее минимальному фрагменту исходного звукового сигнала. Выборка характеризует амплитуду звукового сигнала и обычно представляет собой целое число (8 или 16 бит). Может производиться по одному каналу (моно), двум (стерео) или большему числу каналов. Процесс разделения сигнала на выборки называется квантованием .

Разрядность дискретизации — величина, определяющая количество бит на один канал. Чем выше разрядность дискретизации, тем выше качество записи и воспроизведения звука.

Частота дискретизации — величина, которая определяет, сколько раз в секунду производится считывание выборок из аналогового сигнала. При цифровой записи звуков частота дискретизации измеряется в герцах и килогерцах. Чем выше частота дискретизации, тем выше качество звука.

Некоторые форматы звуковых файлов поддерживают произвольную частоту дискретизации (например, VOC — файлы в диапазоне от 5000 до 44100 Гц); другие — только определенные частоты дискретизации ( WAV-файлы могут быть оцифрованы с частотами 11 025, 22050, 44100 Гц). Поэтому конвертирование (преобразование) файла одного формата в другой не всегда возможно.

Файлы с заголовком

В заголовке указываются параметры, которые характеризуют оцифрованный звук, включая: частоту дискретизации; количество битов на отсчет (8 или 16); количество каналов — моно (1) или стерео (2); ASCII -символы, описывающие тип файла; длину записанных данных в байтах; номер версии формата; метод компрессии; величину смещения блока данных относительно начала файла и др.

Перечень и области применения наиболее распространенных форматов звуковых файлов с заголовком:

Расширение

Краткие сведения о форматах

*.aiff, *.aif

AIF , AIFF [ Audio Interchange File Format ] — данный формат распространен в системах Apple Macintosh и Silicon Graphics;

AIFC , A IFF-С [ Audio Interchange File Format-Compressed ] — тот же AIFF, только с заданными параметрами сжатия (компрессии); используются в ПК фирмы Apple .

*.au
*.snd

AU — звуковой формат предназначен для работы со звуком в рабочих системах SUN, NeXT, DEC, Linux и FreeBSD; обеспечивает экономию памяти, благодаря чему нашел широкое распространение в Интернете.

IFF [ Interchange File Format ] — формат, который имеет сходство с RIFF [ Resource Interchange File Format ], являющимся универсальным для записи любых структурированных данных. Основное отличие заключается в поддержке им так называемой программно-сэмплерной эмуляции музыкальных инструментов. Звук в файле делится на две части: то, что должно звучать вначале, и элемент того, что идет за началом. В результате вторая часть звукового фрагмента повторяется за начальной столько раз, сколько нужно пользователю и нота может звучать сколь угодно долго. Используется в системах типа IFF/8SVX на компьютерах фирмы Amiga.

MР3 — формат, в котором использованы параметры сжатия, имеющие сходство с форматом jpeg для изображений. Коэффициент сжатия составляет 10 — 12 раз, однако специалистами он считается достаточно сложным и не обеспечивающим высокое качество звука.

VOC [ Voice File ] — 8-битный моно-формат семейства звуковых карт SoundBlaster фирмы Creative Labs . Широко используется в старых немузыкальных программах.

HСОМ — то же самое, что и VOC (8 бит, моно), но только для ПК фирмы Apple Macintosh.

WAVE [ Waveform Audio File ] — формат, разработанный фирмой Microsoft и зарекомендовавший себя одним из простейших для записи и хранения дискретных данных. Относится к одному из вариантов файлов семейства RIFF [ Resource Interchange File Format ] и является жестко структурированным. В заголовке помимо обычных значений (в том числе разрядность, уровни громкости и т.п.) в wav могут быть указаны и многие другие параметры, например, метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также текстовая информация.

Перечень и области применения наиболее распространенных форматов звуковых файлов без заголовка

Расширение

Краткие сведения о форматах

PCM* [ Pulse Code Modulation ] — буквально: » Импульсно-кодовая модуляция — ИКМ «. Хотя файлы с таким расширением встречаются редко (в основном на аудио-CD), ИКМ является основополагающей для всех звуковых файлов. Метод записи и хранения аудиоинформации в этом формате неэкономный, однако объемы современных устройств внешней памяти (в том числе винчестеров и оптических дисков) позволяют его использовать несмотря на связанные с этим потери, которые могут составлять десятки мегабайт.

DPCM* [ Difference Pulse Code Modulation ] — вариант формата PCM , в котором с целью повышения экономии хранения звуковых данных на диске использован метод сжатия записи, получивший наименования » Разностного РСМ «. Данная схема сжатия с фиксированной скоростью преобразовывает последовательность измерений, сохраняя только разницу между последующим и предыдущим значениями сигналов. Сохранение дискового пространства происходит за счет того, что значение разности меньше самих измерений

*.adpcm

ADPCM [ Adaptive DPCM ] — » Адаптивный DPCM «: формат DPCM , дополненный использованием так называемого коэффициента масштабируемости. Необходимость этой меры обусловлена требованием исключения искажений звука, вызванных ошибками измерения разности амплитуд сигналов, которые связаны со значительными перепадами громкости отдельных составляющих звука.

Форматы семейства PCM используются не только для записи звука, но и сейсмограмм, где неприемлемы способы сжатия по времени, не дающие возможность осуществить прецизионную службу времени (точность записи по временной шкале).

Файлы с нотной записью

Звуковые файлы , которые содержат последовательность команд, сообщающих какую ноту и каким инструментом и как долго нужно воспроизводить в тот или иной момент времени. Формат может предусматривать одновременную игру нескольких музыкальных инструментов, в этом случае говорят о соответствующем количестве голосов. Например, плата Sound Blaster 16 поддерживает 20-голосный синтез.

При воспроизведении файлов с нотной записью могут использоваться следующие виды синтеза звука :

FM-синтез — синтез с использованием частотной модуляции, при которой формируется частота звучания соответствующей ноты. Данный метод позволяет успешно имитировать реальные музыкальные инструменты (пианино, гитару и т.п.);

wavetable-синтез — » Табличный синтез «: использует оцифровку нот реальных инструментов. Получение требуемой ноты производится путем оцифровки одной ноты реального инструмента. Исходные оцифровки содержатся в файле с нотной записью или в отдельном файле (такие файлы одновременно являются файлами с нотной записью и содержат оцифрованный звук).

Перечень стандартов и форматов звуковых файлов с нотной записью

Расширение

Область применения/фирма разработчик

MID — формат файла, который содержит сообщения о MIDI -системе, установленной на ПК или в устройстве. Имеет следующие разновидности:

Roland LA (разработан фирмой Roland Corporation );

GM ( General MIDI ) — стандарт MIDI-сообщений. Определяет соответствие 128 номеров патчей звукового банка данных конкретным инструментам. Для ударных инструментов зарезервирован 10-й MIDI-канал. Стандартизирует также номера основных контроллеров.

Использует все 16 каналов. Преимущество обмена файлами MIDI по сравнению с файлами оцифрованного звука состоит в том, что файлы MIDI намного меньше по размеру, так как они хранят ноты, а не детальную запись звука.

Basic MIDI — использует каналы с 13-го по 16-й;

Extended MIDI — использует каналы с 1-го по 10-й;

GS ( General Sound ) — расширенная версия стандарта GM , разработанная фирмой Roland ; допускается использование иерархии многих звуковых банков данных; предусмотрено до десяти переключаемых наборов ударных инструментов; расширен список контроллеров;

Понравилась статья? Поделиться с друзьями:
Кодинг, CSS и SQL