AVI(Audio Video Interleaved的缩写)是一种RIFF(Resource Interchange File Format的缩写)文件格式,多用于音视频捕捉、编辑、回放等应用程序中。通常情况下,一个AVI文件可以包含多个不同类型的媒体流(典型的情况下有一个音频流和一个视频流),不过含有单一音频流或单一视频流的AVI文件也是合法的。AVI可以算是Windows操作系统上最基本的、也是最常用的一种媒体文件格式。
先来介绍RIFF文件格式。RIFF文件使用四字符码FOURCC(four-character code)来表征数据类型,比如‘RIFF’、‘AVI ’、‘LIST’等。注意,Windows操作系统使用的字节顺序是little-endian,因此一个四字符码‘abcd’实际的DWORD值应为0x64636261。另外,四字符码中像‘AVI ’一样含有空格也是合法的。 RIFF文件首先含有一个如图3.31的文件头结构。
图3.31 RIFF文件结构
最开始的4个字节是一个四字符码‘RIFF’,表示这是一个RIFF文件;紧跟着后面用4个字节表示此RIFF文件的大小;然后又是一个四字符码说明文件的具体类型(比如AVI、WAVE等);最后就是实际的数据。注意文件大小值的计算方法为:实际数据长度 + 4(文件类型域的大小);也就是说,文件大小的值不包括‘RIFF’域和“文件大小”域本身的大小。
RIFF文件的实际数据中,通常还使用了列表(List)和块(Chunk)的形式来组织。列表可以嵌套子列表和块。其中,列表的结构为:‘LIST’ listSize listType listData ——‘LIST’是一个四字符码,表示这是一个列表;listSize占用4字节,记录了整个列表的大小;listType也是一个四字符码,表示本列表的具体类型;listData就是实际的列表数据。注意listSize值的计算方法为:实际的列表数据长度 + 4(listType域的大小);也就是说listSize值不包括‘LIST’域和listSize域本身的大小。再来看块的结构:ckID ckSize ckData ——ckID是一个表示块类型的四字符码;ckSize占用4字节,记录了整个块的大小;ckData为实际的块数据。注意ckSize值指的是实际的块数据长度,而不包括ckID域和ckSize域本身的大小。(注意:在下面的内容中,将以LIST ( listType ( listData ) )的形式来表示一个列表,以ckID ( ckData )的形式来表示一个块,如[ optional element ]中括号中的元素表示为可选项。) 接下来介绍AVI文件格式。AVI文件类型用一个四字符码‘AVI ’来表示。整个AVI文件的结构为:一个RIFF头 + 两个列表(一个用于描述媒体流格式、一个用于保存媒体流数据) + 一个可选的索引块。AVI文件的展开结构大致如下:
RIFF (‘AVI ’ LIST (‘hdrl’ ‘avih’(主AVI信息头数据) LIST (‘strl’ ‘strh’ (流的头信息数据) ‘strf’ (流的格式信息数据) [‘strd’ (可选的额外的头信息数据) ] [‘strn’ (可选的流的名字) ] ... ) ... ) LIST (‘movi’ { SubChunk | LIST (‘rec ’ SubChunk1 SubChunk2 ... ) ... } ... ) [‘idx1’ (可选的AVI索引块数据) ] )
首先,RIFF (‘AVI ’…)表征了AVI文件类型。然后就是AVI文件必需的第一个列表——‘hdrl’列表,用于描述AVI文件中各个流的格式信息(AVI文件中的每一路媒体数据都称为一个流)。‘hdrl’列表嵌套了一系列块和子列表——首先是一个‘avih’块,用于记录AVI文件的全局信息,比如流的数量、视频图像的宽和高等,可以使用一个AVIMAINHEADER数据结构来操作:
typedef struct _avimainheader { FOURCC fcc; // 必须为‘avih’ DWORD cb; // 本数据结构的大小,不包括最初的8个字节(fcc和cb两个域) DWORD dwMicroSecPerFrame; // 视频帧间隔时间(以毫秒为单位) DWORD dwMaxBytesPerSec; // 这个AVI文件的最大数据率 DWORD dwPaddingGranularity; // 数据填充的粒度 DWORD dwFlags; // AVI文件的全局标记,比如是否含有索引块等 DWORD dwTotalFrames; // 总帧数 DWORD dwInitialFrames; // 为交互格式指定初始帧数(非交互格式应该指定为0) DWORD dwStreams; // 本文件包含的流的个数 DWORD dwSuggestedBufferSize; // 建议读取本文件的缓存大小(应能容纳最大的块) DWORD dwWidth; // 视频图像的宽(以像素为单位) DWORD dwHeight; // 视频图像的高(以像素为单位) DWORD dwReserved[4]; // 保留 } AVIMAINHEADER;
然后,就是一个或多个‘strl’子列表。(文件中有多少个流,这里就对应有多少个‘strl’子列表。)每个‘strl’子列表至少包含一个‘strh’块和一个‘strf’块,而‘strd’块(保存编解码器需要的一些配置信息)和‘strn’块(保存流的名字)是可选的。首先是‘strh’块,用于说明这个流的头信息,可以使用一个AVISTREAMHEADER数据结构来操作:
typedef struct _avistreamheader { FOURCC fcc; // 必须为‘strh’ DWORD cb; // 本数据结构的大小,不包括最初的8个字节(fcc和cb两个域) FOURCC fccType; // 流的类型:‘auds’(音频流)、‘vids’(视频流)、 //‘mids’(MIDI流)、‘txts’(文字流) FOURCC fccHandler; // 指定流的处理者,对于音视频来说就是解码器 DWORD dwFlags; // 标记:是否允许这个流输出?调色板是否变化? WORD wPriority; // 流的优先级(当有多个相同类型的流时优先级最高的为默认流) WORD wLanguage; DWORD dwInitialFrames; // 为交互格式指定初始帧数 DWORD dwScale; // 这个流使用的时间尺度 DWORD dwRate; DWORD dwStart; // 流的开始时间 DWORD dwLength; // 流的长度(单位与dwScale和dwRate的定义有关) DWORD dwSuggestedBufferSize; // 读取这个流数据建议使用的缓存大小 DWORD dwQuality; // 流数据的质量指标(0 ~ 10,000) DWORD dwSampleSize; // Sample的大小 struct { short int left; short int top; short int right; short int bottom; } rcFrame; // 指定这个流(视频流或文字流)在视频主窗口中的显示位置 // 视频主窗口由AVIMAINHEADER结构中的dwWidth和dwHeight决定 } AVISTREAMHEADER;
然后是‘strf’块,用于说明流的具体格式。如果是视频流,则使用一个BITMAPINFO数据结构来描述;如果是音频流,则使用一个WAVEFORMATEX数据结构来描述。
当AVI文件中的所有流都使用一个‘strl’子列表说明了以后(注意:‘strl’子列表出现的顺序与媒体流的编号是对应的,比如第一个‘strl’子列表说明的是第一个流(Stream 0),第二个‘strl’子列表说明的是第二个流(Stream 1),以此类推),‘hdrl’列表的任务也就完成了,随后跟着的就是AVI文件必需的第二个列表——‘movi’列表,用于保存真正的媒体流数据(视频图像帧数据或音频采样数据等)。那么,怎么来组织这些数据呢?可以将数据块直接嵌在‘movi’列表里面,也可以将几个数据块分组成一个‘rec ’列表后再编排进‘movi’列表。(注意:在读取AVI文件内容时,建议将一个‘rec ’列表中的所有数据块一次性读出。)但是,当AVI文件中包含有多个流的时候,数据块与数据块之间如何来区别呢?于是数据块使用了一个四字符码来表征它的类型,这个四字符码由2个字节的类型码和2个字节的流编号组成。标准的类型码定义如下:‘db’(非压缩视频帧)、‘dc’(压缩视频帧)、‘pc’(改用新的调色板)、‘wb’(音缩视频)。比如第一个流(Stream 0)是音频,则表征音频数据块的四字符码为‘00wb’;第二个流(Stream 1)是视频,则表征视频数据块的四字符码为‘00db’或‘00dc’。对于视频数据来说,在AVI数据序列中间还可以定义一个新的调色板,每个改变的调色板数据块用‘xxpc’来表征,新的调色板使用一个数据结构AVIPALCHANGE来定义。(注意:如果一个流的调色办中途可能改变,则应在这个流格式的描述中,也就是AVISTREAMHEADER结构的dwFlags中包含一个AVISF_VIDEO_PALCHANGES标记。)另外,文字流数据块可以使用随意的类型码表征。 最后,紧跟在‘hdrl’列表和‘movi’列表之后的,就是AVI文件可选的索引块。这个索引块为AVI文件中每一个媒体数据块进行索引,并且记录它们在文件中的偏移(可能相对于‘movi’列表,也可能相对于AVI文件开头)。索引块使用一个四字符码‘idx1’来表征,索引信息使用一个数据结构来AVIOLDINDEX定义。
typedef struct _avioldindex { FOURCC fcc; // 必须为‘idx1’ DWORD cb; // 本数据结构的大小,不包括最初的8个字节(fcc和cb两个域) struct _avioldindex_entry { DWORD dwChunkId; // 表征本数据块的四字符码 DWORD dwFlags; // 说明本数据块是不是关键帧、是不是‘rec ’列表等信息 DWORD dwOffset; // 本数据块在文件中的偏移量 DWORD dwSize; // 本数据块的大小 } aIndex[]; // 这是一个数组!为每个媒体数据块都定义一个索引信息 } AVIOLDINDEX;
注意:如果一个AVI文件包含有索引块,则应在主AVI信息头的描述中,也就是AVIMAINHEADER结构的dwFlags中包含一个AVIF_HASINDEX标记。
还有一种特殊的数据块,用一个四字符码‘JUNK’来表征,它用于内部数据的队齐(填充),应用程序应该忽略这些数据块的实际意义。文件解析实例:
52 49 46 46 -> FORCC码'RIFF'的ASCII值,说明是一个RIFF文件。RIFF( resource interchange file format ) 。 84 CF 4A 00 -> 表示文件大小的4个字节,由于windows是小头的,所以文件大小为0x004ACF84,即4902788字节,由于该size不包含开头的8字节,所以文件总大小为4902796字节 41 56 49 20 -> FOURCC码'AVI '的ASCII码,文件类型,说明是一个avi文件。AVI(AudioVideoInterleaved)。 4C 49 53 54 -> FOURCC码'LIST'的ASCII码,说明是一个list 7C 02 00 00 -> 表示list大小的4个字节。该list size为0x0000027C,即636字节,整个list的大小为:636 + 8 = 644 字节 68 64 72 6C -> FOURCC码'hdrl'的ASCII码,list类型,说明这是一个头信息列表(header list)。 61 76 69 68 -> FOURCC码'avih'的ASCII码,表示该chunk的ID(ckID),说明这是一个主avi头(main avi header)。是结构体AVIMAINHEADER中的fcc成员 38 00 00 00 -> 表示chunk大小的4个字节。该chunk的size为0x00000038,即56字节,整个chunk的大小为:56 + 8 = 64 字节。是结构体AVIMAINHEADER中的cb成员 56 82 00 00 -> 是结构体AVIMAINHEADER中的dwMicroSecPerFrame成员,表示帧之间的微秒数。为0x00008256,即33366微秒。 EF AF 0A 00 -> 是结构体AVIMAINHEADER中的dwMaxBytesPerSec成员,表示文件的近似最大速率。为0x000AAFEF,即700399字节/秒。 01 00 00 00 -> 是结构体AVIMAINHEADER中的dwPaddingGranularity成员,表示以多少字节对齐。为0x000001,即1字节,说明文件以1字节对齐。 10 08 00 00 -> 是结构体AVIMAINHEADER中的dwFlags成员。为0x00000810,HasIndex(+);MustUseIndex;IsInterleaved;WasCaptureFile;Copyrighted;TrustCKType(+) DD 00 00 00 -> 是结构体AVIMAINHEADER中的dwTotalFrames成员。表示文件中总共有多少帧。为:0x000000DD,即221帧。dwTotalFrames * dwMicroSecPerFrame = 文件总时长。221 * 33366 = 7373886 微秒。即文件总时长为7.373886秒。 00 00 00 00 -> 是结构体AVIMAINHEADER中的dwInitialFrames成员。表示交错帧中的初始帧,非交错文件,该值为0。从dwFlags可知,该文件为非交错文件,所以该值为0。 01 00 00 00 -> 是结构体AVIMAINHEADER中的dwStreams成员,表示文件中所包含的流的数量。该文件中只包含一中流,所以该值为1。 A8 62 00 00 -> 是结构体AVIMAINHEADER中的dwSuggestedBufferSize成员,表示读该文件时,建议的缓存大小。为0x000062A8,即25256字节。查看数据chunk可知,最大的数据chunk的size就是25256。 60 01 00 00 -> 是结构体AVIMAINHEADER中的dwWidth成员,表示AVI文件的宽,以像素为单位。为0x00000160,即352像素。 F0 00 00 00 -> 是结构体AVIMAINHEADER中的dwHeight成员,表示AVI文件的高,以像素为单位。为0x000000F0,即240像素。 00 00 00 00 -> 是结构体AVIMAINHEADER中的dwReserved[0]成员,保留。 00 00 00 00 -> 是结构体AVIMAINHEADER中的dwReserved[1]成员,保留。 00 00 00 00 -> 是结构体AVIMAINHEADER中的dwReserved[2]成员,保留。 00 00 00 00 -> 是结构体AVIMAINHEADER中的dwReserved[3]成员,保留。 4C 49 53 54 -> FOURCC码'LIST'的ASCII码,说明是一个list 24 01 00 00 -> 表示list大小的4个字节。该list size为0x00000124,即292字节,整个list的大小为:292 + 8 = 300 字节 73 74 72 6C -> FOURCC码'strl'的ASCII码,list类型,说明这是一个流信息的list。 73 74 72 68 -> FOURCC码'strh'的ASCII码,说明这是一个流的头信息chunk,其内容是一个AVISTREAMHEADER结构体。该值是AVISTREAMHEADER结构体的fcc成员。 38 00 00 00 -> 表示chunk大小的4个字节。该chunk的size为0x00000038,即56字节,整个chunk的大小为:56 + 8 = 64 字节。是结构体AVISTREAMHEADER的cb成员。 76 69 64 73 -> FOURCC码'vids'的ASCII码,说明这是一个视频流。是结构体AVISTREAMHEADER的fccType成员。 63 76 69 64 -> FOURCC码'cvid'的ASCII码,标识解码该流时使用的编解码器。是结构体AVISTREAMHEADER的fccHandler成员。 00 00 00 00 -> 是结构体AVISTREAMHEADER的dwFlags成员。整个数据流的标志。Disabled;VideoPaletteChanges。 00 00 00 00 -> 是结构体AVISTREAMHEADER的wPriority成员和wLanguage成员。 00 00 00 00 -> 是结构体AVISTREAMHEADER的dwInitialFrames成员。表示交错帧中的初始帧,非交错文件,该值为0。 E9 03 00 00 -> 是结构体AVISTREAMHEADER的dwScale成员。为0x000003E9,即1001。与 dwRate 一起,决定该流所要使用的时间尺度。对于视频流来说,dwRate / dwScale = 帧率(fram rate )。 30 75 00 00 -> 是结构体AVISTREAMHEADER的dwRate成员。为0x00007530,即3000。该视频流的帧率为:3000 / 1001 = 29.97 (fps) 00 00 00 00 -> 是结构体AVISTREAMHEADER的dwStart成员。这个流的开始时间。此处为0。即文件开始时,流即开始。 DD 00 00 00 -> 是结构体AVISTREAMHEADER的dwLength成员。表示流的长度。为0x000000DD,即221。对于视频流,这其实就是总帧数,用dwLength除以帧率,即得到流的总时长。 A8 62 00 00 -> 是结构体AVISTREAMHEADER的dwSuggestedBufferSize成员。表示读该流时,建议的缓存大小。为0x000062A8,即25256字节。查看数据chunk可知,该流最大的数据chunk的size就是25256。 00 00 00 00 -> 是结构体AVISTREAMHEADER的dwQuality成员。表示该流的质量指标,此处为0。 00 00 00 00 -> 是结构体AVISTREAMHEADER的dwSampleSize成员。表示一个数据样本的大小。如果样本大小可变,此值为0。视频流中,该值一般为0。此处为0。 00 00 00 00 -> 是结构体AVISTREAMHEADER的rcFrame成员的left和top成员。rcFrame指定一个由主头文件中的wWidth 成员和dwHeight 成员文本流或视频流的目标矩形。此处,left和top都为0。 00 00 00 00 -> 是结构体AVISTREAMHEADER的rcFrame成员的right和bottom成员。此处为0。 73 74 72 66 -> FOURCC码'strf'的ASCII码,说明这是一个流的格式信息chunk。如果是视频流,其数据是一个BITMAPINFO结构体,对于音频流,其数据是一个WAVEFORMATEX结构体。 28 00 00 00 -> 格式信息chunk的大小,不包括最初的8个字节。为0x00000028,即40字节。整个chunk的大小为:40 + 8 = 48 字节。 28 00 00 00 -> 是结构体BITMAPINFO的成员BITMAPINFOHEADER的biSize成员,表示结构体BITMAPINFOHEADER的大小。为0x00000028,即40字节。这说明本chunk中,BITMAPINFO只包含一个成员,即BITMAPINFOHEADER结构体(因为biBitCount为24,所以结构体BITMAPINFO不包含颜色表)。 60 01 00 00 -> 是结构体BITMAPINFOHEADER的biWidth成员,位图的宽,以像素为单位。为0x00000160,即352像素。 F0 00 00 00 -> 是结构体BITMAPINFOHEADER的biHeight成员,位图的高,以像素为单位。为0x000000F0,即240像素。 01 00 18 00 -> 是结构体BITMAPINFOHEADER的biPlanes成员和biBitCount成员。其中biPlanes表示目标设备平面层的个数,其值为1。biBitCount表示一个像素所占的位数,其值为0x0018,即一个像素占24位。 63 76 69 64 -> 'cvid'的ASCII码,是结构体BITMAPINFOHEADER的biCompression成员,表示了压缩的类型。 FC 7B 00 00 -> 是结构体BITMAPINFOHEADER的biSizeImage成员,表明image的大小。为0x00007BFC,即31740字节。 00 00 00 00 -> 是结构体BITMAPINFOHEADER的biXPelsPerMeter成员,水平分辨率,此处为0。 00 00 00 00 -> 是结构体BITMAPINFOHEADER的biYPelsPerMeter成员,垂直分辨率,此处为0。 00 00 00 00 -> 是结构体BITMAPINFOHEADER的biClrUsed成员,此处为0。表明此处使用与对于biCompression指定的压缩模式的biBitCount值所对应的最大值。 00 00 00 00 -> 是结构体BITMAPINFOHEADER的biClrImportant成员,此处为0。表明所有的颜色都是重要的。 ------------------------------------------------------------------------------------------------ 是一个AVI 2.0的索引结构体。由于此次只使用old index,暂不对此进行研究。 ------------------------------------------------------------------------------------------------ -------------------------------------------------------------------------------------------------------- 一个AVI OpenDML 1.02 Header List,包含一个AVI ODML Header。暂不研究。 -------------------------------------------------------------------------------------------------------- 4C 49 53 54 -> FOURCC码'LIST'的ASCII码,说明是一个list 0C BF 4A 00 -> 表示list大小的4个字节。该list size为0x004ABF0C,即4898572字节,整个list的大小为:4898572 + 8 = 4898580 字节 6D 6F 76 69 -> FOURCC码'movi'的ASCII码,list类型,说明这是一个数据list。 -------------------------------------------------------------------------------------------------------- 一个AVI Standard Index Chunk,暂不研究 -------------------------------------------------------------------------------------------------------- 30 30 64 62 -> FOURCC码'00db'的ASCII码,说明这是第一个流(视频流)的数据,为未压缩帧。 08 62 00 00 -> 表示chunk大小的4个字节。该chunk的size为0x00006208,即25096字节,整个chunk的大小为:25096 + 8 = 25104 字节。 -------------------------------------------------------------------------------------------------------- chunk 的数据。 -------------------------------------------------------------------------------------------------------- 30 30 64 63 -> FOURCC码'00dc'的ASCII码,说明这是第一个流(视频流)的数据,为压缩帧。 DA 5A 00 00 -> 表示chunk大小的4个字节。该chunk的size为0x00005ADA,即23258字节,整个chunk的大小为:23258 + 8 = 23266 字节。 -------------------------------------------------------------------------------------------------------- chunk 的数据。 -------------------------------------------------------------------------------------------------------- -------------------------------------------------------------------------------------------------------- 连续的chunk 的数据。 -------------------------------------------------------------------------------------------------------- 64 69 78 31 -> FOURCC码'idx1'的ASCII码,chunk 类型,说明这是一个old index chunk。 E0 0D 00 00 -> 表示chunk大小的4个字节。该chunk的size为0x00000DE0,即3552字节,整个chunk的大小为:3552 + 8 = 3560 字节。每条索引信息有4个DWORD类型构成,即占16个字节,所以该index chunk中包含的索引项的个数为:3552 / 16 = 222。由此可以推知,movi list中含有222个数据chunk。 37 46 78 78 -> '7Fxx'的ASCII码,chunk ID,这应该是用户自定义的chunk的索引。 00 00 00 00 -> 标志。'LIST'-chunk;KeyFrame;Midpart;Firstpart;Lastpart;NoTime 9C 02 00 00 -> 偏移量。为0x0000029C,即668字节。 00 00 00 00 -> 该数据chunk的大小。根据给chunk的偏移量,没有找到该chunk。该chunk的数据大小又为0,推断这是一处错误数据。 30 30 64 62 -> '00db'的ASCII码,chunk ID,说明是第一个流的非压缩帧。 10 00 00 00 -> 标志。'LIST'-chunk;KeyFrame(+);Midpart;Firstpart;Lastpart;NoTime FC 08 00 00 -> 偏移量。为0x000008FC,即2300字节。该文件中用的是从文件开始处的偏移量。 08 62 00 00 -> 该数据chunk的大小。为0x00006208,即25096字节。 30 30 64 63 -> '00dc'的ASCII码,chunk ID,说明是第一个流的压缩帧。 00 00 00 00 -> 标志。'LIST'-chunk;KeyFrame;Midpart;Firstpart;Lastpart;NoTime 0C 6B 00 00 -> 偏移量。为0x00006B0C,即27404字节。该文件中用的是从文件开始处的偏移量。 DA 5A 00 00 -> 该数据chunk的大小。为0x00005ADA,即23258字节。 -------------------------------------------------------------------------------------------------------- 下面依次是index成员,直到文件结束。 --------------------------------------------------------------------------------------------------------
转载出处:http://blog.csdn.net/hellofeiya/article/details/9241031