首页 >> 最新文章

PDF的信息表达原理及特点分析0

恒茂五金网 2022-01-17 05:04:16

PDF的信息表达原理及特点分析

PDF的信息表达原理及特点分析 2011年12月10日 来源: 一、PDF概述

PDF(Portable Document Format)是一种结构化的文档格式。它由美国著名排版与图像处理软件Adobe公司于1993年首次发布(1.0版),并于同年推出了其相应的支持软件产品系列AdobeAcrobat1.0版;随后Adobe公司又对它进行修订和升级,于1994年发布了1.1版,并推出了支持软件产品系列Adobe Acrobat2.0及2.1版。随后的PDF1.2版又于1996年11月27日发布,相应的支持软件产品系列Adobe Acrobat也升级到3.0版。至1997年底,国际标准化组织已经开始酝酿将PDF接纳为国际标准。

1.PDF与PS的比较

PS语言(PostScript语言,即页面描述语言),也是由Adobe公司拥有的一项事实上的印刷工业标准,它能描述精美的版面,在目前的印刷领域中占据着统治地位。PDF是从PS发展而来,在对页面的描述方面它们有着几乎相同的能力和相似的描述方法。PDF采用了与PS相同的着色模型(Imaging Model)来表现文字和图形,与PS语言一样,PDF的页面描述指令也是通过将选定的区域着色来绘制页面的。着色的区域可以是字母等的轮廓、直线和曲线定义的区域以及位图,着色的颜色可以是任意的,页面上的任何图形都可以被裁剪成其他形状。页面开始时是全空的,各种指令将不同的图形绘制到页面上,并且新的图形是不透明的,它可以覆盖旧的图形。

虽然如此,PDF与PS相比,还是有很大的不同。这主要表现在以下几个方面:①PDF文件中可以包含交互对象,如超链接、交互表单等,而PS则没有。②PDF是一种文件结构,而PS则是一种编程语言,因此,PDF具有比PS更高的处理效率。③PDF的严格结构定义允许应用程度对其中的某个对象进行随机存取,而PS则只能对整体进行顺序存取。例如要访问一个PS文件中的第100页,那么就必须在先顺序解释了其前99页之后,才能找到第100页,而在PDF中对每一页的存取则都是一样快的。④PDF中还包含有字库的规格尺寸等字库描述信息,以便在字库不存在之时,可以进行字库仿真(并非简单的字库替代),保证文档显示的一致性。

2.PDF的特点

PDF的特点可以归纳如下:①可传递性。PDF文件支持7位ASCⅡ码和二进制码这两种编码方式,可以正确地在各种网络环境下进行传输。②支持交互操作。PDF包含了交互表单和超链接等交互对象。③支持声音、动画。④支持对页面内容的随机存取,提高了页面的各种操作速度。⑤支持不断追加的修改方式,以便于少量修改和提高效率。⑥支持多种压缩编码方式,文件结构更加紧凑。⑦字体无关性。PDF文件中可以自带字库描述信息,以便于在用户系统缺乏所需字体的情况下,仍然能够保证文档的正确显示。⑧平台无关性。PDF文件具有软、硬件的平台独立性。这个特点非常适合于网络传递中的信息交换,以免除乱码的苦恼。⑨安全性控制。PDF文件支持各种不同级别的安全性控制,这种安全性控制对于保护电子出版物的版权是非常重要的,我们可根据各种不同电子出版物的安全性要求来进行不同级别的安全设置。

二、PDF原理结构

1.PDF文件结构

PDF的文件结构(即物理结构)包括四个部分:文件头、文件体、交叉引用表和文件尾,可参见图一。

文件头指明了该文件所遵从的PDF规范的版本号,它出现在PDF文件的第一行。

文件体由一系列的PDF间接对象(IndirectObject)组成。

交叉引用表则是为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。

文件尾声明了交叉引用表的地址,即指明了文件体的根对象(Catalog),还保存了加密等安全信息。

2.PDF文档结构

PDF的文档结构即是PDF文件内容的逻辑组织结构,它反映了文件体中各间接对象间的等级层次关系。PDF的文档结构是一种树型结构,如图二所示。树的根节点也就是PDF文件的根对象,根节点下面有四个子树:页面树(Pages Tree)、书签树(Outline Tree)、线索树(ArticleThreads)和名字树(NamedDestination)。

其中,在页面树中,所有页面对象都是该树的叶子节点,它们将继承父节点的各属性值来作为其相应属性的缺省值。书签树则是按照树型层次的等级关系来将书签(Book Mark)组织起来的,书签建立了某个书签名与一个具体页面的位置关联,它使得用户可以按照书签名来访问文档的内容。线索树则将文章线索以及线索下的各文章块(Article Bead),按照树型的结构组织起来进行管理。至于名字树,它则是建立了一种字符串(即名字)和页面区域的对应关系,树中的各叶子节点保存着字符串及其相应的页面区域,而非叶子节点则只是一种索引,以便让应用程序能够对叶子节点进行快速存取。名字树的作用就是让PDF文件中的其它对象也能够用字符串名字来代表其某一个页面区域。

3.PDF中的资源

PDF中的页面内容(如文字、图形、图像等)都保存在页对象的Contents关键字所对应的流对象(以下简

牡丹花苗的价格多少钱一棵

钯碳回收方法哪家好

金线莲多少钱一斤

北京西城区少年宫邮编

锦鲤鱼鱼苗参数

友情链接