内容处理
本节介绍与 PDF 页面内容、页面结构和文档级呈现相关的能力。部分能力会写入或调整 PDF 内容(如页眉页脚、页面对象、页面组织),部分能力用于读取页面信息(如文本提取、页面标签、图层状态)。
- 页眉页脚:在文档中统一维护页眉、页脚与页码等;修改会写入 PDF,完成后需按业务自行保存或导出。
- 文本提取:按页段、整页或矩形区域取出正文与表单域相关文本,并可在字符粒度获取几何信息。
- 页面组织:插入、删除、移动、复制、旋转、提取与合并页面,并调整页面框和页面切换效果。
- 页面对象:读取、命中、添加、修改或删除页面内容流中的文本、图片和路径对象。
- 页面标签:读取页面显示标签,并根据标签文本定位页面。
- 图层:读取 PDF 图层树,控制图层节点可见性,并处理带图层的页面导入场景。
若仅需按关键字查找文本并获取命中区域,请参阅 文本搜索。