pdfjs可以解析pdf文件转成canvas图片。前端读取pdf转成blob,pdfjs解析blob转成canvas,里面的canvas是怎么从blob拿到页面信息的?
PDF 格式是有标准的(Adobe 公司制定的,前后有 PDF/X、PDF/A、PDF/VT、PDF/E 等几个格式)。
有标准就好办了,按标准来说一个合法的 PDF 文件的头几个字节是啥啥信息,中间几个字节是啥啥信息,结尾几个字节是啥啥信息…… pdf.js 就是把 PDF 文件当二进制处理,按这个标准去读取每个部分的字节来解析。
你会发现它的源代码里就是各种 parser。
2.1m questions
2.1m answers
60 comments
56.6k users