
यह मेरे लिए बहुत अप्रत्याशित था कि जावा हब में पीडीएफ दस्तावेजों के साथ काम करने के बारे में व्यावहारिक रूप से कोई जानकारी नहीं है, इसलिए, व्यक्तिगत अनुभव से, मैं एक सर्वलेट के उदाहरण से दिखाना चाहता हूं कि किसी भी वेब पेज को पीडीएफ दस्तावेज़ में बदलना कितना आसान है।
प्रस्तावना:
हम एक सरल सर्वलेट लिखेंगे जो HTTP प्रोटोकॉल का उपयोग करके संकेतित वेब पेज को ले जाएगा और इसके आधार पर एक पूर्ण पीडीएफ दस्तावेज़ उत्पन्न करेगा।
प्रयुक्त पुस्तकालय:
- फ्लाइंग सॉसर पीडीएफ - मुख्य पुस्तकालय जो हमें HTML / CSS से एक पीडीएफ दस्तावेज़ बनाने में मदद करेगा
- iText एक पुस्तकालय है जो ऊपर वर्णित एक में शामिल है, लेकिन मैं मदद नहीं कर सका, लेकिन पुस्तकालयों की सूची में इसे शामिल कर सकता हूं, क्योंकि यह इसके आधार पर है कि एक पीडीएफ दस्तावेज़ उत्पन्न होगा
- HTML क्लीनर - एक पुस्तकालय जो हमारे HTML कोड को क्रम में रखेगा
मावेन कॉन्फ़िगरेशन के लिए लाइब्रेरी विवरण (pom.xml)<dependency> <groupId>org.xhtmlrenderer</groupId> <artifactId>flying-saucer-pdf</artifactId> <version>9.0.4</version> </dependency> <dependency> <groupId>net.sourceforge.htmlcleaner</groupId> <artifactId>htmlcleaner</artifactId> <version>2.6.1</version> </dependency>
पृष्ठ का गठन:
सबसे महत्वपूर्ण बिंदुओं में से एक पृष्ठ का गठन है। तथ्य यह है कि यह पृष्ठ से ही है, सीएसएस के माध्यम से, कि भविष्य के पीडीएफ दस्तावेज़ के पैरामीटर सेट हैं।
लेआउट पर विचार करें:
page.jsp <%@ page import="java.util.Date" %> <%@ page import="java.text.SimpleDateFormat" %> <%@ page contentType="text/html;charset=UTF-8" language="java" %> <%! private SimpleDateFormat sdf = new SimpleDateFormat("HH:mm:ss"); %> <html> <head> <title></title> <style> @font-face { font-family: "HabraFont"; src: url(http://localhost:8080/resources/fonts/tahoma.ttf); -fs-pdf-font-embed: embed; -fs-pdf-font-encoding: Identity-H; } @page { margin: 0px; padding: 0px; size: A4 portrait; } @media print { .new_page { page-break-after: always; } } body { background-image: url(http://localhost:8080/resources/images/background.png); } body *{ padding: 0; margin: 0; } * { font-family: HabraFont; } #block { width: 90%; margin: auto; background-color: white; border: dashed #dbdbdb 1px; } #logo { margin-top: 5px; width: 100%; text-align: center; border-bottom: dashed #dbdbdb 1px; } #content { padding-left: 10px; } </style> </head> <body> <div id="block"> <div id="logo"><img src="http://localhost:8080/resources/images/habra-logo.png"></div> <div id="content"> , ! : <%=sdf.format(new Date())%> <div class="new_page"> </div> ! </div> </div> </body> </html>
यहां मैं कुछ बिंदुओं पर ध्यान देना चाहता हूं। शुरुआत के लिए, सबसे महत्वपूर्ण बात:
सभी रास्ते निरपेक्ष होने चाहिए ! चित्र, शैली, फ़ॉन्ट पते, आदि, हर चीज़ पर निरपेक्ष पथ लिखे जाने चाहिए। अब चलो CSS नियमों (जो @ प्रतीक से शुरू होता है) के माध्यम से चलते हैं।
@ फ़ॉन्ट-फेस एक नियम है जो हमारे पीडीएफ जनरेटर को बताता है कि कौन सा फ़ॉन्ट प्राप्त करना है और यह कहां से आता है। समस्या यह है कि पीडीएफ दस्तावेज़ उत्पन्न करने वाले पुस्तकालय में साइरिलिक शामिल फ़ॉन्ट नहीं होते हैं। इसीलिए यह आवश्यक है कि आपके पेज में उपयोग होने वाले
सभी फोंट का निर्धारण किया जाए, भले ही वे मानक फोंट हों: एरियल, वर्दाना, ताहोमा, आदि, अन्यथा आप अपने दस्तावेज़ में सिरिलिक वर्णमाला नहीं देखने का जोखिम उठाते हैं।
"-Fs-pdf-font-embed: एम्बेड:" जैसी संपत्तियों पर ध्यान दें और "-fs-pdf-font-एन्कोडिंग: आइडेंटिटी-एच;", ये गुण आवश्यक हैं, बस उन्हें जोड़ना याद रखें।
@ पृष्ठ एक नियम है जो पीडीएफ दस्तावेज़ और उसके आकार के लिए पैडिंग सेट करता है। यहां मैं यह नोट करना चाहूंगा कि यदि आप A3 पृष्ठ का आकार निर्दिष्ट करते हैं (और जैसा कि अभ्यास से पता चलता है, यह अक्सर आवश्यक होता है, क्योंकि पृष्ठ चौड़ाई में दस्तावेज़ में फिट नहीं होता है), इसका मतलब यह नहीं है कि उपयोगकर्ता को दस्तावेज़ प्रिंट करने की आवश्यकता होगी (यदि वांछित है) A3 प्रारूप में, बल्कि, सभी सामग्री आनुपातिक रूप से कम हो जाएगी / वांछित (आमतौर पर A4) तक बढ़ेगी। यानी
आकार की संपत्ति के मूल्य के बारे में उलझन में
रहें , लेकिन ध्यान रखें कि यह आपके लिए एक महत्वपूर्ण भूमिका निभा सकता है।
@ मीडिया - एक नियम जो आपको एक निश्चित प्रकार के डिवाइस के लिए सीएसएस कक्षाएं बनाने की अनुमति देता है, हमारे मामले में यह "प्रिंट" है। इस नियम के अंदर, हमने एक क्लास बनाया, जिसके बाद हमारा पीडीएफ डॉक्यूमेंट जनरेटर एक नया पेज बनाएगा।
सर्वलेट:
अब हम एक सर्वलेट लिखते हैं जो हमें उत्पन्न पीडीएफ दस्तावेज़ लौटाएगा:
PdfServlet.java package ru.habrahabr.web_to_pdf.servlets; import org.htmlcleaner.CleanerProperties; import org.htmlcleaner.HtmlCleaner; import org.htmlcleaner.PrettyXmlSerializer; import org.htmlcleaner.TagNode; import org.xhtmlrenderer.pdf.ITextRenderer; import javax.servlet.ServletException; import javax.servlet.http.HttpServlet; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletResponse; import java.io.*; import java.net.HttpURLConnection; import java.net.URL; import java.net.URLConnection; public class PdfServlet extends HttpServlet { private static final String PAGE_TO_PARSE = "http://localhost:8080/page.jsp"; private static final String CHARSET = "UTF-8"; @Override protected void service(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { try { resp.setContentType("application/pdf"); byte[] pdfDoc = performPdfDocument(PAGE_TO_PARSE); resp.setContentLength(pdfDoc.length); resp.getOutputStream().write(pdfDoc); } catch (Exception ex) { resp.setContentType("text/html"); PrintWriter out = resp.getWriter(); out.write("<strong>Something wrong</strong><br /><br />"); ex.printStackTrace(out); ex.printStackTrace(); } } private byte[] performPdfDocument(String path) throws Exception {
वैसे, इन उद्देश्यों के लिए एक सर्वलेट लिखना आवश्यक नहीं है, आप इस सर्वलेट के तर्क को एक कंसोल एप्लिकेशन पर भी स्थानांतरित कर सकते हैं जो पीडीएफ दस्तावेजों को फाइलों में बचाएगा। जैसा कि आपने देखा होगा, सर्वलेट में आपको कॉन्फ़िगर, परिवर्तन, पूरक आदि की आवश्यकता नहीं है। (ठीक है, पृष्ठ के पथ के अपवाद के साथ और, संभवतः, एन्कोडिंग), क्रमशः, एक पीडीएफ दस्तावेज़ तैयार करने पर सभी काम बहुत सरल हैं और विशेष रूप से दृश्य में होते हैं।
अंत में, आपको कुछ इस तरह के पीडीएफ दस्तावेज़ मिलना चाहिए:
github.com/ruslanys/example-web-to-pdf/blob/master/web-to-pdf-example.pdfमैंने अपने दस्तावेज़ को जानकारी के साथ पूरक किया (हैबर के मुख्य पृष्ठ को पार्स किया) और मुझे निम्नलिखित दस्तावेज़ मिला:
github.com/ruslanys/sample-html-to-pdf/blob/master/web-to-pdf-habra.pdfसूत्रों का लिंक:
github.com/ruslanys/sample-html-to-pdfPS सिद्धांत रूप में, इस उदाहरण के आधार पर, आप एक पूरी सेवा लिख सकते हैं जो किसी भी पृष्ठ पते पर एक पीडीएफ दस्तावेज़ बनाएगा। केवल एक चीज की आवश्यकता है जो पृष्ठ के HTML कोड को हमारे नियमों के अनुसार लाए, अर्थात्। सबसे पहले, सभी रिश्तेदार पथों को निरपेक्ष लोगों के लिए फिर से लिखना आवश्यक होगा (क्योंकि यह करना मुश्किल नहीं है), और कुछ तर्क के अनुसार, दस्तावेज़ आकार निर्धारित करें।