प्रारूपण को संरक्षित करते हुए मैं पीडीएफ से पाठ की प्रतिलिपि कैसे बना सकता हूं?
पीडीएफ, सर्वव्यापी दस्तावेज़ प्रारूप, फोंट, छवियों और प्लेटफार्मों में सामान्य लेआउट को संरक्षित करते हुए दस्तावेजों को साझा करने के लिए महान है। हालाँकि, दस्तावेज़ से बाहर पाठ को कॉपी और पेस्ट करते समय उस प्रारूप को संरक्षित करने का एक आसान तरीका है?
आज का प्रश्न और उत्तर सत्र सुपरयूज़र के सौजन्य से आता है-स्टैक एक्सचेंज का एक उपखंड, क्यू एंड ए वेब साइटों का एक समुदाय-संचालित समूह है।.
प्रश्न
सुपरयूज़र रीडर कॉलन प्रारूपण को संरक्षित करते हुए पीडीएफ से पाठ निकालने का एक तरीका खोज रहा है:
जब मैं एक पीडीएफ फाइल के बाहर और एक पाठ संपादक में पाठ की प्रतिलिपि बनाता हूं, तो यह विभिन्न तरीकों से समाप्त हो जाता है। बोल्ड और इटैलिक की तरह स्वरूपण खो जाते हैं; पाठ के एक पैराग्राफ के भीतर सॉफ्ट लाइन ब्रेक हार्ड लाइन ब्रेक में परिवर्तित हो जाते हैं; दो लाइनों पर एक शब्द को तोड़ने के लिए डैश तब भी संरक्षित किए जाते हैं जब उन्हें नहीं होना चाहिए; और सिंगल और डबल कोट्स को बदल दिया जाता है? संकेत.
आदर्श रूप से, मैं एक पीडीएफ से पाठ को कॉपी करने में सक्षम होना चाहता हूं और इसे HTML कोड में परिवर्तित कर दिया है, "स्मार्ट उद्धरण" और "में कनवर्ट किया गया है, और लाइन ब्रेक ठीक से किया है। क्या इसे करने का कोई तरीका है?
क्या स्वरूपण का त्याग किए बिना पाठ को हथियाने के लिए कॉलन (और हम में से बाकी) के लिए एक त्वरित और आसान तरीका है?
उत्तर
सुपरयूजर योगदानकर्ता Frabjous सावधानी की एक भारी खुराक के साथ एक समाधान प्रदान करता है:
सबसे पहले, आपको यह समझना होगा कि पीडीएफ क्या है। पीडीएफ एक मुद्रित पृष्ठ की नकल करने के लिए डिज़ाइन किए गए हैं, और वे केवल आउटपुट स्वरूप के रूप में डिज़ाइन किए गए हैं, न कि इनपुट प्रारूप। एक पीडीएफ मूल रूप से एक नक्शा है जिसमें पात्रों के सटीक स्थान (व्यक्तिगत पत्र या विराम चिह्न, आदि) या चित्र हैं। ज्यादातर मामलों में, एक पीडीएफ उस जानकारी को संग्रहीत नहीं करता है जहां एक शब्द समाप्त होता है और दूसरा शुरू होता है, बहुत कम चीजें जैसे नरम ब्रेक बनाम पैरा ब्रेकिंग के लिए हार्ड ब्रेक.
(कुछ हालिया PDF इस सामान के बारे में कुछ जानकारी संग्रहीत करते हैं, लेकिन यह एक नई तकनीक है, और आप भाग्यशाली हैं कि आप इस तरह से PDF ढूंढेंगे। यदि आपने ऐसा किया है, तो भी आपके पीडीएफ दर्शक को इसके बारे में पता नहीं होगा।)
वैसे भी, यह आपके सॉफ़्टवेयर पर निर्भर है कि किसी तरह के "आर्टिफिशियल इंटेलिजेंस" को लागू करने के लिए केवल अलग-अलग वर्णों के स्थानों से निकालने के लिए कि एक शब्द क्या है, एक पैराग्राफ क्या है, और इसी तरह। अलग-अलग सॉफ्टवेयर दूसरों की तुलना में बेहतर करने जा रहे हैं, और यह इस बात पर भी निर्भर करेगा कि पीडीएफ कैसे बनाया गया था। किसी भी मामले में, आपको कभी भी सही परिणाम की उम्मीद नहीं करनी चाहिए। आउटपुट पीडीएफ होने के स्रोत स्रोत के रूप में ही नहीं है। यदि आप कर सकते हैं तो इसे प्राप्त करने का प्रयास करना बेहतर है.
अपनी तरह की समस्या का मानक समाधान है Adobe Acrobat Professional (महंगे वाले, मुफ्त पाठक नहीं) को पीडीएफ को HTML में बदलने के लिए। यहां तक कि सही परिणाम भी नहीं मिलने वाले हैं.
वहाँ मुफ्त सॉफ्टवेयर है कि पीडीएफ से पाठ निकालने के लिए कुछ स्वरूपण बरकरार के साथ इस्तेमाल किया जा सकता है, लेकिन फिर से, सही परिणाम की उम्मीद नहीं है। देखें, जैसे, कैलिबर (जो RTF प्रारूप में परिवर्तित हो सकता है), pdftohtml / pdfreflow, या AbiWord वर्ड प्रोसेसर (सभी आयात / निर्यात प्लग इन सक्षम के साथ)। OpenOffice के लिए एक पीडीएफ आयात प्लगइन भी है.
लेकिन कृपया इनमें से किसी भी परिणाम के साथ पूर्णता की उम्मीद न करें। आप यहाँ अनाज के खिलाफ जा रहे हैं। पीडीएफ सिर्फ एक संपादन योग्य इनपुट प्रारूप के रूप में नहीं है.
यदि आपको यह तय करने में परेशानी हो रही है कि कौन सा उपकरण शुरू करना है, तो कैलिबर एक वाजिब दस्तावेज स्विस आर्मी चाकू है। आप अपने ईबुक रीडर पर उपयोग के लिए पीडीएफ फाइलों को बदलने और अपनी ईबुक / डॉक्यूमेंट लाइब्रेरी को व्यवस्थित करने के लिए भी इसका उपयोग कर सकते हैं.
स्पष्टीकरण में कुछ जोड़ना है? टिप्पणियों में ध्वनि बंद। अन्य टेक-सेवी स्टैक एक्सचेंज उपयोगकर्ताओं से अधिक उत्तर पढ़ना चाहते हैं? पूरी चर्चा धागा यहाँ देखें.