मुखपृष्ठ » कैसे » प्रारूपण को संरक्षित करते हुए मैं पीडीएफ से पाठ की प्रतिलिपि कैसे बना सकता हूं?

    प्रारूपण को संरक्षित करते हुए मैं पीडीएफ से पाठ की प्रतिलिपि कैसे बना सकता हूं?

    पीडीएफ, सर्वव्यापी दस्तावेज़ प्रारूप, फोंट, छवियों और प्लेटफार्मों में सामान्य लेआउट को संरक्षित करते हुए दस्तावेजों को साझा करने के लिए महान है। हालाँकि, दस्तावेज़ से बाहर पाठ को कॉपी और पेस्ट करते समय उस प्रारूप को संरक्षित करने का एक आसान तरीका है?

    आज का प्रश्न और उत्तर सत्र सुपरयूज़र के सौजन्य से आता है-स्टैक एक्सचेंज का एक उपखंड, क्यू एंड ए वेब साइटों का एक समुदाय-संचालित समूह है।.

    प्रश्न

    सुपरयूज़र रीडर कॉलन प्रारूपण को संरक्षित करते हुए पीडीएफ से पाठ निकालने का एक तरीका खोज रहा है:

    जब मैं एक पीडीएफ फाइल के बाहर और एक पाठ संपादक में पाठ की प्रतिलिपि बनाता हूं, तो यह विभिन्न तरीकों से समाप्त हो जाता है। बोल्ड और इटैलिक की तरह स्वरूपण खो जाते हैं; पाठ के एक पैराग्राफ के भीतर सॉफ्ट लाइन ब्रेक हार्ड लाइन ब्रेक में परिवर्तित हो जाते हैं; दो लाइनों पर एक शब्द को तोड़ने के लिए डैश तब भी संरक्षित किए जाते हैं जब उन्हें नहीं होना चाहिए; और सिंगल और डबल कोट्स को बदल दिया जाता है? संकेत.

    आदर्श रूप से, मैं एक पीडीएफ से पाठ को कॉपी करने में सक्षम होना चाहता हूं और इसे HTML कोड में परिवर्तित कर दिया है, "स्मार्ट उद्धरण" और "में कनवर्ट किया गया है, और लाइन ब्रेक ठीक से किया है। क्या इसे करने का कोई तरीका है?

    क्या स्वरूपण का त्याग किए बिना पाठ को हथियाने के लिए कॉलन (और हम में से बाकी) के लिए एक त्वरित और आसान तरीका है?

    उत्तर

    सुपरयूजर योगदानकर्ता Frabjous सावधानी की एक भारी खुराक के साथ एक समाधान प्रदान करता है:

    सबसे पहले, आपको यह समझना होगा कि पीडीएफ क्या है। पीडीएफ एक मुद्रित पृष्ठ की नकल करने के लिए डिज़ाइन किए गए हैं, और वे केवल आउटपुट स्वरूप के रूप में डिज़ाइन किए गए हैं, न कि इनपुट प्रारूप। एक पीडीएफ मूल रूप से एक नक्शा है जिसमें पात्रों के सटीक स्थान (व्यक्तिगत पत्र या विराम चिह्न, आदि) या चित्र हैं। ज्यादातर मामलों में, एक पीडीएफ उस जानकारी को संग्रहीत नहीं करता है जहां एक शब्द समाप्त होता है और दूसरा शुरू होता है, बहुत कम चीजें जैसे नरम ब्रेक बनाम पैरा ब्रेकिंग के लिए हार्ड ब्रेक.

    (कुछ हालिया PDF इस सामान के बारे में कुछ जानकारी संग्रहीत करते हैं, लेकिन यह एक नई तकनीक है, और आप भाग्यशाली हैं कि आप इस तरह से PDF ढूंढेंगे। यदि आपने ऐसा किया है, तो भी आपके पीडीएफ दर्शक को इसके बारे में पता नहीं होगा।)

    वैसे भी, यह आपके सॉफ़्टवेयर पर निर्भर है कि किसी तरह के "आर्टिफिशियल इंटेलिजेंस" को लागू करने के लिए केवल अलग-अलग वर्णों के स्थानों से निकालने के लिए कि एक शब्द क्या है, एक पैराग्राफ क्या है, और इसी तरह। अलग-अलग सॉफ्टवेयर दूसरों की तुलना में बेहतर करने जा रहे हैं, और यह इस बात पर भी निर्भर करेगा कि पीडीएफ कैसे बनाया गया था। किसी भी मामले में, आपको कभी भी सही परिणाम की उम्मीद नहीं करनी चाहिए। आउटपुट पीडीएफ होने के स्रोत स्रोत के रूप में ही नहीं है। यदि आप कर सकते हैं तो इसे प्राप्त करने का प्रयास करना बेहतर है.

    अपनी तरह की समस्या का मानक समाधान है Adobe Acrobat Professional (महंगे वाले, मुफ्त पाठक नहीं) को पीडीएफ को HTML में बदलने के लिए। यहां तक ​​कि सही परिणाम भी नहीं मिलने वाले हैं.

    वहाँ मुफ्त सॉफ्टवेयर है कि पीडीएफ से पाठ निकालने के लिए कुछ स्वरूपण बरकरार के साथ इस्तेमाल किया जा सकता है, लेकिन फिर से, सही परिणाम की उम्मीद नहीं है। देखें, जैसे, कैलिबर (जो RTF प्रारूप में परिवर्तित हो सकता है), pdftohtml / pdfreflow, या AbiWord वर्ड प्रोसेसर (सभी आयात / निर्यात प्लग इन सक्षम के साथ)। OpenOffice के लिए एक पीडीएफ आयात प्लगइन भी है.

    लेकिन कृपया इनमें से किसी भी परिणाम के साथ पूर्णता की उम्मीद न करें। आप यहाँ अनाज के खिलाफ जा रहे हैं। पीडीएफ सिर्फ एक संपादन योग्य इनपुट प्रारूप के रूप में नहीं है.

    यदि आपको यह तय करने में परेशानी हो रही है कि कौन सा उपकरण शुरू करना है, तो कैलिबर एक वाजिब दस्तावेज स्विस आर्मी चाकू है। आप अपने ईबुक रीडर पर उपयोग के लिए पीडीएफ फाइलों को बदलने और अपनी ईबुक / डॉक्यूमेंट लाइब्रेरी को व्यवस्थित करने के लिए भी इसका उपयोग कर सकते हैं.


    स्पष्टीकरण में कुछ जोड़ना है? टिप्पणियों में ध्वनि बंद। अन्य टेक-सेवी स्टैक एक्सचेंज उपयोगकर्ताओं से अधिक उत्तर पढ़ना चाहते हैं? पूरी चर्चा धागा यहाँ देखें.