उबंटू लिनक्स पर आधे (या किसी भी प्रतिशत) में एक पाठ फ़ाइल को विभाजित करें
यदि आपके पास एक अनकही पाठ फ़ाइल है जिसे आप संसाधित करने का प्रयास कर रहे हैं, तो इसे खंडों में विभाजित करना कभी-कभी प्रसंस्करण समय में मदद कर सकता है, खासकर यदि हम एक फ़ाइल को एक स्प्रेडशीट में आयात करने जा रहे थे। या आप किसी फ़ाइल से लाइनों का एक विशेष सेट प्राप्त करना चाहते हैं.
विभाजन, wc, tail, cat, और grep दर्ज करें। (sed और awk मत भूलना)। लिनक्स में कमांड लाइन पर पाठ फ़ाइलों के साथ काम करने के लिए उपयोगिताओं का एक समृद्ध सेट है। हमारे कार्य के लिए आज हम विभाजन और wc का उपयोग करेंगे.
पहले हम अपनी लॉग फ़ाइल पर एक नज़र डालते हैं ... .
> एलएस -एल
-rw-r-r- 1 ageek ggroup 42046520 2006-09-19 11:42 access.log
हम देखते हैं कि फ़ाइल का आकार 42 एमबी है। यह थोड़े बड़ा है ... लेकिन हम कितनी लाइनों के साथ काम कर रहे हैं? यदि हम इसे एक्सेल में आयात करना चाहते हैं, तो हमें इसे 65k लाइनों से कम रखने की आवश्यकता होगी.
आइए wc यूटिलिटी का उपयोग करके फाइल में लाइनों की मात्रा की जांच करें, जो "शब्द गणना" के लिए है।.
> wc -l access.log
146330 access.log
हम अपनी सीमा पर हैं। हमें इसे 3 खंडों में विभाजित करना होगा। हम ऐसा करने के लिए विभाजन उपयोगिता का उपयोग करेंगे.
> विभाजन -l 60000 access.log
> एलएस -एलकुल 79124
-rw-rw-r- 1 ageek ggroup 40465200 2006-09-19 12:00 access.log
-rw-rw-r- 1 ऐजेक ggroup 16598163 2006-09-19 12:05 xaa
-rw-rw-r- 1 एगेक जीग्रुप 16596545 2006-09-19 12:05 एक्सएबी
-rw-rw-r- 1 ऐजेक ggroup 7270492 2006-09-19 12:05 xac
अब हमने अपनी पाठ फ़ाइलों को 3 अलग फ़ाइलों में विभाजित किया है, जिनमें से प्रत्येक में 60000 से कम लाइनें हैं, जो चुनने के लिए एक अच्छी संख्या की तरह लग रहा था। अंतिम फ़ाइल में बचे हुए राशि है। यदि आप इस विशेष फ़ाइल को आधे में काटने जा रहे हैं, तो आपने यह कर लिया होगा:
> विभाजन -l 73165 access.log
और, यही सब कुछ है.