"कुठे काय" विषयी थोडेसे...

वाचक's picture
वाचक in जनातलं, मनातलं
11 Feb 2009 - 11:27 pm

नमस्कार
(ह्या संकेतस्थळावर इतर संकेतस्थळांविषयीचा मजकूर वाचला आणि हा लेख लिहिण्यास धीर आला. सदर लेख ही कुठल्याही प्रकारची जाहिरात समजू नये तसेच सदर संकेतस्थळाच्या नियमांत बसत नसल्यास काढून टाकला तरी चालेल.)

मी मराठीतली काही प्रमुख संकेतस्थळे नेहेमी वाचतो. अर्थात प्रत्येक वेळी सर्वच मजकूर वाचायला जमतो असे नाही. पण गेल्या काही महिन्यांमधे मी वैयक्तिकरीत्या जास्त कार्यमग्न झालो आणि त्याचप्रमाणे संकेतस्थळांवर होणार्‍या लिखाणाची वारंवारिताही वाढलेली दिसली. बराच चांगला मजकूर वाचायचा राहून जाउ लागला आणि प्रत्येक वेळी सगळीच्या सगळी स्थळे बघणे अवघड होउन बसले. ह्यावर काही उपाय केला पाहीजे असे माझ्या मनाने घेतले आणि मग मी त्या दृष्टीने शोध घ्यायला सुरुवात केली. सगळ्यात प्रथम विचार मनात आला तो आरएसएस फीड चा. पण त्यात २ अडचणी दिसल्या - सगळ्या संकेतस्थळांचा फीड नव्हता आणि ज्यांचा होता तो माझ्या दृष्टीने उपयोगाचा नव्हता. मग नजर गेली 'मराठी ब्लॉग विश्व ' वर - अर्थात ते फक्त ब्लॉग पुरतेच मर्यादित होते. पण आपणही अशाच प्रकारचे काही तरी करावे ह्या विचाराने उचल खाल्ली.

मग शोधता शोधता नजर पडली - 'स्क्रीन स्क्रेपिंग' वर - तसच काहीसं करुन बघायच अस ठरवल. मग एक संकेतस्थळ निवडल - छोटासा कोड लिहिला आणि संपूर्ण मजकूर माझ्या संगणकावर उतरवून घेण्यात मला यश मिळाले. नंतरची पायरी म्हणजे - त्यातल्या हव्या त्या विभागाच्या हव्या त्या नोंदी वेगळ्या काढणे. हे काम अर्थात थोडे किचकट होते आणि आधी कधी केले नसल्यामुळे नीटशी कल्पना नव्हती. अजून तपास करता 'रेग्युलर एक्स्प्रेशन्स' वापरावी लागतील असे कळले. हे काम थोडे परिचयाचे असले तरी एवढ्या मोठ्या प्रमाणावर आधी केले नव्हते. इथे मदतीला धावून आले - एक सर्वांगसुंदर एप्लिकेशन 'एक्स्प्रेस्सो ' - रेग्युलर एक्स्प्रेशन्स लिहिणार्‍यांसाठी गरजेची गोष्ट. ह्याच्यामुळे काम खूपच भरभर होउ लागले. एकदाची समस्या एका संकेतस्थळापुरती सुटली आणि मार्ग सापडला.

मग विचार सुरु झाला - की एकापेक्शा अधिक संकेतस्थळे जर जोडायची असतील (आणि तशी गरज अर्थातच होतीच) - तर नीट विचार करुन 'आराखडा' ठरवावा लागेल.
विचारात घेतलेल्या गरजा अशा होत्या -
१ आज्ञावलीत बदल न करता गरजेप्रमाणे संकेतस्थळे जोडता यायला हवीत.
२ संकेतस्थळांचे विभाग (कथा, कविता, चर्चा) नीट हाताळता यायला हवेत.
३ एखादे संकेतस्थळ जर एखाद्या दिवशी उघडत नसेल तर ती बाब नीट हाताळता यायला हवी.
४ बर्‍याच स्थळांवर 'अर्धवट दुवे' असतात - ती व्यवस्थित हाताळली गेली पाहिजे.
५ कुठे कमी तर कुठे जास्त पोस्ट्स ची संख्या नीट हाताळता यायला हवी.
६ आज्ञावलीत कुठेही हार्ड कोडींग नको.
७ मजकूराचे 'बाह्यांग' (दर्शनिय स्वरुप) हे 'साचा' (टेंप्लेट) स्वरुपातच वापरावे.
८ मुख्यपृष्ठावर 'सगळे एकत्रित' दिसले पाहीजे -ते सुद्धा दिलेल्या संख्येच्या प्रमाणातच.

एवढा सगळा विचार केल्यावर मग 'बाह्य विदा मदतीने' (मेटा डाटा) हा प्रश्न बर्‍याच अंशी सोपा करता येईल असा विचार केला आणि 'बाह्य विदा' एक्सएमएल मधे साठवायचे ठरविले. चुकादुरुस्तीस सोपे जावे म्हणून डॉट नेट मधे करायचे ठरविले. जमले. मग अजून संकेतस्थळे जोडली. पहा - "कुठे काय" - सध्या दर दोन तासांनी अद्ययावत होते.

सध्याच्या आवृत्तीतील अडचणी
- सगळ्याच संकेतस्थळांची दिनांक निर्देशन रचना सारखी नसल्यामुळे सगळीकडून नीट तारखा मिळणे कठिण जाते.
- त्याचमुळे (आणि वेगळ्या आराखड्यामुळे / आज्ञायनामुळे) तारीखवार वर्गवारी सध्या शक्य होत नाहीये

उपयोग
- सगळ्या संकेतस्थळांवरील माहिती एकत्रित एकाच ठिकाणी
- संकेतस्थळांवरील भार थोडातरी कमी होईल (अशा गोड स्वप्नात दंग :) )
- अजून कुठल्याही अशाच प्रकारच्या योजनेसाठी उपयोग
(हे सगळे लिहिण्याचे कारण म्हणजे एकतर आपल्यापर्यंत हे पोचवावे आणि ही जी आज्ञावली आहे तीचा इतर बाबतीत अगदी सहज उपयोग करुन घेण्यासारखा आहे. उदाहरणार्थ : सध्या अर्थिक मंदी असल्यामुळे बरेच लोक नोकर्‍या शोधत आहेत - अशावेळी ही आज्ञावली वापरुन एक 'सगळ्या नोकरी शोध संकेतस्थळांवरचा' विदा एकत्र करुन प्रदर्शित करणे सहज शक्य आहे.)

भविष्यातील योजना
१ मुक्तस्त्रोत भाषेत आज्ञायन
२ होस्टींग सर्व्हर वर स्थापना आणि तिथूनच अद्ययावत करण्याची सोय (हा प्रकार महाग आहे असे समजते)
३ गुगल विजेट्स सारखी 'उघड झाप'

आपल्या सूचनांचे स्वागत आहे. कोणाला इच्छा असल्यास आज्ञावली उपलब्ध करुन दिली जाईल.

आपला नम्र
-- वाचक

हे ठिकाणतंत्रप्रकटनविचारलेखबातमीअनुभव

प्रतिक्रिया

प्राजु's picture

11 Feb 2009 - 11:37 pm | प्राजु

आवडला.
- (सर्वव्यापी)प्राजु
http://praaju.blogspot.com/

अनामिक's picture

11 Feb 2009 - 11:59 pm | अनामिक

उपक्रम आवडला...

अवांतरः तुम्हाला 'कुठे काय' वर दोन ओळींचे काथ्याकूट वगळता येतील का?

अनामिक.

गोगोल's picture

12 Feb 2009 - 5:19 am | गोगोल

तू तयार केलेले डिज़ाइन स्पेसिफिकेशन्स साहिच आहेत.
भविष्यातल्या स्केलेबीलिटी साठी आवश्यक आहेत.

बाकी एक गोष्टा मला कळली नाही. तू म्हणतोस की स्क्रीन स्करेपिंग चा उपयोग केला. पण मग भविष्यात तुला एखादी नवीन
साइट जोडायची झाली तर स्क्रीन स्क्रेपिंग चा कोड त्याप्रमाणे बदलायला नाही का लागणार?
कारण की प्रत्येक साइट ची मांडणी वेगळी. मग तुझी क्रमांक एक ची गरज कशी काय पुरी होते?

गोगोल's picture

12 Feb 2009 - 5:20 am | गोगोल

रेग्युलर एक्सप्रेशन साठी वेगळा प्रोग्रॅम इनस्टॉल करायची गरज नाही.
ही साइट बघ

http://www.fileformat.info/tool/regex.htm

लंबूटांग's picture

12 Feb 2009 - 6:45 am | लंबूटांग

माझ्या माहितीप्रमाणे वेगळा प्रोग्रॅम इन्स्टॉल करायची गरज नाही पण प्रत्येक साईट साठी वेगळे regex (regular expression) लिहावे लागते.

भडकमकर मास्तर's picture

12 Feb 2009 - 7:49 am | भडकमकर मास्तर

मला लूक आवडला... :)
आता हे संस्थळही कायम वापरेन...धन्यवाद...
______________________________
पायाला घाण लागू नये म्हणून जपतोस, मनाला घाण लागू नये म्हणून जप हो श्याम....
ही आमची अनुदिनी ... http://bhadkamkar.blogspot.com/

बिपिन कार्यकर्ते's picture

12 Feb 2009 - 2:25 pm | बिपिन कार्यकर्ते

मी पण नियमित वापरेन. पूर्वी पण वापरत होतो. मधेच विस्मरण झाले होते. लूक छान आहे.

बिपिन कार्यकर्ते

आनंदयात्री's picture

12 Feb 2009 - 8:02 am | आनंदयात्री

अत्यंत छान लेख.
बाकी नविन लिखाण कोणत्या निकषावर ठरते हे कळले नाही. म्हणजे गद्य लेखनात मिपाचे १६ पोस्ट (मागील २ दिवस जुने), मनोगताचे १५ पोस्ट (मागील ७ दिवस जुने) तर उपक्रमाचे १४ पोस्ट दिसत आहेत (मागील १० दिवस जुने).

मी जर मागील २० दिवस आंतरजालावर आलो नसेन तर मला लिखाण कसे वाचायला मिळेल ? (म्हणजे कुठे काय वापरुन वाचणे सोपे कसे होइल ?)
उपक्रम स्तुत्य आहे याबाबत वाद नाही.

माझी दुनिया's picture

12 Feb 2009 - 8:02 am | माझी दुनिया

तुमचा उपक्रम एकदम झकासच आहे. विशेषतः मिसळपाव, मनोगत, उपक्रम, मायबोली, सुरेशभट यांसारख्या दिग्गज संस्थ.चे दुवे एकाच पानावर उपलब्ध करून दिल्याबद्दल दुग्धशर्करा योग.
मला यातले काही ज्ञान नाही. पण अर्थअविषयक, आरोग्य, इ. अनेक पोटविषयही त्यात यावेत असे वाटते. शिवाय एखाद्या विभागात प्रत्येक संकेतस्थळावरच्या ताज्या १० बातम्या दिसत असल्या तरी त्यापूर्वीच्या बातम्या पहायची सोयही हवी असे वाटते. थोडक्यात नव्या पोस्ट, जुन्या पोस्ट पाहाता यायला हव्यात.
पुढील वाटचालीकरता शुभेच्छा ! :-)
___________
माझ्या लिखाणावर सर्व प्रकाशकांची मोजकी प्रतिक्रिया असते : साभार परत !
_____________
माझी दुनिया

सहज's picture

12 Feb 2009 - 8:09 am | सहज

अभिनव उपक्रम आवडला.

तुमचे संकेतस्थळ न्याहळकाच्या फेव्हरिट्स मधे सामील केले आहे.

माझी दुनिया's picture

12 Feb 2009 - 8:24 am | माझी दुनिया

मी होमपेज म्हणूनच सामील केलयं :-)
____________
माझ्या लिखाणावर सर्व प्रकाशकांची मोजकी प्रतिक्रिया असते : साभार परत !
_____________
माझी दुनिया

अनामिका's picture

12 Feb 2009 - 12:32 pm | अनामिका

स्तुत्य उपक्रम........संकेतस्थळांवरील वाचनिय पण अनवधानाने वाचायचे राहुन गेलेले सर्व लिखाण
एकाच ठिकाणी उपलब्ध करुन दिल्याबद्दल मनःपुर्वक आभार.
वेळेअभावी सगळ्याच संकेतस्थळांना भेट देता न येणार्‍यांसाठी अतिशय उत्तम.
"अनामिका"

नीलकांत's picture

12 Feb 2009 - 12:47 pm | नीलकांत

खुप छान संकेतस्थळ आहे.

तुमची ही कल्पना मुक्तस्त्रोतात येवो अशी शुभकामना.

लेख छान झाला आहे. मुद्देसुद आणि सुटसुटीत.

नीलकांत

महेंद्र's picture

12 Feb 2009 - 12:47 pm | महेंद्र

मस्त आहे एकदम..
होम पेजच करुन टाकतो ह्या पेजला.

सर्किट's picture

12 Feb 2009 - 1:12 pm | सर्किट (not verified)

एक सल्ला.

स्क्रीन स्क्रेपिंग हे संकेतस्थळचालकाची परवानगी नसताना त्या संकेतस्थळाची प्रत काढल्यासारखे आहे. कारण बहुतेक स्क्रीन स्क्रेपर्स "रोबोट्स.टेक्स्ट" मधील सूचनांचे पालन करीत नाहीत.

संचारक (क्रालर्स) हे रोबोट्स.टेक्स्ट चे पालन करतात. अन्यथा त्यांच्यावर कायद्यानुसार कारवाई करण्याची डीएमसीए मध्ये सोय आहे.

आपण ज्या संकेतस्थळांचे स्क्रीन स्क्रेपिंग करता आहात, त्यांचे चालक अर्थातच कायद्याच्या भानगडीत पडणार नाहीत (स्वतःच्या खिशाला खार लावून ते ही संकेतस्थळे चालवतात हेच खूप झाले.)

पण आपण ह्या सर्वांना आर एस एस फीड्स् (वाहिन्या) सुरू कराव्यात ह्याविषयी आग्रह केलेला आहे का ?

कारण एकदा त्यांनी स्वतःहून आर एस एस वाहिनी सुरू केली, की तुम्ही कायद्याच्या कचाट्यातून सुटलात.

-- सर्किट

माझी दुनिया's picture

12 Feb 2009 - 4:07 pm | माझी दुनिया

आणखी एक , जश्या या संस्थ वरच्या नव्या लेखांच्या फिड्स आपण देत आहात, तसेच त्या त्या लेखांच्या प्रतिसादाच्या फिड्स देऊ शकता का ?

अवांतर : मी फाफॉ न्याहाळक वापरत असल्याने ,’कुठे काय ?’ या संस्थ ला होम पेज केले आहे शिवाय फाफॉ चे अपडेट स्कॅनर एक्सटेंशन वापरून ’कुठं काय ?’ ची सगळी पाने ताबडतोब अद्ययावत करून घेते.
____________
माझ्या लिखाणावर सर्व प्रकाशकांची मोजकी प्रतिक्रिया असते : साभार परत !
_____________
माझी दुनिया

संदीप चित्रे's picture

12 Feb 2009 - 6:54 pm | संदीप चित्रे

मनापासून धन्यवाद.
बाकी तांत्रिक बाबी डोक्यावरून गेल्या पण चालू दे.
(म्हणूनच प्रोग्रॅमिंग सोडून प्रोजेक्ट मॅनेजमेंटकडे वळलो ;) )

सर्वप्रथम सगळ्यांना धन्यवाद उत्साहवर्धक प्रतिक्रियांबद्दल... (एवढा प्रतिसाद मिळेल असे खरेच वाटले नव्हते)

आता काही शंकांचे समाधान करण्याचा माझ्यापरीने प्रयत्न करतो.
गोगोल
लंबुटांगने दिलेले उत्तर बरोबर आहे, एखादे नविन संस्थळ जोडताना कोड बदलायची गरज नाही - एक्सएमएल फाईल मधे नविन संस्थळाची माहिती (आणि रेग्युलर एक्स्प्रेशन) जोडले की झाले.

यात्री
आज्ञावली फक्त त्या त्या संस्थळावर जाउन योग्य त्या मार्गावर वर जाउन एचटीएमएल गोळा करते. आणि मग रेग्युलर एक्स्प्रेशन वापरुन पोस्ट्स वेगळ्या करते आणि त्यातल्या पहिल्या १० (एक्सएमएल फाईल मधल्या संख्येप्रमाणे) दाखवते. मान्य आहे ह्याच्यात काही त्रुटी असू शकतिल पण दुसरा उपाय अद्याप सापडलेला नाही.

दुनिया
जशी जशी इतर विषयांवरची संस्थळे उपलब्ध होतील तशी तशी ती जोडली जातील. एक ध्यानात घ्यावे की इथे फक्त तीच संस्थळे जोडली जातील जी 'फोरम' स्वरुपात आहेत म्हणजेच सारखी अद्ययावत होत असतात.

सर्किट
आज्ञायन कुठल्याही प्रकारचे 'स्क्रीन स्क्रेपिंग' करत नाही. फक्त त्या त्या दुव्यावर जाउन एचटीएमएल गोळा करते. हीच क्रिया कोणीही त्या संकेतस्थळाला भेट देतो तेव्हा होत असते. शिवाय ह्याच्यावर जाहिराती आणि वर्गणी दोन्ही नाही. आणि श्रेय अव्हेर तळटीपेत दिलेला आहे. त्यातून एखाद्या संकेतस्थळ चालकांनी परवानगी नाकारली तर त्या स्थळाची जोडणी काढून टाकता येईल.

नमस्कार

आपल्या सर्वांना कळविण्यास आनंद होतो की "कुठे काय" ह्या संकेतस्थळाला आता स्वत:चे घर मिळाले आहे. नवा पत्ता आहे http://www.kuthekay.com
ह्या ठिकाणी जाहिराती, पॉप-अप्स वगैरे अजिबात नाहीत.
जरुर भेट द्या आणि आपला अभिप्राय (टीका, सूचना) नक्की कळवा.

आपला नम्र
-- वाचक

खूप 'आयटी'वालं टेक्निकल असल्यामुळे पूर्णपणे डोक्यावरून गेले. त्यात माहीत नसलेले असे खूप मराठी प्रतिशब्द वापरल्याने आणखीनच अनाकलनीय झाले आहे.
असो.
------------------------
सुधीर काळे
Parkinson's Laws
1. Work expands to occupy time available.
2. Bureaucrats add subordinates, not rivals.
3. In meetings, time spent on a point is inversely proportional to its importance!

साईट मराठीतच आहे, बघून कृपया कळवा.

मराठे's picture

1 Feb 2010 - 10:24 pm | मराठे

तुमच्या संकेतस्थळाची मांडणी आवडली. थोड्या सूचना करण्याचा मोह अनावर झाला आहे:
१. संकेत स्थळाचे नाव दुवा म्हणून वापरावे. म्हणजे (मिसळपाव) हे कंसात दिसते त्यावर जर टिचकी मारता आली तर थेट त्या संकेतस्थळाला जाता येइल.
२. गूगल प्रमाणे "शोधा म्हणजे सापडेल" अशी खिडकी.
३. तुमच्याच संकेतस्थळावर तुम्हाला मेल करायची सोय असावी, जेणेंकरून प्रेक्षक तुम्हाला त्यांची मते कळवू शकतील.

/मराठे