'बिग डेटा' - म्हणजे काय रे भाऊ?

सोत्रि's picture
सोत्रि in जनातलं, मनातलं
8 Jul 2013 - 1:33 pm

आज तंत्रज्ञानाचा वेग आणि झपाटा इतका आहे की त्या वेगाने बावचळूनच जायला होते. त्यात सॉफ्टवेअर क्षेत्रातल्या सगळ्या ‘दादा’ कंपन्यांना 'मार्केट शेयर'वर ताबा मिळविणे गरजेचे असल्याने त्यातली स्पर्धा अतिशय जीवघेणी झालेली आहे. त्यामुळे ‘टाइम टू मार्केट’ ह्याला इतके महत्त्व आले आहे की थोडा उशीर झाला तर स्पर्धेतून बाहेर फेकले जाण्याची शक्यता असते. त्यामुळे मग एखादी संकल्पना घेऊन बाजारात त्यावर आधरित एक गरज निर्माण करून, त्यावर आधारित प्रॉडक्ट्स बनवून ती विकण्यासाठी ‘बाजारपेठ’ तयार करण्याचे काम ह्या बलाढ्य सॉफ्टवेअर कंपन्या नेमाने करत असतात. (ते आमच्या फायद्याचेच असते म्हणा, त्यावर आमची रोजी रोटी अबलंबून असते!)


आजकाल ढगाला कळ लागल्याप्रमाणे बदाबदा कोसळणारा ‘क्लाउड कंप्युटिंग’चा मारा विरला जातो ना जातो तोच ‘बिग डेटा’चा हाकारा चहूबाजूंकडून ऐकू येऊ लागलाय. मार्केटिंग आणि सेल्सवाले 'बिग डेटावर पेझेंटेशन तयार करा' असली मागणी उठताबसता करू लागले आहेत. मी एकाला विचारले, "व्हाय डु यु नीड दिस?" तर त्याचे म्हणणे असे की, "आय डोंन्ट नो रे बाबा, बट क्लायंट इज आस्किंग अबाउट अवर केपेबिलीटीज ऑन बिग डेटा अ‍ॅन्ड यु हॅव टु प्रोवाइड मी दॅट इन एनी केस!" आयबीएमने तर दूरचित्रवाणीवर ह्या ‘बिग डेटा’चे तारणहार आम्हीच असा जाहिरातींचा मारा चालू केला आहे. तर आता हा ‘बिग डेटा’ म्हणजे काय असा प्रश्न पडणे साहजिकच आहे. चला तर बघूयात, काय आहे हा एवढा मोठा ‘बिग डेटा’…

बिग डेटा म्हणजे काय ते बघण्यापूर्वी 'डेटा' म्हणजे काय ते आधि समजून घेवुयात. संगणकात साठवल्या जाणार्‍या माहितीचे मूलभूत एकक असते एक बीट आणि अशा आठ बिट्सचा एक बाइट (Byte) बनतो आणि ह्या 10,48,576 बाइट म्हणजे एक मेगाबाइट ( 1MB ). तर संगणकात साठवली जाणारी माहिती ही ह्या बाइट्समध्ये, फाइल्सच्या स्वरूपात साठवाली जाते. जेव्हा आपण ‘मायक्रोसॉफ्ट वर्ड’ चालू करतो तेव्हा ह्या प्रोग्रामची फाइल मेमरीमध्ये आणून ती फाइल ऑपरेटिंग सिस्टिमकडून रन केली जाते. आता फक्त एकाच फाइलमध्ये सर्व माहिती साठवणे शक्य नसते, फाइलच्या आकाराला मर्यादा असल्यामुळे. त्यासाठी बाकीची माहिती इतर सपोर्टिंग फाइल्समध्ये साठवून ती योग्य वेळी वापरली जाते. त्यासाठी त्या इतर फाइल्सचा संदर्भ (reference) ‘मायक्रोसॉफ्ट वर्ड’च्या मूळ एक्झीक्युटेबल फाइलमध्ये नोंदवलेला असतो. योग्य वेळी तो संदर्भ वापरून हवी असलेली सपोर्टिंग फाइल उघडून त्यातली माहिती वाचली जाऊन वापरली जाते. हा मायक्रोसॉफ्ट वर्ड प्रोग्राम वापरून आपण डॉक्युमेंट्स बनवतो. ती डॉक्युमेंट्सही ह्या बाइट्समध्ये डॉक्युमेंट फाइलमध्ये साठवली जातात. तर डेटाचे मुलभूत एकक म्हणजे बाइट आणि तो साठवला जाण्याचे माध्यम म्हणजे फाइल.

ज्यावेळी संगणकाचा वापर माहिती प्रोसेसिंग करणारी वेगवेगळी अॅप्लिकेशन्स बनाविण्यासाठी केला जाऊ लागला आणि त्यांची गुंतागुंत (complexity) वाढून, ती अधिक वेगवान असण्याची गरज निर्माण झाली तेव्हा अशा वेगवेगळ्या संदर्भ साठवून ठेवलेल्या फाइल्स वेळोवेळी उघडून त्यातून माहिती वाचणे हे अॅप्लिकेशनच्या एकंदरीत वेगावर परिणाम करू लागले आणि त्यातून मग ‘रिलेशनल डेटाबेस’चा शोध लावला गेला. ह्यात अॅप्लिकेशनसाठी लागणारा आणि एकमेकाशी संबंध असलेला डेटा 'रो आणि कॉलम्स'च्या स्वरूपात डेटाबेस टेबल्समध्ये साठवला जाऊ लागला. जेव्हा हा परस्परसंबंधित डेटा ह्या रिलेशनल डेटाबेसमधून वाचला जायचा तो ‘डेटासेट’ स्वरूपात ह्या वेगवेगळ्या डेटाबेस टेबल्समधून एकत्र केला जायचा. पण संगणकाचा वापर वाढून, सर्व क्षेत्रांत जसेजसे संगणकीकरण होऊ लागले, तसेतसे हा डिजीटल डेटा मोठ्या प्रमाणात तयार होऊ लागला. तो प्रचंड डेटा साठवून, हवा तेव्हा वाचण्यासाठी, योग्य डेटासेटमध्ये उपलब्ध करून देण्यासाठी ओरॅकल, टेराडेटा, आयबीएम ह्यांसारख्या कंपन्यांनी त्यांची रिलेशनल डेटाबेस आणि डेटा वेअरहाउसिंगची उत्पादने विकसित करून ती बाजारात आणली. हा झाला ‘डेटा’चा मागोवा.

पण हा डेटा जसजसा वाढत होता तसा तो प्रोसेस करण्यासाठी, त्यातून हवी ती माहिती मिळविण्याची गुंतागुंत जशी जशी वाढत गेली तशी-तशी संगणकाची संगणनशक्तीही वाढणे गरजेचे होते. उदाहरणार्थ वेगवेगळ्या संदेशवाहक उपग्रहांकडून येणारा प्रचंड डेटा प्रोसेस करण्यासाठी शेकडो संगणकांची फौजही अपुरी पडू लागली तेव्हा ‘सुपरकॉम्प्युटर’चा शोध, तो प्रचंड डेटा प्रोसेस करण्यासाठी, लावला गेला. पण सुपरकॉम्प्युटर सर्वांनाच परवडणारा नव्हता आणि तेवढा प्रचंड डेटा प्रोसेस करण्याची निकडही तोपर्यंत व्यापारी तत्त्वावर भासलेली नव्हती.

पण पुढे इंटरनेट अवतरले आणि त्याने आपले दैनंदिन जीवन बघता बघता व्यापून टाकले आणि मग सुरू झाला खर्‍या अर्थाने माहितीचा विस्फोट. अक्षरशः लाखो टेराबाईट्स मध्ये डेटा वेगवेगळ्या डेटा सेंटर्समध्ये साठवला जाऊ लागला. आता हा माहितीचा विस्फोट म्हणजे नेमके काय? पडला ना प्रश्न? नाही? मग हा प्रश्न पडू द्या, विचारा हा प्रश्न स्वतःला? मिळाले उत्तर? नाही? हरकत नाही, सांगतो. आपल्या सर्वांच्या लाडक्या फेसबुकचे जगभरात अब्जावधी नोंदणीकृत सदस्य आहेत. ते सगळेजण फेसबुकवर आपापले स्टेटस सतत अपडेट करत असतात (कोण म्हणतंय रे मतांच्या पिंका टाकत असतात म्हणून). तर त्याचा आकडा आहे, दर दिवशी 2.7 बिलियन कमेंट्स, एक बिलियन म्हणजे एकावर 9 शून्य. ट्विटरवर 400 million ट्विट्स दिवसभरात केल्या जातात, यू-ट्यूबवर दर मिनिटाला साठ तास चालतील एवढे व्हिडियो अपलोड होत असतात. ह्या सगळ्यांचा दादा म्हणजे गूगल, ज्याला संगणक किंचितसा जरी वापरता येतो तो गूगलवर जाऊन येतोच येतो. पण नेमाने गूगल वापरणार्‍यांच्या हालचालींची नोंद हा गूगल नित्यनियमाने, गपगुमान करीत असतो. आता ह्या अब्जावधी वापरकर्त्यांचा हा डेटाही तेवढाच अवाढव्य असतो. ह्या शिवाय अॅमेझॉनसारखी असंख्य ऑनलाईन रिटेल दुकाने त्यांच्या वेबसाइट्सवर हजेरी लावणार्‍यांच्या आणि खरेदी करणार्‍यांच्या नोंदी त्यांच्या वेबलॉग्स मध्ये दर सेकंदाला करीत असतात. विश्वाच्या उत्पत्तीचा शोध घेण्याचा प्रयोग करणार्‍या सर्न (CERN) च्या प्रयोगशाळेत दर सेकंदाला 40 टेराबाइट एवढ्या नोंदी घेतल्या जात होत्या आणि घेतल्या जात आहेत. जगभरात लाखो ब्लॉगर्स त्यांच्या ब्लॉग्सवर दर मिनिटाला काही ना काही वेगवेगळ्या विषयांवर लिहीत असतात. पृथ्वीभोवती फिरणारे आणि दरवर्षी वाढत जाणारे उपग्रह पृथ्वीच्या वातावरणातली वेगवेगळी माहिती, छायाचित्रे दर सेकंदाला घेत असतात आणि ती साठवली जातात. जाऊदे मी दमलो आता, पण ही यादी संपणारी नाहीयेय. तर हा आहे सगळा ‘माहितीचा विस्फोट’.

तर, ह्या माहितीच्या विस्फोटातून तयार होणारा हा अवाढव्य डिजीटल डेटा म्हणजेच ‘बिग डेटा’. पण मग त्याचे एवढे काय विशेष, रिलेशनल डेटाबेस आहे की तो साठवायला, असे वाटणे साहजिकच आहे. पण रिलेशनल डेटाबेसमध्ये साठवली जाणारी माहिती साचेबद्ध (structured) असावी लागते. ती रिलेशनल डेटाबेसमध्ये रो आणि कॉलम्स मध्ये साठवली जाते. माहितीच्या विस्फोटातून तयार होणारा हा ‘बिग डेटा’ unstructured म्हणजेच साचेबद्ध नसतो. तो रिलेशनल डेटाबेसमध्ये साठविणे रिलेशनल डेटाबेसच्या तत्वांनुसार (Principle) पुर्णतः शक्य नाही. त्यामुळे तो बिग डेटा प्रोसेस करणे हे जिकरीचे काम होऊन बसले आहे. पण ह्या ‘बिग डेटा’वरच बर्‍याच कंपन्यांचा धंदा, म्हणजेच रोजीरोटी (Bread and Butter), अवलंबून असल्याने त्यावर उपाय शोधणे अपरिहार्य होऊन ह्या बिग डेटाचा उदोउदो चालू झालेला आहे.

हा अवाढव्य असा बिग डेटा तयार कसा होतो हे तर कळले पण त्याचे प्रोसेसिंग का करायचे? पडला ना प्रश्न! ठीक आहे. आपल्या लाडक्या फेसबुकचेच उदाहरण घेऊयात परत. तुमच्या फेसबुक अकाउंट मध्ये शेकडो मित्र आहेत (नसतील तर आहेत असे समजा :) ). आता त्या सगळ्यांचेच अपडेट तुम्हाला न्युज फीड मध्ये मिळत नाहीत. तुम्ही कधी असा विचार केलात का की फक्त काही मित्रांचेच फीड तुम्हाला का दिसताहेत? ह्याचे कारण 'बिजनेस इंटेलिजंस'! फेसबुक हा त्याचा बिग डेटा प्रोसेस करुन, त्याचे अ‍ॅनलिसिस (पृथःकरण) करुन त्यातुन तुमच्या उपयोगाची माहिती शोधून काढतो. त्यानुसार तुम्हाला तुमचे 'नविन मित्र बनवा' ह्या सूचना,सजेशन्स आणि जाहिराती फेसबुक दाखवते. लिंक्डइन (Linkdin.com) ही बिजनेस नेटवर्किंग साईटही हा त्या साइटवरचा बिग डेटा अ‍ॅनलिसिस (पृथःकरण) करुन तुम्हाला नविन मित्र, जॉब्स आणि तत्सम बिजनेस रिलेटेड माहिती सजेस्ट करते. त्यामुळे हा बिग डेटा प्रोसेस करून त्याचे पृथःकरण करणे ही आजच्या काळातील अत्यंत निकडीची आणि महत्त्वाची गोष्ट होऊन बसली आहे! हा बिग डेटा प्रोसेस कसा करायचा? हा प्रश्न मार्केटिंगच्या माध्यमातून एकदम निकडीचा बनवून आणि तापवून सर्व मोठ्या मोठ्या कंपन्या त्या तापलेल्या तव्यावर आपापली पोळी भाजून घ्यायचा प्रयत्न करत आहेत.

हा अवाढव्य असा बिग डेटा तयार कसा होतो ते कळले आणि तो प्रोसेस करण्याची निकडही समजली. आता पुढचा प्रॉब्लेम असा की ह्या अवाढव्य बिग डेटाचे प्रोसेसिंग हे नमके कसे करायचे? तो अवाढव्य डेटा प्रोसेस करण्यासाठी सुपरकॉम्प्युटरचीच गरज आहे आणि सुपरकॉम्प्युटर तर सगळ्यांना परडणार नाही, आता? अहो, तुम्ही त्याचे एवढे टेन्शन घेऊ नका. गूगलमधल्या संगणक पंडितांनी त्यावर उपाय शोधला आहे. तो म्हणजे ‘मॅप रेड्युस’ हे तंत्रज्ञान. ‘डिस्ट्रीब्युटेड कंप्युटिंग’ ह्या उच्च तंत्रज्ञानामधली पुढची पायरी म्हणजे हे ‘मॅप रेड्युस’ तंत्रज्ञान. हे संगणकीय प्रोग्रामिंगचे एका मॉडेल आहे जे बिग डेटा ह्या मोठ्या डेटासेट्सचे समांतर (Parallel) आणि विकेंद्रित (Distributed) प्रोसेसिंग शक्य करते. बोजड झाले ना? वोक्के...

समजा तुमच्या संगणकावर तुम्हाला काही आकडेमोड करायची आहे जी पूर्ण व्हायला साधारण 240 तास (म्हणजे 10 दिवस) लागणार आहेत पण त्या आकडेमोडीचा रिपोर्ट तुम्हाला आजपासून पाचव्या दिवशी असणार्‍या बोर्ड मीटिंगमध्ये सादर करायचा आहे. तुमच्याकडे जास्त शक्तीचे, गतिमान असे बरेच नवीन संगणक विकत घेण्याचे बजेटही नाहीयेय आणि वेळही. आता आली का पंचाईत! बोर्ड मीटिंग म्हणजे काही साधे काम नव्हे जिथे काहीतरी थातुरमातुर कारण सांगून वेळ मारून न्यायला. हो, पण जरी ‘बरेच नवीन संगणक’ विकत घेण्याचे बजेट नसले तरीही तुमच्या कंपनीत अगोदरच असलेले शेकडो संगणक आहेत की! त्यातले बरेच आधुनिक संगणक, संगणकातले काहीही कळत नसलेल्या मॅनेजरांकडे आहेत. त्यांची संख्या शेकड्यात असेल. तसेच बाकीचे कारकुनी कामे करण्यासाठी वापरले जाणारे संगणक बर्‍याच वेळा ‘आयडल (idle)’ असतात म्हणजे त्यांची पूर्ण संगणन शक्ती वापरलीच जात नाही. समजा ही वापरात नसलेली त्या संगणकांची संगणनशक्ती तुमची करायची असलेली आकडेमोड करण्यासाठी वापरली तर? तर, नक्कीच तुमचे काम नेमके पाचव्या दिवशी रिपोर्ट सादर करण्यासाठी पूर्ण झालेले असेल.

मॅप रेड्युस हे तंत्रज्ञान नेमके हेच साध्य करण्यास मदत करते. असंख्य सर्व्हर्स (उच्च संगणनशक्ती असलेले संगणक) चे क्लस्टर किंवा farm of servers मध्ये मोठे मोठे डेटा सेट्स (बिग डेटा) एकाच वेळी (parallel) प्रोसेस करणे हे ह्या मॅप रेड्युस तंत्रज्ञानाचे उद्दिष्ट आहे.

तर ह्या माहितीच्या विस्फोटातून तयार होणारा हा अवाढव्य डिजीटल डेटा म्हणजेच ‘बिग डेटा’ आणि तो प्रोसेस करण्यासाठी वापरायची युक्ती म्हणजे मॅप रेड्युस, ही आहे ह्या बिग डेटाच्या बॅन्ड वॅगनच्या मागची पार्श्वभूमी. ह्या बिग डेटाचे मार्केट 2010 मध्ये U$D 3.2 बिलीयन एवढे होते जे 2015 मध्ये U$D 16.9 बिलीयन एवढे होणार आहे. त्यासाठी लागणारे कुशल मनुष्यबळ हा सध्याचा मोठा क्रायसिस आहे त्यामुळे ह्या क्षेत्रात रोजगाराच्या प्रचंड संधी उपलब्ध होत आहेत त्यांचा फायदा आपण करुन घ्यायला हवा!

तर आता हा 'बिग डेटा' म्हणजे काय ते कळले का रे भाऊ?

तंत्रविज्ञानमाध्यमवेधमाहिती

प्रतिक्रिया

माझीही शॅम्पेन's picture

8 Jul 2013 - 1:40 pm | माझीही शॅम्पेन

शब्बास राजे , सध्या ज्या जन्जाळात अडकलोय त्या बद्दल मिपा वर लेख पाहून सुखद आश्चर्य वाटल :)

क्रमशा: (न दिसल्याने चिंतीत असलेली माझीही शॅम्पेन)

पिलीयन रायडर's picture

8 Jul 2013 - 2:08 pm | पिलीयन रायडर

रोज जाता येता नवरा असले शब्द बोलत असतो आणि माझी शाळा घेत असतो.. लवकरच मी पण 'बिजनेस इंटेलिजंस' मध्ये काम करायला लागेन कदाचित...
आता तुमचा हा लेख वाचुन आपला नवरा नक्की काय करतो हे थोडंसं कळालय.. (तो बिचारा मला परवाच बिग डेटा विषयी सांगत होता आणि मी नुसतीच मान हलवत बसले होते..)
धन्स हो सोत्रि...!

सोत्री, लेख उत्तम. आता मला एक विडिओ फाईल एका फॉर्मॅट मधून दुसर्‍या मधे कन्व्हर्ट करायची आहे.प्स्ण माझ्या इथे तीन तास लागतील असा मेसेज येतोय . मग मधी वापरू तुमच्या पीसी चा प्रोसेसर नि रॅम ?

मनःपूर्वक धन्यवाद!

मूकवाचक's picture

8 Jul 2013 - 4:24 pm | मूकवाचक

+१

अनिरुद्ध प's picture

8 Jul 2013 - 4:36 pm | अनिरुद्ध प

अत्यन्त आभारी आहे.

स्पा's picture

8 Jul 2013 - 4:39 pm | स्पा

भारी प्रकरण आहे हे..

जबराट लिहिलंय सोत्री

क्रमश: लिहायला विसरलात काय?

१ टेराबाइअट = १०२४ गेगाबाइट, इथ एक टिबि हारडिस्क भरता भरत नाहिये... अन सर्न (CERN) च्या प्रयोगशाळेत दर सेकंदाला 40 टेराबाइट एवढ्या नोंदी घेतल्या जात आहेत. मेलो मेलो मेलो!

जन्मोजन्मिच्या नोंदि आता नक्किच सुरक्षित राहणार. फेसबुक टाइमलाइन पाप-पुण्याचा हिशोब ठेवणार... पुढिल जन्मातिल लोक त्यांच्या मागिल अनेको जन्मातल्या फेस्बुक प्रोफाइलवर हक्क सांगणार.. चित्रगुप्ताच्या न्यायनिवाड्यातिल चुकांबद्दल RTI वापरुन दाद मागणार..... मी अमर आहेच पण आता इतर सर्वकाहीसुध्दा डिजिटली अमर झालं आहे. एकदम सायफाय युगात आल्यासारखे वाटत आहे.
________________________________________________
उत्कृष्ट लेख. डिस्ट्रिब्युटेड प्रोसेसिंग नवे नाहि, आठ-दहा वर्षांपुर्विच बहुदा नासाने आकाशाचे विश्लेशण करायच्या प्रकाल्पात हौशि लोकांना एक सॉफ्टेवर डाउनलोड करुन या प्रकारे सहभागि व्हायची संधि दिली होती अशि पुसट आठवण आहे. पण आता याची सार्वत्रिक निकड मात्र लक्षात येतेय.

चेतन माने's picture

8 Jul 2013 - 5:13 pm | चेतन माने

सुपर्ब माहिती
खूप खूप धन्यवाद.
आणखी पण येदुया कि माहिती मज्जा येईल वाचायला :)

राघवेंद्र's picture

8 Jul 2013 - 8:48 pm | राघवेंद्र

धन्यवाद मित्रा !!!
खुप छान माहिती दिल्याबद्दल...

धमाल मुलगा's picture

8 Jul 2013 - 9:24 pm | धमाल मुलगा

आणि जरा डिट्टेलवारी येऊंद्या द्येवा. :)
SAP HANA आणि तत्सम भानगडींचा बिग डेटा प्रॉजेक्ट्साठी होणारा उपयोग/परिणाम ह्यावरही थोडं येऊंद्या...जर ह्या लेखाच्या स्कोपमध्ये असेल तर. :)

खुप छान माहिती. धन्यवाद.

अत्यंत उपयुक्त माहिती क्लिष्ट असूनही सोपी वाटली. धन्यवाद हो सोत्री.
एक शंका. मिपाचा डेटा बहुधा बिग होऊ लागल्यामुळेच ते सारखे सारखे बंद पडते की काय ?

बन्या बापु's picture

9 Jul 2013 - 6:46 am | बन्या बापु

'बिग डेटा' ह्यावर अजून सोपे पृथ:करण आणि अति सहज लेख वाचनात आलेला नाही..

धन्यवाद सोत्री...

आदूबाळ's picture

9 Jul 2013 - 9:20 am | आदूबाळ

धनवा, सोत्रि!

पण हे बिग डेटा प्रकरण लोकांच्या वैयक्तिक बाबींवर उगाचच काकदृष्टी ठेवून असतं त्याचं काय? उदा. काही दिवसांपूर्वी मी एका ठिकाणी कामासाठी गेलो होतो. तिथे पहिल्यांदाच जात होतो म्हणून संगणकावरून गूगल मॅप्स पाहिलं आणि रस्ता समजून घेतला. काम झाल्यावर सहज मोबाईल काढून बघितला तर मला घरी परत यायला कुठला मार्ग चांगला, किती वेळ लागेल, रेल्वे आणि ट्रॅमची माहिती वगैरे गोष्टी भोचकपणे काढून दिल्या होत्या! मला एकदम ऑरवेलच्या १९८४ कादंबरीतल्या "बिग ब्रदर ईज वॉचिंग यू" वगैरेची आठवण झाली.

निनाव's picture

9 Jul 2013 - 12:27 pm | निनाव

apratim lekh lihila aahe..prachanda maahiti deNaaraa lekh..
mukhya mhanje atyanta sopya aNik kuNaasahee kaLel ashya bhaashet lihila aahe..tey khare mahatwaache...punha ekda manaa paasoon abhinandan!

चंबु गबाळे's picture

9 Jul 2013 - 12:30 pm | चंबु गबाळे

खुप छान माहिती

सोत्रि एक उत्तम शिक्षक आहेत. फार छान प्रकारे सगळं उलगडून सांगतात. मस्त!

- बिगडेटाबद्दल लेख वाचेपर्यंत 'दगड' प्यारे

मी-सौरभ's picture

9 Jul 2013 - 9:23 pm | मी-सौरभ

सहमत

प्रसाद गोडबोले's picture

9 Jul 2013 - 9:38 pm | प्रसाद गोडबोले

वा सोत्री , मस्त लेख लिहिलाय .
मॅप रीडुस विषयी अजुन लिहा . हॅडूप विषयीही लिहा ...
आमाला आपली नुसती ऐकीव माहीतीये ... मागे शिकण्याचा प्रयत्न करत होतो पण जमलेच नाही ...

इथे तुमच्या कडुन थोडं फार तरी शिकायला मिळाले तर मिपावर येण्याचे सार्थक होईल :)

अभ्या..'s picture

10 Jul 2013 - 1:26 am | अभ्या..

भारीच सोकाजीनाना.
आमाला हे आसलं काय कळत नव्हतं ते अगदी सोपं करुन सांगितलासा बगा. :)

अभ्या..'s picture

10 Jul 2013 - 1:31 am | अभ्या..

पण जर्रा एक चिल्लर शंका हाय. ;)
हा एवढा सगळा डेटा सेव्ह करुन ठेवणेबलच आहे का? याला काही टाईम फिल्टर किंवा तत्सम दुसरा काही फिल्टर नाही का? म्हणजे फक्त कामाच्याच, महत्वपूर्ण फाईल्स जतन करता येतील.
.
.
(दर महिन्याला झालेल्या कामाच्या व परत न येऊ शकणार्‍या कामाच्या फाइल्स ऊडवत बसणारा)
अभ्या

लॉरी टांगटूंगकर's picture

10 Jul 2013 - 2:01 am | लॉरी टांगटूंगकर

किंवा रिपिट फाइल्स उडवुन त्या फाईलसाठी पाथ करुन ठेवणारा ?

अभ्या..'s picture

10 Jul 2013 - 2:10 am | अभ्या..

येप्प. :)
किंवा एकच एक फायनल कंटेट असणारी पण गरजेनुसार सेपरेट डेटा जनरेट करु शकणारी सिस्टम नसेल का?
(मी तर एकच पीएसडी फाईल ठेऊन सगळ्या इन्पुट जेपीईजी अन आऊटपुट टीफ्फ ऊडवून टाकतो ;) )

नन्दादीप's picture

10 Jul 2013 - 12:30 pm | नन्दादीप

जबरा माहिती....

वेल्लाभट's picture

10 Jul 2013 - 12:52 pm | वेल्लाभट

इतकी इंटरेस्टिंग माहिती दिल्याबद्दल मनापासून आभार !
सॉलिड.

पैसा's picture

10 Jul 2013 - 1:06 pm | पैसा

सिक्युरिटीचं काय?

आणि पुढचा लेख कधी?

सोत्रि's picture

10 Jul 2013 - 6:38 pm | सोत्रि

सिक्युरिटीचं काय?

कोणाची आणि कसली सिक्युरिटी?

- (सेक्युअर) सोकाजी

पैसा's picture

10 Jul 2013 - 6:45 pm | पैसा

एकापेक्षा जास्त सर्व्हर्स आणि मशीन्स वापरणार ना? मग ते सगळे एकच सिक्युरिटी लेव्हल वापरत असतील का? आणि डेटा चोरी वगैरे होऊ शकत नाही का?

सोत्रि's picture

10 Jul 2013 - 8:57 pm | सोत्रि

अरे नाही,

एकाच कंपनीचा डेटा असतो हा बिग डेटा. तो प्रोसेस करायला त्याच कंपनीचे सर्व्हर्स आणि मशीन्स वापरले जाणार. त्यामुळे ते सेक्युअर्ड नेटवर्क मध्येच असणार. उदाहरणार्थ, गूगलचा बिग डेटा गूगल त्याच्याच सेक्युअर्ड डेटा सेंटर्समध्ये प्रोसेस करणार किंवा फेसबुक त्यांच्या स्वतःच्या सेंटर्समध्ये.

आणखी सोप्पे तुला सम्जेल असे उदाहरण, तुझ्या घरात साठवलेले १०० मण तांदूळ तूच निवडणार पण ते निवडणे जलद आणि सोप्पे करण्यासाठी 'माप' रेड्युस पद्धत वापरणार ;)

- (तांत्रिक) सोकाजी

अर्धवटराव's picture

10 Jul 2013 - 6:52 pm | अर्धवटराव

जे जे आपणासी ठावे.... चे उत्कृष्ट उदाहरण म्हणजे आपले सोत्री.

अर्धवटराव

पिंगू's picture

10 Jul 2013 - 7:41 pm | पिंगू

विंटरेस्टिंग माहिती.. रेडहॅटमध्ये असताना बिग डेटा चा एक लहानसा प्रोजेक्ट करायला दिला होता आणि तेव्हाच रेडहॅट सोडल्याने त्यावर पुढे काही करता आले नाही.

चाफा's picture

31 Aug 2013 - 7:50 pm | चाफा

हे असं प्रकरण आहे होय ? हैला, आमचे आय टी वाले पीसी स्पिकर जरी बंद पडला तरी बिग डेटा सॉफ्टवेअर अपलोड होतंय असं सांगून शेंड्या लावत असतात तर.. सोत्री प्रिंट काढू काय लेखाची ?
चिकटवतोच नोटीसबोर्डवर ;)
(आय टी बद्दल ढ असलेला) चाफा :)

म्हैस's picture

8 Sep 2013 - 9:51 pm | म्हैस

कसला भारी लेख हे.. जरा 'TIBCO ' ह्या विषयी लिहाल का? म्हणजे basic concept कळण्या इतकं असलं तरी बास. किवा चांगली लिंक दिली तरी चालेल. सोप्या भाषेत असलेली . आमच्या टाळक्यात घुसेल अशी.