क्रिकेट आणि स्टॅटिस्टिक्स - १ : तोंडओळख.
गेल्या लेखात जाताजाता एक प्रश्न विचारला होता.
'या विश्वचषकात एकोणपन्नास चुरशी होणार आहेत. तर या एकोणपन्नासांपैकी बरोब्बर एक मॅच टाय होण्याची शक्यता किती? बरोब्बर दोन मॅच टाय होण्याची शक्यता किती?'
त्याचं उत्तर बघण्याआधी विजूभाऊंनी दिलेला प्रतिसाद उद्धृत करावासा वाटतो.
स्टेटॅटीक्स सिद्ध करू शकते की तुम्ही ५०% प्रेगनन्ट असू शकता.
हा प्रतिसाद मला खूप आवडला. युक्तिवाद सोपा आहे. तुम्ही एकतर १. गरोदर असता किंवा २. गरोदर नसता. त्यामुळे दोन्हीची शक्यता सारखी - ५०%. (असा मी तरी प्रतिसादाचा अर्थ लावला). अर्थातच हा चुकीचा युक्तिवाद आहे. क्षणभर कानाला बरोबर वाटणारा, पण त्यातल्या विरोधाभासामुळे हसू आणणारा. दोनच गोष्टी शक्य आहेत याचा अर्थ दोन्हीची शक्यता सारखीच असं नाही. केवळ स्त्रियाच गरोदर असू शकतात. आणि त्यातही त्या विशिष्ट वयात असू शकतात. त्यामुळे एखादी स्त्री - सगळ्या स्त्रियांमधून रॅंडमपणे निवडलेली (तान्ही/मुलगी/तरुणी/बाई/म्हातारी) - आत्ता गरोदर असण्याची शक्यता किती? असा प्रश्न विचारता येतो. (मॅच टाय होण्याची शक्यता किती या प्रश्नाशी तो खूप जवळचा आहे.) त्यासाठी एक सोपी गोष्ट करता येईल. १०००० स्त्रिया रॅंडमली निवडायच्या. त्यांची गरोदरपणासाठी चाचणी घ्यायची. समजा कोणी असा प्रयोग केला व त्यात त्याला ३५१ स्त्रिया गरोदर आहेत असं आढळलं. त्यामुळे कुठचीही स्त्री घेतली तर ती आत्ता गरोदर असण्याची शक्यता ३.५१% इतकी आहे. पण हा आकडा आपल्याला फार काही सांगत नाही. त्यापेक्षा असा अभ्यास करता येईल की जर १५ च्या खालच्या व ४५ च्या वरच्या वयाच्या स्त्रियांच्या बाबतीत ही शक्यता किती आहे? ती समजा जवळपास शून्य असते. (हे गणितापुरतं गृहितक आहे, काल्पनिक विश्वातलं. टीनेज प्रेग्नन्सीसारख्या गंभीर विषयावर चर्चा अपेक्षित नाही) या काल्पनिक उदाहरणातली १५ ते ४५ या वयातली स्त्री गरोदर असण्याची शक्यता सुमारे ७% आहे. सर्व स्त्रियांसाठी एक शक्यता मांडण्यापेक्षा वयानुरुप वर्गीकरण करून प्रत्येक वर्गाला वेगवेगळी शक्यता दिल्याने गरोदर असणे म्हणजे काय याविषयीचं चित्र थोडंस अधिक स्पष्ट होतं. जितकं बारकाव्याने तुम्ही ही विभागणी करात तितकी तुम्हाला अधिक माहिती मिळते. कॅमेराचं रिझोल्यूशन वाढलं की अधिकाधिक बारकावे पहायला मिळतात, तसंच. खालील चित्रात हे होताना दाखवलेलं आहे. डेटा मी मनाने तयार केलेला आहे - वितरण किंवा डिस्ट्रिब्यूशन तयार केलं की माहिती कशी बाहेर येते हे दाखवण्यासाठी. पुढच्या लेखांमध्ये आपण अशा वितरणांचा वापर करणार आहोत.
क्ष अक्षावर वय आहे, तर य अक्षावर त्या वयोगटातली स्त्री गरोदर असण्याची शक्यता किती आहे ते दर्शविलं आहे.
पहिल्या आलेखात सरसकट सगळ्या स्त्रीजमातीपैकी आंधळेपणे कोणालाही उचललं तर ती गरोदर असण्याची शक्यता दाखवली आहे. हा सरासरीचा आकडा. सरासरी उपयुक्त असते. काही प्रमाणात ज्ञान त्या आकड्यात असतं. म्हणजे भारताचं सरासरी दरडोई वार्षिक उत्पन्न सुमारे १ हजार डॉलर आहे असं म्हणण्यासारखं आहे. पण त्यातले किती अंबानी असतात - वर्षाला कोट्यवधी मिळवणारे आणि किती अर्धपोटी असतात हे त्यावरून कळत नाही. हा फरक कळण्यासाठी लोकसंख्येतलं वितरण बघणं आवश्यक असतं.
वितरणाकडे लक्ष दिल्यावर आपल्याला अनेक इतर गोष्टींविषयीदेखील अंदाज बांधता येतो. सरासरी तीच असूनदेखील वितरण वेगळं असू शकतं. खालील आलेखात लाल स्तंभांनी व निळ्या स्तंभानी दाखवलेल्या दोन्ही वितरणांची सरासरी तीच आहे. पण या दोन समाजांत खूपच फरक आहे. कुठच्या वयात गरोदर राहाण्याचं प्रमाण वेगळं आहे त्यावरून काही निष्कर्ष काढता येतात - जे निव्वळ सरासरीकडे बघून काढता येत नाही.
क्रिकेटचा विचार करताना टाय मॅचेस, एखाद्या फलंदाजाच्या धावसंख्येची सरासरी, एखाद्या गोलंदाजाची विकेट घेण्याची सरासरी यांनाही हाच युक्तिवाद लागू होतो. सरासरी म्हणून उपयुक्त असते. दोन फलंदाजांची शेजारी शेजारी तुलना करता येते. पण निव्वळ तितकीच तुलना पुरेशी आहे का? सन्जोप रावांनी लक्ष्मणच्या खेळाची त्याच्या सरासरीवरून कसली किंमत करणार या स्वरूपाचा प्रश्न मांडला होता. योग्य वितरणांकडे बघितल्याशिवाय तर लक्ष्मणइतकीच सरासरी (टेस्ट क्रिकेट - ४७.३२) असलेले बॉयकॉट, आणि अॅडम गिलख्रिस्ट यांच्या खेळातला फरक सांगता येणार नाही.
सर्वसाधारण सरासरीचा वापर करून विश्वचषकासारख्या स्पर्धेत - ४९ खेळांत टाय होण्याची शक्यता आपण बघू.आत्तापर्यंत ३१०० सामने झालेले आहेत. त्यातले २३ टाय झाले आहेत. त्यामुळे वरवर बघता कुठचाही सामना टाय होण्याची शक्यता ०.७४%. कुठचीही स्त्री-जमातीतली व्यक्ती गरोदर असण्याची शक्यता ३.५१% आहे त्याप्रमाणे. गरोदरपणाच्या उदाहरणात जसा आपण स्त्रीच्या वयाचा विचार केला तर वेगळी उत्तरं येतात तसंच टाय मॅचच्या बाबतीत कुठच्या संघांमध्ये खेळ झाला आहे हे पाहिल्यास फरक पडू शकेल. म्हणजे ऑस्ट्रेलिया विरुद्ध बांग्लादेश - टाय होण्याची शक्यता ०.७४% पेक्षा कमी. इंग्लंड विरुद्ध न्यूझीलंड किंवा ऑस्ट्रेलिया विरुद्ध साउथ आफ्रिका - टाय होण्याची शक्यता ०.७४% पेक्षा जास्त. ही किती कमी जास्त असू शकेल ते आपल्याला अजून माहीत नाही.
आपल्या सुदैवाने विश्वचषक स्पर्धेत ४९ सामने होणार असल्याने सर्व प्रकारचे संघ इतर सर्व प्रकारच्या संघांना सामोरे जातील. जशा अनेक तुल्यबळांमध्ये स्पर्धा होणार, तशाच अनेक दुर्बळ विरुद्ध सबळ असे खेळही होणार. त्यामुळे ०.७४% हा आकडा वापरायला हरकत नाही. हा आकडा आपण आत्तापर्यंत असं घडलं आहे या निरीक्षणावरून घेतला. पुढेही तसंच होत राहील हे तूर्तास तरी आपण गृहितक म्हणून वापरू. पण खरं तर हा आकडा ०.७४% च का २% का नाही, किंवा ०.१% का नाही याचं उत्तर आपल्याला क्रिकेटच्या खेळातल्या खुबी, बॅटिंग, बोलिंग, धावा करणे, बाद होणे, ५० च ओव्हर खेळणे या मूलभूत संकल्पना वापरून देता आलं तर उत्तम. म्हणजे आपल्या उदाहरणात असं गृहित धरू की सर्वसाधारणपणे प्रत्येक स्त्री सरासरी ३ वेळा गरोदर राहाते. सरासरी आयुर्मान ६० वर्षं आहे असंही समजू. म्हणजे आयुष्यातल्या साठपैकी सुमारे सव्वादोन वर्षं प्रत्येक स्त्री गरोदर असते. त्यावरून गणिताने आपल्याला ३.५१% हा आकडा काढता येतो. हा देखील इतर आकड्यांवरूनच काढलेला आकडा आहे. पण आयुर्मान, गरोदरपणाचा काळ, गरोदर राहाण्याची वारंवारता या अधिक मूलभूत गोष्टींवरून काढलेला आहे. हेच मॉडेल अधिक किचकट केलं तर आपल्याला दोन समाजांमधले फरक शोधून काढायला मदत होईल.
पण मूळ प्रश्न सोडवायचा राहिलाच. एकच मॅच टाय होण्याची शक्यता किती? त्यापेक्षा असं विचारू, की पहिली मॅच टाय होण्याची शक्यता किती? (हा लेख प्रसिद्ध करेपर्यंत पहिली मॅच होऊन गेली आहे... असो, आपण हा विचार सामने सुरू व्हायच्या आधी करतो आहोत असं समजू.) सोपं आहे. आजपर्यंतच्या अनुभवावरून - ०.७४%. पण एकच मॅच टाय होण्यासाठी इतर उरलेल्या सर्व मॅचेस टाय होता कामा नयेत. म्हणजे दुसरी मॅच टाय न होणं, तिसरी टाय न होणं.... एकोणपन्नासावी टाय न होणं - हे सर्व झालं पाहिजे. म्हणजे
०.००७४ *(१-०.००७४)*(१-०.००७४)*(१-०.००७४)*.....(१-०.००७४) [४८ वेळा] = ०.००५१८
पण समजा पहिली टाय न होता दुसरी झाली तर? किंवा तिसरी झाली तर? म्हणजे एकच मॅच टाय होण्याची परिस्थिती ४९ वेगवेगळ्या पद्धतीने उद्भवू शकते. त्यामुळे सर्व वेगवेगळ्या पद्धतींच्या शक्यतांची बेरीज करावी लागते. ०.००५१८ * ४९ = २५.४%. म्हणजे तुम्हाला विश्वचषकाच्या सुरूवातीला रामदासकाकांनी प्रश्न विचारला असता, की 'बरोब्बर एक मॅच टाय होणार' चा भाव चार रुपये आहे - ही बेट घ्याल का? तर जरूर घ्यावी असं उत्तर येईल. कारण रास्त भाव सुमारे १:३ आहे.
बरोब्बर दोन मॅच टाय होण्याची शक्यता किती? त्याचं सोपं उत्तर म्हणजे २५.४% चे २५.४% = सुमारे ६ टक्के. हे अचूक उत्तर नाही. फक्त साधारण बरोबर उत्तर आहे. बऱ्याच वेळा अचूक, तीन दशांश स्थळांपर्यंत उत्तर काढण्यापेक्षा साधारण अंदाज करणं अधिक महत्त्वाचं असतं. अचूक उत्तर हवं असेल तर क्लिंटन यांनी दिलेलं सूत्र वापरा. उत्तर येतं ४.६%.
आता मला सांगा, की विश्वचषकाच्या सेमीफायनल वा फायनलमधला कुठलाही सामना टाय होण्याच्या शक्यतेबद्दल काय म्हणता येईल? ०.७४% पेक्षा कमी, ०.७४% की ०.७४% पेक्षा अधिक?
(पुढच्या लेखामध्ये आपण काही खऱ्याखुऱ्या वितरणांकडे व त्यांच्या सरासरीकडे बघू. सचिन तेंडुलकरचा किंवा इतर कुठच्याही बॅट्समनचा फॉर्म त्याच्या गेल्या पाच-दहा डावातल्या धावसंख्येवरून ठरवता येतो का, याचाही विचार करू.)
प्रतिक्रिया
27 Feb 2011 - 10:24 am | विश्वनाथ मेहेंदळे
उपक्रम आवडला. छान लेखमाला. पुढील लेखांची वाट बघतो आहे.
मध्ये गुर्जी, रंगराव आणि अजून कुणाची तरी सांख्यिकी वर सखोल चर्चा झाली होती. ती शष्प कळली नव्हती. ही लेखमाला झाली की परत तो धागा वाचेन म्हणतो.
27 Feb 2011 - 10:49 am | नितिन थत्ते
मस्त.
27 Feb 2011 - 11:01 am | ३_१४ विक्षिप्त अदिती
लेख आवडला. कठीण गोष्ट सोपी करून सांगण्याची हातोटी लेखकाकडे असल्यामुळे लेख आणि त्यामागची सांख्यिकी संकल्पना स्पष्ट समजते आहे.
27 Feb 2011 - 11:11 am | सहज
रंजक व रोचक भाग. आवडला.
27 Feb 2011 - 11:16 am | पैसा
लेख आवडला. उदाहरणे देऊन छान सोपं करून सांगितलंय. मस्तच!
27 Feb 2011 - 11:22 am | क्लिंटन
लेख आवडला.पुढील भागांची वाट बघत आहे.
27 Feb 2011 - 10:36 pm | क्लिंटन
चला एक सामना टाय झालाच :) आता दुसरा होतो का ते बघू
27 Feb 2011 - 10:39 pm | कानडाऊ योगेशु
घासकडवी गुरुजींचा विजय असो!
गुरुजी एक मॅच तर टाय झाली.
27 Feb 2011 - 11:10 pm | विश्वनाथ मेहेंदळे
>>विश्वचषकाच्या सुरूवातीला रामदासकाकांनी प्रश्न विचारला असता, की 'बरोब्बर एक मॅच टाय होणार' चा भाव चार रुपये आहे - ही बेट घ्याल का? तर जरूर घ्यावी असं उत्तर येईल. कारण रास्त भाव सुमारे १:३ आहे.
गुर्जींना दंडवत !!!! आता त्यांनी पुढील बेट संबंधी मार्गदर्शन करावे. नाहीतरी मार्केट पडलेच आहे, इथे तरी काही मिळेल :-)