ডেটার যে সামান্য ১০টি ভুলে ভেস্তে যেতে পারে অনুসন্ধান

1 year ago 59

English

data journalism errors avoid spreadsheets

ছবি: শাটারস্টক

সংখ্যাগত ত্রুটির কারণে অনুসন্ধানী স্টোরিতে ক্রমিক প্রভাব পড়তে পারে। সেই প্রাথমিক ত্রুটি থেকে অন্যান্য পরিসংখ্যান, প্রবণতা সম্পর্কিত দাবি ও সিদ্ধান্তে ভুল হতে পারে, যা পাঠকদের আস্থায় বিরূপ প্রভাব ফেলে।

সম্প্রতি টেনেসির ন্যাশভিলে নিকার২৩ সম্মেলনে ইনভেস্টিগেটিভ রিপোর্টার্স অ্যান্ড এডিটরস (আইআরই) এর বার্ষিক ডেটা সাংবাদিকতা সম্মেলনে জিআইজেএন বেশ কজন বক্তার কাছে জানতে চেয়েছিল, তারা অতীতে ডেটা নিয়ে এমন কোন ভুল করেছিলেন কিনা, যা তাদের অনুসন্ধানের সর্বনাশ করেছিল বা অনুসন্ধানকে  হুমকিতে ফেলে দিয়েছিল। 

আমেরিকান ইউনিভার্সিটির ইনভেস্টিগেটিভ রিপোর্টিং ওয়ার্কশপের ডেটা এডিটর আরুশি সাহেজপাল বলেন, “প্রত্যেক সাংবাদিকেরই ভুল হয় — আপনি যে ফের সেই ভুল করছেন না এবং পাঠকদের প্রতি স্বচ্ছ আছেন, তা নিশ্চিত করার মতো বুদ্ধিমত্তা থাকলেই চলবে। তিনি বলেন, “তবে আপনি অবশ্যই ভুলের সম্ভাবনা কমাতে পারেন।”

“এখানে সম্ভাব্য ত্রুটি হলো ডেটা বুঝতে না পারা… তাই ডেটা বিবর্তনের প্রক্রিয়া সম্পর্কে প্রশ্ন করুন।” — রয়টার্সের ডেটা সাংবাদিকতা সম্পাদক জ্যানেট রবার্টস

অন্যান্য বিশেষজ্ঞদের বক্তব্যের সারাংশ টেনে সাহেজপাল বলেছেন, ত্রুটিগুলো এড়ানোর সাধারণ উপায় হলো নিজেকে তিনটি প্রশ্ন করা: আপনার কাছে কি আসলেই পুরো ডেটাসেট আছে? এর প্রকৃত অর্থ বুঝতে আপনি কি ডেটার পেছনে থাকা ব্যক্তির সঙ্গে কথা বলেছেন? আর সেই ডেটা আপনাকে কী জানাচ্ছে না?

তবুও, ভুল হয়। অভিজ্ঞ ডেটা সাংবাদিকদের মতামতের ভিত্তিতে এখানে ভুলের ১০টি সাধারণ কারণ তুলে ধরা হলো৷

১. স্প্রেডশিটে কোনো সারি ফাঁকা রাখার ঝুঁকি ভুলে যাওয়া। প্রোপাবলিকার লোকাল রিপোর্টিং ফেলো এবং ডেটা সাংবাদিকতার প্রশিক্ষক সামান্থা সুনের মতে, গুগলশিটে একটি পুরো ডেটা কলাম সিলেক্ট করেছেন বা হাইলাইট করেছেন বলে ধরে নেওয়া একটি সাধারণ ও বিপর্যয়কর ভুল। তিনি বলেন, সমস্যা হলো এই যে স্প্রেডশিটগুলো কলামে কোনো ফাঁকা সারি (রো) পেলে, তার নিচের অংশটুকু হাইলাইট বা সিলেক্ট করে না। তাঁর মতে, ডেটা বাদ পড়ে যাওয়ার এই বিষয়টি শনাক্ত করতে না পারার কারণে কিছু রিপোর্টার তাঁদের অনুসন্ধানে ত্রুটিপূর্ণ সিদ্ধান্তে পৌঁছান।

সুনে ব্যাখ্যা করে বলেন, “অনেক সময় আপনার ডেটায় ফাঁকা সারি পাবেন – সম্ভবত ঠিক সেখানটাতেই পৃষ্ঠা বিরতি ছিল, বা সেই বিষয়ের কোনো ডেটা ছিল না – আর নিচে স্ক্রল না করলে সহজে সেগুলো হয়তো আপনার চোখে পড়ত না। আপনি যদি সত্যিই সবকিছু সিলেক্ট করার ব্যাপারে সতর্ক না হন, তাহলে আপনার বিশ্লেষণ পুরোপুরি নষ্ট হয়ে যেতে পারে।”

এক্ষেত্রে তাঁর সমাধান: ফাঁকা সারির নিচের ডেটা সিলেক্ট করতে কোনো ডেটা কলামে ক্লিক করার পর একবার কন্ট্রোল এ (বা কমান্ড এ) চাপুন — আর তারপর আবার কন্ট্রোল এ (বা কমান্ড এ) চাপুন।

২. সরকারি নামকরণ পদ্ধতি বা কোডিংয়ের পরিবর্তন যাচাইয়ে ব্যর্থতা। রয়টার্সের ডেটা সাংবাদিকতা সম্পাদক জ্যানেট রবার্টস বলেন, সরকার ও পৌর সংস্থাগুলো প্রায়ই তাদের কাজের স্বার্থে কোডে পরিবর্তন আনে এবং আপনার ডেটা সংগ্রহের সময়ও এটি ঘটতে পারে। আপনার ডেটাসেটের সব ডেটা প্রকাশের আগে একই বিষয় প্রযোজ্য কিনা, তা যাচাই করা সাংবাদিকদের জন্য অত্যন্ত জরুরি।

রবার্টস মনে  করে বলেন, “সেইন্ট পলে (মিনেসোটা) বস্তির মালিকদের নিয়ে অনুসন্ধান করতে গিয়ে আমরা ভবন নির্মাণ কোড লঙ্ঘনের ডেটা পাই,  এবং নির্দিষ্ট একটি অপরাধের সঙ্গে জড়িত জমির মালিকদের খুঁজতে মাঠে নামি।” তিনি আরও বলেন, “আমরা ডেটা বিশ্লেষণ শেষ করলাম, কিন্তু দেখা গেল, কোনো এক ফাঁকে  ভবন অধিদপ্তর তাদের কোডে পরিবর্তন এনেছে; এর ফলে হয়তো আগে “০২” বলতে যেখানে ইঁদুরের উপদ্রব বোঝাত, পরে তার অর্থ গিয়ে দাঁড়ায়, আপনি নিজের ফুটপাত ঝাড়ু দেননি। সৌভাগ্যবশত, প্রক্রিয়াটির খুব গভীরে গিয়ে হলেও আমরা এটি খুঁজে পেয়েছি ; আমরা এটি খুঁজে না পেলে পুরো স্টোরি ত্রুটিপূর্ণ থেকে যেত।”

তিনি যোগ করেন: “এখানে সম্ভাব্য ত্রুটি হলো ডেটা বুঝতে না পারা; যাদের কাছে তথ্য থাকে, তাদের সঙ্গে কথা বলতে না পারা। তাই ডেটা বিবর্তনের প্রক্রিয়া সম্পর্কে প্রশ্ন করুন।”

“কোনো কিছু ভুল মনে হলে নিজের মন কী বলে, সেদিকে নজর দিতে হবে।” — আইসিটি-র জ্যেষ্ঠ সম্পাদক ডায়ানা হান্ট

৩. শতাংশ পয়েন্টের সঙ্গে শতাংশ গুলিয়ে ফেলা। এই ভুলটি একটি চিরায়ত সমস্যা, এবং তা পাঠকদের বিভ্রান্ত করতে পারে৷ “কোনো কিছু যদি ২০ থেকে বেড়ে ৩০% হয়, তবে এটি আসলে ১০% বৃদ্ধি নয়, বরং ৫০% বৃদ্ধি, যা কিছুটা বিভ্রান্তিকর মনে হতে পারে; তাই এ বিষয়ে নজর দেওয়া জরুরি,” সুনে ব্যাখ্যা করেন। ডেটা বিশেষজ্ঞরা জোর দিয়ে বলেন, শতাংশ পরিবর্তন বলতে একটি হার বোঝায়, তবে শতাংশ পয়েন্ট পরিবর্তন মানে একটি পরিমাণ। বিভ্রান্তি এড়াতে কোনো কিছুর ১০০% বৃদ্ধি বলতে “দ্বিগুণ” হয়েছে বলা ভালো। “অনেক মানুষই শতাংশ পয়েন্ট ও শতাংশের পার্থক্য বোঝেন না,” সাহেজপাল বলেন। “‘মাথাপিছু’ এর ক্ষেত্রে একই কথা প্রযোজ্য – অনেক সময় একই বাক্যে হার ও মাথাপিছু ব্যবহার করার কোনো মানে হয় না, কারণ মাথাপিছু মানেই ব্যক্তি প্রতি।”

৪. বারবার যাচাই না করে পূর্ণমাণ সংখ্যার ব্যবহার। রবার্টসের মতে, ডেটার সারিতে  ৭,০০০ বা ২,০০০ এর মতো বড় অংকের সংখ্যায় যখন পূর্ণমাণ (রাউন্ড ফিগার) পাবেন, অনেক সময় তার অর্থ হলো রেকর্ড সার্চ বা ডেটা স্থানান্তরে কোনো সমস্যা ছিল, এটি হয়তো সত্যিকারের সমষ্টি নয়।

“আমাদের কাছে থাকা ডেটায় দেখা যাচ্ছিল, কেবল ৫,০০০ কোম্পানি কিছু বিষয়ে তাদের প্রয়োজনীয় প্রতিবেদন দাখিল করেছে। তাই আমাদের মনে প্রশ্ন জাগে: ‘কাটায় কাটায় ৫,০০০?’” রবার্টস বলেন। “ব্যাপারটি খটকা লেগেছিল, আর সংখ্যাটাও কম। প্রতিবেদক যে বিষয়টি লক্ষ্য করেননি, তা হলো ওয়েবসাইটটি সার্চ ফলাফলে সর্বোচ্চ ৫,০০০ রেকর্ড দেখাতো, যদিও প্রকৃত ফলাফল ছিল এর প্রায় তিনগুণ।”

সাহেজপাল বলেন, “আপনার কাছে ঠিক ১,০০০ বা ১০,০০০ সারির ডেটাসেট থাকলে আমি টাকা দিয়ে বাজি ধরতে পারি যে সেখানে ঝামেলা আছে। হিসাব করে বলতে পারব না, আমার কত শিক্ষার্থী যে ফাইল ডাউনলোড করার পরও বুঝতে পারেনি তারা ফিল্টার্ড সংস্করণ ডাউনলোড করেছে৷ আরেকটি ভুল হলো আপনার নিজের ডেটাসেটের রেঞ্জ, সরকারি ওয়েবসাইটে নির্ধারিত রেঞ্জের সমান কিনা তা যাচাই না করা।”

৫. দেশভেদে সংখ্যা বিন্যাসের ভিন্নতা ভুলে যাওয়া। ইন্টারন্যাশনাল কনসোর্টিয়াম অব ইনভেস্টিগেটিভ জার্নালিস্ট (আইসিআইজে) এর লাতিন আমেরিকার সমন্বয়ক এমিলিয়া ডিয়াজ-স্ট্রাক বলেন, “যুক্তরাষ্ট্রের ১,৭৫৩.০০ মার্কিন ডলারকে লাতিন আমেরিকায় ‘১.৭৫৩,০০ মার্কিন ডলার’ হিসেবে লেখা হয়, যেখানে কমা ও ফুল স্টপ (.) এবং উদ্ধৃতি চিহ্নগুলো ভিন্ন জায়গায় বসে — তবে বিভিন্ন বিরামচিহ্ন ব্যবহারে স্প্রেডশিটের কোনো দায় নেই। আপনি সংখ্যার উৎস সম্পর্কে না ভাবলে সত্যিই মৌলিক ধারণাগত ভুল হতে পারে।”

“সম্পাদক হিসেবে ভুল এড়াতে আমার প্রথম কাজটি হলো, ডেটায় কী নেই তা তালিকাভুক্ত করা।” — ইনভেস্টিগেটিভ রিপোর্টিং ওয়ার্কশপের ডেটা এডিটর আরুশি সাহেজপাল

৬. ডেটা “সন্দেহজনক” মনে হওয়ার পরও নিজের মনকে পাত্তা না দেয়া। এমনকি স্প্রেডশিটে সংখ্যাগুলো যাচাই করার পরও, এবং ডেটা-সংশ্লিষ্ট ব্যক্তিদের দিয়ে দু’বার যাচাই করার পরও অভিজ্ঞ সাংবাদিকেরা অনেক সময় এই পরিসংখ্যানগত বিভ্রান্তি বা বিষয় সম্পর্কিত নিজেদের জানাবোঝা নিয়ে ঝামেলায় পড়েন। আইসিটি (আগের ইন্ডিয়ান কান্ট্রি টুডে) এর জ্যেষ্ঠ সম্পাদক ডায়ানা হান্ট বলেন, নিজের কী মনে হলো সেই অনুভূতির প্রতি রিপোর্টারদের সম্মান রাখা উচিত, এবং সংখ্যাগুলোকে স্বাধীনভাবে যাচাই করার জন্য অথবা সেটি নিদেনপক্ষে বিষয়টি কেন্দ্রিক কোনো “আনুমানিক” ডেটা কিনা তা নিশ্চিত হতে বিকল্প বা ঐতিহাসিক ডেটা বা একাডেমিক গবেষকদের সঙ্গে মিলিয়ে নেওয়া উচিত। যেমন, এই অনুভূতিটি মূল সরকারি ডেটা সংগ্রাহকদের বড় বড় ত্রুটি বা এমনকি ইনপুট পর্যায়ে কেবল একটি দশমিক বিন্দুর মতো ছোটখাটো ভুলের দিকে ইঙ্গিত করতে পারে।

হান্ট বলেন, “কোনো কিছু ভুল মনে হলে নিজের মন কী বলে, সেদিকে নজর দিতে হবে – আমার বেশ কয়েকটি অনুসন্ধানে এটি কাজে এসেছে।”

৭. ডেটাসেটের পেছনের মানুষগুলোর সঙ্গে কথা বলতে না পারা। “ডেটা ব্যবহারের আগে আপনাকে সোর্সের নাগাল পেতে হবে এবং প্রতিটি কলামের অর্থ বুঝতে হবে” – বলেন সাহেজপাল৷ “দেখুন, হয়ত আপনি এমন কোনো ওয়েবসাইট থেকে ডাউনলোড করছেন, যেখানে একটি নিখুঁত পদ্ধতিগত ব্যবস্থা আছে — তবে আমি বাজি ধরে বলতে পারি যে কোনটি প্রকৃত অর্থ এবং কোনটি তা নয়, সেই প্রেক্ষিতে আপনার দেখা অনেক ডেটা সহজে বোঝা যায় না। ডেটা সাংবাদিকতা সংশ্লিষ্টরা প্রায়ই এটি ব্যাখ্যা করেন না, তবে সত্যি কথা বলতে কী, আমরা সবাই মানুষের সঙ্গে নিজেদের ধারণার চেয়ে বেশি কথা বলি – আমরা কেবল কম্পিউটারের স্ক্রিনের দিকে তাকিয়ে থাকি না।”

তিনি আরও বলেন: “ডেটাসেট নিয়ে কী করা যায়, তা বুঝতে পারার চেয়ে ডেটা ইনপুট সংশ্লিষ্টদের কাছে পৌঁছানোর উপায় খুঁজে বের করা অনেক সহজ।”

৮. ডেটাসেটই পুরো স্টোরি তুলে ধরবে, এমনটি মনে করা।  সাহেজপালের পরামর্শ: একটি প্রাসঙ্গিক ডেটাসেট পাওয়ার পর রিপোর্টারেরা অবিলম্বে সেগুলো জড়ো করেন এবং ডেটাসেটে যে প্রাসঙ্গিক প্রশ্নগুলোর উত্তর পাওয়া যায় না, বিশেষভাবে সেগুলো পোস্ট করেন।

তিনি বলেন, “সম্পাদক হিসেবে ভুল এড়াতে আমার প্রথম কাজটি হলো, ডেটায় কী নেই তা তালিকাভুক্ত করা। ডেটাসেটে আমরা যেটিকে ‘সীমাবদ্ধতা অংশ’ বলি সেটিই আপনার সবচেয়ে শক্তিশালী হাতিয়ার, কারণ ডেটায় কী নেই তা যদি আপনার জানা থাকে, তবে আপনি জানেন যে আপনার কী বলা উচিত নয় এবং আরো কী প্রশ্ন করা উচিত।”

সাহেজপাল আরও বলেন: “ধরা যাক, ওয়াশিংটন ডিসিতে পার্কিং টিকিট সম্পর্কিত নিয়মের লঙ্ঘন নিয়ে একটি ডেটাসেট পেয়েছেন, তাহলে প্রথম কাজ হবে যে অঞ্চল ও পরিবর্তনশীল উপাদানের (ভ্যারিয়েবল) তথ্য নেই তার একটি তালিকা তৈরি করা, যা আপনার বিশ্লেষণকে প্রভাবিত করতে পারে; এটি করা মাত্রই পুরো চিত্র আপনার কাছে পরিষ্কার হয়ে উঠবে। তারপর ডেটার দায়িত্বে থাকা ব্যক্তিকে ফোন করুন এবং আপনার কাছে কী আছে, তা নিশ্চিত হোন।”

“[গুগল শিটে] কেবল একটি কলাম বাছাই করবেন না; সবসময় উপরের বাম কোণটি ব্যবহার করুন – এটি অনেকটা আপনার জুতা বাঁধার মত।” — ইএসপিএনের ডেটা রিপোর্টার টিশা থম্পসন

৯. গ্রাফ বা চার্টের ক্ষেত্রে ভুল মানদণ্ড ব্যবহার করা। গণমাধ্যমে প্রকাশিত বা এমনকি সাংবাদিকদের হাতে আসা গ্রাফের অক্ষগুলোতে অনেক সময় ইচ্ছামত সংখ্যা দিয়ে শুরু করা হয় – যেমন শূন্যের পরিবর্তে “১,৫০০” – যা পাঠকদের বিভ্রান্ত করতে পারে বা সেটি ভুলও হতে পারে৷ সাহেজপাল বলেন, “আপনি যে ভিজ্যুয়াল প্রকাশ করেন, সেগুলো খতিয়ে দেখুন। নির্ভুলতার ব্যাপারে নিশ্চিত হতে এক্স এবং ওয়াই অক্ষ তুলনা করা ভ্যারিয়েবল ও মানদণ্ড, সবকিছুই যাচাই করে নিশ্চিত হয়ে নিন। যে কোনো ডেটা ভিজ্যুয়ালাইজেশনের ক্ষেত্রে স্কেলের শুরুতে ভুল আছে  কিনা বা পরিবর্তনের ব্যবধান অস্পষ্ট কিনা তা দেখা জরুরি। আমি সব সময় এধরনের ত্রুটির দিকে নজর দেই।”

১০. গুগলশিট সাজানোর ক্ষেত্রে কলামগুলো একসুঁতোয় বাঁধতে ভুলে যাওয়া৷ উপস্থাপনের জন্য ডেটার সারিগুলোকে সর্ট করে সাজিয়ে নিলে অনেক সময় সহজ অ্যাঙ্গেল পাওয়া যায়। যেমন, সবচেয়ে খারাপ থেকে সবচেয়ে ভালো: একটি কলামের শীর্ষে সবচেয়ে বেশি মৃত্যু-হারের শহরগুলো, আর নিচের দিকে আরও ভালো অবস্থায় থাকা শহরগুলোর অবস্থান।

গুগল শিটগুলোতে সর্ট করা অনেক সহজ, আর প্রোগ্রামের পপ-আপ সাজেশন থেকেও সাহায্য পাওয়া যায় — তবে এটির জন্য প্রয়োজন শিটে ধাপে ধাপে ক্রমানুসারে সাজানো ৷

ইএসপিএনের ডেটা রিপোর্টার টিশা থম্পসনের মতে, রিপোর্টারেরা অনেক ফাংশন নিয়ে কাজ করতে পারেন, তবে তিনি সতর্ক করে বলেন, গুগলশিটে সাজানোর সময় যে বিষয়টি কোনভাবেই ভোলা যাবে না, তা হলো “উপরের বামপাশের বর্গক্ষেত্রে” ক্লিক করা: ফাঁকা একটি বক্স যা কলাম ও সারি, দুটি অক্ষকেই সিলেক্ট করে। এই বক্সটি পুরো ডেটাসেটের সঙ্গে একটি সাজানো কলামকে যুক্ত করে। তিনি বলেন, এই বর্গক্ষেত্রটি ভুলে যাওয়াটা কেবল আপনার সংখ্যাগুলোকে এলোমেলো করতে পারে তা নয়, বরং প্রকাশের আগে ত্রুটি নজরে আসতেও বাধা দেয়৷

“উপরের বাম কোণে নজর না দেওয়াটা সবচেয়ে মামুলি ভুল, যা আপনারা করে থাকেন, আর এটি আপনার ক্যারিয়ার শেষ করতে যথেষ্ট,” থম্পসন সতর্ক করে বলেন। “আপনারা সবসময় ডেটাকে অন্যান্য লাইন ও সারির সঙ্গে যুক্ত রাখতে চান, যেন সবকিছু একসঙ্গে হাইলাইট করতে পারেন। কেবল একটি কলাম বাছাই করবেন না; সবসময় উপরের বাম কোণটি ব্যবহার করুন – এটি অনেকটা আপনার জুতা বাঁধার মত।”

আরও পড়ুন

টপ ১০ ইন ডেটা জার্নালিজম

জিআইজেএন রিসোর্স সেন্টার: ডেটা জার্নালিজম

সম্পাদকের বাছাই: ২০২২ সালের সেরা ১০ ডেটা সাংবাদিকতা প্রকল্প


Rowan Philp, senior reporter GIJNরোয়ান ফিলিপ জিআইজেএনের প্রতিবেদক। তিনি দক্ষিণ আফ্রিকার সানডে টাইমস পত্রিকার প্রধান প্রতিবেদক ছিলেন। বিদেশ প্রতিনিধি হিসেবে বিশ্বের ২৪টির বেশি দেশে সংবাদ, রাজনীতি, দুর্নীতি ও সংঘাত নিয়ে রিপোর্ট করেছেন।

The post ডেটার যে সামান্য ১০টি ভুলে ভেস্তে যেতে পারে অনুসন্ধান appeared first on Global Investigative Journalism Network.

Read Entire Article