বড় বড় নথিগুলোকে ছোট প্রতিষ্ঠানগুলোর জন্য সার্চযোগ্য করা ও কাজে লাগাতে বিনামূল্যে ব্যবহারযোগ্য টুলগুলোর বিকাশ সাম্প্রতিক বছরগুলোতে অনুসন্ধানী সাংবাদিকদের সবচেয়ে বড় প্রযুক্তিগত অগ্রগতির একটি৷
আগে রিপোর্টারদের হরেক রঙের স্টিকি নোটের স্তুপ ও ডেটা ইনপুটের জন্য স্বেচ্ছাসেবী প্রয়োজন হতো; আর হাতে লেখা সাধারণ পাণ্ডুলিপি, অগোছালো ডেটা টেবিল ও কালো কালিতে আংশিকভাবে ঢেকে দেওয়া রিপোর্ট পর্যন্ত আলাদা আলাদা ফরম্যাটে আসা পাবলিক রেকর্ডের বাক্সগুলো সামলাতে প্রচুর সময় লেগে যেত।
এখন মেশিন লার্নিং চালিত টুল ও ওপেন সোর্স প্রোগ্রাম প্রস্তুতকারকদের উদ্ভাবনী ক্ষমতা যে কেবল বড় বড় ফাঁসকাণ্ড ঘটাতে পারে তা নয়, বরং ফাঁসকৃত সেই নথির বান্ডিলে লুকিয়ে থাকা ডেটাও উন্মোচন করতে পারে। এতে করে অসাবধানতাবশত সংবেদনশীল তথ্য প্রকাশের ঝুঁকিও কমতে পারে।
যেমন, ২০২২ ইনভেস্টিগেটিভ রিপোর্টার অ্যান্ড এডিটর্স কনফারেন্সে অংশগ্রহণকারীরা জেনে অবাক হন যে, কৃত্রিম বুদ্ধিমত্তা-চালিত গুগল পিনপয়েন্ট টুলের অনেক সময় সাশ্রয়কারী বিশ্লেষণী ফাংশন রয়েছে এবং এটি আলোকচিত্রে থাকা দূরের কোনো পটভূমিতে পিতলের ফলকের ওপর ছোট ছোট লেখাও ট্রান্সক্রাইব ও সার্চ করতে পারে। সত্যি কথা বলতে কী, গণমাধ্যমের একটি দুর্নীতি কেলেঙ্কারির পেছনে অভিযুক্ত ব্যক্তিদের চিহ্নিত করতে ফাঁস হওয়া হাজার হাজার পৃষ্ঠার নথিপত্র স্বয়ংক্রিয় বিশ্লেষণে পরিবেশ বিষয়ক সংবাদমাধ্যম ফ্লাডলাইটের সাংবাদিকেরা পিনপয়েন্ট ব্যবহার করেছেন। আর এই অনুসন্ধান সম্প্রতি তাঁদেরকে গোল্ডস্মিথ ইনভেস্টিগেটিভ রিপোর্টিং পুরস্কারের চূড়ান্ত মনোনয়নের সম্মান এনে দিয়েছে।
ডকুমেন্টক্লাউডে এখন পাওয়া যায় আরও অনেক বেশি আধুনিক ফাংশন।টেনেসিতে সম্প্রতি নিকার২৩ ডেটা সাংবাদিকতা সম্মেলনে ওপেন সোর্স ডকুমেন্টক্লাউড প্ল্যাটফর্মের শক্তিশালী নতুন অনুসন্ধানী ফিচার সম্পর্কে জানতে পেরে সাংবাদিকদের মধ্যেও একইরকম প্রাণবন্ত সাড়া লক্ষ্য করা গিয়েছে।
ডকুমেন্টক্লাউড হলো অলাভজনক সংস্থা মাকরক ফাউন্ডেশনের একটি বিনামূল্যে ব্যবহারযোগ্য সেবা। বেস ডকুমেন্ট ম্যানেজমেন্ট ফিচারগুলোর জন্য এটি ইতিমধ্যেই জনপ্রিয়তা পেয়েছে। এর মধ্যে রয়েছে পিডিএফ থেকে স্প্রেডশিট ও গ্রাফিক্স পর্যন্ত ৭০টি ফরম্যাটে সহজ আপলোড; প্রতিবেদনে টীকা যোগ করা; এবং তাদের সবচেয়ে পরিচিত ফিচার হলো গোছানো নথিগুলো সরাসরি আপনার স্টোরিতে জুড়ে দেয়ার সক্ষমতা। আপনি “অ্যান্ড” ও “অর” এর মতো পরিচিত গুগল-টাইপ কাঠামো কাজে লাগিয়ে গবেষক ও রিপোর্টারেরা প্রায় অর্ধ কোটি নথির পাবলিক ডেটাবেসে কীওয়ার্ড সার্চ করতে পারেন। আর গণমাধ্যমে আস্থা সংকটের বর্তমান সময়ে এর সংযুক্ত করার ফাংশনটি বিশেষভাবে গুরুত্বপূর্ণ, কারণ নথিগুলোকে কার্যকরভাবে অন-দ্য-রেকর্ড সোর্সে পরিণত করে দর্শকশ্রোতারা সরাসরি আপনার প্রতিবেদনে ক বা খ খুঁজে পাওয়ার দাবিটি যাচাই করতে পারেন৷
তবে ডকুমেন্টক্লাউড এখন আরও অনেক অত্যাধুনিক ফাংশন যুক্ত করেছে। যেমন, গুগল ড্রাইভের মতো প্রোগ্রামগুলো থেকে ইম্পোর্ট করে ইউটিউব অডিও ট্রান্সক্রাইব করা এবং এমনকি দুর্বলভাবে কালো কালিতে ঢেকে দেওয়া লেখা থেকে তথ্য বের করে আনা (নিচের তালিকাটি দেখুন)।
বাস্তব দুনিয়ায় ডেটা চ্যালেঞ্জ মোকাবিলার টুল
নিকার২৩-এ দেয়া বক্তব্যে মাকরক ফাউন্ডেশনের ওপেন সোর্স ফেলো সানজিন ইব্রাহিমোভিচ বলেছেন, ব্যবহারকারী, ফেলো, ডেটা সায়েন্স অনুদান গ্রহণকারী ও সাংবাদিকদের সমন্বয়ে গড়ে উঠা ডকুমেন্টক্লাউড কমিউনিটি, লাইভ প্রকল্প চলাকালে যেসব সমস্যা ও সম্ভাবনার মুখোমুখি হয়েছে, সেগুলোর সমাধানে মূল ফাংশনগুলোর সঙ্গে কিছু অ্যাড-অন যুক্ত করেছে।
যেমন, ইব্রাহিমোভিচ বলেছেন, ব্যবহারকারীরা লক্ষ্য করেছেন, মোটা মোটা নথি জুড়ে ছড়িয়ে ছিটিয়ে থাকা ব্যক্তিগত শনাক্তকরণ তথ্য (পিআইআই) বাছাই করতে অনেক সময় লাগে, আর ছোট অক্ষরে ছাপানো ইমেইল অ্যাড্রেস, সামাজিক সুরক্ষা নম্বর, জিপ কোড, ক্রেডিট কার্ড নম্বর ও বাসা বা অফিসের ঠিকানার মতো তথ্য কখনো কখনো পাওয়াই যায় না।
তাই ডকুমেন্টক্লাউড এমন একটি ফিচার যুক্ত করেছে যা স্বয়ংক্রিয়ভাবে ব্যক্তিগত শনাক্তকরণ তথ্য খুঁজে বের করে এবং সেগুলো হাইলাইট করে।
এদিকে, ইব্রাহিমোভিচ বলেছেন, সংবেদনশীল বা গোপন তথ্য ঢেকে দিতে কর্মকর্তারা প্রায়ই কালো হাইলাইটার কলম বা দুর্বল সংশোধনী সফ্টওয়্যার ব্যবহার করেন, যা সরকারি নথির রিড্যাকশনকে দুর্বল ও ত্রুটিপূর্ণ করে তোলে। এ কারণে ব্যবহারকারীরাও সমস্যায় পড়েন। ভুক্তভোগীদের সম্পর্কে সংবেদনশীল তথ্য হিসেবে নথি সংযুক্ত করতে চাচ্ছে, এমন সংবাদমাধ্যমের জন্য এটি একটি ঝুঁকি। কারণ, দুর্বল রিড্যাকশন থেকে দুষ্ট লোকেরা চাইলে ডিজিটাল উপায়ে তথ্য এক্সট্রাক্ট করতে পারে।
তাই ডকুমেন্টক্লাউড একটি “ব্যাড রিড্যাকশন” অ্যাড-অন ফিচার ব্যবহার করেছে, যা দু’ভাবে সাংবাদিকদের কাজে আসে:
- এজেন্সি যা গোপন করতে চেয়েছিল, অনেক সময় তা প্রকাশ্যে আনতে এটি স্বয়ংক্রিয়ভাবে একটি স্প্রেডশিটে অনুমিত সংশোধিত অনুচ্ছেদগুলো বিশ্লেষণ করে ও সামনে আনে ৷
- এটি আপনাকে ঢেকে দেওয়ার কাজটি সম্পন্ন করার বিকল্প পথ দেখায়: ব্ল্যাক আউট অংশের আড়ালে থাকা সব ডিজিটাল তথ্য স্থায়ীভাবে মুছে ফেলা এবং জনসাধারণের জন্য উন্মুক্ত নথি বা সংযুক্ত পৃষ্ঠাগুলোর জন্য সেগুলো পুরোপুরি ঢেকে দেওয়া। ইব্রাহিমোভিচ সতর্ক করে বলেছেন, নির্বাচিত অনুচ্ছেদগুলোর জন্য “রিড্যাকশন নিশ্চিত করুন” বোতামে ক্লিক করার আগে সাংবাদিকদের ভালোভাবে চিন্তা করা উচিত – “কারণ এটি একটি স্থায়ী পদ্ধতি – যা বদলানো যায় না।”
বিপন্ন ব্রাজিলউড পাচার নিয়ে অর্গানাইজড ক্রাইম অ্যান্ড করাপশন রিপোর্টিং প্রজেক্টের (ওসিসিআরপি) হয়ে তাঁর সাম্প্রতিক অনুসন্ধানে লুইজ ফার্নান্দো টলেডো চোরাচালানের জন্য অর্থদণ্ডের শিকার ছোট ব্রাজিলিয় কোম্পানিগুলোর নাম জানতে ব্যাড রিড্যাকশন ব্যবহার করেছেন।
“কোনো অ্যাড-অন চালাতে ব্যবহারকারীদের প্রোগ্রাম সংশ্লিষ্ট জ্ঞানের প্রয়োজন পড়ে না।” — সানজিন ইব্রাহিমোভিচ, মাকরক ফাউন্ডেশনের ওপেন সোর্স ফেলোপরিবেশগত অপরাধ বিষয়ক অলাভজনক সংস্থা ডেটা ফিক্সারের প্রকল্প সমন্বয়ক টলেডো ব্যাখ্যা করে বলেন, তিনি স্টোরি করতে গিয়ে সরকারি সংস্থার করা পরিবেশগত জরিমানা নিয়ে শত শত প্রতিবেদন জোগাড় করেছেন এবং তারপর সেই নথিগুলো গুছিয়েছেন। “ব্যাড রিড্যাকশন অ্যাড-অন আমাকে কয়েকজন অভিযুক্ত ব্যক্তি ও বেশ কয়েকটি কোম্পানির নাম খুঁজে পেতে সাহায্য করেছে। ইম্পোর্ট ডকুমেন্ট ফাংশনটিও খুব গুরুত্বপূর্ণ। এটি ব্যবহারে অনেক নথি খুঁটিয়ে দেখা এবং আমার প্রয়োজনীয় মূল বিষয় খুঁজে পাওয়ার কাজটি সহজ হয়েছিল। আমি পুরো প্রকল্পে পরীক্ষা নিরীক্ষার কাজে ডকুমেন্টক্লাউড ব্যবহার করেছি।”
ব্যবহারকারী-বান্ধব অনুসন্ধানী বৈশিষ্ট্য
ইব্রাহিমোভিচ স্বীকার করে বলেছেন, অ্যাড-অনগুলো স্বচ্ছ ও ওপেন সোর্স হলেও এগুলো তৈরি করতে কোডিং দক্ষতা থাকতে হয়। ডকুমেন্টক্লাউড অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (এপিআই) ও গিটহাব অ্যাকশনের মতো প্ল্যাটফর্মগুলোতে এগুলো তৈরি করা হয়। তবে তিনি বলেছেন, অ্যাড-অনগুলোর ব্যবহার সহজ হলেই কেবল পরিষেবার জন্য গৃহীত হয়।
তিনি সুনির্দিষ্টভাবে বলেছেন, “কোনো অ্যাড-অন চালাতে ব্যবহারকারীদের প্রোগ্রাম সংশ্লিষ্ট জ্ঞানের প্রয়োজন পড়ে না। তাই ছোট নিউজরুমও প্রোগ্রামিং দক্ষতা ছাড়াই ডেটা এক্সট্রাকশন ও বিশ্লেষণ পদ্ধতির ধারণাটি ব্যবহার করতে পারে।”
তবুও, ডেটা নিয়ে কাজ করেন না, এমন রিপোর্টাররা অ্যাড-অন চালাতে গিয়ে বেশ কিছু প্রযুক্তিগত সমস্যার সম্মুখীন হন। তাই ব্যবহারকারীদের উচিতি উক্ত বিষয়ে মাকরকের ইউটিউব টিউটোরিয়াল চ্যানেলটি দেখা।
ডকুমেন্টক্লাউডে অ্যাক্সেস করতে হলে সাধারণত দ্রুত ভেরিফিকেশন সুবিধাসম্পন্ন প্রাতিষ্ঠানিক ইমেইল অ্যাড্রেস ব্যবহার করে একটি অ্যাকাউন্ট খুলতে হবে। নতুন ফিচারের ক্রমবর্ধমান লাইব্রেরিতে অ্যাক্সেস করতে হলে “অ্যাড-অনস” আর তারপর “ব্রাউজ অল অ্যাড-অনস” এ ক্লিক করতে হবে।
ইব্রাহিমোভিচ বলেছেন, নতুন অ্যাড-অন টুলগুলোর কয়েকটি নিম্নোক্ত কাজগুলো করতে পারে:
- গুগল ড্রাইভ, ড্রপবক্স, উইট্রান্সফার ও মিডিয়াফায়ার থেকে ডকুমেন্ট ইম্পোর্ট করা।
- ইমেইল ফাইলগুলোকে (ইএমএল ও এমএসজি ফরম্যাট) পিডিএফ-এ রূপান্তর করা।
- ওয়েবসাইটের স্ক্র্যাপার ফাংশন ব্যবহার করে সেখান থেকে ডেটা সংগ্রহ করা। এই ফাংশনটি আপনার কাঙ্ক্ষিত সাইট থেকে আপলোড করা নতুন নথিগুলো স্বয়ংক্রিয়ভাবে ডাউনলোড ও সেগুলোর তালিকা তৈরি করতে পারা।
- দূর্বলভাবে সংশোধিত টেক্সট শনাক্ত করা ও সামনে আনা।
- দ্য ইন্টারনেট আর্কাইভে প্রজেক্টের ব্যাক আপ রাখা।
- অনেকগুলো নথি একসঙ্গে সম্পাদনা করা।
- ইউটিউবসহ অডিও ফাইল ট্রান্সক্রাইব করা এবং স্বয়ংক্রিয়ভাবে আপনার অ্যাকাউন্টে ট্রান্সক্রিপশন আপলোড করা।
- ট্যাবুলা-ভিত্তিক একটি টুল ব্যবহার করে পিডিএফগুলো থেকে টেবিল এক্সট্রাক্ট করা।
- ফোন নম্বর, সামাজিক সুরক্ষা তথ্য, ও বাসা বা অফিসের ঠিকানার মত ব্যক্তিগত শনাক্তকরণ তথ্যাবলী (পিআইআই) চিহ্নিত করা ও সামনে আনা।
- অনেক অংশগ্রহণকারীদের জন্য ‘পিআইআই ডিটেক্টর’ নামের এই শেষোক্ত ফাংশনটি সবচেয়ে রোমাঞ্চকর ছিল। এর অন্যতম একটি কারণ হলো, এটি তাৎক্ষণিকভাবে আদালতের ফাইলিং বা অডিট রিপোর্টের বিশাল সংকলন থেকে সম্ভাব্য সোর্সগুলোর যোগাযোগের ঠিকানার ডেটাবেস সরবরাহ করতে পারে।
যুক্তরাষ্ট্রের জর্জিয়া রাজ্যের অলাভজনক প্রতিষ্ঠান দ্য ম্যাকন নিউজরুমের অনুসন্ধানী প্রতিবেদক লরা কোরলে বলেছেন, অনুদাননির্ভর দুটি স্থানীয় স্কুলে জাতিগত ও অর্থনৈতিক সাম্যতার বিষয়ে তাঁর গবেষণায় ইতিমধ্যেই নতুন অ্যাড-অনের কার্যকারিতা প্রমাণিত হয়েছে। তিনি আরও বলেছেন, স্কুল পরিচালনা পর্ষদের পোস্ট করা মিটিং মিনিটগুলো শত শত পৃষ্ঠা ছাড়িয়ে গেছে এবং খুব কমই শিরোনামভিত্তিক আলোচনার বিষয়গুলো তালিকাভুক্ত করেছে।
“কাঙ্ক্ষিত তথ্য খুঁজে পেতে আমি এক দশকের মিটিং নোটগুলো কীওয়ার্ড দিয়ে সার্চ করতে পেরেছি।” — দ্য ম্যাকন নিউজরুমের অনুসন্ধানী প্রতিবেদক লরা কোরলেতিনি খোলাসা করে বলেন, “কোন ব্যবসায়িক প্রসঙ্গে কখন আলোচনা হয়েছিল, তা সুনির্দিষ্টভাবে না জানলে সঠিক নথিগুলো খুঁজে পেতে ঘন্টা বা এমনকি কয়েক দিনও লেগে যেতে পারে। ডকুমেন্টক্লাউড স্ক্র্যাপার অ্যাড-অন ব্যবহার করে আমি কয়েক মিনিটের মধ্যে দুটি ওয়েবসাইট থেকে সব মিটিংয়ের অফিসিয়াল রেকর্ড সংগ্রহ করতে পেরেছি। তথ্যটি খুঁজে পেতে আমি এক দশকের মিটিং নোটগুলো কীওয়ার্ড দিয়ে সার্চ করতে পেরেছি।”
তিনি আরও বলেছেন, “এটি প্রত্যাশার চেয়েও বেশি কিছু দিয়েছে, আর আমার সামনে আরও প্রেক্ষাপট হাজির করেছে।”
ইব্রাহিমোভিচ সার-সংক্ষেপ করে বলেছেন: “সর্বোপরি আমরা মনে করি, এই ফিচারগুলো সীমিত রিসোর্সসম্পন্ন সাংবাদিক ও গবেষকদের জন্য নথিপত্রের গভীর বিশ্লেষণ শুরু করার বাধা সত্যিই কমিয়ে আনে।”
আরও পড়ুন
কোডিং দক্ষতা ছাড়াই বিনামূল্যে ব্যবহারযোগ্য ডেটা এক্সট্রাকশন টুল
সোশ্যাল মিডিয়া প্ল্যাটফর্ম মনিটরিংয়ের নতুন অনুসন্ধানী টুল
টেস্টিং দ্য পোটেনশিয়াল অব ইউজিং চ্যাটজিপিটি টু এক্সট্র্যাক্ট ডেটা ফ্রম পিডিএফস
রোয়ান ফিলিপ জিআইজেএনের প্রতিবেদক। তিনি দক্ষিণ আফ্রিকার সানডে টাইমস পত্রিকার প্রধান প্রতিবেদক ছিলেন। বিদেশ প্রতিনিধি হিসেবে বিশ্বের ২৪টির বেশি দেশে সংবাদ, রাজনীতি, দুর্নীতি ও সংঘাত নিয়ে রিপোর্ট করেছেন।
The post ঢেকে দেওয়া টেক্সট, ব্যক্তিগত তথ্য, এবং আরও অনেক কিছু উন্মোচনের নতুন ডকুমেন্ট টুল appeared first on Global Investigative Journalism Network.