ঢেকে দেওয়া টেক্সট, ব্যক্তিগত তথ্য, এবং আরও অনেক কিছু উন্মোচনের নতুন ডকুমেন্ট টুল

1 year ago 63

English

data journalism extract DocumentCloud redaction

দূর্বলভাবে ঢেকে দেওয়া টেক্সট উন্মোচন বা সুরক্ষার পাশাপাশি দ্রুততার সঙ্গে বড় ফাইলে থাকা ব্যক্তিগত তথ্য স্ক্র্যাপ করতে ডকুমেন্টক্লাউডের নতুন ফিচার অনুসন্ধানী সাংবাদিকদের বেশ কাজে আসে। ছবি: শাটারস্টক

বড় বড় নথিগুলোকে ছোট প্রতিষ্ঠানগুলোর জন্য সার্চযোগ্য করা ও কাজে লাগাতে বিনামূল্যে ব্যবহারযোগ্য টুলগুলোর বিকাশ সাম্প্রতিক বছরগুলোতে অনুসন্ধানী সাংবাদিকদের সবচেয়ে বড় প্রযুক্তিগত অগ্রগতির একটি৷

আগে রিপোর্টারদের হরেক রঙের স্টিকি নোটের স্তুপ ও ডেটা ইনপুটের জন্য স্বেচ্ছাসেবী প্রয়োজন হতো; আর হাতে লেখা সাধারণ পাণ্ডুলিপি, অগোছালো ডেটা টেবিল ও কালো কালিতে আংশিকভাবে ঢেকে দেওয়া রিপোর্ট পর্যন্ত আলাদা আলাদা ফরম্যাটে আসা পাবলিক রেকর্ডের বাক্সগুলো সামলাতে প্রচুর সময় লেগে যেত।

এখন মেশিন লার্নিং চালিত টুল ও ওপেন সোর্স প্রোগ্রাম প্রস্তুতকারকদের উদ্ভাবনী ক্ষমতা যে কেবল বড় বড় ফাঁসকাণ্ড ঘটাতে পারে তা নয়, বরং ফাঁসকৃত সেই নথির বান্ডিলে লুকিয়ে থাকা ডেটাও উন্মোচন করতে পারে। এতে করে অসাবধানতাবশত সংবেদনশীল তথ্য প্রকাশের ঝুঁকিও কমতে পারে।

যেমন, ২০২২ ইনভেস্টিগেটিভ রিপোর্টার অ্যান্ড এডিটর্স কনফারেন্সে অংশগ্রহণকারীরা জেনে অবাক হন যে, কৃত্রিম বুদ্ধিমত্তা-চালিত গুগল ‍পিনপয়েন্ট টুলের অনেক সময় সাশ্রয়কারী বিশ্লেষণী ফাংশন রয়েছে এবং এটি আলোকচিত্রে থাকা দূরের কোনো পটভূমিতে পিতলের ফলকের ওপর ছোট ছোট লেখাও ট্রান্সক্রাইব ও সার্চ করতে পারে। সত্যি কথা বলতে কী, গণমাধ্যমের একটি দুর্নীতি কেলেঙ্কারির পেছনে অভিযুক্ত ব্যক্তিদের চিহ্নিত করতে ফাঁস হওয়া হাজার হাজার পৃষ্ঠার নথিপত্র স্বয়ংক্রিয় বিশ্লেষণে পরিবেশ বিষয়ক সংবাদমাধ্যম ফ্লাডলাইটের সাংবাদিকেরা পিনপয়েন্ট ব্যবহার করেছেন। আর এই অনুসন্ধান সম্প্রতি তাঁদেরকে গোল্ডস্মিথ ইনভেস্টিগেটিভ রিপোর্টিং পুরস্কারের চূড়ান্ত মনোনয়নের সম্মান এনে দিয়েছে।

ডকুমেন্টক্লাউডে এখন পাওয়া যায় আরও অনেক বেশি আধুনিক ফাংশন।

টেনেসিতে সম্প্রতি নিকার২৩ ডেটা সাংবাদিকতা সম্মেলনে ওপেন সোর্স ডকুমেন্টক্লাউড প্ল্যাটফর্মের শক্তিশালী নতুন অনুসন্ধানী ফিচার সম্পর্কে জানতে পেরে সাংবাদিকদের মধ্যেও একইরকম প্রাণবন্ত সাড়া লক্ষ্য করা গিয়েছে।

ডকুমেন্টক্লাউড হলো অলাভজনক সংস্থা মাকরক ফাউন্ডেশনের একটি বিনামূল্যে ব্যবহারযোগ্য সেবা। বেস ডকুমেন্ট ম্যানেজমেন্ট ফিচারগুলোর জন্য এটি ইতিমধ্যেই জনপ্রিয়তা পেয়েছে। এর মধ্যে রয়েছে পিডিএফ থেকে স্প্রেডশিট ও গ্রাফিক্স পর্যন্ত ৭০টি ফরম্যাটে সহজ আপলোড; প্রতিবেদনে টীকা যোগ করা; এবং তাদের সবচেয়ে পরিচিত ফিচার হলো গোছানো নথিগুলো সরাসরি আপনার স্টোরিতে জুড়ে দেয়ার সক্ষমতা। আপনি “অ্যান্ড” ও “অর” এর মতো পরিচিত গুগল-টাইপ কাঠামো কাজে লাগিয়ে গবেষক ও রিপোর্টারেরা প্রায় অর্ধ কোটি নথির পাবলিক ডেটাবেসে কীওয়ার্ড সার্চ করতে পারেন। আর গণমাধ্যমে আস্থা সংকটের বর্তমান সময়ে এর সংযুক্ত করার ফাংশনটি বিশেষভাবে গুরুত্বপূর্ণ, কারণ নথিগুলোকে কার্যকরভাবে অন-দ্য-রেকর্ড সোর্সে পরিণত করে দর্শকশ্রোতারা সরাসরি আপনার প্রতিবেদনে ক বা খ খুঁজে পাওয়ার দাবিটি যাচাই করতে পারেন৷

তবে ডকুমেন্টক্লাউড এখন আরও অনেক অত্যাধুনিক ফাংশন যুক্ত করেছে। যেমন, গুগল ড্রাইভের মতো প্রোগ্রামগুলো থেকে ইম্পোর্ট করে ইউটিউব অডিও ট্রান্সক্রাইব করা এবং এমনকি দুর্বলভাবে কালো কালিতে ঢেকে দেওয়া লেখা থেকে তথ্য বের করে আনা (নিচের তালিকাটি দেখুন)।

বাস্তব দুনিয়ায় ডেটা চ্যালেঞ্জ মোকাবিলার টুল

নিকার২৩-এ দেয়া বক্তব্যে মাকরক ফাউন্ডেশনের ওপেন সোর্স ফেলো সানজিন ইব্রাহিমোভিচ বলেছেন, ব্যবহারকারী, ফেলো, ডেটা সায়েন্স অনুদান গ্রহণকারী ও সাংবাদিকদের সমন্বয়ে গড়ে উঠা ডকুমেন্টক্লাউড কমিউনিটি, লাইভ প্রকল্প চলাকালে যেসব সমস্যা ও সম্ভাবনার মুখোমুখি হয়েছে, সেগুলোর সমাধানে মূল ফাংশনগুলোর সঙ্গে কিছু অ্যাড-অন যুক্ত করেছে।

Document Cloud personal identifying information detector add-on data journalism

ডকুমেন্টক্লাউডের পিআইআই ডিটেক্টর অ্যাড-অন ফিচারটি বিশাল ডেটা ফাইলগুলোতে আগে থেকে লুকিয়ে থাকা মূল তথ্য এক্সট্রাক্ট করতে পারে। ছবি: স্ক্রিনশট, ডকুমেন্টক্লাউড

যেমন, ইব্রাহিমোভিচ বলেছেন, ব্যবহারকারীরা লক্ষ্য করেছেন, মোটা মোটা নথি জুড়ে ছড়িয়ে ছিটিয়ে থাকা ব্যক্তিগত শনাক্তকরণ তথ্য (পিআইআই) বাছাই করতে অনেক সময় লাগে, আর ছোট অক্ষরে ছাপানো ইমেইল অ্যাড্রেস, সামাজিক সুরক্ষা নম্বর, জিপ কোড, ক্রেডিট কার্ড নম্বর ও বাসা বা অফিসের ঠিকানার মতো তথ্য কখনো কখনো পাওয়াই যায় না।

তাই ডকুমেন্টক্লাউড এমন একটি ফিচার যুক্ত করেছে যা স্বয়ংক্রিয়ভাবে ব্যক্তিগত শনাক্তকরণ তথ্য খুঁজে বের করে এবং সেগুলো হাইলাইট করে।

এদিকে, ইব্রাহিমোভিচ বলেছেন, সংবেদনশীল বা গোপন তথ্য ঢেকে দিতে কর্মকর্তারা প্রায়ই কালো হাইলাইটার কলম বা দুর্বল সংশোধনী সফ্টওয়্যার ব্যবহার করেন, যা সরকারি নথির রিড্যাকশনকে দুর্বল ও ত্রুটিপূর্ণ করে তোলে। এ কারণে ব্যবহারকারীরাও সমস্যায় পড়েন। ভুক্তভোগীদের সম্পর্কে সংবেদনশীল তথ্য হিসেবে নথি সংযুক্ত করতে চাচ্ছে, এমন সংবাদমাধ্যমের জন্য এটি একটি ঝুঁকি। কারণ, দুর্বল রিড্যাকশন থেকে দুষ্ট লোকেরা চাইলে ডিজিটাল উপায়ে তথ্য এক্সট্রাক্ট করতে পারে।

তাই ডকুমেন্টক্লাউড একটি “ব্যাড রিড্যাকশন” অ্যাড-অন ফিচার ব্যবহার করেছে, যা দু’ভাবে সাংবাদিকদের কাজে আসে:

  • এজেন্সি যা গোপন করতে চেয়েছিল, অনেক সময় তা প্রকাশ্যে আনতে এটি স্বয়ংক্রিয়ভাবে একটি স্প্রেডশিটে অনুমিত সংশোধিত অনুচ্ছেদগুলো বিশ্লেষণ করে ও সামনে আনে ৷
  • এটি আপনাকে ঢেকে দেওয়ার কাজটি সম্পন্ন করার বিকল্প পথ দেখায়: ব্ল্যাক আউট অংশের আড়ালে থাকা সব ডিজিটাল তথ্য স্থায়ীভাবে মুছে ফেলা এবং জনসাধারণের জন্য উন্মুক্ত নথি বা সংযুক্ত পৃষ্ঠাগুলোর জন্য সেগুলো পুরোপুরি ঢেকে দেওয়া। ইব্রাহিমোভিচ সতর্ক করে বলেছেন, নির্বাচিত অনুচ্ছেদগুলোর জন্য “রিড্যাকশন নিশ্চিত করুন” বোতামে ক্লিক করার আগে সাংবাদিকদের ভালোভাবে চিন্তা করা উচিত – “কারণ এটি একটি স্থায়ী পদ্ধতি – যা বদলানো যায় না।”

বিপন্ন ব্রাজিলউড পাচার নিয়ে অর্গানাইজড ক্রাইম অ্যান্ড করাপশন রিপোর্টিং প্রজেক্টের (ওসিসিআরপি) হয়ে তাঁর সাম্প্রতিক অনুসন্ধানে লুইজ ফার্নান্দো টলেডো চোরাচালানের জন্য অর্থদণ্ডের শিকার ছোট ব্রাজিলিয় কোম্পানিগুলোর নাম জানতে ব্যাড রিড্যাকশন ব্যবহার করেছেন।

“কোনো অ্যাড-অন চালাতে ব্যবহারকারীদের প্রোগ্রাম সংশ্লিষ্ট জ্ঞানের প্রয়োজন পড়ে না।” — সানজিন ইব্রাহিমোভিচ, মাকরক ফাউন্ডেশনের ওপেন সোর্স ফেলো

পরিবেশগত অপরাধ বিষয়ক অলাভজনক সংস্থা ডেটা ফিক্সারের প্রকল্প সমন্বয়ক টলেডো ব্যাখ্যা করে বলেন, তিনি স্টোরি করতে গিয়ে সরকারি সংস্থার করা পরিবেশগত জরিমানা নিয়ে শত শত প্রতিবেদন জোগাড় করেছেন এবং তারপর সেই নথিগুলো গুছিয়েছেন। “ব্যাড রিড্যাকশন অ্যাড-অন আমাকে কয়েকজন অভিযুক্ত ব্যক্তি ও বেশ কয়েকটি কোম্পানির নাম খুঁজে পেতে সাহায্য করেছে। ইম্পোর্ট ডকুমেন্ট ফাংশনটিও খুব গুরুত্বপূর্ণ। এটি ব্যবহারে অনেক নথি খুঁটিয়ে দেখা এবং আমার প্রয়োজনীয় মূল বিষয় খুঁজে পাওয়ার কাজটি সহজ হয়েছিল। আমি পুরো প্রকল্পে পরীক্ষা নিরীক্ষার কাজে ডকুমেন্টক্লাউড ব্যবহার করেছি।”

ব্যবহারকারী-বান্ধব অনুসন্ধানী বৈশিষ্ট্য

ইব্রাহিমোভিচ স্বীকার করে বলেছেন, অ্যাড-অনগুলো স্বচ্ছ ও ওপেন সোর্স হলেও এগুলো তৈরি করতে কোডিং দক্ষতা থাকতে হয়। ডকুমেন্টক্লাউড অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (এপিআই) ও গিটহাব অ্যাকশনের মতো প্ল্যাটফর্মগুলোতে এগুলো তৈরি করা হয়। তবে তিনি বলেছেন, অ্যাড-অনগুলোর ব্যবহার সহজ হলেই কেবল পরিষেবার জন্য গৃহীত হয়।

Document Cloud Bad Redactions add-on data journalism

ডকুমেন্টক্লাউড ব্যাড রিড্যাকশন অ্যাড-অন একই সঙ্গে দূর্বলভাবে সংশোধিত তথ্য প্রকাশ করতে পারে এবং সাংবাদিকদের গোপন তথ্য সুরক্ষায় সহায়ক ভূমিকা রাখতে পারে। ছবি: স্ক্রিনশট, ডকুমেন্টক্লাউড

তিনি সুনির্দিষ্টভাবে বলেছেন, “কোনো অ্যাড-অন চালাতে ব্যবহারকারীদের প্রোগ্রাম সংশ্লিষ্ট জ্ঞানের প্রয়োজন পড়ে না। তাই ছোট নিউজরুমও প্রোগ্রামিং দক্ষতা ছাড়াই ডেটা এক্সট্রাকশন ও বিশ্লেষণ পদ্ধতির ধারণাটি ব্যবহার করতে পারে।”

তবুও, ডেটা নিয়ে কাজ করেন না, এমন রিপোর্টাররা অ্যাড-অন চালাতে গিয়ে বেশ কিছু প্রযুক্তিগত সমস্যার সম্মুখীন হন। তাই ব্যবহারকারীদের উচিতি উক্ত বিষয়ে মাকরকের ইউটিউব টিউটোরিয়াল চ্যানেলটি দেখা।

ডকুমেন্টক্লাউডে অ্যাক্সেস করতে হলে সাধারণত দ্রুত ভেরিফিকেশন সুবিধাসম্পন্ন প্রাতিষ্ঠানিক ইমেইল অ্যাড্রেস ব্যবহার করে একটি অ্যাকাউন্ট খুলতে হবে। নতুন ফিচারের ক্রমবর্ধমান লাইব্রেরিতে অ্যাক্সেস করতে হলে “অ্যাড-অনস” আর তারপর “ব্রাউজ অল অ্যাড-অনস” এ ক্লিক করতে হবে।

ইব্রাহিমোভিচ বলেছেন, নতুন অ্যাড-অন টুলগুলোর কয়েকটি নিম্নোক্ত কাজগুলো করতে পারে:

  • গুগল ড্রাইভ, ড্রপবক্স, উইট্রান্সফার ও মিডিয়াফায়ার থেকে ডকুমেন্ট ইম্পোর্ট করা।
  • ইমেইল ফাইলগুলোকে (ইএমএল ও এমএসজি ফরম্যাট) পিডিএফ-এ রূপান্তর করা।
  • ওয়েবসাইটের স্ক্র্যাপার ফাংশন ব্যবহার করে সেখান থেকে ডেটা সংগ্রহ করা। এই ফাংশনটি আপনার কাঙ্ক্ষিত সাইট থেকে আপলোড করা নতুন নথিগুলো স্বয়ংক্রিয়ভাবে ডাউনলোড ও সেগুলোর তালিকা তৈরি করতে পারা।
  • দূর্বলভাবে সংশোধিত টেক্সট শনাক্ত করা ও সামনে আনা।
  • দ্য ইন্টারনেট আর্কাইভে প্রজেক্টের ব্যাক আপ রাখা।
  • অনেকগুলো নথি একসঙ্গে সম্পাদনা করা।
  • ইউটিউবসহ অডিও ফাইল ট্রান্সক্রাইব করা এবং স্বয়ংক্রিয়ভাবে আপনার অ্যাকাউন্টে ট্রান্সক্রিপশন আপলোড করা।
  • ট্যাবুলা-ভিত্তিক একটি টুল ব্যবহার করে পিডিএফগুলো থেকে টেবিল এক্সট্রাক্ট করা।
  • ফোন নম্বর, সামাজিক সুরক্ষা তথ্য, ও বাসা বা অফিসের ঠিকানার মত ব্যক্তিগত শনাক্তকরণ তথ্যাবলী (পিআইআই) চিহ্নিত করা ও সামনে আনা।
  • অনেক অংশগ্রহণকারীদের জন্য ‘পিআইআই ডিটেক্টর’ নামের এই শেষোক্ত ফাংশনটি সবচেয়ে রোমাঞ্চকর ছিল। এর অন্যতম একটি কারণ হলো, এটি তাৎক্ষণিকভাবে আদালতের ফাইলিং বা অডিট রিপোর্টের বিশাল সংকলন থেকে সম্ভাব্য সোর্সগুলোর যোগাযোগের ঠিকানার ডেটাবেস সরবরাহ করতে পারে।

যুক্তরাষ্ট্রের জর্জিয়া রাজ্যের অলাভজনক প্রতিষ্ঠান দ্য ম্যাকন নিউজরুমের অনুসন্ধানী প্রতিবেদক লরা কোরলে বলেছেন, অনুদাননির্ভর দুটি স্থানীয় স্কুলে জাতিগত ও অর্থনৈতিক সাম্যতার বিষয়ে তাঁর গবেষণায় ইতিমধ্যেই নতুন অ্যাড-অনের কার্যকারিতা প্রমাণিত হয়েছে। তিনি আরও বলেছেন, স্কুল পরিচালনা পর্ষদের পোস্ট করা মিটিং মিনিটগুলো শত শত পৃষ্ঠা ছাড়িয়ে গেছে এবং খুব কমই শিরোনামভিত্তিক আলোচনার বিষয়গুলো তালিকাভুক্ত করেছে।

“কাঙ্ক্ষিত তথ্য খুঁজে পেতে আমি এক দশকের মিটিং নোটগুলো কীওয়ার্ড দিয়ে সার্চ করতে পেরেছি।” — দ্য ম্যাকন নিউজরুমের অনুসন্ধানী প্রতিবেদক লরা কোরলে

তিনি খোলাসা করে বলেন, “কোন ব্যবসায়িক প্রসঙ্গে কখন আলোচনা হয়েছিল, তা সুনির্দিষ্টভাবে না জানলে সঠিক নথিগুলো খুঁজে পেতে ঘন্টা বা এমনকি কয়েক দিনও লেগে যেতে পারে। ডকুমেন্টক্লাউড স্ক্র্যাপার অ্যাড-অন ব্যবহার করে আমি কয়েক মিনিটের মধ্যে দুটি ওয়েবসাইট থেকে সব মিটিংয়ের অফিসিয়াল রেকর্ড সংগ্রহ করতে পেরেছি। তথ্যটি খুঁজে পেতে আমি এক দশকের মিটিং নোটগুলো কীওয়ার্ড দিয়ে সার্চ করতে পেরেছি।

তিনি আরও বলেছেন, “এটি প্রত্যাশার চেয়েও বেশি কিছু দিয়েছে, আর আমার সামনে আরও প্রেক্ষাপট হাজির করেছে।”

ইব্রাহিমোভিচ সার-সংক্ষেপ করে বলেছেন: “সর্বোপরি আমরা মনে করি, এই ফিচারগুলো সীমিত রিসোর্সসম্পন্ন সাংবাদিক ও গবেষকদের জন্য নথিপত্রের গভীর বিশ্লেষণ শুরু করার বাধা সত্যিই কমিয়ে আনে।”

আরও পড়ুন

কোডিং দক্ষতা ছাড়াই বিনামূল্যে ব্যবহারযোগ্য ডেটা এক্সট্রাকশন টুল

সোশ্যাল মিডিয়া প্ল্যাটফর্ম মনিটরিংয়ের নতুন অনুসন্ধানী টুল

টেস্টিং দ্য পোটেনশিয়াল অব ইউজিং চ্যাটজিপিটি টু এক্সট্র্যাক্ট ডেটা ফ্রম পিডিএফস


Rowan Philp, senior reporter, GIJNরোয়ান ফিলিপ জিআইজেএনের প্রতিবেদক। তিনি দক্ষিণ আফ্রিকার সানডে টাইমস পত্রিকার প্রধান প্রতিবেদক ছিলেন। বিদেশ প্রতিনিধি হিসেবে বিশ্বের ২৪টির বেশি দেশে সংবাদ, রাজনীতি, দুর্নীতি ও সংঘাত নিয়ে রিপোর্ট করেছেন।

The post ঢেকে দেওয়া টেক্সট, ব্যক্তিগত তথ্য, এবং আরও অনেক কিছু উন্মোচনের নতুন ডকুমেন্ট টুল appeared first on Global Investigative Journalism Network.

Read Entire Article