সাম্প্রতিককালে, অ্যাপলের গবেষকরা একটি গবেষণা প্রকাশ করেন যেখানে তারা দাবি করেন যে বড় রিজনিং মডেলগুলি (LRMs) জটিল ধাঁধার সমাধানে “সম্পূর্ণ সঠিকতার পতন” বা reasoning collapse এর সম্মুখীন হচ্ছে। এই গবেষণাটি AI সম্প্রদায়ে ব্যাপক আলোড়ন সৃষ্টি করে। তবে, বিশ্লেষক অ্যালেক্স ল’ওসেন এই দাবিগুলোকে চ্যালেঞ্জ জানিয়ে একটি সমালোচনা প্রকাশ করেন, যার শিরোনাম “The Illusion of the Illusion of Thinking”। তিনি যুক্তি দেন যে অ্যাপলের ফলাফলগুলো আসলে মডেলের ত্রুটিপূর্ণ reasoning এর কারণে নয়, বরং পরীক্ষার পদ্ধতি এবং বাস্তবিক সীমাবদ্ধতার কারণে ভুলভাবে ব্যাখ্যা করা হয়েছে।


অ্যাপলের মূল দাবিসমূহ

অ্যাপলের গবেষকরা বিভিন্ন AI মডেল যেমন OpenAI-এর o3-mini, DeepSeek-R1, Claude 3.7 Sonnet, এবং Google-এর Gemini কে নিয়ন্ত্রিত ধাঁধা পরিবেশে পরীক্ষা করেন। তারা তিনটি পারফরম্যান্স স্তর চিহ্নিত করেন:

  • কমপ্লেক্সিটি কম: যেখানে সাধারণ মডেলগুলো রিজনিং মডেলের চেয়ে ভালো পারফর্ম করে।

  • মধ্যম কমপ্লেক্সিটি: যেখানে বড় reasoning মডেলগুলো সুবিধা দেখায়।

  • উচ্চ কমপ্লেক্সিটি: যেখানে উভয় মডেলই “সম্পূর্ণ accuracy collapse” বা reasoning এ ব্যর্থ হয়।

তাদের সবচেয়ে বিতর্কিত দাবি ছিল যে, মডেলগুলো যখন সমস্যাগুলো কঠিন হয়, তখন তারা কম computational effort ব্যবহার করে, এমনকি যখন তারা token output সীমার নিচে থাকে। তারা এই আচরণকে “formal reasoning এর অভাব” এবং “pattern matching এর উপর নির্ভরশীলতা” হিসেবে ব্যাখ্যা করেন।

ল’ওসেনের মূল সমালোচনা

অ্যালেক্স ল’ওসেন এই গবেষণার তিনটি প্রধান ত্রুটি তুলে ধরেন:

  1. Token budget সীমা উপেক্ষা করা: Tower of Hanoi ধাঁধার ক্ষেত্রে ৮ বা তার বেশি ডিস্কের জন্য মডেলগুলো token আউটপুট সীমায় পৌঁছে যায়। উদাহরণস্বরূপ, Claude মডেল স্পষ্টভাবে বলেছে: “আমি token সঞ্চয়ের জন্য এখানেই থামছি,” যা Apple এর “reasoning collapse” দাবির বিপরীতে।

  2. অসম্ভব ধাঁধা গণনা করা: River Crossing টেস্টে এমন ধাঁধা অন্তর্ভুক্ত ছিল যা গণিতগতভাবে অসম্ভব সমাধানযোগ্য। মডেলগুলো যখন সেগুলো সমাধান করতে অস্বীকৃতি জানায়, তখন তাদের ব্যর্থ হিসেবে গণ্য করা হয়।

  3. মূল্যায়ন স্ক্রিপ্টের সীমাবদ্ধতা: Apple এর স্বয়ংক্রিয় মূল্যায়ন পদ্ধতি শুধুমাত্র সম্পূর্ণ, move-by-move সমাধান তালিকা দেখে মডেলগুলোকে বিচার করেছে, যা token সীমা ছাড়িয়ে গেলে output truncation এবং reasoning failure এর মধ্যে পার্থক্য করতে পারেনি।

পরীক্ষামূলক পুনর্মূল্যায়ন

ল’ওসেন মডেলগুলোকে alternative পদ্ধতিতে পরীক্ষা করেন, যেখানে মডেলগুলোকে Tower of Hanoi ধাঁধার জন্য সম্পূর্ণ move তালিকা দেওয়ার পরিবর্তে compact Lua ফাংশন তৈরি করতে বলা হয়। এই পদ্ধতিতে, মডেলগুলো ১৫ ডিস্ক পর্যন্ত সফল সমাধান দেখিয়েছে, যা Apple এর দাবির সম্পূর্ণ বিপরীত।

Token সীমার বাস্তবতা স্পষ্ট: ১০ ডিস্কের Tower of Hanoi ধাঁধার জন্য প্রায় ১০২৩ টি move দরকার, যেখানে প্রতিটি move প্রায় ১০ token নেয়। Claude 3.7 Sonnet এর ১২৮,০০০ token আউটপুট সীমা এবং DeepSeek R1 এর ৬৪,০০০ token সীমা বিবেচনা করলে, বড় ধাঁধাগুলো সম্পূর্ণ move-by-move আউটপুট দেওয়া সম্ভব নয়। Apple এর move enumeration পদ্ধতি token budget কে reasoning capability এর আগেই শেষ করে দিয়েছে।

AI মূল্যায়নে প্রভাব

এই বিতর্ক AI মূল্যায়ন পদ্ধতিতে বড় ধরনের পরিবর্তনের প্রয়োজনীয়তা তুলে ধরেছে। ভবিষ্যতে গবেষকদের উচিত এমন মূল্যায়ন কাঠামো তৈরি করা যা reasoning ক্ষমতা এবং output সীমাবদ্ধতাকে স্পষ্টভাবে আলাদা করতে পারে। ধাঁধার সমাধানযোগ্যতা যাচাই করা, বিভিন্ন সমাধান উপস্থাপনা বিবেচনা করা, এবং বাস্তবসম্মত আউটপুট ফরম্যাট ব্যবহার করা গুরুত্বপূর্ণ।

ল’ওসেনের কথায়, “প্রশ্ন হলো LRMs কি reasoning করতে পারে না, না আমাদের মূল্যায়ন পদ্ধতি কি reasoning এবং typing এর মধ্যে পার্থক্য করতে পারে না।” এই দৃষ্টিভঙ্গি AI রিজনিং গবেষণার ভবিষ্যত দিশা নির্ধারণে গুরুত্বপূর্ণ ভূমিকা রাখবে।


উপসংহার

Apple এর "reasoning collapse" গবেষণা AI মডেলের সীমাবদ্ধতা নিয়ে গুরুত্বপূর্ণ প্রশ্ন তুলেছে, কিন্তু ল’ওসেনের সমালোচনা আমাদের স্মরণ করিয়ে দেয় যে, পরীক্ষার পদ্ধতি এবং বাস্তবিক সীমাবদ্ধতাগুলোকে বিবেচনা না করলে ভুল সিদ্ধান্তে পৌঁছানো সহজ। AI মডেলগুলোর reasoning ক্ষমতা সঠিকভাবে মূল্যায়ন করতে হলে আমাদের আরও সূক্ষ্ম, বাস্তবসম্মত এবং বহুমুখী পরীক্ষার প্রয়োজন। এই বিতর্ক AI গবেষণার জগতে একটি নতুন অধ্যায়ের সূচনা করেছে, যেখানে “চিন্তা” এবং “টাইপিং” এর ভ্রান্ত ধারণাগুলো পরিষ্কার করা হবে।


আপনার মতামত বা প্রশ্ন থাকলে কমেন্টে জানাতে ভুলবেন না! AI এর এই উত্তেজনাপূর্ণ যাত্রায় আপনার সঙ্গে থাকার জন্য ধন্যবাদ।

Leave a Comment