مهندسي معكوس مغز - Reverse - Engineering the Brain
اشاره :
<مگي ميمون بسيار باهوشي است>، اين را Tim Buschman، دانشجوي سال آخري ميگويد كه در آزمايشگاه عصبشناسي پروفسور Earl Miller مشغول پژوهش است. البته ديدن مگي به اين آسانيها مقدور نيست؛ براي دور نگهداشتن مگي از محيطي كه انسانها در آن حضور دارند، از او در محيطي مجزا نگهداري ميشود تا از رفتار انسانها تأثير نپذيرد. ولي علايم هوشمندي او روي دو نمايشگر كه روبهروي بوشمن قرار دارد، قابل مشاهده است. مگي در طول هفت سال گذشته براي مركز علوم مغز و ادراك (Brain and Cognitive Sciences: BCS) دانشگاه امآيتي كار كرده است. اين ميمون، سه ساعت در روز به بازيهاي كامپيوتري مشغول است كه بيشتر با هدف ساخت و پرورش الگوهاي كلي توسط مغز مگي و سپس استفاده از آن الگوها به عنوان ابزار، طراحي شده اند. بوشمن (شايد به طنز) ميگويد: <من حتي با اين كار نيز مشكل دارم>. منظور او حركت به سمت بالا و پايين در يك بازي كامپيوتري است كه شامل عملگرهاي منطقي است كه در گروههاي خاصي قرار ميگيرند.
ولي مگي بسيار خوب عمل ميكند: واكنش خوب در برابر پرسشهاي سخت، صرف تنها نيم ثانيه براي پاسخگويي به هر مسئله و چهار پاسخ درست از پنج پاسخ، نمونهاي از عملكرد خوب اوست.
توانايي مگي در بازيكردن را ميتوان نقطه تلاقي هوشمصنوعي و دانش عصبشناسي دانست. دانشجوي سال آخر ديگري تحت آموزشهاي بوشمن و Michelle Machon، مشغول پژوهش در اينباره است كه مغز چگونه ميتواند ياد بگيرد و به ساخت قوانين منطقي بپردازد، و اينكه چگونه بايد كارايي مغز را در انجام اين وظايف با عملكرد شبكههاي عصبي مصنوعي كه در هوش مصنوعي مورد استفاده قرار ميگيرد، مقايسه كرد.
چهل سال پيش، اين ايده وجود داشت كه دانش عصبشناسي و هوش مصنوعي بايد همزمان و تواماً در آزمايشگاههايي مانند آنچه كه Miller در آن به پژوهش پرداخته است، مورد مطالعه قرار بگيرد، ولي تصور نميرفت كه اين دو، بتوانند چندان به توسعه هم كمك كنند. پيشتر، حيطه مطالعاتي اين دو متد بسيار متفاوت از هم بود. عصب شناسي بر كشف و توضيح جزئيات ساختار عصب و فعاليتهاي عصبي متمركز بود و هوش مصنوعي ميكوشيد با توسعه يك مسير مستقل و فارغ از فرآيندهاي بيولوژيكي، به شبيهسازي هوش برسد (از ديدگاه تاريخي، فناوري در واقع نيازي به الهام گرفتن از طبيعت نداشته است؛ نه هواپيماها مانند پرندگان پرواز ميكنند و نه خودروها مانند اسبها حركت ميكنند.) و به نظر ميرسيد هوش مصنوعي با شتاب بيشتري پيشرفت ميكند.
با استفاده از دانش عصبشناسي به سختي ميشد به ماهيت مغز پي برد؛ چه رسد به اينكه بتوان بر نحوه عملكرد آن واقف شد. از سوي ديگر، هر كسي كه كمي اطلاعات علمي داشت، روزي را كه كامپيوترها بتوانند هر آنچه را كه انسان انجام ميدهد انجام دهند (شايد هم بهتر از انسان) دور از دسترس نميدانست. در سال 1962، توجه مقامات به پشتيباني از پروژهاي مبني بر طراحي يك سيستم فراگير خودكار جلب شد كه پروژهاي جنجالي در ايالاتمتحده محسوب ميشد (اين سيستم به Cybernation مشهور بود)؛ چرا كه گمان ميرفت با آمدن اين سيستم، تعداد زيادي از مردم كار خود را از دست بدهند.
ولي يك چيز از هيجاني كه هوش مصنوعي برپا كرده بود، كاست. هر چند كامپيوترها ميتوانستند از پس تشخيص اشياي ساده در يك موقعيت ويژه و تحت شرايط كنترل شده برآيند، در تشخيص و شناسايي اشياي پيچيده در دنياي حقيقي باز ميماندند. يك ميكروفون ميتواند سطوح صدا را تشخيص دهد، ولي مثلاً نميتواند آن را كوتاه و خلاصه كند. يك سيستم خبره ميتواند يك شيء جديد و تميز را در ميان مجموعهاي از اشياي قديمي و كثيف تشخيص دهد، ولي نميتواند يك شيء قديمي و كثيف را در يك توده درهم و برهم تشخيص دهد. (نمونه ديگر اين موضوع سيستم مورد آزمايش ماروين مينسكي است كه حتي قابليت قرار دادن يك بالش در روكش بالش را هم ندارد.) هنوز نگراني ما از رويارويي انسانها بيش از نگراني ما درباره رويارويي ماشينها با هم است.
بر خلاف هوش مصنوعي كه پيشرفت آن كندتر از آن چيزي بود كه انتظار ميرفت، عصبشناسي در فهم چگونگي كاركرد مغز به خوبي پيش ميرفت. اين حقيقت در هيچ جايي به اندازه پژوهشهاي سي و هفت آزمايشگاه از مجموعه مراكز BCS دانشگاه MIT مشهود نيست.
گروه پژوهشي اين دانشگاه مشغول ترسيم مسيرهاي عصبياي هستند كه در عملكردهاي سطح بالاي مربوط به ادراك (و پيچيدگي آنها)، شامل يادگيري، حافظه، ساختار رفتارهاي ترتيبي پيچيده، فرم و ذخيره عادت ها، روِياپردازي، مديريت و كنترل عددها، تعيين يك هدف و برنامهريزي، پردازش ايدهها و عقايد، و توانايي فهم چيزهايي هستند كه ديگران درباره آن فكر مي كنند.
ارمغان اين پژوهشها ميتواند بسيار ارزشمند باشد. كشف اينكه مغز چگونه كار ميكند (منظور فهم دقيق آن است مانند اينكه ما ميدانيم يك موتور چگونه كار ميكند)، ميتواند همه كتابهايي را كه تا كنون در اين باره نوشته شدهاند، نيازمند بازنويسي كند. تنها گوشهاي از دستاوردهاي اين كار ميتواند انقلابي در قضاوت و جرمشناسي، آموزش، تجارت، مراقبت از خانواده و نيز درمان هرگونه اختلال رواني بر پا كند.) Earl Miller) اميدوار است پژوهش هاي انجام شده در آزمايشگاه او در درك پيچيدگيهاي مغز كمك زيادي به روانپزشكان بكند).
چنين پيشرفتي دليلي براي آغاز همكاري هوش مصنوعي و عصبشناسي نه تنها در آزمايشگاه Miller، بلكه حتي در MIT است. همچنين پژوهشها درباره پردازش تصوير نشان ميدهد كه چگونه اين دو دانش بر يكديگر تأثير ميگذارند. James DiCarlo، استاديار عصب شناسي، ميگويد: <اين دو رشته مجزا از هم رشد ميكنند>، اين روزها، پژوهشگران هوش مصنوعي مشتاقانه به دنبال پيشرفت عصبشناسي و ايده مهندسي معكوس مغز هستند كه پيشتر، دور از ذهن به نظر ميرسيد.
درك تشخيص اشيا
بيشتر كارهاي انجام شده در آزمايشگاه DiCarlo، بر تشخيص اشيا متمركز بود كه ما را به تعريف يك شيء (مانند تعريف حيواني چون گاو در مغز) از چند بعد و منظر قادر ميكند (گاوي كه در دوردست است، گاوي كه از بالا به آن نگاه ميكنيم، گاوي كه در داخل يك كانتينر است) بدون اينكه با اشياي ديگر (مانند اسب) تداخل پيدا كند. DiCarlo و دانشجوي سال آخر او، David Cox، دستاورد پژوهشهاي خود را در اواخر آگوست با نام عصبشناسي طبيعي
(Nature Neuroscience) منتشر كردند كه بر يكي از اساسيترين پرسشها درباره تشخيص اشيا متمركز بود: چه اندازه از موفقيت ما در تشخيص اشيا، وابسته به ساختار سختافزاري بدن ما، ويژگيهاي ذاتي ما هنگام تولد و چيزهايي است كه آموختهايم؟
DiCarlo و Cox پژوهشهاي خود را همزمان روي تعدادي از افراد آزمايش كردند. افراد مورد مطالعه، در برابر تجهيزاتي قرار گرفته بودند كه هم قابليت نمايش تصوير اشيا و هم دنبال كردنِ جهتِ نگاه اشخاص را داشتند. اشيا تصاويري بودند كه توسط كامپيوتر ايجاد شده بودند و تقريباً دستهاي از حيوانات را نشان ميدادند، ولي اين تصاوير به گونهاي طراحي شده بودند كه در نگاه نخست براي اشخاص، آشنا و قابل تشخيص نباشند. يك شيء ميتوانست در يك وضعيت از سه وضعيت ممكن روي نمايشگر نشان داده شود و شخص ميتوانست نگاه خود را به سمت آن شيء برگرداند.
سپس پژوهشگران اشياي جديدي را جايگزين ميكردند تا افراد نگاه خود را روي شيء جديد متمركز كنند. براي نمونه، زماني كه شخص به مركز نمايشگر خيره شده بود، موجودي با بدني قلمبه و با گوشهاي تيز شده در سمت راست نمايشگر به نمايش درميآمد. زماني كه شخص نگاه خود را به سمت آن معطوف ميكرد، پژوهشگران آن تصوير را با تصوير موجودي لاغرتر با گوشهاي آويزان جايگزين ميكردند. از آنجايي كه انسان هنگام تعويض مكان تمركز چشم در واقع بينايي ندارد، اين اشخاص متوجه جايگزيني اشيا نميشدند، ولي مغز آنها متوجه اين جايگزيني ميشد.
پس از يك يا دو ساعت ادامه اين آزمايشها با اشياي مختلف، و نمايش اين تصاوير در يك موقعيت خاص روي صفحه نمايشگر، دو شيء در دو مكان متفاوت روي صفحه نمايشگر به افراد نشان داده ميشد و از آنان خواسته ميشد آنها را با هم مقايسه كنند. شايد به نظر برسد كه افراد با مشكل خاصي در تشخيص تفاوت ميان آن دو تصوير مواجه نشدهاند كه البته تقريباً همين طور بود؛ جز در مقايسه تصاويري كه جابهجا شده بودند و اكنون دوباره در همان موقعيتي كه قبلاً جابهجايي انجام شده بود، به نمايش در ميآمدند.
افراد آن دو شيء را با هم قاطي ميكردند: آنها بيشتر تصور ميكردند كه موجود قلمبه با گوشهاي تيز كه در يك موقعيت و موجود لاغر با گوشهاي آويزان در موقعيت ديگري بودند، در واقع يك شيء هستند. DiCarlo بر اين باور است كه چنين اشتباههايي نشاندهنده اين است كه مكانيسم مغز در تشخيص اشياي يكسان، ولي در موقعيتهاي مكاني مختلف، به تجربه بصري عادي شخص در زمان و مكان خاص بستگي دارد. او مي گويد: <يافتهها نشان ميدهد كه حتي شاخصهاي اصلي در شناسايي اشيا ميتواند به وسيله تجربههاي بصري و در تعامل با دنياي اطرافمان توسعه يابد.>
DiCarlo و تيم او سرگرم طراحي و انجام آزمايشهاي مشابهي روي جانوران هستند تا بتوانند الگوهاي فعاليت عصبي را كه در تشخيص اشيا بسيار حائز اهميت است، مورد بررسي قرار دهند. (يك نمونه خوب از اين پژوهش ها در چهارم نوامبر 2005 در نشريه Science منتشر شد. در اين آزمايش، DiCarlo و سه تن از همكاران او فعاليت صدها نورون عصبي را در مغز ميمون Macaque ضبط و سپس تحليل كردند. آنها نشان دادند كه پردازش اطلاعات بديهي درباره موجوديت شيء و نوع آنها تنها به فعاليت تعداد كمي از نرونها نياز دارد.)
شناسايي يا تشخيص اشيا از آغاز، يكي از بزرگترين و سختترين اهداف هوش مصنوعي بوده است. هرچند كه بينايي ماشين (machine viosion) به يك صنعت تمام عيار تبديل شده است، اما موفقيتها و دستاوردهاي آن در حيطه محدودي از برنامههاي كاربردي و در شرايطِ به شدت كنترلشده مانند روِيت شماره پلاك، تشخيص اثر انگشت، تشخيص كاراكترهاي چاپي، و بررسي محصولات مورد استفاده قرار ميگيرد (براي نمونه، بررسي ميزان سرخشدگي يك چيپس و توقف سرخ كردن آن در صورت تشخيص اينكه اگر بيشتر سرخ شود، ميسوزد.) هر سيستم بينايي ماشين تنها يك نوع شيء خاص را <ميبيند>؛ براي نمونه، سيستمي كه شماره پلاك يك خودرو را روِيت ميكند، ديگر قادر به تشخيص اثر انگشت نخواهد بود، و بر عكس.
هر چند به نظر ميرسد فناوري كنوني براي ساخت ماشينهايي كه بتوانند هر شيء خاصي را تشخيص دهند، به اندازه كافي توانمند است، ولي بيشتر مشاغل در بيشتر صنايع مانند مونتاژ، ساخت، بهداشت، حمل و نقل، و امنيت، نيازمند پيشرفتهايي بهتر از اين است. كاركنان يك كارخانه صنعتي ميتوانند يك چكش، يك پيچگوشتي و يك آچار را بدون توجه به تفاوتهاي آنها از نظر ميزان شفافيت سطح آن، ويژگيهاي شيء، و آلودگيها و جرمي كه شايد سطح آنها را پوشانده است، از هم تشخيص دهند.
اشتباه در ساخت چنين ماشينهايي ميتواند اشتباههايي چون عدم توانايي در تشخيص پرندهاي مانند كلاغ يا جانوري مانند موش را به همراه داشته باشد كه همه حاكي از نياز به دانش سطح بالاتري از فناوري امروزي است. تفكر ديگري نيز وجود دارد و آن اينكه، انسان نميتواند ماشينهايي را بسازد كه به اندازه خودش هوشمند باشند. بديهي است كه در وراي اين نوع تفكر، خودخواهي و تعصب انسان نسبت به وجود خود، حاكم است، ولي اينكه هنوز ماشيني ساخته نشده كه دست كم به اندازه يك كبوتر هوشمند باشد، باعث شرمساري است!
چندين سال است كه پژوهشگران هوشمصنوعي روي الگوهاي بصري با هدف بررسي معاني يا موجوديتها كار ميكنند. اين يكي از شاخههايي است كه هوش مصنوعي و عصب شناسي در يك نقطه به هم ميرسند: عصبشناسي، نقش مغز در تشخيص اشيا را مورد بررسي قرار ميدهد، و هوش مصنوعي اين موضوع را بررسي ميكند كه يك سيستم نيازمند طي چه مراحلي براي حل چنين مسئلهاي است. پس از سپري شدن چندين دهه، اين دو علم رفته رفته به هم نزديكتر ميشوند.
DiCarlo به اين فكر ميكند كه آيا زمان تولد دانش جديدي كه شامل هر دو شاخه (هوش مصنوعي و عصبشناسي) باشد فرارسيده است، دانشي كه شايد بتوان آن را بينايي بيولوژيكي ماشين (Biologically Inspired Machine Vision) ناميد.
هيچ دانشگاهي به اندازه MIT در رسيدن به اين نقطه مشترك، كه در آن همكاري مشترك علم و مهندسي به يك عمليات علمي و دانشگاهي تبديل ميشود، پيشتاز نيست. DiCarlo نيز دليل آمدنش به MIT را همين نكته ذكر ميكند و انتظار وقوع انقلابي علمي را در اين مكان دارد.
مدلسازي تشخيص بيدرنگ
يكي از نمونههاي عيني بر اظهارات مورد اشاره DiCarlo را ميتوان در آزمايشگاههاي Tomaso Poggio پيدا كرد.Poggio، يكي از مسئولان مركز يادگيريهاي بيولوژيكي و محاسباتي دانشگاه امآيتي است كه چهار دهه به بررسي موضوع بينايي پرداخته است.
وي نخست در انستيتوي Max Planck واقع در Tubingen در آلمان و سپس در آزمايشگاه هوش مصنوعي دانشگاه امآيتي (كه بعدها به آزمايشگاه علوم كامپيوتر و هوش مصنوعي تغيير يافت) مشغول تحقيق بوده است، و هم اكنون در بخش مغز و علومِ ادراكي به پژوهشهاي خود ادامه ميدهد. Poggio در پروژه تست ميمون Macaque كه در آغاز اين نوشته به آن اشاره شد، با DiCarlo همكاري كرده است.)
او بيشتر وقت خود را به هدايت يك گروه پژوهشي عصبشناسي و يك گروه پژوهشي بينايي ماشين گذرانده است و در آن زمان دليلي نميديد كه اين دو گروه را با هم تلفيق كند. او ميگويد: <ما چيز زيادي نميدانستيم. من هميشه فكر ميكردم اين يك اشتباه است كه از دانش عصبشناسي انتظار زيادي داشته باشيم.> ولي نتايج اخير كه از انجام پروژهاي توسط Thomas Serre، فارغ التحصيل دكترا، و Aude Oliva، استاديار عصبشناسي ادراكي در مركز BCS به دست آمد، نظر او را تغيير داد.
آزمايشگاه Poggio هم اكنون روي يك پروژه شناسايي موسوم به شناسايي بيدرنگ متمركز شده است. اين موضوع كمتر شناخته شده، نخستين بار در سال 1969 در يك مقاله و طي سميناري در دانشگاه امآيتي توسط Mary Potter (استاد فعلي روانشناسي مركز BCS) و دستيار او Ellen Levy ارائه شد. شناسايي بيدرنگ نوع سريعتري از شناسايي است. شخصي كه بايد در تست شناسايي بيدرنگ كلاسيك مورد آزمون قرار گيرد، پيش از نمايش تصاوير روي نمايشگر و درخواست از وي براي فشار دادن يك يا دو دكمه براي واكنش نشان دادن به هر تصوير و تعيين اينكه آيا آن تصوير متعلق به يك حيوان است يا نه، درآنجا نشانده مي شود.
براي اطمينان از اينكه نگاه افراد به يك تصوير به تشخيص آنها هنگام نگاه كردن به تصاوير ديگر كمك نكند، پژوهشگران از تصاويري استفاده ميكنند كه بسيار متفاوت از يكديگرند؛ مانند يك دسته جانور در پسزمينههاي مختلف كه هر كدام در جهت و پرسپكتيوخاصي قرار گرفتهاند. اين تصاوير تنها چند دهم ثانيه روي نمايشگر ظاهر ميشوند. در يكي از اين تستها ، يكي از كساني كه مورد آزمايش قرار ميگرفت، تقريباً هيچ چيز از تصاويري كه به سرعت ظاهر و سپس ناپديد ميشدند، نفهميد؛ چه رسد به شناسايي آن. جالب اين است كه اين اشخاص بيشتر كليد درست را فشار ميدادند. آنها مرتباً در طول آزمايش پيشرفت ميكنند و هشياري آنها هنگام نمايش تصاوير رفته رفته بيشتر ميشود. مكانيسمي در مغز وجود دارد كه ميتواند اشيا را پيش از آن كه شخص نسبت به تصويري كه ديده است آگاه شود، شناسايي و دسته بندي كند.
شناسايي بيدرنگ از آن جهت براي پژوهشگران حائز اهميت است كه سادهترين امكان براي بررسي شناسايي عمومي اشيا است. فرآيند شناسايي بيدرنگ چنان سريع اتفاق ميافتد كه موجب فعاليت تعداد بسيار زيادي از نورونهاي عصبي، پردازش اطلاعات بسيار يا ارسال و دريافت درخواستهاي زياد در يك فضاي بيش از يك سانتيمتري در مغز ميشود. اطلاعات جمعآوري شده از طريق چرخش چشم به اطراف، كه در انواع ديگر شناسايي (مانند آنچه كه DiCarlo انجام داده بود) موردي كليدي محسوب ميشود، در شناسايي بيدرنگ نقشي ندارد.
با اين وجود، بيشتر اشخاص مورد آزمايش در هنگام تست كليد درست را فشار ميدهند، كه نشان ميدهد نوع خاصي از شناسايي اشيا ميتواند با استفاده از تعداد كمي از نورونهاي عصبي و با آرايش ساده و نهچندان پيچيده نورونها انجام شود.
Poggie به همراه دكتر Riesenhuber، و بعدها Grad دانشجوي سال آخر در دانشگاه ام آيتي و هم اكنون نيز استاد دانشگاه جورج تاون به توسعه يك تئوري درباره كاركرد بخشي از لايه بيروني مغز كه مسئول شناسايي بيدرنگ است، پرداختند. پژوهش و نگرش آنها درباره پردازش تصوير با نگرش مهندسي به بينايي ماشين متفاوت بود. براي نمونه، بيشتر نرمافزارهاي بينايي ماشين شامل يك پردازشگر براي اجراي مجموعهاي از دستورات به صورت يكي پس از ديگري و ساختاري موسوم به پردازش سريال است. از سوي ديگر، مغز از پردازش موازي استفاده ميكند، فرآيندي كه طي آن، <مسئله> به چندين بخش شكسته ميشود و هر بخش، جداگانه توسط پردازنده مخصوص خود بررسي ميشود، و پس از پردازش آنها، بسته به نوع مسئله اين بخشها به هم متصل و به عنوان پاسخ باز گردانده ميشوند.
از لحاظ تئوري، مهندسان ميبايست براي برنامههاي بينايي ماشين از پردازش موازي استفاده كنند (گاه تلاش كردهاند اين كار را انجام دهند)، ولي در عمل شكستن يك سؤال به چند بخش و اتصال دوباره آنها به هم، به ندرت انجام ميشود. با اين حال بينايي بيولوژيكي (Biological vision) اين مشكل را به چند طريق مختلف مرتفع كرده است. يكي از آن راهها به گفته گروه Poggio، سازماندهي و كنترل پردازش است. بهگونهاي كه پردازش شامل دو عمليات ساده باشد و سپس جايگزينكردن اين عمليات با يك ترتيب مشخص در لايههاي نورونهاي عصبي. لايه A بايد وروديهاي اصلي از عصب نوري چشم را فيلتر كند؛ لايه B نيز نتايجي را كه از سلولها در لايه A جمعآوري شده با هم تركيب ميكند؛ لايه C وروديها از لايه B را فيلتر ميكند. لايه D نيز نتايج لايه C را به هم متصل ميكند و به همين ترتيب كار ادامه پيدا ميكند.
در اثر افزايش سيگنالها در لايههاي گفته شده، خروجيهاي پردازههايي كه به صورت موازي پردازش شدهاند، به آرامي به هم متصل و موجوديتها با هم ادغام ميشوند و نويزها (پارازيتها) از ميان ميروند. Serre و Poggio از اين روش لايهبندي استفاده كردند تا مدل پيشنهادي خود را قادر به پردازش موازي كنند.
روش ديگري كه آنها براي پيادهسازي آن از زيستشناسي استفاده كردند، افزايش تعداد اتصالاتي بود كه به واحدهاي سوييچينگ اصلي آنها وصل ميشد. واحدهاي سوييچينگ در كامپيوترهاي رايج امروزي داراي اتصالات بسيار كم، (در حدود سه اتصال)، هستند؛ ولي تعداد نورونهاي عصبي كه به مثابه واحدهاي سوييچينگ مغز هستند، به هزاران و گاه حتي دهها هزار عدد ميرسد. Serre و Poggio در مدل خود از سوييچهاي منطقي با تعداد معقول استفاده كردند. همچنين گاه از حدسها و آموختههايي مبتني بر تجربيات خود از ساختار نورونها استفاده كردند كه البته هنوز از ديد علمي قابل توضيح نيست.
Serre و Poggie براي تست تئوري خود، به توسعه يك برنامه كامپيوتري ويژه شناسايي بيدرنگ پرداختند كه ميتوانست تصاوير ديجيتال را تحليل كند. وقتي فايلهاي تصوير ديجيتال به برنامه داده ميشود، برنامه اطلاعات آن را به لايههاي چندگانه فيلتركننده (كه در بالا به آنها اشاره شد) و سلولهاي متصل كننده ميرساند تا با اينكار، برنامه خودش را براي شناسايي و دسته بندي تصاويرآموزش دهد. Serre ميگويد: <نكته كليدي اين است كه در اين روش، پيچيدگي به آهستگي پيش ميآيد.> وي مي افزايد، <استفاده شتابزده از اين هوشمندي اشتباه بزرگي است.> پژوهشهاي گذشته درباره هوش مصنوعي، شناسايي را شتابزده و بدون توجه به اطلاعات كليدي بررسي مي كرد؛ اطلاعاتي كه ميتوانست در همان زمان آنها را به نتيجه برساند.
نحوه عملكرد Serre و Poggio موفقيت بزرگي محسوب ميشد. از نقطه نظر عصبشناسي، برخي از حدسها و گمانهزنيهاي آنها موجب پيشبيني برخي از حقايق مهم مانند مشاهده سلولها (موسوم به سلولهاي OR)شد كه قويترين يا پايدارترين سيگنالها را از ميان گروهي از وروديها برميدارند و آن را به فيبرهاي خروجيشان كپي ميكنند. (سه نورون عصبي A ،B و C كه همگي به نورون X از نوع نرونهاي OR سيگنال ميفرستند را تصور كنيد. اگر هر كدام از اين سيگنالها به ترتيب درسطوح 1، 2 و 3 ارسال شوند، نورون X از ورود سيگنالهاي A و Bجلوگيري ميكند و سيگنالC را در خروجي خود كپي ميكند. اگر ترتيب سطوح سيگنالها 3، 2 و 1 بود، سيگنال Aدر خروجي X كپي ميشد و از ورود سيگنالهاي B و C جلوگيري ميشد.)
اين نتايج به دست آمده تنها از ديد دانش هوشمصنوعي جالب به نظر ميرسند. وقتي نرمافزار شناسايي بيدرنگSerre و Poggio تست وجود يا عدم وجود يك جانور را از افراد مورد آزمايش مي گرفت، عملكرد كامپيوتر به خوبي عملكرد انسان بود؛ و بهتر از عملكرد بهترين برنامههاي بينايي ماشين موجود!
(اين نرم افزار در هشتاد و دو درصد مواقع به پاسخ درست ميرسيد. جالب آنكه، ميزان موفقيت براي انسانها، هشتاددرصد بود.) اين تقريباً نخستين بار بود كه يك برنامه پردازش تصوير عمومي به خوبي انسان عمل مي كرد.
نتايج اميدبخشِ به دست آمده Poggio و Serre را بر آن داشته است به چيزي فراتر از شناسايي بيدرنگ فكر كنند. Poggio اظهار اميدواري ميكند كه اين مدل بتواند به همين خوبي در بررسي حس شنوايي نيز مورد استفاده قرار بگيرد. Serre در انجام چنين ريسكي از اين هم پيشتر ميرود و ميگويد: شناسايي عمومي اشيا، اساس شناسايي بر اساس حواس است. شايد به همين خاطر است كه وقتي ميخواهيم نشان دهيم كه چيزي را فهميدهايم يا متوجه شدهايم، ميگوييم <ميبينم> (1)
هر چند توسعه تئوري آنها به حيطههاي جديد، نيازمند پيشرفتهاي بيشتري است، مدل پيشنهادي Sierre وPoggio گسترش خود به هر دو دانش هوش مصنوعي و عصبشناسي را در دانشگاه امآيتي آغاز كرده است. Stan Bileschi دانشجوي سال آخر مهندسي برق، اخيراً در پاياننامه دكتراي خود به معرفي مدلي موسوم به تشخيص صحنه (scene recognition) پرداخته است كه اساس قضاوتهاي سطح بالاي انسان محسوب ميشود. <يك مزرعه را در نظر بگيريد!> اين مدل شامل شناسايي اشياي مجزا از هم، مانند گاو، نردههاي طويل كنار مزرعه و هر آنچه كه در آنجا قرار دارد مي شود. Bileschi بر اين باور است كه تحليل يك صحنه برتر از عملكرد بسياري از برنامههاي پردازش تصوير ماشيني (مانند پاييدن يك شيء) است.
Poggio ميگويد تشخيص بيدرنگ مبنا و اساس شناساييهاي تصوير است، ولي همهِ چيزي نيست كه ما نيازمند آنيم. سطوح متفاوتي از شناسايي وجود دارد كه تشخيص بيدرنگ يكي از سادهترين انواع آن است. بسته به وضعيت موجود، يك شيء ميتواند به عنوان يك اسباب بازي، يك عروسك، بازتابي از فرهنگ آمريكايي، يك شخصيت يا هر چيز ديگري معرفي شود. (اگر قصد خريد يك عروسك را داشته باشيد، عروسك پشت ويترين براي ما، يك عروسك يا اسباب بازي است، ولي اگر آن عروسك در يك نمايشگاه تجارت و صادرات عرضه شود، به عنوان يك محصول تجاري و صادراتي معرفي ميشود. يعني وضعيتي كه در آن قرار داريم، تعريف ما از اشيا را تحت تأثير قرار ميدهد.)
به طرز مشابهي در مسائل شطرنج، تشخيص حركت درست ممكن است بسته به آرايش مهرهها، به چند ثانيه، دقيقه يا ساعت زمان نياز داشته باشد. ميتوان گفت هر چه مشكلات بغرنج تر ميشوند، مرتفع كردن آنها به كاركردهاي مغزي پيشرفتهتري نياز پيدا ميكند كه نياز به زمان بيشتري خواهد داشت.
يك مدل شناسايي يا تشخيص بيدرنگ شايد بتواند مسائل بصرياي را كه مانع پيش روي توسعه و بهبود ساخت و پايداري روباتها است حل كند. همچنين توسعه اين مدل ميتواند كاربردهاي واقعاً ارزشمند ديگري نيز داشته باشد. مانند افزودن قابليت تشخيص پيچيدگيها ودلايل آنها در تصويري از يك چشمانداز يا منظره. روشن است كه اين نوع از شناسايي بسيار سطح بالا محسوب مي شود.
گام بعدي، ساخت مدلهاي تشخيصدهندهاي است كه منابع هر چه بيشتري را به سيستم خود ميافزايند و بر همين اساس نياز به زمان بيشتري براي پردازش دارند. Serre ميگويد: <ما ميدانيم اين مدل بايد چگونه تغيير يابد تا مسئله زمان هم مد نظر قرار بگيرد. اين مورد ميتواند ما را به نحوه تفكر مغز نزديكتر كند؛ البته شايد.>