هوش مصنوعی جمنای؛ گوگل بالاخره ChatGPT را به زانو درآورد؟

زمان مطالعه14 دقیقه

تاریخ انتشار : ۱۰ اسفند ۱۴۰۲تعداد بازدید : 63نویسنده : Manager دسته بندی : وبلاگ

پرینت مقالـه

می پسنـدم0

افزودن به علاقه مندی

اندازه متن12

گوگل با معرفی هوش مصنوعی جمنای اولترا حسابی سروصدا به‌‌راه انداخته است. آیا این‌بار توانسته از سد غول بزرگی چون OpenAI عبور کند؟

گوگل چند وقت پیش از قدرتمندترین مدل زبانی بزرگش موسوم‌به جمنای (Gemini) پرده برداشت؛ سیستمی که آنقدر برای گوگل اهمیت دارد که سوندار پیچای آن را آغاز عصر جدید هوش مصنوعی در این شرکت نامید و حتی پا را از این فراتر گذاشت و گفت ازاین‌پس شاهد «عصر جمنای» هستیم.

اما آیا جمنای آنطور که گوگل می‌گوید نقطه‌ی عطفی در صنعت هوش مصنوعی است؟ آیا وقت آن رسیده که ChatGPT را کنار بگذاریم؟‌ آیا زنگ خطر برای OpenAI، شرکتی که قصد دارد زودتر از بقیه به هوش مصنوعی فرا انسانی برسد، به‌صدا درآمده و لازم است زودتر پرده از پروژه‌ی مخفی *Q خود بردارد؟ یا نه، این بار هم پای هیاهوی تبلیغاتی بر سر هیچ در میان است؟

هوش مصنوعی جمنای دقیقا چیست؟

گوگل اولین بار در مراسم I/O 2023 به مدل زبانی بزرگ جمنای اشاره‌ی کوتاهی کرد. این مدل در سه نسخه‌ی Gemini Pro و Gemini Ultra و Gemini Nano توسعه یافته که درحال‌حاضر، فقط مدل جمنای پرو در قالب چت‌بات بارد در دسترس عموم قرار گرفته است.

به‌گفته‌ی گوگل، جمنای اولترا پیشرفته‌ترین مدل این شرکت، برای انجام تسک‌های بسیار پیچیده طراحی شده و ظاهرا قرار است در سال ۲۰۲۴ برای دیتاسنترها و پرداز‌ش‌های سازمانی عرضه شود. مدل پرو برخلاف اسمش همان نسخه‌ی پایه‌ی جمنای است که می‌تواند برای شماری از تسک‌های روزمره به‌کار رود و جمنای نانو نیز نسخه‌ی سبک‌تری است که قرار است به‌صورت محلی و آفلاین روی دستگاه‌های اندرویدی البته با پردازنده‌های قدرتمند اجرا شود.

در حال حاضر پیکسل ۸ پرو مجهز به تراشه‌ی Tensor 3 تنها دستگاه سازگار با جمنای نانو است و قرار است در به‌روزرسانی آینده از قابلیت‌‌های هوش مصنوعی چون خلاصه‌سازی خودکار در اپلیکیشن Recorder و قابلیت Smart Reply در کیبورد Gboard بهره ببرد. البته گوگل ماجرا را از این هم پیچیده‌تر کرده و می‌گوید جمنای نانو بسته به ظرفیت رم گوشی در دو مدل Nano-1 با ۱٫۸ میلیارد پارامتر و Nano-2 با ۳٫۲۵ میلیارد پارامتر عرضه خواهد شد.

گوگل، مدل هوش مصنوعی جمنای را اینگونه توصیف می‌کند:

جمنای به روش کاملا جدیدی برای اهداف چندوجهی (multimodality)، یعنی استدلال و جابه‌جایی روان و یکپارچه بین متن، تصویر، ویدیو، صدا و کد توسعه یافته است.

گوگل در تعریف جمنای به دفعات به کلمه‌ی «چندوجهی» بودن، آن هم به‌صورت بومی اشاره می‌کند. اما منظور از چندوجهی بودن مدل هوش مصنوعی دقیقا چیست؟

چندوجهی بودن جمنای به این معنی است که گوگل برای آموزش دادن مدل صرفا به متن بسنده نکرده و آن را با مقادیر عظیمی از کد، فایل‌های صوتی، تصاویر و ویدیو بهبود داده است؛ برای همین، جمنای می‌تواند به‌همان راحتی که به درخواست‌های متنی پاسخ می‌دهد، از پرامپت‌های صوتی و حتی ویدیویی هم سر در بیاورد.

قدرت استدلال چندوجهی و تکنیک «کاملا جدید» در توسعه جمنای

ایلای کالینز (Eli Collins) معاون محصول دیپ‌مایند در توضیح مختصری که از مدل‌های چندوجهی مدعی شد که جمنای اولترا می‌تواند اطلاعات «بسیار جزیی» را در متن، تصویر، صدا و کد درک کند و به سوالات مربوط به موضوعات پیچیده، به‌ویژه مسائل ریاضی و فیزیک پاسخ دهد.

روش استاندارد در ساخت مدل‌های چندوجهی، آموزش اجزای جداگانه‌ی مدل با وجه‌های مختلف است. این مدل‌ها در انجام وظایف خاصی مانند توصیف تصویر بسیار خوب هستند، اما هنگام رویارویی با تسک‌هایی که به استدلال مفهومی و پیچیده‌تر نیاز دارند، دچار مشکل می‌شوند. برای همین ما جمنای را به‌صورت بومی چندوجهی طراحی کردیم تا از پس این مشکل برآید.

از این توضیحات نمی‌توان تفاوت جادویی جمنای را از مدل‌های رقیب متوجه شد، چون حتی این بحث «چندوجهی» بودن و توانایی تجزیه‌وتحلیل ویدیو پیش‌تر در مدل GPT-4 with Vision دیده شده بود. البته بهبود قدرت استدلال مدل در رسیدن به هوش مصنوعی فرا انسانی بسیار مهم است و گوگل مدعی است برای تقویت استدلال جمنای از روش کاملا جدیدی استفاده کرده است؛ هرچند تمایلی به توضیح درباره‌ی این روش ندارد.

گوگل: جمنای درنهایت منجر به متمایزشدن محصولات گوگل از رقبا خواهد شد

بااین‌حال، دمیس هاسابیس (Demis Hassabis)، رهبر تیم توسعه‌ی جمنای که پیش‌تر رهبری تیم توسعه‌دهنده‌ی بات آلفا‌گو را برعهده داشت، مدعی شد این مدل قابلیت‌های جدیدی را ارائه خواهد داد که درنهایت منجر به متمایزشدن محصولات گوگل از رقبا خواهد شد. او همچنین گفت برای اینکه سیستم‌های هوش مصنوعی بتوانند جهان را بهتر از چت‌بات‌های امروزی درک کنند، مدل‌‌های زبانی بزرگ لازم است با سایر تکنیک‌های هوش مصنوعی ترکیب شوند.

تااینجا، مدل‌های زبانی بزرگ ازجمله GPT-4 با خوراندن حجم عظیمی از داده‌های متنی آموزش دیده‌اند و برخی از پژوهشگران هوش مصنوعی معتقدند هرچه بر حجم این داده‌ها افزوده شود، مدل قدرتمند‌تر خواهد شد؛ تا جایی‌ که بتوانند از هوش انسانی پیشی بگیرند.

اما شناخت واقعیت فیزیکی از درون لنز متونی که انسان‌ها درباره‌اش نوشته‌اند، بالاخره جایی به بن‌بست می‌خورد و نقاط ضعف مدل‌های زبانی بزرگ، ازجمله هذیان‌گویی، استدلال ضعیف و مشکلات امنیتی عجیب‌وغریب آن‌ها این واقعیت را آشکار می‌کند که صرف افزایش حجم داده‌ احتمالا هیچ‌گاه به دستیابی به «فراهوش مصنوعی» منجر نشود.

اگرچه گوگل خودش را در رقابتی نفس‌گیر با OpenAI قرار داده است، هر دو رقیب گویا به این نتیجه رسیده‌اند که برای بهبود وضعیت هوش مصنوعی لازم است به روش‌های کاملا جدیدی روی آورد. درحال حاضر، OpenAI مشغول توسعه‌ی پروژه‌ی مخفی و مرموزی به‌نام *Q است که از تکنیک‌های جدیدی در آن استفاده شده و ظاهرا قرار است این شرکت را یک قدم به هوش فرا انسانی معروف‌به AGI نزدیک‌تر کند.

سم‌آلتمن، مدیرعامل OpenAI چند ماه پیش گفته بود که «من بر این باورم که به پایان عصری رسیدیم که مدل‌های هوش مصنوعی فوق‌العاده عظیم بتوانند راهگشا باشند. برای بهبود این مدل‌ها سراغ روش‌های دیگری خواهیم رفت.»

اما آیا جمنای همان‌طور که گوگل می‌گوید آغاز عصر جدید هوش مصنوعی است؟ فعلا برای رسیدن به این نتیجه‌گیری بسیار زود است؛ به‌ویژه چون عملکرد جمنای پرو در چت‌بات بارد هنوز نتوانسته بهبود چشمگیری نسبت‌به GPT-4 از خود نشان دهد و تا عرضه‌ی جمنای اولترا و بررسی توانایی‌های آن چند ماه دیگر مانده است.

ماجرای ویدیوی دست‌کاری شده‌ی جمنای چه بود؟

زمانی که داشتم مقایسه‌ی بینگ چت، بارد و چت‌جی‌پی‌تی را می‌نوشتم، به این نتیجه رسیدم که بزرگ‌ترین باخت چت‌بات گوگل در رقابت با بینگ‌‌ چت و ChatGPT در حوزه‌ی مارکتینگ و زمان انتشار بود. یعنی اگر بارد بعد از هیاهوی تبلیغاتی ChatGPT و پیش از بینگ چت منتشر شده بود، می‌توانست به‌خاطر قابلیت اتصال به اینترنت و دسترسی به داد‌ه‌های به‌روز مزیتی نسبت‌به ChatGPT داشته باشد. اما بارد هنگام عرضه بسیار محدود‌تر از بینگ چت بود و ماجرای خطای علمی و سرقت ادبی هم به‌شدت به‌ضررش تمام شد. در سایه‌ی تمام این اشتباهات و محدودیت‌ها، عجیب نبود که بارد به‌سرعت به دست فراموشی سپرده شود.

اما گوگل این بار با معرفی جمنای قصد داشت ضعف در مارکتینگ و زمان انتشار را جبران کند، طوری‌که ظاهرا پروژه را بسیار زودتر از زمان مناسب منتشر کرد و برای تبلیغ قابلیت‌های اعجاب‌انگیزش از ویدیویی استفاده کرد که حسابی در رسانه‌ها و شبکه‌های اجتماعی خبرساز شد؛‌ در دقایق ابتدایی، دقیقا به همان دلیلی که گوگل برایش برنامه‌ریزی کرده بود، اما کمی بعد مشخص شد این ویدیوی شگفت‌انگیز آن‌قدرها هم که فکرش را می‌کردیم، جادویی نیست.

اغراق می‌کنم تماشای این ویدیوی ۶ دقیقه‌‌ای از عملکرد جمنای نفس‌ها را در سینه حبس می‌کند. گوگل در این دمو به ما نشان می‌دهد که چگونه قدرتمندترین هوش مصنوعی‌اش توانایی تجزیه‌وتحلیل «ویدیو»‌ را دارد و می‌تواند در لحظه پرامپت‌های صوتی و ویدیویی را آنالیز کند، استدلال کند و مناسب‌ترین پاسخ را در کسری از ثانیه ارائه دهد.

مثلا می‌بینیم که چطور جمنای می‌تواند در هر مرحله از تکمیل شدن طرح یک اردک، به درستی از خطوط کشیده‌شده سر دربیاورد؛ یا به‌درستی حرکت دست روی نقشه را دنبال کند و جواب درست را تشخیص دهد؛ یا از این هم شگفت‌انگیزتر؛ به‌درستی تشخیص دهد کاغذ مچاله‌شده زیر کدام لیوان پنهان شده است یا متوجه شعبده‌بازی ناپدید کردن سکه در دست شود یا ویدیوی در حال پخش از گوشی‌ پیکسلی را تحلیل کند که خودش دارد از ویدیوی دیگری پخش می‌شود!

اما وقتی از تماشای ویدیو دست می‌کشیم و به بُعد عملی قضیه فکر می‌کنیم، سوالات زیادی ذهن را درگیر می‌کنند. چطور ممکن است یک مدل زبانی بزرگ، هرچقدر هم قدرتمند، بتواند این چنین روان با ویدیویی در حال پخش در دل ویدویی دیگر ارتباط برقرار کند؟ چطور ممکن است هوش مصنوعی به‌جایی رسیده باشد که بتواند سریع و روان بین پرامپت‌های مختلف جابه‌جا شود؟

دموی تبلیغاتی جمنای فریبکارانه بود

نکته اینجا است که دموی تبلیغاتی گوگل ما را فریب داد. البته شاید استفاده از لفظ «فریب» کاملا درست نباشد؛‌ به‌ویژه اگر نظر خود گوگل را بپرسید، چون احتمالا خواهد گفت هم در ابتدای دمو و هم در بخش توضیحات یوتیوب، هشدارهای لازم را داده است. مثلا اینکه گفته به مدل «یک سری تصویر» نشان داده است تا خودمان به این نتیجه برسیم که چیزی که به صورت ویدیو به ما نمایش داده شد، واقعی نیست. در توضیحات یوتیوب هم نوشته است که برای کوتاه کردن ویدیو، تاخیر در پاسخ مدل کم شده و جواب‌های جمنای هم خلاصه شده‌اند.

اما باوجود این توضیحات که احتمالا خود گوگل هم می‌دانسته پشت قابلیت‌های «جادویی» جمنای گم خواهند شد، این حقیقت کماکان پابرجا است که آنچه در دموی معرفی این هوش مصنوعی دیدیم، آنطور نیست که به نظر می‌آید.

در دموی جمنای فردی را می‌بینیم که با این مدل صحبت می‌کند، آنطور که مثلا شخصیت تئودور در فیلم Her با هوش مصنوعی سامانتا صحبت می‌کند؛ اما در واقعیت، مکالمه‌ی بین‌ این فرد با جمنای کاملا متنی بود.

در دمو همچنین می‌بینیم که جمنای دارد در لحظه با ویدیوی متحرک ارتباط برقرار می‌کند، اما در واقعیت، صرفا در حال تجزیه‌وتحلیل تصاویر ساکن بوده است؛ همان‌طور که گوگل در پستی درباره‌ی نحوه‌ی ساخت دموی جمنای به آن اشاره کرده است.

خبری از آنالیز لحظه‌ای ویدیو نیست؛ جمنای صرفا یک سری تصاویر پشت‌سرهم را آنالیز کرده است

در دمو می‌بینیم که جمنای به‌سرعت و پشت‌سرهم به پرامپت‌ها پاسخ می‌دهد، اما در واقعیت تمام تاخیرها حذف شده‌اند. در دمو، یا پرامپت‌ها را نمی‌بینیم یا می‌بینیم که از نسخه‌ی اصلی‌شان بسیار کوتاه‌تر شده‌اند، چون گوگل آن‌ها را «برای اختصار» خلاصه کرده است. بگذریم که دمو دقیقا به ما نمی‌گوید که مدل پیش‌رو، جمنای اولترا است که هنوز حتی عرضه نشده و نسخه‌ی پرو که در چت‌بات بارد قابل دسترسی است، این قابلیت‌ها را ندارد.

در اینکه جمنای هوش مصنوعی قدرتمندی است، شکی نیست. بهبود توانایی استدلال در سیستم‌های هوش مصنوعی مسئله‌ی فوق‌العاده مهمی است، به‌طوری که می‌گویند راه رسیدن به AGI توسعه‌ی مدلی است که قدرت استدلال انسان را داشته باشد. اصلا همین بحث قدرت استدلال پروژه‌ی مخفی *Q بود که زمزمه‌های دستیابی به AGI را سر زبان‌ها انداخت.

تمام تست‌های جمنای بر قدرت استدلال چندوجهی تمرکز داشتند

وقتی دموی تبلیغاتی جمنای را کنار می‌گذاریم و مطلبی را که گوگل درباره‌ی نحوه‌ی آزمایش مدل منتشر کرده بررسی می‌کنیم، به این نتیجه می‌رسیم که تمام تست‌ها بر قدرت استدلال چندوجهی مدل تمرکز داشته است، نه توانایی مدل به آنالیز کردن لحظه‌ای ویدیو.

برای مثال، وقتی به جمنای گفته می‌شود که باتوجه به تصویر، سکه در کدام دست است، با تجزیه‌وتحلیل متن و تصویر، به‌درستی استدلال می‌کند در دست راست؛ اما وقتی تصویر بعدی نشان داده می‌شود که سکه در دست چپ بوده، جمنای به‌درستی استدلال می‌کند که پای ترفند شعبده در میان بوده است.

جمنای به‌درستی استدلال می‌کند سکه باید در دست راست باشد؛ وقتی می‌بیند در دست چپ است، استدلال می‌کند که ترفند شعبده بوده

در تست دیگر، از جمنای خواسته می‌شود با توجه به الگوی جابه‌جایی لیوان‌ها، حدس بزند که کاغذ مچاله‌شده زیر کدام لیوان پنهان شده است و جمنای به‌کمک قدرت استدلال می‌تواند پاسخ درست را پیش‌بینی کند.

جمنای با آنالیز تصویر و متن توانست به‌درستی جای کاغذ را حدس بزند

درنهایت، تست‌هایی که گوگل روی جمنای انجام داده بر بهبود توانایی استدلال چندوجهی این مدل تاکید دارند؛ اما دموی منتشر شده این تصور را ایجاد می‌کند که جادوی جمنای در آنالیز لحظه‌ای ویدیو و مکالمه‌ی صوتی با کاربر است.

آیا گوگل بالاخره توانست با جمنای از سد GPT-4 عبور کند؟

گوگل در کنفرانس Google I/O امسال صرفا به پروژه‌ی جمنای اشاره کرد، اما به‌طور کامل به معرفی مدل زبانی PaLM 2 پرداخت و آن را رقیب جدی GPT-4 نامید. آن موقع من گزارش فنی PaLM 2 را دربرابر GPT-4 قرار دادم و با بررسی امتیازها به این نتیجه رسیدم که بهترین هوش مصنوعی گوگل کماکان از رقیب خود عقب است؛ موضوعی که برایم تکان‌دهنده بود، چراکه این گوگل بود که در سال ۲۰۱۷ با انتشار مقاله‌ی «Attention Is All You Need»، شبکه‌ی عصبی ترنسفورمر را معرفی کرد؛ شبکه‌ای که ظهور مدل‌های زبانی بزرگ را ممکن کرد و بدون آن، ساخت ChatGPT ممکن نبود.

حالا گوگل جمنای را برای رقابت با GPT-4 به میدان نبرد فرستاده است و می‌گوید هوش مصنوعی‌اش در ۳۰ بنچمارک از ۳۲ بنچمارک تخصصی، موفق شده GPT-4 را شکست دهد.

حتی پیش از اینکه بخواهیم وارد جزییات این مقایسه شویم، موضوعی قلقلکمان می‌دهد. اینکه گوگل با عرضه‌ی مدل‌های قوی‌تر کماکان در تلاش است تنها یک رقیب قدیمی را شکست دهد. از عمر GPT-4 دست‌کم یک سال می‌گذرد و OpenAI درحال کار روی پروژه‌های به‌مراتب قدرتمندتری از GPT-4 است؛ اما گوگل هنوز سعی دارد تمام منابع و تکنولوژی خود را صرف تولید مدلی کند که درنهایت بتواند GPT-4 را کنار بزند.

از این بحث بگذریم؛ اجازه بدهید سراغ جدول مقایسه‌ی عملکرد جمنای اولترا دربرابر GPT-4 برویم که گوگل در گزارش فنی ۶۲ صفحه‌ای جمنای منتشر کرده است.

جمنای اولترا در اکثر تست‌ها با اختلاف یکی، دو درصد GPT-4 را شکست داده است

در این جدول می‌بینیم که جمنای اولترا در شرایط ظاهرا یکسان در ۸ تست از ۱۰ تست بهتر از GPT-4 ظاهر شده است. این تست‌ها، مدل‌های هوش مصنوعی را در حوزه‌های مختلف ازجمله فیزیک دبیرستان، کد پایتون، ریاضی دبستان، درک مطلب و ترجمه آزمایش می‌کنند؛ همان بنچ‌مارک‌های متداولی که این‌روزها صنعت هوش مصنوعی بر پایه‌ی آن‌ها تعریف می‌شود.

تا اینجا همه‌چیز خوب پیش می‌رود؛ اما وقتی به اعداد دقت می‌کنیم، متوجه می‌شویم که اختلاف امتیازها در حد یکی‌، دو درصد است. یعنی گوگل یک سال تمام در حال توسعه‌ی مدلی بوده که درنهایت بتواند یکی‌، دو درصد از رقیبش بهتر ظاهر شود! دقت کنید که مدل جمنای پرو که درحال‌حاضر در دسترس است، در تمام تست‌ها عملکرد ضعیف‌تری از GPT-4 دارد و این اختلاف در بنچمارک ریاضی به ۲۰ درصد هم می‌رسد!

برتری جمنای اولترا به GPT-4 در حد یکی‌،دو درصد است

از سوی دیگر، هنوز معلوم نیست جمنای اولترا قرار است کی منتشر شود؛ حتی اگر اوایل ۲۰۲۴ عرضه شود، احتمالا زیاد نتواند در صدر جدول باقی بماند، چراکه در یک سالی که گوگل مشغول توسعه‌ی جمنای برای رقابت با GPT-4 بود، OpenAI نسخه‌ی پیشرفته‌تر GPT-4 Turbo را عرضه کرد و اکنون دارد روی نسل بعدی GPT-5 کار می‌کند.

گوگل جادوی جمنای را در آنالیز کردن «پرامپت چندوجهی» (Multimodal Prompting) می‌داند و توضیح می‌دهد که «ما به جمنای ترکیبی از چند وجه مختلف، مثلا تصویر و متن، دادیم و از جمنای خواستیم اتفاق بعدی را پیش‌بینی کند. توانایی جمنای در ترکیب روان این وجوه با هم اجازه می‌دهد کارهای بیشتری بتوانید با هوش مصنوعی انجام دهید.»

در جدول دیگری که روی قدرت استدلال و درک مدل تمرکز دارد، دوباره شاهد برتری جمنای اولترا از GPT-4V هستیم؛ مثلا در بنچمارک MMMU که استدلال چندوجهی مدل را می‌سنجد، هوش مصنوعی گوگل تنها ۲٫۶ درصد بهتر از رقیب ظاهر شده است. به‌همین‌ترتیب، برتری جمنای از GPT-4V در باقی تست‌ها در حد همین دو، سه درصد است. هرچند عجیب است که در تست HellaSwag که مربوط به استدلال عامه است، GPT-4 با امتیاز ۹۵٫۳ درصد، با اختلاف نسبتا بزرگ ۷٫۵ درصدی از جمنای اولترا جلوتر است!

قدرت استدلال چندوجهی جمنای اولترا فقط ۲٫۶ درصد بهتر از GPT-4V است

درست است که امتیاز جمنای اولترا در اکثر بنچمارک‌ها از GPT-4 بیشتر است، اما اختلاف امتیازها فقط به یکی‌، دو درصد، آن هم نسبت به مدلی که یک سال از عمرش می‌گذرد، محدود می‌شود. مثل این می‌ماند که پردازنده‌ی جدید اینتل فقط چند درصد بهتر از پردازنده‌ی سال گذشته‌ی رقیب ظاهر شود.

گذشته از جدول امتیازها، کاربری در توییتر نشان داد که ChatGPT Plus موفق شده به‌درستی به پرامپت‌هایی که جمنای اولترا به آن‌ها جواب داده است، پاسخ دهد.

کاربر دیگری نیز در یوتیوب ویدیویی منتشر کرده است که نشان می‌دهد GPT-4 with Vision می‌تواند دقیقا همان کاری را که گوگل به‌طور جعلی در دموی جمنای نشان داد، انجام دهد؛ یعنی می‌تواند ویدیو را در لحظه آنالیز کند و به آن پاسخ دهد.

درنهایت می‌توان گفت هوش مصنوعی جمنای اولترا مدل قدرتمندی به‌نظر می‌رسد، اما گوگل هنوز برای کنار زدن OpenAI چالش‌های بزرگی پیش رو دارد؛ چالش‌هایی که شاید با این روند و باتوجه به سرعت پیشرفت‌های شرکت رقیب هرگز نتواند از پس آن‌ها برآید.

به قلم : سرکار خانم مرجان شیخی

منبع : زومیت