چرا دستاوردهای هوش مصنوعی دیپسیک باعث شگفتی همگان شد؟ + توضیح به زبان ساده
به گزارش نبض بازار در حال حاضر فرآیند آموزش مدلهای هوش مصنوعی بسیار پرهزینه است. شرکتهایی مانند OpenAI و Anthropic بیش از ۱۰۰ میلیون دلار تنها برای محاسبات صرف میکنند. این امر مستلزم مراکز داده بسیار بزرگ با هزاران کارت گرافیک (GPU) با قیمت هر کدام حدود ۴۰ هزار دلار است. این فرآیند به اندازه ساخت یک نیروگاه برق برای راهاندازی یک کارخانه هزینهبر است.
اما دیپسیک با ادعایی جسورانه وارد این حوزه شده است:
«اگر بگویم همه این کارها را با تنها ۵ میلیون دلار انجام دادهام، چه؟»
و این ادعا نه تنها حرفی بیاساس نبوده، بلکه آنها واقعاً موفق به انجام این کار شدهاند. مدل آنها در بسیاری از وظایف حتی GPT-4 و Claude را پشت سر گذاشته و این موفقیت باعث حیرت جامعه هوش مصنوعی شده است.
چگونه دیپسیک این موفقیت را به دست آورد؟
همه چیز از بازنگری کامل در اصول آغاز شد. به جای استفاده از روشهای سنتی، دیپسیک تغییرات بنیادینی ایجاد کرد:
-
کاهش دقت غیرضروری در اعداد:
در مدلهای سنتی هوش مصنوعی، اعداد معمولاً با دقت ۳۲ اعشار ذخیره میشوند. دیپسیک این پرسش را مطرح کرد که:«چرا اعداد را با دقت ۸ اعشار ذخیره نکنیم؟ دقت آن تقریباً به همان اندازه کافی است!»
این تغییر ساده باعث کاهش ۷۵ درصدی در حافظه مورد نیاز شد. -
تحلیل جمله به جای کلمه:
مدلهای هوش مصنوعی سنتی معمولاً کلمات را به صورت جداگانه تحلیل میکنند، مانند:«بابا ... نان ... داد.»
اما دیپسیک تمام جمله را یکباره پردازش میکند که نتیجه آن، دو برابر شدن سرعت و افزایش دقت به ۹۰ درصد است. -
ایجاد سیستم تخصصی:
به جای ساخت یک مدل غولآسا که همه چیز را بداند (مانند یک فرد که هم دکتر، هم مهندس و هم جامعهشناس است)، دیپسیک سیستمی طراحی کرده که فقط از «متخصصان» مورد نیاز در هر لحظه استفاده میکند.
برای مقایسه:- مدلهای سنتی تمام ۱.۸ تریلیون پارامتر خود را به طور همزمان فعال میکنند.
- دیپسیک تنها ۳۷ میلیارد از ۶۷۱ میلیارد پارامتر خود را در هر لحظه فعال میکند.
این روش مانند داشتن یک تیم بزرگ است که فقط افراد لازم برای وظایف خاص فراخوانی میشوند.
نتایج و پیامدها
این تغییرات منجر به نتایج شگفتانگیزی شده است:
- هزینه آموزش مدل: ۱۰۰ میلیون دلار → ۵ میلیون دلار
- تعداد GPU مورد نیاز: صد هزار → دو هزار
- هزینه API: ۹۵ درصد کاهش
- امکان اجرای مدل روی کارت گرافیکهای گیمینگ بدون نیاز به سختافزار مراکز داده
شفافیت و منبع باز بودن
ممکن است بپرسید: «آیا این موفقیت با ترفند خاصی به دست آمده؟»
پاسخ خیر است. نکته جذاب اینجاست که همه چیز منبع باز (Open Source) است. کدها عمومی هستند و راهنماهای فنی همه چیز را توضیح دادهاند. دیپسیک از جادو استفاده نکرده، بلکه صرفاً مهندسی هوشمندانه به کار گرفته است.
اهمیت این تحول
این رویکرد، فرضیه قدیمی که تنها شرکتهای بزرگ میتوانند در حوزه هوش مصنوعی فعالیت کنند را به چالش میکشد. برای شرکتهایی مانند انویدیا این موضوع نگرانکننده است، زیرا مدل کسبوکار آنها بر فروش GPUهای فوق گرانقیمت با حاشیه سود ۹۰ درصد استوار است. اما اگر همه بتوانند با کارت گرافیکهای گیمینگ مدلهای هوش مصنوعی بسازند، این مدل کسبوکار دچار تغییرات اساسی خواهد شد.
نکات پایانی
دیپسیک این کار را با تیمی کمتر از ۲۰۰ نفر انجام داده است. این در حالی است که هزینه حقوق کارکنان شرکتهایی مانند متا از کل بودجه دیپسیک بیشتر است و مدلهای آنها نیز به این اندازه کارآمد نیستند.
این داستان، نمونهای کلاسیک از شکستن وضع موجود است:
در حالی که شرکتهای بزرگ به بهینهسازی فرآیندهای موجود میپردازند، نوآوران قوانین بازی را بازتعریف میکنند.
پیامدهای احتمالی:
- دسترسی به توسعه هوش مصنوعی بیشتر میشود.
- رقابت به شدت افزایش مییابد.
- موانع بزرگ شرکتهای تکنولوژیک کوچکتر به نظر میرسند.
- نیازهای سختافزاری و هزینهها به شدت کاهش مییابند.
هرچند شرکتهای بزرگی مانند OpenAI و Anthropic احتمالاً از همین حالا شروع به استفاده از این نوآوریها کردهاند، اما «غول بهرهوری» از چراغ جادو بیرون آمده و دیگر نمیتوان به دوران اضافه کردن صرف سختافزار بازگشت.
این تحول، نقطه عطفی در تاریخ هوش مصنوعی است؛ لحظهای مشابه با ظهور PCها یا انقلاب محاسبات ابری. هوش مصنوعی در آیندهای نزدیک با هزینه کمتر و دسترسی بیشتر، زمین بازی را برای همه تغییر خواهد داد.
منبع ایکس freemartian.eth