به گزارش نبض بازار در حال حاضر فرآیند آموزش مدلهای هوش مصنوعی بسیار پرهزینه است. شرکتهایی مانند OpenAI و Anthropic بیش از ۱۰۰ میلیون دلار تنها برای محاسبات صرف میکنند. این امر مستلزم مراکز داده بسیار بزرگ با هزاران کارت گرافیک (GPU) با قیمت هر کدام حدود ۴۰ هزار دلار است. این فرآیند به اندازه ساخت یک نیروگاه برق برای راهاندازی یک کارخانه هزینهبر است.
اما دیپسیک با ادعایی جسورانه وارد این حوزه شده است:
«اگر بگویم همه این کارها را با تنها ۵ میلیون دلار انجام دادهام، چه؟»
و این ادعا نه تنها حرفی بیاساس نبوده، بلکه آنها واقعاً موفق به انجام این کار شدهاند. مدل آنها در بسیاری از وظایف حتی GPT-4 و Claude را پشت سر گذاشته و این موفقیت باعث حیرت جامعه هوش مصنوعی شده است.
همه چیز از بازنگری کامل در اصول آغاز شد. به جای استفاده از روشهای سنتی، دیپسیک تغییرات بنیادینی ایجاد کرد:
کاهش دقت غیرضروری در اعداد:
در مدلهای سنتی هوش مصنوعی، اعداد معمولاً با دقت ۳۲ اعشار ذخیره میشوند. دیپسیک این پرسش را مطرح کرد که:
«چرا اعداد را با دقت ۸ اعشار ذخیره نکنیم؟ دقت آن تقریباً به همان اندازه کافی است!»
این تغییر ساده باعث کاهش ۷۵ درصدی در حافظه مورد نیاز شد.
تحلیل جمله به جای کلمه:
مدلهای هوش مصنوعی سنتی معمولاً کلمات را به صورت جداگانه تحلیل میکنند، مانند:
«بابا ... نان ... داد.»
اما دیپسیک تمام جمله را یکباره پردازش میکند که نتیجه آن، دو برابر شدن سرعت و افزایش دقت به ۹۰ درصد است.
ایجاد سیستم تخصصی:
به جای ساخت یک مدل غولآسا که همه چیز را بداند (مانند یک فرد که هم دکتر، هم مهندس و هم جامعهشناس است)، دیپسیک سیستمی طراحی کرده که فقط از «متخصصان» مورد نیاز در هر لحظه استفاده میکند.
برای مقایسه:
این تغییرات منجر به نتایج شگفتانگیزی شده است:
ممکن است بپرسید: «آیا این موفقیت با ترفند خاصی به دست آمده؟»
پاسخ خیر است. نکته جذاب اینجاست که همه چیز منبع باز (Open Source) است. کدها عمومی هستند و راهنماهای فنی همه چیز را توضیح دادهاند. دیپسیک از جادو استفاده نکرده، بلکه صرفاً مهندسی هوشمندانه به کار گرفته است.
این رویکرد، فرضیه قدیمی که تنها شرکتهای بزرگ میتوانند در حوزه هوش مصنوعی فعالیت کنند را به چالش میکشد. برای شرکتهایی مانند انویدیا این موضوع نگرانکننده است، زیرا مدل کسبوکار آنها بر فروش GPUهای فوق گرانقیمت با حاشیه سود ۹۰ درصد استوار است. اما اگر همه بتوانند با کارت گرافیکهای گیمینگ مدلهای هوش مصنوعی بسازند، این مدل کسبوکار دچار تغییرات اساسی خواهد شد.
دیپسیک این کار را با تیمی کمتر از ۲۰۰ نفر انجام داده است. این در حالی است که هزینه حقوق کارکنان شرکتهایی مانند متا از کل بودجه دیپسیک بیشتر است و مدلهای آنها نیز به این اندازه کارآمد نیستند.
این داستان، نمونهای کلاسیک از شکستن وضع موجود است:
در حالی که شرکتهای بزرگ به بهینهسازی فرآیندهای موجود میپردازند، نوآوران قوانین بازی را بازتعریف میکنند.
هرچند شرکتهای بزرگی مانند OpenAI و Anthropic احتمالاً از همین حالا شروع به استفاده از این نوآوریها کردهاند، اما «غول بهرهوری» از چراغ جادو بیرون آمده و دیگر نمیتوان به دوران اضافه کردن صرف سختافزار بازگشت.
این تحول، نقطه عطفی در تاریخ هوش مصنوعی است؛ لحظهای مشابه با ظهور PCها یا انقلاب محاسبات ابری. هوش مصنوعی در آیندهای نزدیک با هزینه کمتر و دسترسی بیشتر، زمین بازی را برای همه تغییر خواهد داد.
منبع ایکس freemartian.eth