CNews Аналитика Конференции Маркет Техника ТВ

Разделы

ПО Свободное ПО Софт Бизнес Телеком Контент Интернет Веб-сервисы Интернет-ПО Цифровизация Бизнес-приложения Внедрения
|

DeepSeek потратила на обучение модели R1 только $294 тыс. Учить ChatGPT пришлось за $100 миллионов

Руководство китайской ИТ-компании DeepSeek сообщило, что на обучение модели искусственного интеллекта R1 было затрачено $294 тыс., что радикально меньше, чем аналогичные расходы американских конкурентов. Глава американской OpenAI в 2023 г. говорил, что обучение лишь базовой модели ChatGPT обошлось более $100 млн.

Расходы на обучение моделей

Китайская ИТ-компания в сфере искусственного интеллекта (ИИ) DeepSeek отчиталась в сентябре 2025 г., что потратила $294 тыс. на обучение своей ИИ-модели R1, об этом заявили сами программисты DeepSeek в журнале Nature. Это значительно меньше расходов, которые озвучили их американские конкуренты по поводу своих чат-ботов.

ИИ-модель R1 создана для задач, требующих логического анализа, включая математику и программирование, и позиционируется как бюджетная альтернатива ведущим ИТ-инструментам из США. Модель от DeepSeek с открытыми весами свободно доступна для загрузки и занимает первое место по популярности на платформе Hugging Face с 10,9 млн скачиваний.

В статье Nature описаны улучшения стандартной большой языковой модели (LLM) для задач, требующих логического мышления. В дополнительных материалах впервые раскрыта стоимость дообучения R1 — около $294 тыc. Это дополнительные расходы к $6 млн, потраченным на разработку базовой LLM, но они меркнут по сравнению с огромными бюджетами конкурентов. Разработчики DeepSeek также раскрыли и то, что их ИИ-модель обучалась преимущественно на чипах Nvidia H800, поставки которых в Китай ограничены с 2023 г., об этом информировал CNews.

В статье говорится, что обучение рассуждающей модели R1 потребовало 512 ускорителей Nvidia H800. В 2023 г. генеральный директор OpenAI Сэм Альтман (Sam Altman) говорил, что обучение их базовой ИИ-модели ChatGPT обошлось больше $100 млн, хотя подробный отчет о структуре этих расходов ИТ-компания не предоставила. Если попытаться соотнести эти цифры «в лоб», то разница в расходах на обучение ИИ-моделей R1 и ChatGPT составит примерно в 340 раз.

Подозрение в мошенничестве

Некоторые утверждения руководителей DeepSeek относительно затрат на разработку и применяемых технологий вызывали сомнения у руководителей американских ИТ-компаний и чиновников до сентября 2025 г.

saradasish-pradhan_-_sdewteaz4a-unsplash.jpg

Unsplash - Saradasish Pradhan
DeepSeek потратила на обучение модели R1 только $294 тыс.

Ведь как писал CNews, ускорители H800 были созданы Nvidia специально для китайского рынка после запрета США в октябре 2022 г. на экспорт более мощных чипов H100 и A100 в Китай. В июне 2023 г. представители американских властей заявили, что DeepSeek имеет доступ к значительным объемам устройств H100, приобретенных после введения экспортного контроля. Даже руководство Nvidia в лице Дженсена Хуанга (Jensen Huang) опровергало эти обвинения, отмечая, что DeepSeek применяла только легально купленные чипы H800, а не H100.

В дополнительном документе к статье в Nature представители DeepSeek признали наличие ускорителей A100 и сообщили, что применяли их на подготовительных этапах ИТ-разработки. «В нашем исследовании DeepSeek-R1 мы использовали GPU A100 для подготовки экспериментов с меньшей моделью», — указали исследователи. По их данным, после этого начального этапа модель R1 обучалась в сумме 80 часов на кластере из 512 ускорителей H800.

Рецензирование ИТ-проекта

Статья DeepSeek стала, по всей видимости, первым отчетом о разработке и обучении LLM, прошедшим процедуру независимого рецензирования. «Это важный прецедент. Если мы не будем публично раскрывать значительную часть процесса ИТ-разработки, будет крайне сложно оценивать, несут ли эти ИТ-системы какие-либо киберриски», — отметил инженер по машинному обучению (ML) Hugging Face Льюис Танстолл (Lewis Tunstall).

В ответ на замечания рецензента Льюиса Танстолл представители DeepSeek уменьшили антропоморфизацию в описаниях и добавили пояснения к техническим деталям, включая типы данных, на которых обучалась ИИ-модель, и ответы на вопросы по ее безопасности.

«Прохождение строгого процесса рецензирования, безусловно, помогает проверить обоснованность и полезность ИИ-модели. Другим ИТ-компаниям следует поступить так же», — убежден ИИ-исследователь из Университета штата Огайо Хуань Сунь (Huan Sun).

По информации Tom's Hardware, еще в 2024 г. разработчики OpenAI подозревали DeepSeek в использовании выходных данных моделей GPT в качестве обучающих примеров для R1. Такой метод, известный как «дистилляция», который позволил бы ускорить разработку ИИ-модели R1, минимизируя затраты на ресурсы. Даже летом 2025 г. CNews писал о том, что создание модели R2, по некоторым данным, уперлось в доступность ускорителей вычислений Nvidia.

На самом же деле ключевым нововведением DeepSeek стало применение автоматизированного подхода «проб и ошибок» в форме чистого обучения с подкреплением для создания R1. В этом процессе ИИ-модель поощрялась за верные ответы, а не за копирование примеров рассуждений, заданных человеком. По словам же разработчиков DeepSeek, именно таким образом их LLM освоила «стратегии рассуждения» — например, самостоятельную проверку вычислений без внешних указаний. Для повышения эффективности модель сама оценивала свои ответы с помощью приближенных метрик, минуя отдельный алгоритм. Этот метод известен как «оптимизация политики на основе относительных групповых оценок».

Антон Денисенко

Подписаться на новости Короткая ссылка


Другие материалы рубрики

Как ритейлу сократить потери от краж на 30% и окупить расходы за год

Huawei представила альтернативу западным технологиям на чипах Ascend для ИИ-серверов, ИТ-система похожа на NVLink от Nvidia

CNews — 25 лет лидерства

Власти намерены запретить россиянам пользоваться мессенджерами в роуминге

Нестабильные «белые списки». Россиян оставят без постоянного перечня разрешенных сайтов – изменения будут еженедельными

Сбербанк хочет завладеть крупнейшим российским производителем микроэлектроники, цена вопроса 30 миллиардов

Конференции

Orion Digital Day

Роботизация бизнес-процессов 2025

KVM и IP-KVM технологии для организации рабочих мест и мультимедийных пространств
Показать еще

CNewsMarket

ИТ-безопасность

Подобрать решения для повышения ИТ-безопасности компании

От 684 руб./месяц

CRM

Подобрать CRM-систему для компании

От 1 000 руб./месяц

Colocation

Подобрать ЦОД для размещения ИТ-оборудования

От 815 руб./месяц

BPM

Подобрать систему управления бизнес-процессами BPM

От 1 250 руб./месяц

Техника

Обзор смарт-часов HUAWEI WATCH GT 6 Pro: рекордная автономность и продвинутый велорежим

Что умеют умные холодильники в 2025 году: 5 лучших моделей

Обзор телевизора Starwind 58" SW LED58UG401: доступный мультимедийный центр

Показать еще

Наука

Мы можем жить в гигантской «космической пустоте» — вот почему Вселенная расширяется так быстро

Найден загадочный резервуар пресной воды под дном океана: как он там оказался?

Математика говорит, что жизнь на Земле вообще не должна существовать: новое исследование бросает вызов всем теориям происхождения
Показать еще