Китайський стартап у сфері штучного інтелекту DeepSeek представив нову версію відкритої моделі AI, що стоїть за його суперечливим чат-ботом. Згідно з повідомленням у офіційній групі DeepSeek у WeChat, розробка DeepSeek V3.1 готова до тестування.
Що відомо про нову ШІ-модель
Нова версія має розширений контекстний вікно, що складає 128 000 токенів. Це приблизно 96 000 слів або близько двох романів на 200 сторінок англійською мовою.
Модель V3 викликала значний резонанс в січні, коли стартап заявив, що навчання коштувало всього 5,6 мільйона доларів, використовуючи приблизно 2000 менш потужних чіпів Nvidia.
Це набагато дешевше, ніж мільйони, витрачені на навчання найкращих моделей від OpenAI, Google, Anthropic та інших. Ця новина призвела до втрати ринкової вартості Nvidia на 600 мільярдів доларів за один день. Проте уряди швидко заборонили використання чат-бота DeepSeek через занепокоєння щодо зберігання даних на китайських серверах.
Хоча стартап не поділився багатьма подробицями у WeChat, повідомлення на Reddit стверджує, що остання версія чат-бота є “дуже, дуже багатослівною” і також зазначає, що “кнопка думок r1” зникла, що вказує на те, що V3.1 може бути змішаною моделлю міркувань.
R1— це модель міркувань, яку також розробив DeepSeek. Вона доступна через три основні хмарні платформи США: AWS, Microsoft Azure і Google Cloud. Постачальники стверджують, що модель хоститься локально, тому дані не будуть відправлятися до Китаю.
В глобальній гонці AI лише Китай здатний ефективно конкурувати з США, повідомляє Bloomberg. Китайські компанії, такі як Alibaba, DeepSeek та Moonshot, розробили AI моделі, що наближаються до найкращих аналогів у США.