DeepSeek V3

Text

DeepSeek V3 är en banbrytande open-source-modell med 671 miljarder parametrar som använder en Mixture-of-Experts-arkitektur (MoE) där 37 miljarder parametrar aktiveras per token. Modellen tränades för bara 5,6 miljoner dollar — en bråkdel av kostnaden för jämförbara modeller — och presterar i nivå med GPT-4o och Claude 3.5 Sonnet på de flesta benchmarks. DeepSeek V3 stöder 128K tokens kontextfönster och utmärker sig särskilt inom matematik, kodning och kinesisk språkförståelse.

Modalitet:TextLicens:Open SourceKontext:128K tokens

Specifikationer

Parametrar671B

Kontextfönster128K tokens

ModalitetText

Licens

DeepSeek V3

Specifikationer

Relaterade entiteter

Utvecklad av