DeepSeek V3 är en banbrytande open-source-modell med 671 miljarder parametrar som använder en Mixture-of-Experts-arkitektur (MoE) där 37 miljarder parametrar aktiveras per token. Modellen tränades för bara 5,6 miljoner dollar — en bråkdel av kostnaden för jämförbara modeller — och presterar i nivå med GPT-4o och Claude 3.5 Sonnet på de flesta benchmarks. DeepSeek V3 stöder 128K tokens kontextfönster och utmärker sig särskilt inom matematik, kodning och kinesisk språkförståelse.
deepseek/deepseek-chat