專注于開發(fā)開源大語(yǔ)言模型
DeepSeek,全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,成立于2023年7月17日,是一家創(chuàng)新型科技公司,專注于開發(fā)先進(jìn)的大語(yǔ)言模型(LLM)和相關(guān)技術(shù)。
以下是關(guān)于 DeepSeek 的技術(shù)特點(diǎn):
• 高效模型:DeepSeek 的最新模型 DeepSeek-V3 在推理速度和性能上取得了顯著突破。它是一個(gè)擁有 6710 億參數(shù)的混合專家(MoE)語(yǔ)言模型,每次激活 370 億參數(shù)。在多個(gè)基準(zhǔn)測(cè)試中,DeepSeek-V3 的表現(xiàn)優(yōu)于其他開源模型,并與全球最先進(jìn)的閉源模型相媲美。
• 低成本訓(xùn)練:DeepSeek-V3 的訓(xùn)練成本遠(yuǎn)低于其他大型模型。例如,與 Meta 的 Llama 3.1 模型相比,DeepSeek-V3 的訓(xùn)練僅需約 600 萬(wàn)美元的計(jì)算資源,僅為 Meta 的十分之一 。