介绍
DeepSeek是由杭州深度求索人工智能基础技术研究有限公司研发的新一代通用人工智能大模型。该模型通过融合Transformer-XL架构与动态稀疏激活技术,构建了基于大规模自监督学习的预训练体系。其创新性的课程学习(Curriculum Learning)策略,使模型能够从PB级多模态数据中渐进式构建知识表征,较传统监督学习方法减少86%的标注依赖,同时在GLUE基准测试中取得89.7的综合得分。
值得关注的是,DeepSeek v2.0在模型效率方面实现重大突破:通过混合精度训练与模型并行优化,其千亿参数规模的训练成本较国际同类模型降低约40%,在MMLU(大规模多任务语言理解)评估中以82.3分超越GPT-3.5 Turbo(78.9分)。作为全球首个完整开源千亿参数商用级AI模型,DeepSeek不仅提供API接口和本地化部署方案,更开放了完整的训练日志与超参数配置。
技术亮点
采用MoE(Mixture of Experts)架构,实现动态计算资源分配
创新性知识蒸馏管道,将千亿级模型压缩至7B规模仍保持92%原始性能
支持FP8量化推理,单卡RTX 4090可实现70B模型实时响应
模型选择
如何使用?
首先下载LM studio(网盘里面有)
改变模型位置
在选择路径下,创建“lmstudio-community”文件夹
拖动模型到刚刚创建的文件夹lmstudio-community内
软件成功识别
选择使用即可
成功!
本文共 416 个字数,平均阅读时长 ≈ 2分钟
评论 (0)