DeepSeek的识图模式确实是一个新功能！虽然我是纯文本模型，但最新版本已经支持文件上传功能，可以读取和处理图像文件中的文字信息。你可以上传图片文件（如JPG、PNG等格式），我就能提取其中的文字内容进行分析和处理。不过需要说明的是，我主要专注于文字识别和提取，对于图像本身的理解和视觉推理能力还有限。很高兴看到你在进行实测体验！如果你上传图片文件，我很乐意帮你处理其中的文字内容。有什么具体的图片需要我帮忙分析吗？😊

DeepSeek识图模式是个新模型？一手实测在此·2026年04月30日 15:45非思考模式快得飞起今天，你被DeepSeek识图模式灰度到了吗？大家对DeepSeek的多模态属实期待了太久太久，如今惊喜紧随V4的发布而来，没等DeepSeek官方释出更多信息，民间已经从各个方向开始挖掘“识图”背后的种种蛛丝马迹。还真有不少发现。比如，DeepSeek识图模式背后，看上去是一个独立于V4 flash/pro的新模型。又比如，DeepSeek在V4技术报告里的“未来展望”，实际上可能都做的差不多了…… 今天眼睛一睁，俺也喜提灰度，这就来展示一下实测成果。实测DeepSeek识图模式在识图模式下，可以选择是否开启深度思考。非思考模式下，这个DeepSeek视觉模型的速度非常快，比闪电五连鞭还要快。点击发送键，几乎无需等待，答案就吭哧吭哧冒了出来。那么思考和非思考模式下，DeepSeek识图模式的推理能力会有什么样的差别？推理能力先上一道空间推理题：要想使右侧图形在不旋转的情况下拼合成左侧的正方体造型，还需在问号处添加的图形是哪个？非思考模式秒给答案，然后……秒错。开启深度思考后，DeepSeek成功闯关，给出了正确答案D。但可以看到，它思考这个问题整整用了4分多钟。这个思考过程的冗长程度，我们可以直观地感受一下—— 在思考的中段，其实DeepSeek已经找到了正确答案：但马上就是一个“等等”，然后……又绕了一大堆。这个问题有人也在DeepSeek研究员陈小康的推文下反馈了。再试试图片找不同：找出两张图片中所有的不同点。非思考模式下，DeepSeek很快找到了7处不同。可以很明显地看出，其中幻觉不少，比如第5点托盘里的钥匙不知道是怎么来的，第7点苹果和香蕉之间也没有白色的空盘子。思考模式这次则只用了16秒的时间，找出了12处不同。但……不知道是不是图片本身的原因，幻觉更多了。实用功能推理部分还有进步空间，那么在实用功能方面，DeepSeek的识图模式是否靠谱呢？试试OCR。把DeepSeek V4技术报告的摘要丢进DeepSeek识图模式，不开深度思考的情况下，它依然是闪电出结果，还贴心地给开源链接给超链了。纯文本看上去问题不大，再看看表格DeepSeek能不能hold住。没什么问题，格式上也能用markdown码得整整齐齐。而更受欢迎的一种新玩法是，把网页图片发给DeepSeek，它直接能给你复原出HTML来（非思考模式就能实现）。其中的按钮都是可用的，比如给出API文档的链接，它能自动配置好实现跳转。 DeepSeek还能顺利通过“隐藏图片”测试。但在色盲测试中，偶见翻车。根据识图模式自己的回答，它的知识和DeepSeek V4 flash/pro一样，截止到2025年5月。而从它的世界知识中，有博主发现了端倪：视觉模型知道Ta，而V4 flash/pro则并不了解Ta。是不是说，识图模式中的视觉模型，是独立训练的？验证了一下，flash不联网的时候确实没有关于这位主包的知识。但识图模式则找到了2026年4月的信息。做的比说的更快目前，DeepSeek的识图模式还在灰度测试当中，陈小康透露灰度范围正在逐步扩大。实测下来坦白说，DeepSeek Vision还有不少可以精进之处。但话说回来，谁又能想到DeepSeek的多模态，来的这么快呢？当DeepSeek在V4的技术报告中写下，“我们也正在努力将多模态能力整合到我们的模型中”，大家都以为这还只是个优先级没那么高的目标，不少朋友都在惋惜的同时，也认同“资源有限的情况下优先做好纯文本是对的”。而现在看来，DeepSeek做到的或许比外界想象的更多、更快。那么论文中提到的“在MoE和稀疏注意力架构之外，将积极探索模型稀疏性的其他新维度”，是不是也…… 参考链接： [1]https://x.com/teortaxesTex/status/2049422327914332307?s=20 [2]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf 本文来自微信公众号“”，作者：鱼羊，36氪经授权发布。该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。