科创“圳”时代丨芯片卡点的深南突围:打破“高价Token”的成本死结
央广网深圳5月19日消息(记者 孔明 见习记者 钟金秀 实习记者 梁秀美)2026全球人工智能终端展暨第七届深圳国际人工智能展览会(以下简称“人工智能终端展”)在深圳刚刚落下帷幕,喧嚣散去,空气中沉淀下来的,却是一种前所未有的务实与焦虑。它彻底告别了前两年“只赚吆喝不赚钱”的技术狂欢,猛然向全行业推开了一扇“算总账”的大门。一个残酷的现实摆在面前:智能体在台前运行得越是欢畅,幕后Token的消耗量就越是一个令人窒息的天文数字。
高昂的GPU显存、被卡脖子的先进晶圆,以及那道难以跨越的“内存墙”,宛如三道紧紧扣死的枷锁,共同构成了本届展会上,全行业都在负重寻找解法的“高价Token”成本死结。如何踏平这道高耸的存力高墙,真正让居高不下的Token成本“退烧”?
面对这个行业痛点,深圳再次展现出独特的创新速度与供应链韧性。在“人工智能终端展”上,一家来自深圳福田的国家级专精特新“小巨人”企业——铨兴科技,用一种以柔克刚、虚实结合、借力打力的“深圳式创新”方案,开启了一场关乎技术平权与商业落地的“深南突围”。

铨兴科技的展台(央广网发 主办方供图)
拐点已至:高价Token背后的“存储窒息”
当AI浪潮汹涌而来之际,铨兴科技并非赤手空拳,他们手里握着存储芯片从设计到制造全产业链的“通关密码”。大模型引爆的算力狂潮,让无数资本与企业如过江之鲫般涌入算力中心。在这场围猎算力红利的基建狂潮中,既做内存又做闪存的铨兴科技,瞬间被推到了风口的最前线:数据中心扩容带来的服务器级内存与大容量企业级SSD需求呈井喷态势,直接化作源源不断的订单,推着铨兴的云端业务迎来了几何级数的狂飙,结结实实地啃下了AI时代的第一波红利。然而,随着这场军备竞赛走向白热化,天价的算力账单很快让很多企业感到阵痛,开始高呼吃不消。
“AI绝对是未来的超级风口,而且AI跟存储天然绑定,接下来的大卡点一定在存储上。”全球闪存控制芯片巨头群联电子董事长潘建成的这番断言,让铨兴科技总经理郭威成在有些“懵懵懂懂”的状态下,一脚跨进了未知的深水区。
“其实你会发现,大量算力实际上是在浪费的。”因为存储带宽和算力架构的严重失衡,数据在计算核心与存储单元之间的传输速度根本跟不上步调,导致芯片空有澎湃的算力,却因“内存墙”的阻隔拿不到数据,被迫陷入了痛苦的饥饿与空转之中。
既然如此,能不能反向操作?用团队深耕存储30年的深厚底蕴,把算力硬生生从云端拉回本地,把高昂的云端Token成本给砸下来?
借力打力:用“日常电力”对冲“Token账单”
“Token的产出基本上来自云端。但我们发现并非所有问题都需要云端来解决。”在高喊“万物皆上云”的时代,人们习惯了哪怕问一个极其简单的问题,也要动用消耗海量参数的云端超级大模型,这无疑是“大炮打蚊子”,在白白浪费大量算力资源的同时,也让企业支付了高昂的算力成本。
为了打破这个僵局,铨兴科技用一套“混合模型协同”的思路,重塑了产业的分工逻辑:把简单的问题留给本地端的小模型来消化,只有遇到复杂问题时再移交给云端。在这个精妙的架构里,云端大模型退到幕后,成了一个高阶的“导师”,而在前线冲锋陷阵的则是轻量化的本地小模型,回答不了再逐层往后走。
最让人松一口气的是,这个方案完全不需要独立的GPU显卡,直接借力英特尔、海光的集成显卡就能流畅运行,350亿参数的模型已经可以直接部署在用户的本地设备中。这意味着,在不需要额外花钱购买云端Token的情况下,企业仅凭日常的设备电力,就能实现AI智能体的流畅交互。
用触手可及的“日常电费”代替高昂的“Token费”,从底层拉起了一道保障企业数据私密性的安全防线,一站式解决了端侧应用场景中最大、最难解决的“最后一公里”痛点。企业花大价钱租用的算力,也真正用在了刀刃上,实现了算力生态的“效率减负”。“云边端协同,将会降低存储需求,同时让Token费用大幅下滑,节省50%到70%,最终推动AI普惠。”

铨兴科技的存储产品(央广网发 主办方供图)
以轻克重:把重资产调成“轻量模式”
在传统的AI架构里,运行大模型像是一场豪赌:企业动辄采购百万级的独立GPU算力设备,以及极为稀缺且价格高昂的高带宽显存,沉重的固定资产投入让无数尝试部署企业级AI的玩家望而却步。
在本次人工智能终端展上,铨兴科技发布了“新一代AI超显存融合解决方案”,试图以显存扩容技术打破“僵局”。该方案搭载高性能企业级AISSD,结合自主研发的算法平台与智能体软件,通过系统级软硬件协同设计,硬生生为GPU扩展出了一个高效的外部显存池。在不依赖昂贵高带宽显存的情况下,它用相对廉价的固态硬盘与传统内存搭建起混合架构,再用软硬一体化打通了“任督二脉”:高频访问数据交由最快速、最高效的通道全力处理;低频访问数据则分流卸载到存储体系中,允许其速度稍慢,从而换取了极高的经济性。
这种“软硬结合”的精准分流,上演了一场绝妙的降维打击:直接将AI硬件从“百万级”的重资产,降维成了“小盒子”或普通笔记本就能轻松承载的轻资产。它不需要昂贵的GPU,却能显著提升本地大模型推理的吞吐能力,降低单位Token的生成成本,为大规模AI智能体部署及边缘侧智能应用开辟出了一条兼顾性能与经济性的硬核技术路径。
湾区韧性:AI+的跨界蝶变
放眼大湾区,还有无数个在“红海”里九死一生、历经周期洗礼的企业。他们深谙从设计到制造的每一个密码,当AI生产力风暴席卷而来时,这股习惯于在务实中创新的力量,也迎来了属于自己的高光时刻:他们不信眼花缭乱的概念,只信积淀数十年的智造底蕴,那是将所有传统产业用AI“再做一遍”的绝对底气。
说到底,AI普惠从来不是一场单纯的技术炫技,而是一场关于成本的“极限生存赛”。在这场隐形的较量中,像铨兴科技这样的一批深圳专精特新企业,正像一颗颗破土扎根的钢钉,死死卡在产业链最吃劲的关隘上。我们有理由相信,当重重关隘被逐一撞破,中国AI产业将真正飞入千行百业、飞进千家万户。




