云盘从“机械”到“全闪”，背后到底换了什么底牌

“早期高性能云盘之所以快，是因为底层加了SSD做缓存。后来SSD价格下来了，产品线才慢慢变成现在的全闪存。”

在腾讯云的一个群里，一位产品老兵提了这么一句；这句话看着平常，但细细一想，其实把过去十年云计算底层存储的演变路径，说得明明白白。

当年为什么非要“HDD + SSD缓存”？

2015年前后企业刚开始大规模上云，大部分架构师对存储的认知还停留在“容量够用就行”。那时候云厂商最基础的就是机械硬盘（HDD）云盘，成本低、容量大，但随机读写IOPS通常只有几百，延迟动不动就十几毫秒。跑个静态网站、存备份日志完全没问题，可一旦挂上MySQL或者业务系统，查询卡顿、连接池爆满就成了家常便饭。

怎么破局？当时的技术路线很务实：底层继续用HDD保底容量，但在控制层叠一层SSD做缓存。读写频繁的数据自动预热留在SSD里，冷数据沉降回机械盘。这套“混合加速”方案当时非常有效，IOPS直接翻了几倍，延迟压到两三毫秒。业内后来管它叫“高效云盘”或“混合盘”，本质是用架构换性能，属于那个年代的性价比最优解。

但混合架构始终有个隐忧：数据在HDD和SSD之间频繁搬运，本身就有延迟和一致性开销；存储控制层越复杂，故障排查越麻烦。很多团队后期为了压延迟，不得不手动做数据热区规划，运维成本反而上去了。

成本曲线下来的那一刻，产品逻辑变了

转机出现在SSD价格断崖式下跌。2018年前后，随着3D NAND堆叠技术成熟和产能放开，企业级SSD的单价终于降到了当年“混合方案”的边际区间。云厂商算了一笔很现实的账：既然全闪的硬件成本已经追平，为什么不直接上纯SSD/NVMe架构？

去掉缓存分层后，IO路径变短，调度逻辑变简单，延迟更稳定，排错也更干净。于是产品线开始转向“全闪存”，控制台里的命名也从“高效”“增强型”变成了直白的“SSD云盘”“极速型”。这不是营销话术，而是底层架构已经能稳定支撑高并发业务，没必要再用混合方案做技术妥协。

为什么后来都不强调“介质”了？

细心的同学会发现，现在去各大云厂商控制台选盘，基本都按IOPS或延迟分级，而不是再纠结底层是机械还是固态。这不是说SSD不重要了，而是介质已经成了行业标配。

全闪云盘现在也被拆成了PL1/PL2/PL3，或者按场景打包（数据库专享、高吞吐、通用型）。命名从“用了什么材料”变成了“能扛多大负载”。背后的逻辑很直接：客户不再需要自己懂存储分层调度，只需要知道自己跑什么业务、要多少性能SLA。当技术足够成熟，产品就该退后一步，把复杂度交给平台，把选择权还给业务。

感慨万千

回看这几年的演进，技术路线永远跟着成本曲线和业务诉求走。早期用SSD缓存是妥协，现在上全闪是顺势。如果你在负责上云或重构存储架构，有几个经验可以避坑：

别迷信“全闪一定快”。关键看集群调度协议和网络架构。早期没做并发优化和预读策略的全闪存，延迟波动可能反而不如调优好的混合盘。
数据库上云，盯紧P99延迟。IOPS峰值再高，如果尾部延迟偶尔飙到几十毫秒，业务层照样会超时。优先选支持NVMe直连和本地缓存的盘型。
成本优化别只堆高性能块盘。很多场景适合“块存储+对象存储”混合架构：热数据走全闪，日志/备份走低频存储，整体TCO能降一大截。

备注：本文75%的内容由AI完成

存储介质的迭代从来不是单纯的技术升级，而是云计算走向成熟的过程中，一次又一次在性能、成本和复杂度之间的重新平衡。下次在控制台勾选云盘规格时，不妨多看两眼背后的SLA定义。那些冷冰冰的参数，其实就是过去十年架构师们在机房里熬出来的经验。

当年为什么非要“HDD + SSD缓存”？

成本曲线下来的那一刻，产品逻辑变了

为什么后来都不强调“介质”了？

感慨万千

添加新评论