从数据到洞察,看杉岩对象存储如何支撑新型数据湖

传统数据湖面临性能挑战

随着数据分析和人工智能应用的普及,企业数据量大幅增加,创新业务层出不穷。企业对数据分析的灵活性、性能和成本的要求越来越高。传统的大数据Hadoop系统构建的数据分析平台已经不能满足企业的需求。越来越多的企业基于数据湖构建大数据处理平台。数据湖的典型特征是存储和计算的分离,这可以降低系统成本,实现更好的系统可扩展性。

数据湖体系结构使企业能够在一块数据上扩展创新业务,而不必每次开发新业务时都制作数据拷贝。然而,传统的数据湖方案在性能上仍有明显的不足。传统的数据湖虽然依靠云存储,降低了存储成本,但在数据分析过程中,完全依靠云存储的吞吐能力进行数据扫描。这种方法只适用于对延迟不敏感的应用,如ETL和批处理计算,但不能支持低延迟,如二级数据检索和时间序列数据分析。

数据湖支持大数据分析和机器学习平台

除了为传统的Hadoop/Spark大数据分析平台服务外,数据湖还需要满足AI算法模型训练、推理和数据存档的要求,这就要求存储系统支持多种协议以提高处理效率。例如,在自动驾驶模型训练和分析场景中,车辆采集的视频和雷达数据需要通过文件或对象接口导入和存储,然后通过HDFS接口进行预处理。预处理后的结果通过人工智能进行训练,通过文件接口由计算服务器进行模拟,从而为下一轮测试获得新的算法和模型。单个对象存储或HDFS存储无法支持这些要求,需要更专业的存储平台来提供服务。

杉木数据的MOS海量对象存储可以通过异构纳米管整合管理现有的HDFS数据源和NAS数据源,存储在公共云中的数据可以通过混合云存储方案纳入MOS对象存储池进行统一管理。苏烟数据最近发布的MosFS高性能数据湖文件网关位于系统架构中的MosFS对象存储池,为Hadoop/Spark大数据分析平台和TensorFlow/PyTorch/Caffe机器学习平台提供本机HDFS接口、S3/OSS对象接口和POSIX文件接口。

图1:数据湖文件网关架构

金属氧化物半导体对象存储和金属氧化物半导体文件系统文件网关相结合构建的数据湖体系结构,为企业管理众多数据源、实现高性能存储和数据治理提供了坚实的基础。

& middot;高效的多数据源管理

MOS可以管理第三方NAS存储、对象存储和HDFS数据源,并通过映射向上层提供数据服务,可以实现现有IT架构下存储系统的快速切换,长时间的数据迁移可以在后台异步进行。数据的统一管理可以服务于多个平台和应用程序,而无需多个副本,从而减少了对存储的需求空。

& middot;内容感知多级缓存加速

机器学习平台在模型训练中要求超高吞吐量和超低延迟。MosFS可以与上层应用程序链接,通过标签感知和应用程序可以获得高相关性的数据。机器学习平台可以通过路径、数据标签和多策略组合获得相关性高的数据集。在实际操作中,MosFS将上述数据映射到目录中,并通过内存和固态硬盘多级缓存加速数据访问。例如,在自动驾驶的训练中,该算法需要白天四条车道上所有车辆拍摄的视频和图片,移动操作系统可以通过这些数据特征对应的标签将移动操作系统存储资源库中的相关数据映射到一个目录中,并通过多级缓存提供给训练算法。

& middot;多策略数据映射简化了管理

MosFS的数据映射能力实现了数据访问的虚拟化,并通过全局命名空将数据呈现给上层应用。时间、标签和文件名前缀等多粒度策略可以简化数据管理。

分布式数据湖文件网关,性能接近本地全闪存

文件系统文件网关和文件系统对象存储可以位于同一位置,也可以单独部署。为了满足机器学习平台超高吞吐量和超低延迟的性能要求,MosFS通常分布在计算服务器上。在这种情况下,MosFS与计算服务器的本地保留内存和固态硬盘形成了一个分布式缓存层,以加快训练速度。传统的分布式网络连接存储作为机器学习的后端存储存在成本高、数据不能与其他类型的存储进行通信、数据管理复杂导致训练效率低等缺点。相比之下,移动操作系统可以管理移动操作系统、原始网络连接存储和HDFS存储,统一所有数据视图,分布式数据缓存可以多次提高训练效率,其性能接近使用计算服务器的本地固态硬盘。

图2:计算服务器上的数据湖文件网关分布式部署

HDFS协议增强了大数据存储和计算的分离

作为传统的数据仓库存储平台,HDFS在数据湖场景中面临着性能和成本问题。在实际应用中,当数据量超过10~20pb时,HDFS的性能会严重下降。另外,HDFS基本上只支持多拷贝存储模式,其对纠删码的支持效果不好。MosFS和MOS结合构建的数据湖存储兼容HDFS接口和S3协议,可以实现存储和Hadoop计算平台的分离,帮助客户将HDFS数据收集到MOS存储中,实现非结构化数据、半结构化数据和结构化数据的统一管理。MosFS提供的本地HDFS接口与主流平台100%兼容,S3/OSS与HDFS接口协议之间的互通转换在内部实现,避免了数据的多次拷贝。

图3:数据湖架构实现了存储和计算的分离

大数据分析和人工智能训练推理的融合需求越来越多。传统的大数据存储只提供HDFS接口。如果将大数据分析的结果用于人工智能培训,则需要将数据复制到其他存储中进行处理,这将导致数据分析的整体效率较低,并浪费存储空间空。山彦新的数据湖架构不仅可以为大数据分析提供HDFS接口,还可以为人工智能训练推理提供文件和对象接口。大数据分析的结果可以通过文件接口直接访问,无需复制和等待,大大提高了融合场景下大数据分析的效率。

人工智能培训实践案例

类脑智能技术与应用国家工程实验室是由中国科技大学建立,由中国科学院、复旦大学、微软、百度等机构共同建设的国家工程实验室。中科大脑成立于2017年,是实验室的产业化平台。通过建设& ldquo高级人工智能算法+公共计算云+私有部署云& rdquo智能混合云平台,提供计算资源、人工智能技术、智能解决方案等服务。

中科大脑开发的类脑云操作系统提供了大规模的计算能力、数据和智能技术,有效降低了人工智能创业的门槛,促进了人工智能应用生态的发展,并赋予各行业完成智能升级改造的能力。目前,该平台已经收集了180个人工智能前沿算法和100个通用数据集,具有丰富的平台建设和行业落地经验。

山彦的新数据湖架构已经应用在类似大脑的云操作系统中。根据中科的类脑训练方案,数据集放置在本地固态硬盘、分布式网络连接存储和山彦移动存储系统+移动存储系统上。性能对比测试结果表明,移动存储系统的训练时间接近本地固态硬盘。与分布式网络连接存储相比,单个图形处理器节点下的移动操作系统的读取性能提高了62.5%,双图形处理器节点的分布式训练性能提高了75.8%。集群规模越大,越能体现山彦数据湖方案的性能,表现出良好的可扩展性。

图4:本地固态硬盘、移动存储和网络连接存储的模型培训性能比较

摘要:智能应用和大数据分析需要智能的新数据湖

数据基础设施正朝着智能化和融合的方向发展。如果数据湖不能实现有效的数据管理,它将成为& ldquo数据沼泽& rdquo智能管理要求存储提供多维检索能力、生命周期管理能力和数据可视化能力,实现数据的合理分类和管理,加快数据清理、转换和流动的过程。存储和计算架构分离,结构化数据、半结构化数据和非结构化数据统一存储在数据湖中,海量数据可以在数据湖中合并,不同类型数据存储的界限逐渐模糊。

人工智能和大数据分析应用程序的集成使一个数据可以同时用于多个计算和分析过程。新一代数据湖存储平台必须具备多源数据管理能力,包括混合云能力和异构存储能力,以及能够智能感知内容的高性能多协议数据服务能力。新的数据湖架构将为数据分析和智能应用的开发和运行带来极大的便利,加速迭代分析过程,简化基础设施需求,提供全面的数据服务能力,方便人们高效地提取数据价值。

为您推荐

发表评论

电子邮件地址不会被公开。