将对行业格局产生重大影响的五大趋势:
世界在剧变
我们需要尽快寻找行业中的方向
迅速重回轨道
2023年,全球经济层面的不确定性将持续存在。
在新的一年里,实现成本优化的一个重要途径就是降低企业云成本中占比较大的数据出口成本(egresscost)。
越来越多的企业会优化其架构,以避免遭到超出预期的数据出口成本的冲击。例如,企业可以考虑通过Alluxio缓存来降低经网络传输的数据流量。
此外,越来越多的企业在寻求实现“多云部署自由”,从而能够不受限制地使用任何云厂商的服务。确保应用的可移植性将是实现这一“自由”的前提条件,这让企业能够根据自己的具体要求和预算选择最佳的方案。
包括OpenAI的对话模型ChatGPT、DALL-E2的图像生成模型以及谷歌LaMDA聊天机器人等大模型在2022年都已展现出巨大的潜力。
预计这类模型将在2023年解锁更多用例和应用程序。
同时,这些模型的普及将有望推动人工智能专业化基础设施和解决方案的发展。
训练具有数十亿个参数的大模型需要特殊的基础设施和解决方案来处理计算需求。因此,能够支持这种规模和复杂性模型的人工智能基础设施将会不断发展。
此外,随着大模型不断升级优化,研发人员将需要找到更多新的方法,用来把更多的大模型和实际的应用场景结合起来。因此,我们预计随着人工智能基础设施的发展,新的工具和平台将出现,使研发人员能够更容易地开发和应用大模型。
数据共享既包括企业内部的数据共享,也包括企业间的数据共享。
尽管数据共享目前尚未普及,处于早期阶段,但是,以数据共享为核心的生态体系,包括为数据消费者和数据提供者的基础设施、交易能力和服务,都将在2023年得到长足的发展。
跨区域的数据价值实现将驱动企业内部数据的共享,进一步消除数据孤岛。随着越来越多的企业寻求将数据资产货币化,外部数据共享的应用场景和成功案例也在显著增多。例如,面向学术界和研究领域,企业正在探索利用数据共享平台来共享研究数据,从而加速科研进度。
在现代数据技术栈中,数据仓库和数据湖的融合趋势越发明显。
其背后的驱动力在于数据日趋复杂化和多样化,企业需要灵活和可扩展的系统来支持大范围的数据科学和分析用例。因此,数据仓库和数据湖的融合度也越来越高。
ApacheIceberg、Hudi和DeltaLake等开放表格格式的兴起在这一趋势中发挥了重要作用。通过使用表格式定义层,可以在单个系统中有效地存储和管理大量结构化和非结构化数据,使得企业能够以更低的成本更快地提取数据价值。
到2023年,随着这些解决方案的迅速采用,更多的企业将使用开放表格格式存储数据。
长期以来,Kubernetes中的存算分离对数据本地性造成了挑战。尽管在Kubernetes中进行数据密集型应用的部署和弹性扩展已经十分容易,但在访问云原生数据源中的数据(例如AWSS3或远程数据仓库)时却更加困难。
我们预测,在2023年,数据本地性的难题将得到解决。
因此,新的一年将会出现更多弥合计算和存储的解决方案,帮助企业更好地管理和优化其在Kubernetes中的数据存储和处理。
2023年对于大数据、人工智能和云产业而言将是激动人心的一年。
大量的突破和创新将主导这些领域的未来走向,许多技术范式将不断融合,形成一个以数据为中心的生态系统。
至于各项技术将如何演进并影响我们的生活,让我们拭目以待。
范斌
Alluxio创始成员兼开源社区副总裁
加入Alluxio前,在Google从事下一代大规模分布式存储系统的研究与开发.范斌博士毕业于卡内基梅隆大学计算机系,博士期间在分布式系统算法和系统实现等方向发表多篇包括SIGCOMM,SOSP,NSDI等顶级国际会议论文以及多篇专利。