AI写SQL真的靠谱吗?腾讯游戏在AI+湖仓一体的实践

本文介绍了腾讯游戏数据团队如何通过最新的大语言模型技术,基于StarRocks构建一个高效的湖仓一体+AI数据管理新范式,解决游戏业务数据提取需求上痛点的实践经验。通过这种创新方法,AI生成SQL的一次性准确率提升至89%,数据提取的自助率、资产复用率也均有显著提升,解决了数据工程方面的痛点,也为AI赋能数据工作提供了全新的视角和方法。

AI生成SQL在真实业务场景下遇到的挑战

腾讯游戏业务体量庞大且复杂,数据团队每年需要处理超过3万个数据提取需求,传统的人工服务模式在交付效率上已经遇到了瓶颈。随着AI技术的发展,能否利用大语言模型(LLM)的能力开发一套自助工具,让游戏业务团队能够自助化、快速高效地获取所需的数据,也是我们探索和尝试的主要方向。

我们做了一些调研,目前LLM在公共数据集(例如:Spider)下AI写SQL的准确率已经高达90分以上,基本能够达到人类的水平;然而在真实业务场景下,AI写SQL的准确率会出现了断崖式下跌,例如,在模拟真实业务场景的BIRD数据集下AI准确率只能做到65分左右,无法满足实际业务的需求。

我们再看一下LLM技术的演进,以行业龙头OpenAI来看,在2022年11月底推出基于人类反馈强化学习(RLHF)的ChatGPT,特别是在2023年3月份推出GPT4.0提高了复杂任务的推理能力以及多模态能力之后,就已经不在基础模型上做进一步的提升,而是把精力放到工程化应用上,简单来说就是怎么把大模型结合具体场景用起来,聚焦在Prompt工程、Agent、工具使用(RAG、函数调用)、更低的成本和更多的token等应用领域。

(LLM技术演进路线图)

总结来说,AI写SQL要实现可以实际应用,我们的技术路线不是训练一个更强大的LLM模型,而是要通过工程化来提升AI写SQL的准确率。简单的说,之所以准确率不高,并不是因为AI写SQL的能力不行,而是我们没有给到大模型「完备的信息」,由于数据资产不完整、冗余混乱、行业及产品专用知识缺失等问题,导致大模型对业务需求的理解出现歧义,因而无法交付准确的结果。

因此,如何建设一套更先进的数据资产,给大模型提供更完备的信息,让AI更好地理解数据资产,就成为了提升AI写SQL准确率的一个关键突破口。

基于AI+湖仓的数据资产体系

腾讯游戏在数据建设上有十几年的经验,业务需求也已经从业务经营分析类的报表和看数,逐步发展到精细化运营(明细数据)、归因分析(新指标和分层)、预测干预(算法实时处理)等深度的需求。我们自己建设的传统数据中台也面临着很大的挑战:

腾讯游戏数据团队与StarRocks合作,将传统的数仓建模转移到了湖仓一体架构上,打造了基于AI+湖仓的「新一代AI数据资产」,通过使用语义层替代物理ADS/DWS层,能够快速的配置新增数据集、指标、维度等,并且通过实时链路接入、透明加速等技术满足性能需求,实现快速响应用户后验需求和分析挖掘的需求。

(传统数据中台到新一代AI数据资产的升级)

新一代AI数据资产的模型架构下,底层的接入部分由离线改变为实时,另外减少离线数仓到OLAP的摆渡过程,用户可以直接使用实时的明细数据(而非传统的T+1结果数据)做进一步的挖掘和探索分析,快速洞察数据背后的深层次问题。

(基于湖仓一体的技术架构)

语义层的语义资产被分为三种类型:

第一种是「已有看板」的资产,大模型可以直接使用指标来跟用户交互,这部分占大约70%;第二种是「没有指标,但有特征」的资产,大模型可以通过特征来生成指标满足用户的需求,这部分约占20%;第三种是「无特征」的、纯新的资产,往往需要用户来补充一些业务信息,再去交由大模型生成特征和指标,这部分约占10%。

这样一来,AI大模型技术可以直接交付数据结果,或者通过AI与人的互动最终交付数据需求,实现一个资产自助交付的高效体系。且在这个体系下,游戏项目组内不同团队的数据需求方,都可以通过AI来生产和维护同一个特征库、指标库和同一份资产,让资产能够被AI和人理解,提升数据使用的效率。

(AI+湖仓中台的运营)

新一代AI数据资产的应用

资产建设完毕后,接下来就是考虑如何用起来,开发一套AI自助化的数据提取工具,解决实际的业务问题。

首先,面对复杂的数据资产概念,我们引入了「本地专有模型」。大语言模型通用的知识在检索和推荐方面都已经比较完善,但针对那些企业通用知识、部门/项目知识、创造性知识,比如我们所支持的游戏业务就品类众多、概念复杂,一些常规的操作可能就无法满足需求了。「本地专有模型」就可以更好地来解决这些问题,通过知识图谱、语义理解、检索、排序等技术,帮助大模型更好地理解数据资产,真正实现「数据资产不仅可以被人类理解,也可以被AI理解」的建设目标。

(专有模型技术架构)

其次,我们使用Agent多智能体架构,将一个Job(工作)分解成若干个Task(任务),这些Task一部分由人类完成,一部分由AI完成,还有一部分需要人与AI协同完成。通过需求Agent,人类提出的数据需求,AI会辅助进行需求整理、并改写成AI能够理解的格式,消除AI理解需求的歧义,确保AI交付准确的数据结果。

以新一代AI数据资产为基础,通过通用LLM模型、本地专有模型、Agent多智体架构,AI能力得到了更好的释放,在应用层面,我们可以借助AI能力实现包括资产检索、SQL编写助手、自助分析助手等在内的多种工具,降低数据的使用门槛,让数据离用户越来越近。

(系统技术架构)

而在腾讯游戏内部,我们已经落地推出了一个问答式的智能AI数据助手「uDataChat」,用户可以通过自然语言跟AI交互,让AI生成SQL,自助提取所需的业务数据。

(uDataChat在数据智能问答的应用)

未来展望

AI技术在数据工作上的应用仍有巨大的潜力,腾讯游戏团队也在不断地探索,除了通过AI生成SQL以提升数据获取效率之外,我们还在进一步尝试将「AI+湖仓一体」的能力与我们的更多工具和系统做集成,与StarRocks共同来进一步探索挖掘AI的潜力,实现用AI来重构数据的各个领域,同时也欢迎各行各业的伙伴来与我们交流这方面的技术经验。

关于StarRocks

StarRocks全球开源社区也正飞速成长。目前,StarRocks的GitHubstar数已达7900,吸引了超过330位贡献者和数十家国内外行业头部企业参与共建,用户社区也有过万人的规模。凭借其卓越的表现,StarRocks荣获了全球著名科技媒体InfoWorld颁发的2023BOSSIEAward最佳开源软件奖项。

金融:中信建投|中原银行|申万宏源|平安银行|中欧财富

游戏:腾讯游戏|波克城市|37手游|游族网络

新经济:蔚来汽车|理想汽车|顺丰|京东物流|跨越速运|大润发|华润万家|TCL|万物新生|百草味|多点DMALL|酷开科技

StarRocks技术内幕:极速湖仓神器:物化视图|存算分离,兼顾降本与增效|实时更新与极速查询如何兼得|QueryCache,一招搞定高并发|资源隔离|大数据自动管理|查询原理浅析|易用性全面提升

THE END
1.ai人工智能创作软件真的有用吗及其安全性分析在当今数字化时代,人工智能()的应用日益广泛,其中,人工智能创作软件更是成为内容创作领域的一大热点。此类软件通过算法和大数据分析,可以高效地生成文章、图片、音乐等各种形式的内容。关于人工智能创作软件的实用性及其安全性,一直是业界和客户关注的点。本文将围绕这两个疑问,实深入探讨。 https://www.yanggu.tv/webgov/aixuexi/178075.html
2.今日头条ai搬砖怎么赚钱?今日头条借助ai千文生成文章软件靠谱吗?今日头条借助ai千文生成文章软件靠谱吗?今日头条ai写作能过原创吗?随着人工智能的发展,越来越多的人开始利用AI工具进行内容创作。其中,AI千文是一款备受瞩目的写作软件,它能够帮助用户生成高质量的文章,省去繁杂的写作过程。但在使用这款软件之前,用户往往需要通过激活码兑换VIP权限。那么,如何使用激活码来兑换AI千文的https://www.jianshu.com/p/6afd4e014da7
3.[天下财经]AI辅助填报高考志愿靠谱吗?输入考生信息AI软件可即刻正在播放[天下财经]AI辅助填报高考志愿靠谱吗?输入考生信息 AI软件可即刻生成志愿“推荐列表” 《天下财经》 20240630 00:56:13 本期内容 [天下财经]深中通道今日正式通车试运营 珠江口“黄金内湾”A字型交通网络骨架再添“关键一横” 00:02:57 [天下财经]深中通道今日正式通车试运营 广东:深中通道引客来 中山https://tv.cctv.com/2024/06/30/VIDEVETnU1hVpTe16OKEEcPD240630.shtml
4.aimax生成视频靠谱吗aimax生成视频靠谱。AImax软件是一款基于人工智能技术的强大工具,它在多个领域都展现出了卓越的性能和实用性。AImax软件具备了丰富的功能,可以满足用户在不同场景下的需求。首先,它支持多种自然语言处理任务,如文本分类、情感分析、命名实体识别等,这使得AImax软件在文本处理领域具有广泛的应用前景。其次https://zhidao.baidu.com/question/187717583942252124.html
5.ai智能论文生成论文的软件ai智能论文 生成论文的软件 问:AI小微智能论文靠谱吗? 答:AI小微智能论文是一种自动化论文生成工具,可以帮助用户自动生成论文。但是,根据目前的技术水平,自动生成的论文往往存在一些问题。 首先,自动生成的论文中往往存在语言调整和逻辑不连贯等问题,这会给读者带来困扰,也严重影响论文的质量。https://www.paperes.com/article/1ddcbf3e6b926b556c83a561.html
6.ai写论文有风险吗自动生成论文软件有哪些因此,虽然AI小微智能论文可以节省论孝神文写作悄慎兄的时间和精力,但建议在撰写科研论文时,仍应该独立思考、主动查阅相关资料和模板,认真分析和总结数据,以启袭确保论文的学术可信度。 问:一键生成原创爆文用智媒ai批量写作助手靠谱? 答:键生成原创爆文AI写作软件推荐: https://www.igaichong.com/article/2a55e5ed5ba1d9f987909ca0.html
7.AI伪原创软件靠谱吗?如何使用?爱发狗AI伪原创软件靠谱吗?如何使用? 随着AI技术的发展和普及,越来越多的网站优化和SEO工具开始采用AI写作技术来生成原创文档。AI写作是利用人工智能技术进行文章创作的过程。然而,AI写作也带来了一些争议。其中一个主要问题是AI伪原创的可靠性。爱发狗AI伪原创,颠覆传统写作模式,开启智能写作时代。http://www.ifagou.com/news/2719.html
8.如何用AI做动画,有什么靠谱的AI动画软件吗–PingCodeAI不仅可以分析现有音频库,为动画自动生成或推荐音效,还可以创作与动画情节相匹配的背景音乐,提供更加丰富的听觉体验。 六、靠谱的AI动画软件 ADOBE CHARACTER ANIMATOR Adobe Character Animator 利用AI来分析表演者的面部表情和声音,实时将这些数据映射到2D动画角色上,显著提高了动画制作的效率和表现力。 https://docs.pingcode.com/ask/280005.html
9.AI视频生成器软件开发1. AI视频生成器真的靠谱吗? 当然。AI视频生成器使用的是Zui先进的深度学习算法,能够生成高质量的视频内容,已经在许多行业中得到了验证和应用。 2. 使用AI视频生成器需要具备技术背景吗? 不需要。现代的AI视频生成器,如“机西AI系统”,都设计了用户友好的界面,是没有技术背景的用户也能轻松使用。 http://hangzhou.11467.com/info/32762402.htm
10.探索LLM的多维应用优化策略与软件管理新视角网安AIGC6.5 LLM如何用于软件质量保证?How are LLMs used in software quality assurance? 测试生成 漏洞检测 测试自动化 验证 错误定位 诱导失败的测试识别 不靠谱的测试预测 6.6 LLM在软件维护中的应用How are LLMs used in software maintenance? 自动程序修复 (APR) https://blog.51cto.com/u_16651779/10476273
11.AI绘画APP骗局横行,推荐5大靠谱AI绘画软件小心AI绘画APP骗局,推荐5大知名AI绘画软件,不做被坑的韭菜!在选择AI绘画平台时,非知名企业要慎重!本篇文章将为大家介绍五个实力强大的AI绘画平台。 推荐软件一:触站AI(推荐指数:五颗星) 触站AI是中国触站旗下平台,成立5年,生成质量高、生成速度快,是首推的平台。它包括AI绘画工具、AI绘画社区、AI绘画变现赚钱https://zhuanlan.zhihu.com/p/636133637
12.免费的ai生成视频软件免费的ai生成视频软件有哪些软件介绍: 视频生成app是一款完全免费技术专业实用的手机软件,视频字幕生成app覆盖了各种各样人字梯和色调,丰富多彩,素材内容齐备,可以免费试用。 以上就是小编根据免费的ai生成视频软件,给您推荐的几款软件,希望符合您的要求。更多靠谱软件可以在多特下载站进搜索下载。<https://www.duote.com/tech/rjxz/401266.html
13.ai绘画生成软件哪个好电脑ai绘画软件哪个好用 ◎ ai绘画大师好用吗 ◎ 专业ai绘画软件有哪些 ◎ 人工智能ai绘画软件有哪些?哪个好 ◎ 真人照片ai绘画软件哪个好 ◎ ai生成二次元人物软件 ◎ ai代替平面设计师 ◎ ai出设计平面图的软件 ◎ ai已经代替平面设计师 ◎ al平面设计软件 ◎ 原画师单干月薪多少 ◎ 大专学原画插画报什么专https://wap.hxsd.com/wenda/67826/
14.AI论文是造假的吗?自动生成论文软件ai写的论文会有造假的事实吗AI论文并不是完全的造假,而是使用人工智能技术来辅助论文的撰写和生成。这些工具可以根据用户提供的信息和要求,自动生成符合语法和表达习惯的文本,从而节省用户的时间和精力。 自动生成论文的软件是一种基于人工智能技术的写作辅助工具,可以帮助用户快速生成高质量的论文初稿。这些软件通常具有智能化的排版和格式调整功能,可https://blog.csdn.net/Xielaobanyahei/article/details/135722503
15.ai智能软件下载ai智能app推荐ai智能软件是现在非常火爆的手机软件,可以智能的为我们做很多事情,也可以直接生成很多东西,比如ai智能写作、ai智能剪辑、ai智能问答、ai智能写论文等一系列AI系列软件,其中最热门的还是AI自动生成绘画软件,可以帮助我们把自己的照片直接动漫化,让我们看到二次元里自己的形象,拥有打破次元壁的功能,非常的受到欢迎,下面http://www.downcc.com/k/aizhinen/
16.ai创作免费软件ai创作平台好用的ai创作软件下载Android其他软件 推荐理由:AI创作家app官方版是一个非常好用的手机AI生成工具,通过软件可以进行AI写作,智能写诗,多种功能非常强大,可以快速一键生成,使用相当方便,有需要的小伙伴快来下载试试吧! 下载 文案宝app最新版v1.6.1 安卓版 2024-01-1036.7M http://www.qqtf.com/k/aiczrj/
17.甄嬛传变枪战片孙悟空骑摩托,广电总局剑指AI魔改视频“小作坊下料就是猛”“手机一天天像吃了菌子一样”,这是今年以来,网友对社交平台上一大批AI生成视频的评价。随着“中国版Sora”的快速崛起,不少网友利用文生视频工具,将《甄嬛传》变身“枪战片”,《红楼梦》改成“武打戏”,让孙悟空骑着摩托车扬长而去12月8日,广电总局网络视听司发布《管理提示( AI魔http://m.magvnaz.cn/PUX/moa/tXgTR.html
18.意间ai绘画如何使用?意间ai绘画使用方法教程手机软件软件教程意间ai绘画软件是当下一款非常热门的ai绘画生成软件,软件的功能十分的强大,能够根据用户们不同的需求生成出优美的画作,下面来看看怎么去使用吧 GPT4.0+Midjourney绘画+国内大模型 会员永久免费使用! 【如果你想靠AI翻身,你先需要一个靠谱的工具!】 意间ai绘画很多小伙伴们都有听说过这款软件,不过很多人不知道如何https://www.jb51.net/softjc/856634.html
19.学费一天一万AIGC培训靠谱吗?学费一天一万 AIGC培训靠谱吗? 图据视觉中国 (图文无关) 名词解释 AIGC是指利用基础生成算法模型、预训练模型以及跨模态学习模型等Al技术,通过对既有数据的学习和发散,基于与人类交互所确定的主题,由AI算法模型完全自主、自动生成对应内容,从而帮助互联网、传媒、电商、影视、娱乐等行业进行文本、图像、音视频、代码https://e.chengdu.cn/html/2023-05/23/content_755936.htm
20.AI填报高考志愿,靠谱吗?河北某高中高三年级班主任何老师介绍,高考填报志愿专业性非常强,不仅要结合当地政策和专业录取数据,还要考虑到考生和家长的不同选择,多方面综合考虑,才能给出一个全面的、专业的推荐。同时,考生也要更深入地了解个人潜能,做出准确判断,这是这些所谓的AI志愿填报软件所无法取代的。 https://moment.rednet.cn/content/2022/06/24/11423485.html