ChatGPT与大模型技术 ADL138开始报名ADL动态

CCF学科前沿讲习班ADL138《ChatGPT与大模型技术》,将对大规模基础模型的最新进展和特性进行深入浅出的讲解,从技术原理、基础理论、网络架构、高效计算、参数高效微调、可控生成、安全伦理、跨模态、认知学习、工具学习和创新应用等方面,为听众系统介绍大规模基础模型的关键技术和前沿课题。相信学员经过本次讲习班,能够深入了解大规模基础模型的基础知识、主要挑战和应用场景,开阔科研视野,增强实践能力。

本期ADL讲习班邀请了12位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。第一天,刘知远、林衍凯、邱锡鹏、张伟男等将分别讲解大模型整体情况、基本知识、基础理论和模型创新框架。第二天,韩旭、丁宁、何俊贤、桂韬等将介绍大模型高效计算框架、高效微调技术、可控生成技术和安全伦理问题。第三天,董力、东昱晓、秦禹嘉、王业全等将介绍大模型的多模态建模、认知学习、工具学习和创新应用等课题。通过三天教学,旨在带领学员实现对大模型技术从基础技术到前沿动态再到创新应用场景的深入学习与思考。

学术主任:刘知远副教授清华大学/邱锡鹏教授复旦大学

主办单位:中国计算机学会

本期ADL主题《ChatGPT与大模型技术》,由CCF高级会员、清华大学刘知远副教授和复旦大学邱锡鹏教授担任学术主任,邀请到张伟男(哈尔滨工业大学)、东昱晓(清华大学)、董力(微软亚洲研究院)、王业全(北京智源人工智能研究院)、何俊贤(上海交通大学)、林衍凯(中国人民大学)、桂韬(复旦大学)、韩旭(清华大学)、丁宁(清华大学)、秦禹嘉(清华大学)等12位专家做专题讲座。

01

活动日程:

技术原理、基础理论、网络架构、高效计算、参数高效微调、可控生成、安全伦理、跨模态、认知学习、工具学习、以及创新应用。

2023年5月26日(周五)

09:00-09:10

开班仪式

09:10-09:20

全体合影

09:20-10:00

专题讲座1:人工智能的大模型技术范式

刘知远,副教授,清华大学

10:00-12:00

专题讲座2:基础模型的基本知识与原理

林衍凯,助理教授,中国人民大学

12:00-13:30

午餐

13:30-15:00

专题讲座3:基础模型的创新网络架构

邱锡鹏,教授,复旦大学

颜航,博士生,复旦大学

15:00-15:30

交流+休息

15:30-17:00

专题讲座4:基础模型的可控生成

张伟男,教授,哈尔滨工业大学

2023年5月27日(周六)

09:00-10:30

专题讲座5:基础模型的高效计算框架

韩旭,助理研究员,清华大学

10:30-12:00

专题讲座6:基础模型的参数高效微调

丁宁,助理研究员,清华大学

专题讲座7:基础模型的基础理论

何俊贤,助理教授,上海交通大学

专题讲座8:基础模型的安全伦理

桂韬,副研究员,复旦大学

2023年5月28日(周日)

专题讲座9:跨模态基础模型

董力,微软亚洲研究院

专题讲座10:从千亿模型GLM-130B到ChatGLM的一点尝试

东昱晓,助理教授,清华大学

专题讲座11:基础模型工具学习

秦禹嘉,博士生,清华大学

专题讲座12:基础模型创新应用

王业全,研究员,北京智源人工智能研究院

02

特邀讲者

刘知远副教授

清华大学

报告题目:人工智能的大模型技术范式

林衍凯助理教授

中国人民大学

讲者简介:林衍凯,中国人民大学高瓴人工智能学院准聘助理教授。2014年和2019年分别获得清华大学学士和博士学位。主要研究方向为预训练模型、自然语言处理。曾在ACL、EMNLP、NAACL、AAAI、IJCAI、NeurIPS等自然语言处理和人工智能顶级国际会议上发表论文40余篇,GoogleScholar统计被引用次数(至2023年2月)达到8000余次。其知识指导的自然语言处理研究成果获评教育部自然科学一等奖(项目名《结构化知识表示学习方法》,第三完成人)和世界互联网领先成果(项目名《大规模知识图表示学习的体系化基础算法及开源工具》,第三完成人)。

报告题目:基础模型的基础知识与原理

报告摘要:2022年底,OpenAI公司发布了大规模对话模型ChatGPT,能够与用户进行对话交互并根据用户的输入指令完成各种类型的自然语言处理任务,展现出了以大规模基础模型为基底构建通用人工智能的潜在可行性。本报告主要介绍基础模型的基础知识和原理,从技术的角度剖析大规模基础模型是如何一步步演化出其强大的意图理解能力、推理能力,以及丰富的世界知识,并从模型架构、预训练方法和适配方法等方面对其进行详细介绍。

邱锡鹏教授

复旦大学

讲者简介:邱锡鹏,复旦大学计算机学院教授,担任中国中文信息学会理事、上海市计算机学会自然语言处理专委会主任等,主要研究方向为自然语言处理基础技术和基础模型,发表CCFA/B类论文80余篇,被引用1万余次,入选“爱思唯尔2022中国高被引学者”。获得ACL2017杰出论文奖(CCFA类)、CCL2019最佳论文奖、《中国科学:技术科学》2021年度高影响力论文奖,有5篇论文入选ACL/EMNLP等会议的最有影响力论文,主持开发了开源框架FudanNLP和FastNLP,已被国内外数百家单位使用,发布了MOSS、CPT、BART-Chinese等中文预训练模型,在中文模型中下载量排名前列。曾获中国科协青年人才托举工程项目、国家优青项目、科技创新2030“新一代人工智能”重大项目课题等,2020年获第四届上海高校青年教师教学竞赛优等奖,2021年获首届上海市计算机学会教学成果奖一等奖(第一完成人),2022年获钱伟长中文信息处理科学技术奖一等奖(第一完成人)。

颜航博士生

讲者简介:颜航,复旦大学计算机学院博士生,导师为邱锡鹏教授。研究兴趣包括信息抽取、开源NLP工具建设、大规模预训练模型等。开源平台OpenLMLab主要贡献者,设计并开发了fastNLP、fitlog等开源工具。在ACL、TACL、EMNLP、NAACL等会议或杂志上发表了多篇论文,2022年获钱伟长中文信息处理科学技术奖一等奖。

报告题目:基础模型的创新网络架构

张伟男教授

哈尔滨工业大学

讲者简介:张伟男,教授/博士生导师,哈尔滨工业大学计算机学院院长助理,黑龙江省中文信息处理重点实验室副主任,国家重点研发计划项目负责人。研究兴趣包括自然语言处理及人机对话。在ACL、AAAI、WWW、IJCAI、IEEETKDE、ACMTOIS等CCFA类国际会议及国际顶级期刊发表论文多篇,多次担任ACL、EMNLP领域主席。目前为中国中文信息学会青年工作委员会副主任,中国计算机学会(CCF)术语审定工作委员会执委、CCF哈尔滨分部秘书长,中国人工智能学会教育工作委员会副秘书长,北京智源青源会会员。曾获黑龙江省科技进步一等奖、吴文俊人工智能科技进步二等奖及黑龙江省青年科技奖等。

报告题目:基础模型的可控生成

韩旭助理研究员

报告题目:基础模型的高效计算框架

报告摘要:最近几年里,拥有百亿、千亿参数的大规模基础模型在各类人工智能任务上取得了显著的性能提升,但其规模庞大的参数在计算与存储上始终困扰着研究人员。本报告着重介绍面向大规模基础模型的高效计算框架及计算加速技术,助力研究人员能够以较低的计算资源进行基础大模型的训练与推理。

丁宁助理研究员

报告题目:基础模型的参数高效微调

何俊贤助理教授

上海交通大学

报告题目:基础模型的基础理论

报告摘要:本报告将从模型缩放(scaling)和模型演化(evolution)两个方面介绍基础模型的基础理论和开发路线。从模型缩放的角度,我们将介绍基础模型的缩放法则和其中的涌现能力,以及如何合理利用缩放法则帮助模型由小到大的开发。从模型演化的角度,我们将介绍大规模预训练、指令微调、基于人类反馈的强化学习这一阶段性演化路线以及其中涉及的关键要素和最新进展,包括如何配比预训练数据、模型大小和算力达到最优训练效率,如何进行高效且有效的指令微调,如何与人类对齐等。

桂韬副研究员

讲者简介:桂韬,复旦大学自然语言处理实验室副研究员、硕士生导师。研究领域为预训练模型、信息抽取和鲁棒模型。在高水平国际学术期刊和会议上发表了40余篇论文,主持国家自然科学基金、计算机学会、人工智能学会多个基金项目。曾获钱伟长中文信息处理科学技术奖一等奖(2/5)、中国中文信息学会优秀博士论文奖、COLING2018最佳论文提名奖、NLPCC2019亮点论文奖,入选第七届“中国科协青年人才托举工程”、上海市启明星计划。

报告题目:基础模型的安全伦理

报告摘要:随着基础模型的兴起,NLP正在经历模型范式“同质化”的转变,如今,NLP领域几乎所有的SOTA模型都是少数几个基于Transformer的大模型进化而来。而且,这种趋势正在向图像、语音、蛋白质序列预测、强化学习等多个领域蔓延。整个AI社区似乎出现了一种大一统的趋势。这种同质化也带来了一些隐患,因为基础模型的鲁棒性、可解释性、公平性、隐私性缺陷也会被所有下游模型所继承。本报告将介绍基础模型的安全伦理风险以及带来的社会影响,探讨缓解安全伦理问题的可行方案。

董力研究员

微软亚洲研究院

报告题目:跨模态基础模型

东昱晓助理教授

报告题目:从千亿模型GLM-130B到ChatGLM的一点尝试

秦禹嘉博士生

讲者简介:秦禹嘉,男,清华大学计算机系2020级直博生。本科毕业于清华大学电子工程系。主要研究方向为大规模语言模型的高效预训练与下游智能化应用,曾在ACL、NAACL、EMNLP、ICLR、NeurIPS、NatureMachineIntelligence、TASLP等会议/期刊发表多篇一作/共同一作论文,曾获腾讯犀牛鸟精英计划一等奖。

报告题目:基础模型工具学习

报告摘要:发明和利用工具是人类文明的一个重要特征,将工具与人工智能系统集成已成为实现通用人工智能的关键。本工作探讨了工具学习(toollearning)的范式,这种范式结合了工具和基础大模型的优势,从而能够实现更加智能地使用工具解决特定任务。我们首先探讨了人类历史上工具使用的认知起源和基础模型带来的范式转变,并回顾了现有工具学习研究。其次,我们提出了一个通用的工具学习框架,讨论了其中重要的研究课题,例如工具的封装和理解、如何让模型理解用户意图操纵工具等。为了促进这一领域的研究,我们建立了一个交互式工具学习平台,并评估了ChatGPT和GPT-3.5的工具使用能力。最后,我们将讨论工具学习的广泛影响,包括安全、个性化和具身学习等。我们的工作旨在激发进一步研究,将工具与基础模型集成起来,为人类和机器协同工作的未来铺平道路。

王业全研究员

北京智源人工智能研究院

讲者简介:王业全,北京智源人工智能研究院认知模型与数据团队负责人,清华大学博士,中国中文信息学会情感计算专委会委员,2022年被评为AI2000全球最具影响力人工智能学者(自然语言处理领域)。近年来,主要从事语言大模型、自然语言处理方面的研究工作。在国际顶级会议发表多项研究成果,在情感分析领域具有广泛的学术影响力,谷歌学术引用超过2,300次。有两大研究成果(EMNLP2016:Attention-basedLSTMForAspect-levelSentimentClassification;WWW2018:SentimentAnalysisByCapsules)被PAPERDIGEST评为最具影响力论文,同时多次入选谷歌学术刊物指标榜单。

报告题目:基础模型创新应用

报告摘要:基础模型已经在语言、视觉和多模态等领域获得了极大的成功,尤其以GPT4和ChatGPT为典范。北京智源人工智能研究院研发了以悟道2.0为代表的系列大模型,并产生了显著的影响力。本报告主要包含基础模型的创新应用和研发方面的探讨。

03

学术主任

邱锡鹏,复旦大学计算机学院教授,担任中国中文信息学会理事、上海市计算机学会自然语言处理专委会主任等,主要研究方向为自然语言处理基础技术和基础模型,发表CCFA/B类论文80余篇,被引用1万余次,入选“爱思唯尔2022中国高被引学者”。获得ACL2017杰出论文奖(CCFA类)、CCL2019最佳论文奖、《中国科学:技术科学》2021年度高影响力论文奖,有5篇论文入选ACL/EMNLP等会议的最有影响力论文,主持开发了开源框架FudanNLP和FastNLP,已被国内外数百家单位使用,发布了MOSS、CPT、BART-Chinese等中文预训练模型,在中文模型中下载量排名前列。曾获中国科协青年人才托举工程项目、国家优青项目、科技创新2030“新一代人工智能”重大项目课题等,2020年获第四届上海高校青年教师教学竞赛优等奖,2021年获首届上海市计算机学会教学成果奖一等奖(第一完成人),2022年获钱伟长中文信息处理科学技术奖一等奖(第一完成人)。

地址:北京中科院计算所一层报告厅(北京市海淀区中关村科学院南路6号)

乘坐北京地铁10号线到“知春里站”下车出A口,步行10分钟即到。

报名须知:

1、报名费:CCF会员2800元,非会员3600元。食宿交通(费用)自理。根据交费先后顺序,会员优先的原则录取,额满为止。应部分学员的要求,本期ADL线上同步举办,线上线下报名注册费用相同。线上会议室号和密码将在会前3天通过邮件发送。

缴费方式:

在报名系统中在线缴费或者通过银行转账:

银行转账(支持网银、支付宝):

开户行:招商银行北京海淀支行

户名:中国计算机学会

账号:110943026510701

请务必注明:ADL138+姓名

报名缴费后,报名系统中显示缴费完成,即为报名成功,不再另行通知。

THE END
1.ChatGPT与GPT3的区别与优势gpt3chatgpt当前,大模型的研究处于快速迭代和发展之中,不仅在学术界,在工业界也得到了广泛应用。GPT-3和ChatGPT是这一趋势下的重要里程碑,展示了模型参数量与任务表现之间的紧密关系。 1.3 研究意义 深入理解GPT-3与ChatGPT的区别及其优势对于推进自然语言处理技术的发展具有重要意义。这些模型的出现不仅提升了现有任务的解决效率https://blog.csdn.net/universsky2015/article/details/140028578
2.ChatGPT技术原理ChatGPT是由GPTChatGPT技术原理 ChatGPT 是由 GPT-3 迭代来的,原有的 GPT-3 可能难以从文本中学会一些,这就导致了 GPT-3 这样的语言模型,。Cha 来源于CSDN博主 Runjavagohttp://t.cn/A6OjShjz 的博客http://t.cn/A6OjShjhhttps://weibo.com/1764241425/Nkh1r5viV
3.一招鉴别真假ChatGPT,简述ChatGPTGPTGPT2和GPT3GPT-3是一种自然语言生成模型,它是目前规模最大的预训练模型之一,可以生成高质量的自然语言文本,包括文章、诗歌、对话等。GPT-3的模型规模比ChatGPT大得多,拥有13亿甚至更多的参数,因此它的生成质量和多样性比ChatGPT更高。GPT-3还支持一些其他的自然语言任务,例如翻译、问答、语义搜索等。 http://www.360doc.com/content/23/0319/10/26635931_1072648229.shtml
4.chatgpt接口请求参数详解GPTAPI和ChatGPTAPI(即GPTGPT-3 API:必选参数为model,prompt可选(参见documentation) ChatGPT API(即GPT-3.5 API):所需的参数是model和messages(参见documentation) 在使用ChatGPT API(即GPT-3.5 API)时可以看到: prompt参数甚至不是一个有效的参数,因为它被messages参数替换。 https://juejin.cn/post/7249397451054940197
5.解析ChatGPT背后的技术演进GPT-1、GPT-2和GPT-3的训练数据和参数量级对比 3.4 ChatGPT OpenAI公司在GPT-3与ChatGPT之间发布了多个迭代版本,其中包括:2021年7月推出了Codex系列;2022年1月,引入RLHF(基于人工反馈的强化学习)得到了InstructGPT;2022下半年,推出了融合Codex和InstructGPT的ChatGPT,使用了基于人类反馈的强化学习的版本指令微调模型https://www.51cto.com/article/768469.html
6.ChatGPT原理理解和结构解读(2)加载预训练模型:将预训练的ChatGPT模型加载到内存中,并根据任务需求调整模型的超参数。 (3)设置微调模型:根据具体任务,对预训练模型进行微调,并设置成本函数或风险函数。 (4)训练模型:使用训练集对微调模型进行训练,并根据验证集的表现调整模型参数。 https://www.jianshu.com/p/0628b1bd2c48
7.一文读懂ChatGPT的前世今生行业动态新闻中心#8 GPT-3 2020年5月,OpenAI发表了一篇论文:Language Models are Few-Shot Learners (语言模型是小样本学习者)。 31位作者、75页、320万token、1750亿参数、数据集45TB,训练花了3640pfs-day,训练一次的费用保守估计是460万美元,总训练成本估计达到了1200 万美元。暴力出奇迹。此时微软已经投资OpenAI(2019年投了10https://www.ulucu.com/news/industry/what-is-chatgpt
8.ChatGPTNextWebPro:基于chatgptnext1.Midjourney,该功能基于ChatGPT-Midjourney,使用antd进行了完全的重构,界面更加合理,参数更加全面。 2.Stable-Diffussion,支持lora模型,文生图、图生图、后期处理、图片信息,近乎完整的参数设置,以及图片完成后的功能按钮。 3.Dall-E-3,兼容dall-e-2,需要配置文件上传和存储功能,因为openai返回的链接有效期很短,过https://gitee.com/vual/ChatGPT-Next-Web-Pro
9.chatgpt本地部署最低配置本地部署ChatGPT(Chat Generative Pre-trained Transformer)是指将ChatGPT模型部署到本地计算机上,使得用户可以在本地使用ChatGPT进行对话生成。本地部署具有一些优势,例如可以减少网络延迟、保护用户隐私,同时也可以在离线环境中使用。由于ChatGPT模型具有大量的参数和计算要求,合适的电脑配置是必要的。 http://chatgpt.cmpy.cn/article/2351568.html
10.GitHubademzhang/ChatGPTNextWebPro:基于chatgptnext1.Midjourney,该功能基于ChatGPT-Midjourney,使用antd进行了完全的重构,界面更加合理,参数更加全面。 2.Stable-Diffussion,支持lora模型,文生图、图生图、后期处理、图片信息,近乎完整的参数设置,以及图片完成后的功能按钮。 3.Dall-E-3,兼容dall-e-2,需要配置文件上传和存储功能,因为openai返回的链接有效期很短,过https://github.com/ademzhang/ChatGPT-Next-Web-Pro
11.是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现搞清楚这些问题其实非常重要,短期的意义是,多大的模型规模是合适的?根据Chinchilla的论文,你可以对比在GPT-3的1750亿参数中,可能是有不少冗余的,如果更小的模型也可以出现能力涌现,这也许能削减训练成本。 长期的意义在于,AI目前还是在线上,但迟早会与物理世界连接,你可以想象一个基于GPT-10的ChatGPT与波士顿动力或者https://36kr.com/p/2210585582301824
12.如何免费使用GPT4或ChatGPT4(2)进入GPT-4插件页面,点击Click to Create an Instance创建实例。 (3)按需填充相关参数配置,貌似使用默认的OpenAI的key无法使用,可能需要填写自己的key。完成参数填写点击Create即可使用ChatGPT聊天。 5. 在nat.dev上免费使用ChatGPT-4 nat.dev支持邮箱注册或者使用Google账号登录。曾经免费的nat.dev,现在也扛不住https://www.wbolt.com/how-to-use-gpt-4-free.html
13.ChatGPT兴起,创成式AI能否重塑工具软件底层逻辑?在ChatGPT推出之后,微软计划对OpenAI追加100亿美元投资并在旗下搜索、办公软件中探索融合应用场景。由于ChatGPT显现出的巨大应用潜力与可能性,全球广大应用厂商也均开始积极尝试接入OpenAI的技术接口,以期AI与其现有产品能够产生新的化学反应。国内市场亦快速跟进,百度宣布旗下对标产品文心一言将于3月完成内测、面向公众https://news.futunn.com/post/24629911?futusource=news_newspage_recommend
14.快科技资讯2023年02月14日Blog版资讯中心同时,在大模型的框架下,ChatGPT所使用的GPT模型,每一代参数量均高速扩张,预训练的数据量需求和成本亦快速提升。 国盛证券计算机分析师刘高畅、杨然在发表于2月12日的报告《Chatgpt 需要多少算力》中估算,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM模型,训练成本介于200万美元至1200万美元之间。 https://news.mydrivers.com/blog/20230214.htm
15.chatgpt说它有上千亿的参数,是什么意思?简介:chatgpt说它有上千亿的参数,是什么意思? 最近在捣鼓深度学习,今天突然开窍,对于大模型、上千亿参数的理解顿悟了,所以才有了这篇文章。 一个通俗易懂的模型举例 先用一个最简单的例子来说明,例如身高和体重之间是有一定对应的关系的。 如果我们有了非常多身高与体重对应关系的数据,我们就可以运用这些数据得到https://developer.aliyun.com/article/1228733
16.人人看得懂的ChatGPT技术原理解析这是对支撑ChatGPT工作的机器学习模型的一段简略的介绍:以大型语言模型为基础,然后深入研究使GPT-3能够被训练的自注意力机制,再从人类的反馈中进行强化学习,这就是使ChatGPT与众不同的新技术。 大型语言模型 Large Language Models ChatGPT是一种机器学习自然语言处理模型的扩展,称为大语言模型(LLMs)。LLMs能够读https://blog.itpub.net/70018536/viewspace-2937077/