AIGC实战——自回归模型(AutoregressiveModel)

0.前言1.长短期记忆网络基本原理2.Recipes数据集3.处理文本数据3.1文本与图像数据处理的差异3.2文本数据处理步骤4.构建LSTM模型4.1模型架构4.2LSTM计算流程4.3训练LSTM5.LSTM模型分析小结系列链接

自回归模型(AutoregressiveModel)通过将生成问题视为一个序列过程来简化生成模型。自回归模型将预测条件建立在序列中的先前值上,而不是一个以随机潜变量为条件。因此,自回归模型尝试对数据生成分布进行显式建模,而不是尝试近似数据分布。在本节中,将介绍一类经典的自回归模型,长短期记忆网络(LongShort-TermMemoryNetwork,LSTM),并将LSTM应用于生成文本数据。

加载并过滤数据,以便只保留具有标题和描述的菜谱配方:

#加载并过滤数据withopen("./data/full_format_recipes.json")asjson_data:recipe_data=json.load(json_data)filtered_data=["Recipefor"+x["title"]+"|"+"".join(x["directions"])forxinrecipe_dataif"title"inxandx["title"]isnotNoneand"directions"inxandx["directions"]isnotNone]数据集中示例样本如下所示:

在使用Keras构建LSTM网络之前,我们首先需要了解文本数据的结构以及它与图像数据的不同之处。

文本和图像数据之间的差异性导致许多适用于图像数据的方法并不适用于文本数据:

接下来,我们介绍需要采取哪些步骤以使文本数据适合训练LSTM网络。

第一步是清理文本,并将文本转化为符号(token),分词(Tokenization)就是将文本分割成单独的符号(例如单词或字符)的过程。如何对文本进行分词取决于文本生成模型需要实现的目标。使用单词符号和字符符号都各有利弊,不同的选择选择会影响建模之前所需的文本清理方式以及模型输出。如果使用单词符号:

如果使用字符符号:

在本节中,我们使用小写单词分词,且不进行词干提取。我们还将标点符号转换为符号,因为我们希望模型能够预测句子的结束或使用逗号等标点符号:

在下图中,可以看到一部分符号的列表,并将它们映射到各自的索引,在本节中,填充符号同样使用0符号(即停止标记),并将不在词汇表(频率最高的前10,000个单词)中的未知单词标记为符号1。其他单词按频率顺序分配符号,词汇表中包含的单词数量也是训练过程的一个超参数,词汇表中包含的单词越多,文本中出现的未知符号越少,但模型规模也将更大以容纳更大规模的词汇表。

LSTM网络经过训练后,可以根据给定的单词序列预测序列中的下一个单词。例如,我们可以将“grilledchickenwithboiled”的对应的符号输入模型,模型应当能够输出恰当的下一个单词(例如potatoes,而不是bananas)。因此,我们只需将整个序列向后移动一个符号,就可以创建目标变量:

defprepare_inputs(text):text=tf.expand_dims(text,-1)tokenized_sentences=vectorize_layer(text)x=tokenized_sentences[:,:-1]y=tokenized_sentences[:,1:]returnx,y#创建训练集,其包含食谱符号(输入)和向后移动一个符号的相同食谱符号(目标变量)train_ds=text_ds.map(prepare_inputs)4.构建LSTM模型4.1模型架构LSTM模型的整体架构下图所示,模型的输入是整数符号序列,输出是词汇表中每个单词出现在序列下一个位置的概率。为了详细了解其工作原理,我们需要介绍两种新的层类型,Embedding和LSTM。

需要注意的是,输入层不需要提前指定序列长度。批大小和序列长度都是灵活的(因此形状为(None,None)),这是因为所有下游层与传递的序列长度是无关的。

嵌入层嵌入层(EmbeddingLayer)本质上是一个查找表,将每个符号转换为长度为embedding_size的向量,如下图所示。查找向量由模型作为权重进行学习。因此,该层学习的权重数量等于词汇表大小乘以嵌入向量的维度(即10,000×100=1,000,000)。

我们将每个符号嵌入到连续的向量中,使得模型能够学习每个单词的表示,且这个表示可以通过反向传播进行更新。我们也可以只对每个输入标记进行独热编码,但使用嵌入层效果更好,因为嵌入本身可训练,从而使模型更具灵活性。因此,输入层将形状为[batch_size,seq_length]的整数序列张量传递给嵌入层,嵌入层输出形状为[batch_size,seq_length,embedding_size]的张量,然后将其传递给LSTM层。

为了详细说明,我们继续深入此过程。观察序列通过该层的过程。

隐藏状态通过以下六个步骤进行更新:

构建、编译并训练LSTM:

编译并训练LSTM模型后,可以使用该模型生成长文本字符串:

神经网络会输出一组可供采样的每个单词的概率分布,并从中进行采样。因此,此文本生成过程是随机性的,而不是确定性。此外,我们还可以引入一个温度参数来调整采样过程的确定性程度。

温度参数当温度参数接近0时,采样过程更加确定性(即最高概率的单词最有可能被选择),而温度参数为1意味着每个单词都按模型输出的概率进行选择。

创建一个回调函数,以用于在每个训练epoch结束时生成文本:

关于这两个段落需要注意以下几点。首先,它们在风格上都与原始训练集中的食谱相似。它们都以一个食谱标题开头,并包含正确的语法结构。区别在于,在温度参数为1.0的情况下生成的文本更加大胆,因此比温度参数为0.2的生成结果准确性较差。使用温度参数为1.0生成多个样本会生成多个不同结果,因为模型是从具有更大方差的概率分布中进行采样。为了证明这一点,下图展示了对于各种序列来说,下一个出现概率最高的前5个单词。

该模型能够在多个上下文中生成下一个最可能出现的单词的分布。例如,即使我们从未告知模型有关名词、动词、形容词和介词等词性的信息,通常它也能够将单词按照词性分类,而且还能按照正确的语法使用这些单词。此外,模型能够根据给定标题选择一个合适的动词作为食谱说明的开头。对于烤蔬菜,它最有可能选择的动词可能是预热、准备、加热、放置或混合,而对于冰淇淋,它最有可能选择的动词可能是添加、混合、搅拌和混合。这表明模型具有一定能力的上下文理解能力,能够根据配料区分食谱之间的差异。同时还需要注意,在温度参数为0.2的生成示例中,更倾向于选择概率较高的单词,这就是为什么当温度参数较低时,生成的多样性通常较小的原因。虽然基本LSTM模型在生成逼真文本方面有较好性能,但显然它仍然难以理解所生成词汇的一些语义含义。例如,引入了不太可能搭配在一起的配料(例如,酸味的日式土豆、核桃屑和水果冰)。在某些情况下,这可能是有趣的,例如,希望LSTM生成有趣而独特的词语组合,但在大多数情况下,我们需要模型对单词的分组方式有更深入的理解。

在本节中,我们使用Keras构建了自回归模型——长短期记忆网络(LongShort-TermMemoryNetwork,LSTM),用于生成逼真的食谱文本,并了解如何通过调整采样过程的温度参数来增加或减少输出的随机性。

AIGC实战——生成模型简介AIGC实战——深度学习(DeepLearning,DL)AIGC实战——卷积神经网络(ConvolutionalNeuralNetwork,CNN)AIGC实战——自编码器(Autoencoder)AIGC实战——变分自编码器(VariationalAutoencoder,VAE)AIGC实战——使用变分自编码器生成面部图像AIGC实战——生成对抗网络(GenerativeAdversarialNetwork,GAN)AIGC实战——WGAN(WassersteinGAN)AIGC实战——条件生成对抗网络(ConditionalGenerativeAdversarialNet,CGAN)

THE END
1.python毕设食品营养搭配系统49by3.程序+论文本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。 系统程序文件列表 开题报告内容 研究背景 随着生活水平的提高和健康意识的增强,人们对饮食的需求已经从单纯的饱腹转变为追求营养均衡和合理搭配。然而,在实际生活中,很多人对食品的营养成分和搭配原则了解不足,导致饮食https://blog.csdn.net/sheji714/article/details/144074605
2.食谱大全app哪个好?食谱大全app排行榜食谱大全app下载食谱大全app今天小编给大家带来了一些帮助大家做菜的小能,想做什么菜都可以在这些app中找寻找,涵盖了各样的菜谱,无论是煎炸烹炒样样都有。有的注重减肥,所以对于运动人来说可以选择减肥的食谱大全。还有的专门为儿童设置的健康菜谱大全app,以及有的app针对不同人群而设计,你可以根据自身来找寻合适自己的食谱大全。http://www.downcc.com/k/shipudaquanapp/
3.基于饮食知识图谱的食谱推荐系统的设计与实现为了满足人们在食谱个性化推荐方面的需求、解决当前食谱个性化推荐系统匮乏的问题,并充分利用知识图谱在改善个性化推荐方面的优势,本文对基于知识图谱的食谱个性化推荐展开了研究。主要工作如下:(1)利用从美食杰网站爬取的用户收藏的食谱数据、用户发布的食谱数据、用户制作的食谱数据,构建了用户-食谱偏好数据集。对饮食知识https://cdmd.cnki.com.cn/Article/CDMD-10286-1020801461.htm
4.计算机毕业设计之PyTroch+Spark+LSTM美食推荐系统食谱推荐系统数据库:mysql 数据分析:Spark 机器学习:PyTroch(基于神经网络的混合CF推荐算法)、协同过滤算法(基于用户、基于物品全部实现)、lstm评论情感分析 第三方平台:支付宝沙箱支付、百度AI图片识别、短信接口 数据集:Scrapy爬虫框架(Python) 创新点 Spark大屏、爬虫、协同过滤推荐算法、PyTroch神经网络推荐算法、AI识别、短信、支https://www.jianshu.com/p/9bce5d0a6809
5.域数据集组入门(控制台)在本练习中,您将使用 Amazon Personalize 控制台创建域数据集组和推荐器,以便为给定用户返回电影推荐。 在开始本练习之前,请查看入门先决条件。 完成入门练习后,为避免产生不必要的费用,请删除您创建的资源。有关更多信息,请参阅删除 Amazon Personalize 资源的要求。 https://docs.aws.amazon.com/zh_cn/personalize/latest/dg/getting-started-console-domain.html
6.今日食谱明日方舟WIKIBWIKI试验数据集 调律追忆 乐之节符 怒之节符 哀之节符 惧之节符 驮兽盲盒 辣瓶树水 繁荣点数 天桩(材料) 艺术馆集章卡 粗制糖块 急性感染抑制剂 参赛纪念 “应急物资”蓝图芯片 炉渣 魂灵书签 流光之沙 “探索者”兑换点数 今日食谱 胜绩积分 “我反对!” 匿名邀请函 卫戍认证 黑曜石节抽奖代币 汐斯塔的黑https://wiki.biligame.com/arknights/%E4%BB%8A%E6%97%A5%E9%A3%9F%E8%B0%B1
7.今日食谱PRTS试验数据集 调律追忆 驮兽盲盒 辣瓶树水 天桩 繁荣点数 艺术馆集章卡 粗制糖块 急性感染抑制剂 参赛纪念 “应急物资”蓝图芯片 炉渣 魂灵书签 散佚迷思 流光之沙 “探索者”兑换点数 今日食谱 胜绩积分 “我反对!” 匿名邀请函 卫戍认证 赏金猎人金币 黑曜石节手环 黑曜石节门票 汐斯塔的黑曜石 黑曜石节抽https://prts.wiki/w/%E4%BB%8A%E6%97%A5%E9%A3%9F%E8%B0%B1
8.尼格罗尼鸡尾酒苦味,杜松子酒,苦味,冰栏食谱酒精饮料库存图片尼格罗尼鸡尾酒 苦酒,杜松子酒,味酒吧 照片 关于 投反对票, 校正, 生气勃勃, 液体, 黑暗, 塑造, 玻璃, 新鲜, 打赌的人, 背包, 困难, 饮料, 柑橘, 欢乐, 多维数据集, 马蒂尼鸡尾酒, 汁液, 冷静, 橙色, 杜松子酒, 时数, 烤肉, 豪华, 鸡尾酒, 对象, https://cn.dreamstime.com/%E5%B0%BC%E6%A0%BC%E7%BD%97%E5%B0%BC%E9%B8%A1%E5%B0%BE%E9%85%92-%E8%8B%A6%E5%91%B3%EF%BC%8C%E6%9D%9C%E6%9D%BE%E5%AD%90%E9%85%92%EF%BC%8C%E8%8B%A6%E5%91%B3%EF%BC%8C%E5%86%B0-%E6%A0%8F-%E9%A3%9F%E8%B0%B1-%E9%85%92%E7%B2%BE%E9%A5%AE%E6%96%99-%E8%8B%A6%E9%85%92%EF%BC%8C%E6%9D%9C%E6%9D%BE%E5%AD%90%E9%85%92%EF%BC%8C%E5%91%B3%E9%85%92%E5%90%A7-image173917357
9.基于多模态信息抽取的菜品知识图谱构建具体来说,Recipe 1M提供了一套全面的食谱细节(包括配料、标题和说明),它丰富了图像和食谱之间的上下文关系,从而促进了跨模态检索。相比之下,CMIngre数据集仅局限于食材信息,这对有效的跨模态检索提出了更大的挑战。值得注意的是,我们的两阶段方法明显优于这些对比方法,这进一步凸显了两阶段方法的优势,即训练食材https://blog.51cto.com/u_15197658/10939232
10.使用AmazonPersonalize的代码示例AmazonSDKsAutoML 和传统食谱 HRNN HRNN 元数据 HRNN-Coldstart 准备训练数据 物品交互数据 项目元数据 用户元数据 操作元数据 操作交互数据 创建架构JSON文件 VIDEO_ON_ DEMAND 数据集和架构 物品交互数据集要求 用户数据集要求 物品数据集要求 ECOMMERCE数据集和架构 物品交互数据集要求 用户数据集要求 物品数据集要求 自定https://docs.amazonaws.cn/personalize/latest/dg/service_code_examples_personalize.html
11.超全数据集高清版.pdf数据结构与算法超全数据集 高清版.pdf 9页VIP内容提供方:133***9720 大小:348.58 KB 字数:约5.54千字 发布时间:2021-01-29发布于山东 浏览人气:63 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)超全数据集 高清版.pdf 关闭预览 想预览更多内容,点击免费在线预览https://max.book118.com/html/2021/0129/5140032324003120.shtm
12.Conservation中山大学范朋飞教授团队最新成果量化食谱为范朋飞教授团队基于此数据集,首次报道了海南长臂猿全年的量化食谱,并通过四个量化指标反映不同植物对于海南长臂猿的取食贡献,逐步筛选出海南长臂猿的重要食物名录(图2),为未来针对海南长臂猿的栖息地植被恢复提供树种选择参考。 图2 海南长臂猿的重要食物名录筛选流程https://cps.nwu.edu.cn/info/1069/1427.htm
13.中国哺乳动物形态,生活史和生态学特征数据集生活史和生态学特征数据集 (Crooks & Soulé, 1999); 妊娠期长,窝崽数少和世代 (Smith和解焱, 2009),《中国哺乳动物多样性及地理 周期长的物种一般很难从种群数量下降的状态恢 分布》(蒋志刚等, 2015),《中国兽类图鉴》(刘少英 复(Verde-Arregoitia, 2016); 栖息地和食谱窄的物种, 等, 2019, 2020)和《https://www.biodiversity-science.net/EN/article/downloadArticleFile.do?attachType=PDF&id=82199
14.在麻辣红汤豆腐多维数据集插画正版商用图片0zcbi2摄图新视界提供在麻辣红汤豆腐多维数据集图片下载,另有亚洲,正宗,豆,碗,可爱卡通动物,红辣椒,中国,中文,奶油,多维数据集,料理,烹饪,豆腐,美味佳肴,美味图片搜索供您浏览下载,每张图片均有版权可放心商用,您正在浏览的图片为0zcbi2https://xsj.699pic.com/tupian/0zcbi2.html
15.行业研究我们为以下语音数据集提供最新的培训食谱: 什么是新的: 2020年6月:发布了变压器配方。 2020年4月:现已支持 (使用 )和混合ASR的交叉熵训练。 和分别提供WSJ配方作为示例。 2020年3月:支持SpecAugment并发布了相关配方。 2019年9月:我们正在努力将Espresso与fairseq隔离开来,从而产生一个可以直接pip install的独立软件https://www.coder100.com/index/index/content/id/2337924
16.分析了600多种烘焙配方,机器学习开发出新品机器学习配方烘焙数据集整理 首先,Sara 和她的同事从网上搜集了 600 多个配方构成配方数据集,包括面包、蛋糕和饼干。然后,将其中常用的核心原料提取出来,共 16 种,包括面粉、酵母、牛奶、水、盐、蛋等。 然后对这些配方中,各种原料的度量单位进行统一,比如,有的以「杯」为单位,有的以「勺」为单位,作者将其全部转换为「盎司」https://www.cn-healthcare.com/articlewm/20210210/wap-content-1189180.html