Master笔记22613@英文论文书写@DETR@ViT@CLIP@汉字手写数据集@SwinT@StarGANNoNoe|hwdb数据集_彩票

定冠词The和不定冠词a/an的主要区别在于，如果一个名词是已经知道的(known)或者是特指的，需要用the，如theplan的言外之意在于作者和读者已经都知道plan是什么，而aplan则表明是一般泛指，提出一个plan，后面再详细表述。

用若干短句代替长难句：更容易被读者理解，每句话只需要表达一个简单的意思，千万不要贪多嚼不烂。

选择列表展示数据和内容：还有一种情况容易出现超长句子，那就是作者希望在一句话中提供太多的数据和内容

把一个句子中的核心内容放到前面说：中国人的思维模式是“因为...所以...”，句子中的后面是重点，而英语当中恰好相反。

为了表示强调，通常把最重要的部分放在句子开头

用which作为先行词(代词指代的名词或代词)的时候，一定要注意是否会引起缺乏特指、指代不明而引起的混淆：Incorrect:TheShijiazhuangsouthroadundergroundbridgepossessesthelargestjackingforce,whichisbuiltat1978(10680t).Correct:Shijiazhuangsouthroadundergroundbridgepossessesthelargestjackingforcewhichisbuiltat1978(10680t).

Respectively放置于两组对应的短语末尾：用于之前已经提到顺序的两个或两个以上的人或物，表示他们之间“分别地”关系，如果之前给出的是两个列表，则respectively指两个列表之间元素一一对应的关系。

句子的开头不要出现阿拉伯数字Incorrect：12parameterswereselectedfortheexperiment.Correct：Twelveparameterswereselectedfortheexperiment.Incorrect：All3studiesconcludedthatthemeantemperatureshouldbe30°C.Correct：Allthreestudiesconcludedthatthemeantemperatureshouldbe30°C.数字最好只用于确切的试验数据，对于泛指的内容尽量不要用，尤其是尽量不要在一个句子中用太多数字。

许多文献都不主张在正文中用短的表达式代替文字Incorrect：IfthepowerbatterySOC>SOCloandthedrivingtorquebelongstothemiddleload,…Correct：IfthepowerbatterySOCisgreaterthanSOCloandthedrivingtorquebelongstothemiddleload,…

关于figure和table的缩写是Fig.andTbl。在文中使用全称figure或者简写fig，需要统一，不要二者都写，而且在句子开头不要使用缩写Incorrect：Figure.6,Figure6,Fig.6,Tbl10Correct：Figure6,Fig.6,Tbl.10

变量，尤其是英文字母代表的变量，应该使用斜体表达

Suchas表示forexample，并且暗示：incompletelistwillfollowetc.表示andsoon，并且暗示listisnotcompleteIncorrect：Comparedtotraditionalindustry,Micro-electronicfabricationhasthreecharacteristicssuchashighcomplexity,highprecisionandhighautomation.Correct：Comparedtotraditionalindustry,Micro-electronicfabricationhasthreecharacteristics:highcomplexity,highprecisionandhighautomation.上面由于threecharacteristics都给出来了，因此不能用suchas（是完整、确定的列举，suchas是列举有代表性的几个）

有些词汇单复数相同，因此不需要加“s”，如：

使用‘bythisway’.Insteadwrite‘bydoingthis’,or‘usingthismethod’.句子不要以‘Howto…’开头Incorrect：Howtofindtheoptimalparameteristhemainobjective.Correct：Determininghowtofindtheoptimalparameteristhemainobjective.

大模型新基准：BIG-BenchBIGbench由204项任务组成，任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等领域的问题。

BeyondtheImitationGame基准（BIG-bench）的GitHub资源库包括：

总结：看起来是整理了一些用于评估大模型的语言任务，并且实际对比测试了一些模型，得出了语言模型性能和模型规模之间的联系

对于深度学习来说，能同时处理文本图像任务其实已经不稀奇。不过过去常见的多模态学习方法，往往是单个输入就需要激活整个网络。谷歌这次提出的新方法，最大亮点就是首次在这一领域采用了稀疏化模型。

此次新提出的LIMoE，其实就是让MoE能同时处理图像文本。具体来看，就是让LIMoE进行对比学习。在利用大量图像-文本对训练时，网络内部的图像模型提取图像表示，文本模型提取文本表示。针对相同的图像-文本对，模型会拉近图像和文本表示的距离。反之，对于不同的图像-文本对，则会让相应的表示彼此远离。这样一来的直接好处，就是能实现零样本学习。比如一张图像的表示更接近文本“狗”的表示，那么它就会被归类为狗。这种思路可以扩展到数千种情况。

此次基于的模型是MoE（Mixture-of-Expertslayer），它被称为专家混合模型。也就是在Transformer架构的基础上，加设了“专家层”。除了性能上的提升，使用稀疏化模型的好处还体现在降低计算成本上。因为“多专家”的模式意味着，尽管多设了很多子模型，模型容量显著增加，但是实际计算成本并没有明显变化。

DisplayPort连接线发光发热了——给PicoNeo3Link提供无损的高清画面。而Quest2只能使用USB进行有线连接，此时传输的图像显然是会被压缩的。也就是说，在玩儿PC上的VR游戏时，Neo3Link的画质要比Quest2好得多。

内容上，Neo3Link会略逊一筹。此外，Neo3Link也不支持手部追踪功能，好在商用的Pro版可以通过Ultraleap外部传感器搞定。即便如此，Neo3Link也能凭借着比低配更低的价格，以及和高配相同的参数，在性价比上扳回一城。想必在进军美国之后，Neo3Link也能凭借着这个优势，和MetaQuest2打得有来有回。

训练思想非常简单，首先搭建好一个的预训练模型库，然后从模型库中取出若干个模型再接上分类头组成的新判别器，再跟初始GAN网络的判别器并联也就是说并联的判别器会跟原始判别器一起去训练，由于原始的判别器不够强，所以能一定程度上避免梯度消失，又因为新的判别器是用大数据集训练好的模型，其中蕴含的丰富特征也让GAN网络不至于在某个数据集上过拟合。

Lazyregularization损失是由损失函数和正则项组成，优化的时候也是同时优化这两项的，lazyregularization就是正则项可以减少优化的次数，比如每16个minibatch才优化一次正则项，这样可以减少计算量，同时对效果也没什么影响。

NoProgressivegrowthStyleGAN使用的Progressivegrowth会有一些缺点，如下图，当人脸向左右偏转的时候，牙齿却没有偏转，即人脸的一些细节如牙齿、眼珠等位置比较固定，没有根据人脸偏转而变化，造成这种现象是因为采用了Progressivegrowth训练，Progressivegrowth是先训练低分辨率，等训练稳定后，再加入高一层的分辨率进行训练，训练稳定后再增加分辨率，即每一种分辨率都会去输出结果，这会导致输出频率较高的细节，如下图中的牙齿，而忽视了移动的变化。

主要工作：将目标检测看做是一个集合预测的问题，不同图片包含的预测框不同，将框看作集合的元素，任务就变成了预测给定图片所对应的集合

贡献：

优点：

缺点：

流程：

将元素为loss的costmatrix使用scipy提供的linear-sum-assingment就可以得到最优匹配——哪一个工人完成哪项任务花费的成本最低，对应到这里就是100个预测框中哪几个对应ground-truth最优Encoder学全局信息，将物体分开，而Decoder更细致地区分物体的极值点，比如动物的尾巴跟蹄子。因此二者缺一不可

trick:

超轻量图像分类方案（PULC）集成了业界4大业界领先的优化策略：

ViT模型

完全不使用CNN：直接应用于图像块序列(sequencesofimagepatches)的纯Transformer可以很好地执行图像分类任务。当对大量数据进行预训练并迁移到多个中小型图像识别基准时(ImageNet、CIFAR-100、VTAB等)，与SOTA的CNN相比，VisionTransformer(ViT)可获得更优异的结果，同时仅需更少的训练资源。

尽量少的修改，仿照NLP方式使用Transformer：将图像拆分为块(patch)，并将这些图像块的线性嵌入序列作为Transformer的输入。图像块imagepatches的处理方式与NLP应用中的标记tokens(单词words)相同

中型数据集上不如ResNet：Transformers缺乏CNN固有的一些归纳偏置(inductivebiases)，例如平移等效性和局部性(translationequivarianceandlocality)，因此在数据量不足的情况下训练时不能很好地泛化。

大规模数据集效果好：VisionTransformer(ViT)在以足够的规模进行预训练并迁移到具有较少数据点的任务时获得了出色结果。

图像块嵌入：将一个图像（shape=\(H\timesW\timesC\)）分割成N块\(P\timesP\)的patches，其中\(N=HW/P^2\)，即Transformer的输入长度，然后每块patch再flatten成向量，使用全连接层变换为D维，此时输入变为了\(N\timesD\)，相当于NLP中的词嵌入(WordEmbeddings)

可学习的嵌入：类似于BERT中的[class]token，ViT引入了classtoken机制，因为ViT基于Transformer的Encoder，输出与输入等长，同样是N个向量，最终取哪一个输出向量作为分类向量就需要选择。这里在输入向量前插入一个可学习的classtoken，一共N+1个输入向量。这样就能取classtoken对应的输出向量作为分类向量。

位置嵌入：ViT采用标准可学习/训练的1-D位置编码嵌入，因为更高级的2-D-aware位置嵌入(附录D.4)没有更显著的性能提升。在输入Transformer编码器之前直接将图像块嵌入和位置嵌入按元素相加

微调：用比预训练时更高的图像分辨率进行微调通常更有益。当提供更高分辨率的图像时，需要保持图像块大小相同，此时会使有效序列长度更长。VisionTransformer可处理任意序列长度(取决于内存限制)，但预训练的位置嵌入可能不再有意义。因此，我们根据它们在原始图像中的位置，对预训练的位置嵌入执行2D插值。

Scalability：Transformer的一个特色，当模型和数据量提升时，性能持续提升。在大数据下，ViT可能会发挥更大的优势。预训练的数据量须达到100M时才能凸显ViT的优势，性能才能比肩CNN。

AlecRadford等人提出ContrastiveLanguage-ImagePre-training(CLIP),突破了文本-图像之间的限制。CLIP使用大规模的文本-图像配对预训练，并且可以直接迁移到Imagenet上，完全不需要图像标签微调即可实现zero-shot分类。CLIP模型或许会引导CV的发展走向大规模预训练，文本-图像打通的时代。

文本-图像对：图片以及对应的文本描述

模型结构：包括两个部分，即文本编码器（TextEncoder）和图像编码器（ImageEncoder)。TextEncoder选择的是TextTransformer模型；ImageEncoder选择了两种模型，一是基于CNN的ResNet（对比了不同层数的ResNet），二是基于Transformer的ViT。

CLIP在文本-图像对数据集上的训练过程：通过编码器将N个文本图像对编码为N个文本一维向量和N个图片一维向量，对应的作为正样本，共N个，不对应的为负样本，有\(N^2-N\)个。通过最大化正样本之间的余弦相似度，最小化负样本的余弦相似度来进行训练。

训练成果：通过大批量的文本-图像预训练后,CLIP可以先通过编码，计算输入的文本和图像的余弦相似度，来判断数据对的匹配程度。

zero-shot图像分类步骤：

在ImageNet-A数据集（分布漂移，即数据集中不同类别图像的数量分布不均衡）上，CLIP可以达到77.1%，而ResNet只有2.7%(基本属于瞎猜）。这证明了使用文本-图像做预训练的CLIP具备更强的鲁棒性。

Gartner在报告中指出：「在计算机视觉领域，腾讯的得分是3.53，在此次评分排名中位居全球第二。腾讯利用其在游戏、视觉和其他服务领域的广泛AI资源，不断来验证和完善其能力。腾讯还拥有强大的计算机视觉服务产品，包括视频服务（如面部识别、人体分析和情感分析）、图像处理和分析，以及OCR能力。」

依托腾讯优图实验室，通过AI与云的深度融合，腾讯云对外输出超过300+标准化AI原子能力和80+AI解决方案，覆盖行业超过30个大类，100个子类，为数十万家内外部客户提供AI技术服务和丰富的计算机视觉产品组合。此外，腾讯云计算机视觉能力也已经在工业、新能源汽车等实体经济场景加速落地。

在算法研究方面，优图的研究成果多次在人工智能国际权威比赛中创造了世界纪录。在学术研究方面，优图公开发表的论文涵盖ICCV，CVPR，ECCV等各类全球顶级会议，仅2022年即被全球顶级会议CVPR接收了30篇论文。

由日本学术振兴会赞助，立命馆大学：人狗语音转换

任务的输入是人声音频，输出是合成的狗叫音频。数据音源中，包含503段人类的声音，自收集了成年犬792段和幼崽288段叫声。论文采用音频合成领域经典的StarGAN和ACVAE作为benchmark，并设计了三个主观定性指标：输出音频和狗叫声的相似度，音频质量，声音清晰度；还有一个量化指标，角色偏差程度(charactererrorrate,CER)用于评估模型的效果。目前为止，benchmark在测试中遥遥领先。

本质上是想把人类的话语声变换成接近狗叫，但又要保留语义信息，是一种他们自己提出来的新的语音转换任务，voiceconversion(VC)，他们将其称为humantonon-humancreaturevoiceconversion(H2NH-VC)tasks。

做了一些比较实验，使用StarGAN-VC、ACVAE-VC跟梅尔倒谱系数（MCC）、梅尔频谱（melspec）的排列组合，以及FKN、成年狗叫、白噪声之间的对照。结果显示梅尔频谱有助于使输出贴近狗叫，但如何保留语义信息是一大挑战。

视觉领域中的最大模型ViT-G(1.8B)比NLP领域的最大模型(Megatron-Turing)小了近300倍，而Swin-v2大约3B目前模型训练范式：先在大规模数据集进行与训练（JFT-3B）然后通过微调迁移到下游任务中

训练大模型的主要挑战：

解决办法：

Transformer在图像领域两大挑战：

针对上述两个问题，提出了一种包含滑窗操作，具有层级设计的SwinTransformer。其中滑窗操作包括不重叠的localwindow，和重叠的cross-window。将注意力计算限制在一个窗口中，一方面能引入CNN卷积操作的局部性，另一方面能节省计算量。

SwinTransformer的整体架构

整个模型采取层次化的设计，一共包含4个Stage，每个stage都会缩小输入特征图的分辨率，像CNN一样逐层扩大感受野。

其中有几个地方处理方法与ViT不同：

PatchEmbedding在输入进Block前，我们需要将图片切成一个个patch，然后嵌入向量。

PatchMerging该模块的作用是在每个Stage开始前做降采样，用于缩小分辨率，调整通道数进而形成层次化的设计，同时也能节省一定运算量。

WindowPartition/Reversewindowpartition函数是用于对张量划分窗口，指定窗口大小。而windowreverse函数则是对应的逆过程。这两个函数会在后面的WindowAttention用到。

ShiftedWindowAttention前面的WindowAttention是在每个窗口下计算注意力的，为了更好的和其他window进行信息交互，SwinTransformer还引入了shiftedwindow操作。即通过移位改变窗口的切分方法，使得不同的窗口能够进行信息交互，这样窗口数也得改变，代码中通过torch.roll将图移位后再结合mask达到这一效果。

AttentionMask通过设置合理的mask，让ShiftedWindowAttention在与WindowAttention相同的窗口个数下，达到等价的计算结果。

TransformerBlock整体架构一个Stage包含的Block个数必须是偶数，因为需要交替包含一个含有WindowAttention的Block和含有ShiftedWindowAttention的Block。结构见上图(b)

关于相对位置编码relative_position_bias_table为一堆需要学习的bias法1：relative_position_index在table提取bias再加在atn上法2：直接把bias按顺序加在atn上拿一维位置关系举例，1，2，3，4四个位置，法1不管计算那个位置，编码始终是不变的。但是法2（相对位置编码），计算1位置的时候，四个位置编码idx是1，2，3，4.计算2位置的时候，四个位置编码是0，1，2，3，同理3的时候是-1，0，1，2,4的时候是-2,-1,0,1。就是计算当前位置的时候，前第N个位置对应的位置编码idx始终是-N，后第N个位置对应的位置编码idx始终是N。只要两个位置相对关系不变，位置编码就不变。

一个好的图像转换模型应可以学习不同图像域间的映射，同时：1）生成图像多样化；2）在多个域上具有可扩展性。现有方法则无法很好同时解决上述问题。提出StarGANv2Q和新的动物面孔数据集（AFHQ），一个可同时解决上述问题、并在基线上表现出明显改善效果的单一框架。在CelebAH和AFHQ上进行视觉质量、多样性和可扩展性方面验证其有效性。

domain表示一组图像，被分组的依据可以是视觉上具有某种属性/类别。而每幅图像有独特的外观，称为样式/风格style。例如，可根据人的性别设置图像域domain，在这种情况下，风格样式包括妆容类别、胡须和发型等。大概就是范围更大的可区分特征叫做域，范围小的叫做风格。

一个理想的图像转换模型应该考虑域内的多样化的风格。但设计和学习此类模型会变得很复杂，因为数据集中可能有大量的style和domain。

针对style的多样性，目前的方法（Pix2Pix模型解决了有Pair对数据的图像翻译问题；CycleGAN解决了Unpaired数据下的图像翻译问题。）大都仅考虑两个域之间的映射，例如K个域，这些方法需要训练K（K-1）生成器来处理每个域与每个域之间的转换，限制了它们的实际使用。为此，一些研究提出更具扩展性、统一的框架，StarGAN便是最早的模型之一，它使用一个生成器来学习所有可用域间的映射。生成器将域标签作为附加输入，并将图像转换到相应的域。但StarGAN仍然学习每个域的确定性映射（对于同一张输入的图片，由于输入跟one-hot标签都一样，因此结果也一样），不能学到数据分布多种模态的特性。

本文提出的StarGANv2，是一种可扩展的方法，可跨多个域生成不同的图像。基于StarGAN，使用所提出的domain-specificstylecode替换域标签，前者可表示特定领域的各种风格样式。为此，引入两个模块，一个映射网络mappingnetwork和一个样式编码器styeencoder。映射网络学习将随机高斯噪声转换为样式码(stylecode)，而编码器则学习从给定的参考图像中提取样式码。考虑到多个域，两个模块都具有多个输出分支，每个分支都提供特定域的样式码。最后，利用这些样式码，生成器将学习在多个域上合成各种图像。

生成器Generator：将输入图像x转换到输出图像G(x,s)，后者体现的是指定domain的风格码s，该码由映射网络F或样式编码器E提供。其中，使用的是自适应实例归一化（AdaIN）将s注入G。s被设计为表示特定域y的样式，这消除了向G提供y的必要性，并使G可以合成所有域的图像。

映射网络Mappingnetwork：给定一个隐向量z和一个域y，映射网络F生成样式码\(s=F_y(z)\)。F由具有多个输出分支的MLP组成，可为所有可用域提供样式码。训练的时候随机采样Z中的样本z和随机采样域Y中的一张图片来使得该网络有效的学到所有域的风格表示，来产生多种样式码，因此可以实现多样性风格生成。

判别器Discriminator：多任务分类器，有多个输出分支。每个分支\(D_y\)使用一个二进制分类确定图像x是域y的真实图像还是G生成的伪图像\(G(x,\;s)\)使用多个分类器是为了避免笼统地判断生成地是否真实，因为我们要的是生成地图片在特定域上地真实，而不是随便地真实，优化更加具体了。

本文贡献：

要想让G拥有学习多个领域转换的能力，本文对生成网络G和判别网络D做如下改动：

THE END

Master笔记22613@英文论文书写@DETR@ViT@CLIP@汉字手写数据集@SwinT@StarGANNoNoe

深度学习MLP/LeNet/AlexNet/GoogLeNet/ResNet在三个不同数据集上的分类效果实践腾讯云开发者社区

hwdb中文手册[金步国]

Master笔记22613@英文论文书写@DETR@ViT@CLIP@汉字手写数据集@SwinT@StarGANNoNoe

中国科学数据

新型的端到端弱监督篇幅级手写中文文本识别方法PageNet

同盾AI研究院深度学习首席专家李宏宇：解构知识联邦，开创数据“可用不可见”新局面雷峰网

经典论文复现LSGAN：最小二乘生成对抗网络