什么是深度学习与机器视觉

什么是深度学习与机器视觉,第1张

深度学习框架,尤其是基于人工神经网络的框架可以追溯到1980年福岛邦彦提出的新认知机[2],而人工神经网络的历史更为久远。1989年,燕乐存(Yann LeCun)等人开始将1974年提出的标准反向传播算法[3]应用于深度神经网络,这一网络被用于手写邮政编码识别。尽管算法可以成功执行,但计算代价非常巨大,神经网路的训练时间达到了3天,因而无法投入实际使用[4]。许多因素导致了这一缓慢的训练过程,其中一种是由于尔根·施密德胡伯(Jürgen Schmidhuber)的学生赛普·霍克赖特(Sepp Hochreiter)于1991年提出的梯度消失问题[5][6]。与此同时,神经网络也受到了其他更加简单模型的挑战,支持向量机等模型在20世纪90年代到21世纪初成为更加流行的机器学习算法。
“深度学习”这一概念从2007年前后开始受到关注。当时,杰弗里·辛顿(Geoffrey Hinton)和鲁斯兰·萨拉赫丁诺夫(Ruslan Salakhutdinov)提出了一种在前馈神经网络中进行有效训练的算法。这一算法将网络中的每一层视为无监督的受限玻尔兹曼机,再使用有监督的反向传播算法进行调优[7]。在此之前的1992年,在更为普遍的情形下,施密德胡伯也曾在递归神经网络上提出一种类似的训练方法,并在实验中证明这一训练方法能够有效提高有监督学习的执行速度[8][9]
自深度学习出现以来,它已成为很多领域,尤其是在计算机视觉和语音识别中,成为各种领先系统的一部分。在通用的用于检验的数据集,例如语音识别中的TIMIT和图像识别中的ImageNet, Cifar10上的实验证明,深度学习能够提高识别的精度。
硬件的进步也是深度学习重新获得关注的重要因素。高性能图形处理器的出现极大地提高了数值和矩阵运算的速度,使得机器学习算法的运行时间得到了显著的缩短[10][11]。
基本概念[编辑]
深度学习的基础是机器学习中的分散表示(distributed representation)。分散表示假定观测值是由不同因子相互作用生成。在此基础上,深度学习进一步假定这一相互作用的过程可分为多个层次,代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象[1]。
深度学习运用了这分层次抽象的思想,更高层次的概念从低层次的概念学习得到。这一分层结构常常使用贪婪算法逐层构建而成,并从中选取有助于机器学习的更有效的特征[1]
不少深度学习算法都以无监督学习的形式出现,因而这些算法能被应用于其他算法无法企及的无标签数据,这一类数据比有标签数据更丰富,也更容易获得。这一点也为深度学习赢得了重要的优势[1]。
人工神经网络下的深度学习[编辑]
一部分最成功的深度学习方法涉及到对人工神经网络的运用。人工神经网络受到了1959年由诺贝尔奖得主大卫·休伯尔(David H Hubel)和托斯坦·威泽尔(Torsten Wiesel)提出的理论启发。休伯尔和威泽尔发现,在大脑的初级视觉皮层中存在两种细胞:简单细胞和复杂细胞,这两种细胞承担不同层次的视觉感知功能。受此启发,许多神经网络模型也被设计为不同节点之间的分层模型[12]。
福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。燕乐存将有监督的反向传播算法应用于这一架构[13]。事实上,从反向传播算法自20世纪70年代提出以来,不少研究者都曾试图将其应用于训练有监督的深度神经网络,但最初的尝试大都失败。赛普·霍克赖特(Sepp Hochreiter)在其博士论文中将失败的原因归结为梯度消失,这一现象同时在深度前馈神经网络和递归神经网络中出现,后者的训练过程类似深度网络。在分层训练的过程中,本应用于修正模型参数的误差随着层数的增加指数递减,这导致了模型训练的效率低下[14][15]。
为了解决这一问题,研究者们提出了一些不同的方法。于尔根·施密德胡伯(Jürgen Schmidhuber)于1992年提出多层级网络,利用无监督学习训练深度神经网络的每一层,再使用反向传播算法进行调优。在这一模型中,神经网络中的每一层都代表观测变量的一种压缩表示,这一表示也被传递到下一层网络[8]。
另一种方法是赛普·霍克赖特和于尔根·施密德胡伯提出的长短期记忆神经网络(long short term memory,LSTM)[16]。2009年,在ICDAR 2009举办的连笔手写识别竞赛中,在没有任何先验知识的情况下,深度多维长短期记忆神经网络取得了其中三场比赛的胜利[17][18]。
斯文·贝克提出了在训练时只依赖梯度符号的神经抽象金字塔模型,用以解决图像重建和人脸定位的问题[19]。
其他方法同样采用了无监督预训练来构建神经网络,用以发现有效的特征,此后再采用有监督的反向传播以区分有标签数据。辛顿等人于2006年提出的深度模型提出了使用多层隐变量学习高层表示的方法。这一方法使用斯摩棱斯基于1986年提出的受限玻尔兹曼机[20]对每一个包含高层特征的层进行建模。模型保证了数据的对数似然下界随着层数的提升而递增。当足够多的层数被学习完毕,这一深层结构成为一个生成模型,可以通过自上而下的采样重构整个数据集[21]。辛顿声称这一模型在高维结构化数据上能够有效低提取特征[22]。
吴恩达和杰夫·迪恩(Jeff Dean)领导的谷歌大脑(英语:Google Brain)团队创建了一个仅通过YouTube视频学习高层概念(例如猫)的神经网络[23] [24]。
其他方法依赖了现代电子计算机的强大计算能力,尤其是GPU。2010年,在于尔根·施密德胡伯位于瑞士人工智能实验室IDSIA的研究组中,丹·奇雷尚(Dan Ciresan)和他的同事展示了利用GPU直接执行反向传播算法而忽视梯度消失问题的存在。这一方法在燕乐存等人给出的手写识别MNIST数据集上战胜了已有的其他方法[10]。
截止2011年,前馈神经网络深度学习中最新的方法是交替使用卷积层(convolutional layers)和最大值池化层(max-pooling layers)并加入单纯的分类层作为顶端。训练过程也无需引入无监督的预训练[25][26]。从2011年起,这一方法的GPU实现[25]多次赢得了各类模式识别竞赛的胜利,包括IJCNN 2011交通标志识别竞赛[27]和其他比赛。
这些深度学习算法也是最先在某些识别任务上达到和人类表现具备同等竞争力的算法[28]。
深度学习结构[编辑]
深度神经网络是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。深度神经网络通常都是前馈神经网络,但也有语言建模等方面的研究将其拓展到递归神经网络[29]。卷积深度神经网络(Covolutional Neuron Networks, CNN)在计算机视觉领域得到了成功的应用[30]。此后,卷积神经网络也作为听觉模型被使用在自动语音识别领域,较以往的方法获得了更优的结果[31]。
深度神经网络[编辑]
深度神经网络(deep neuron networks, DNN)是一种判别模型,可以使用反向传播算法进行训练。权重更新可以使用下式进行随机梯度下降求解:
其中,为学习率,为代价函数。这一函数的选择与学习的类型(例如监督学习、无监督学习、增强学习)以及激活函数相关。例如,为了在一个多分类问题上进行监督学习,通常的选择是使用Softmax函数作为激活函数,而使用交叉熵作为代价函数。Softmax函数定义为,其中代表类别的概率,而和分别代表对单元和的输入。交叉熵定义为,其中代表输出单元的目标概率,代表应用了激活函数后对单元的概率输出[32]。
深度神经网络的问题[编辑]
与其他神经网络模型类似,如果仅仅是简单地训练,深度神经网络可能会存在很多问题。常见的两类问题是过拟合和过长的运算时间。
深度神经网络很容易产生过拟合现象,因为增加的抽象层使得模型能够对训练数据中较为罕见的依赖关系进行建模。对此,权重递减(正规化)或者稀疏(-正规化)等方法可以利用在训练过程中以减小过拟合现象[33]。另一种较晚用于深度神经网络训练的正规化方法是丢弃法("dropout" regularization),即在训练中随机丢弃一部分隐层单元来避免对较为罕见的依赖进行建模[34]。
反向传播算法和梯度下降法由于其实现简单,与其他方法相比能够收敛到更好的局部最优值而成为神经网络训练的通行方法。但是,这些方法的计算代价很高,尤其是在训练深度神经网络时,因为深度神经网络的规模(即层数和每层的节点数)、学习率、初始权重等众多参数都需要考虑。扫描所有参数由于时间代价的原因并不可行,因而小批量训练(mini-batching),即将多个训练样本组合进行训练而不是每次只使用一个样本进行训练,被用于加速模型训练[35]。而最显著地速度提升来自GPU,因为矩阵和向量计算非常适合使用GPU实现。但使用大规模集群进行深度神经网络训练仍然存在困难,因而深度神经网络在训练并行化方面仍有提升的空间。
深度信念网络[编辑]
一个包含完全连接可见层和隐层的受限玻尔兹曼机(RBM)。注意到可见层单元和隐层单元内部彼此不相连。
深度信念网络(deep belief networks,DBN)是一种包含多层隐单元的概率生成模型,可被视为多层简单学习模型组合而成的复合模型[36]。
深度信念网络可以作为深度神经网络的预训练部分,并为网络提供初始权重,再使用反向传播或者其他判定算法作为调优的手段。这在训练数据较为缺乏时很有价值,因为不恰当的初始化权重会显著影响最终模型的性能,而预训练获得的权重在权值空间中比随机权重更接近最优的权重。这不仅提升了模型的性能,也加快了调优阶段的收敛速度[37]。
深度信念网络中的每一层都是典型的受限玻尔兹曼机(restricted Boltzmann machine,RBM),可以使用高效的无监督逐层训练方法进行训练。受限玻尔兹曼机是一种无向的基于能量的生成模型,包含一个输入层和一个隐层。图中对的边仅在输入层和隐层之间存在,而输入层节点内部和隐层节点内部则不存在边。单层RBM的训练方法最初由杰弗里·辛顿在训练“专家乘积”中提出,被称为对比分歧(contrast divergence, CD)。对比分歧提供了一种对最大似然的近似,被理想地用于学习受限玻尔兹曼机的权重[35]。当单层RBM被训练完毕后,另一层RBM可被堆叠在已经训练完成的RBM上,形成一个多层模型。每次堆叠时,原有的多层网络输入层被初始化为训练样本,权重为先前训练得到的权重,该网络的输出作为新增RBM的输入,新的RBM重复先前的单层训练过程,整个过程可以持续进行,直到达到某个期望中的终止条件[38]。
尽管对比分歧对最大似然的近似十分粗略(对比分歧并不在任何函数的梯度方向上),但经验结果证实该方法是训练深度结构的一种有效的方法[35]。
卷积神经网络[编辑]
主条目:卷积神经网络
卷积神经网络(convolutional neuron networks,CNN)由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更优的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要估计的参数更少,使之成为一种颇具吸引力的深度学习结构[39]。
卷积深度信念网络[编辑]
卷积深度信念网络(convolutional deep belief networks,CDBN)是深度学习领域较新的分支。在结构上,卷积深度信念网络与卷积神经网络在结构上相似。因此,与卷积神经网络类似,卷积深度信念网络也具备利用图像二维结构的能力,与此同时,卷积深度信念网络也拥有深度信念网络的预训练优势。卷积深度信念网络提供了一种能被用于信号和图像处理任务的通用结构,也能够使用类似深度信念网络的训练方法进行训练[40]。
结果[编辑]
语音识别[编辑]
下表中的结果展示了深度学习在通行的TIMIT数据集上的结果。TIMIT包含630人的语音数据,这些人持八种常见的美式英语口音,每人阅读10句话。这一数据在深度学习发展之初常被用于验证深度学习结构[41]。TIMIT数据集较小,使得研究者可以在其上实验不同的模型配置。
方法
声音误差率 (PER, %)
随机初始化RNN 261
贝叶斯三音子GMM-HMM 256
单音子重复初始化DNN 234
单音子DBN-DNN 224
带BMMI训练的三音子GMM-HMM 217
共享池上的单音子DBN-DNN 207
卷积DNN 200
图像分类[编辑]
图像分类领域中一个公认的评判数据集是MNIST数据集。MNIST由手写阿拉伯数字组成,包含60,000个训练样本和10,000个测试样本。与TIMIT类似,它的数据规模较小,因而能够很容易地在不同的模型配置下测试。Yann LeCun的网站给出了多种方法得到的实验结果[42]。截至2012年,最好的判别结果由Ciresan等人在当年给出,这一结果的错误率达到了023%[43]。
深度学习与神经科学[编辑]
计算机领域中的深度学习与20世纪90年代由认知神经科学研究者提出的大脑发育理论(尤其是皮层发育理论)密切相关[44]。对这一理论最容易理解的是杰弗里·艾尔曼(Jeffrey Elman)于1996年出版的专著《对天赋的再思考》(Rethinking Innateness)[45](参见斯拉格和约翰逊[46]以及奎兹和赛杰诺维斯基[47]的表述)。由于这些理论给出了实际的神经计算模型,因而它们是纯计算驱动的深度学习模型的技术先驱。这些理论指出,大脑中的神经元组成了不同的层次,这些层次相互连接,形成一个过滤体系。在这些层次中,每层神经元在其所处的环境中获取一部分信息,经过处理后向更深的层级传递。这与后来的单纯与计算相关的深度神经网络模型相似。这一过程的结果是一个与环境相协调的自组织的堆栈式的转换器。正如1995年在《纽约时报》上刊登的那样,“……婴儿的大脑似乎受到所谓‘营养因素’的影响而进行着自我组织……大脑的不同区域依次相连,不同层次的脑组织依照一定的先后顺序发育成熟,直至整个大脑发育成熟。”[48]
深度结构在人类认知演化和发展中的重要性也在认知神经学家的关注之中。发育时间的改变被认为是人类和其他灵长类动物之间智力发展差异的一个方面[49]。在灵长类中,人类的大脑在出生后的很长时间都具备可塑性,但其他灵长类动物的大脑则在出生时就几乎完全定型。因而,人类在大脑发育最具可塑性的阶段能够接触到更加复杂的外部场景,这可能帮助人类的大脑进行调节以适应快速变化的环境,而不是像其他动物的大脑那样更多地受到遗传结构的限制。这样的发育时间差异也在大脑皮层的发育时间和大脑早期自组织中从刺激环境中获取信息的改变得到体现。当然,伴随着这一可塑性的是更长的儿童期,在此期间人需要依靠抚养者和社会群体的支持和训练。因而这一理论也揭示了人类演化中文化和意识共同进化的现象[50]。
公众视野中的深度学习[编辑]
深度学习常常被看作是通向真正人工智能的重要一步[51],因而许多机构对深度学习的实际应用抱有浓厚的兴趣。2013年12月,Facebook宣布雇用燕乐存为其新建的人工智能实验室的主管,这一实验室将在加州、伦敦和纽约设立分支机构,帮助Facebook研究利用深度学习算法进行类似自动标记照片中用户姓名这样的任务[52]。
2013年3月,杰弗里·辛顿和他的两位研究生亚历克斯·克里泽夫斯基和伊利娅·苏特斯科娃被谷歌公司雇用,以提升现有的机器学习产品并协助处理谷歌日益增长的数据。谷歌同时并购了辛顿创办的公司DNNresearch[53]。
批评[编辑]
对深度学习的主要批评是许多方法缺乏理论支撑。大多数深度结构仅仅是梯度下降的某些变式。尽管梯度下降已经被充分地研究,但理论涉及的其他算法,例如对比分歧算法,并没有获得充分的研究,其收敛性等问题仍不明确。深度学习方法常常被视为黑盒,大多数的结论确认都由经验而非理论来确定。
也有学者认为,深度学习应当被视为通向真正人工智能的一条途径,而不是一种包罗万象的解决方案。尽管深度学习的能力很强,但和真正的人工智能相比,仍然缺乏诸多重要的能力。理论心理学家加里·马库斯(Gary Marcus)指出:
就现实而言,深度学习只是建造智能机器这一更大挑战中的一部分。这些技术缺乏表达因果关系的手段……缺乏进行逻辑推理的方法,而且远没有具备集成抽象知识,例如物品属性、代表和典型用途的信息。最为强大的人工智能系统,例如IBM的人工智能系统沃森,仅仅把深度学习作为一个包含从贝叶斯推理和演绎推理等技术的复杂技术集合中的组成部分[54]。

其实新手学做电商不外乎两种方法:一是直接从电商运营助理或是客服做起,慢慢积累工作经验;二是通过短期的培训快速掌握电商运营技巧。
新手如何从零是怎样开始学习电商运营的呢?
一、电商运营基础理论
新手在入门学习做电商的时候,首要就是了解一些电商运营的基础知识,比如开店流程、平台运营规则,选品、开店、主图策划、详情页策划、标题制作、店铺装修、客服运营等一系列运营基本技能。
二、店铺引流玩法
新手从零开始学做电商的第二步就是吸引流量。道理其实很好理解,只有顾客在淘宝搜索了关键词之后,看到了你的产品,点击了进来,才能产生流量。试想如果没有流量,你店铺的商品再好也不会有人看见,那就更谈不上购买了。想要提高店铺的流量,需要掌握SEO推广、直通车、钻展以及淘宝客推广的付费引流玩法。除此之外,时下流行的高级玩法还有补单技巧与直通车的各项黑玩法。
三、内容营销与活动策划
要想提高电商店铺的转化,光是引流也是不够的。新手学做电商还需要掌握内容营销与活动策划。这部分的学习主要是对市场常见活动以及其对应的报名技巧和筹划的全方位解析。像淘宝电商平台的淘内活动、双十一专题活动玩法,以及客户运营方面的活动:比如会员营销、淘宝群聊玩法等等。现在短视频直播是一个电商的风口,这也是新手必学的内容。比如视频内容、微淘内容、互动服务窗、淘宝群聊、淘宝直播、阿里V任务达人合作等等。
四、不同电商平台的营销学习
电商运营平台的选择不同,需要了解和掌握的电商运营玩法也会有所差异。像淘宝这样的电商平台,就需要学习钻展推广、直通车诊断、黄金标题打造、常见规则问题、电商降权原因、店铺从0-1、淘宝鱼塘建立与使用等等内容。如果是在亚马逊平台,就要从亚马逊店铺申请、产品发布、产品优化、产品推广、SEO优化及爆款产品打造等知识板块出发,深度学习了解亚马逊电商平台的规则及运营技巧。至于京东电商平台,主要需要学习京快车、京挑客、品牌聚效来掌握付费流量的玩法。
大体上看起来,新手从零开始学做电商要学习的内容和花样还不少。因此建议大家最好对学习有一个合理的安排和规划,再结合具体的项目实践去练习,相信也就三、四个月,大家就可以从电商运营小白成为真正的高手。

盘古审核系统是一种用于网络内容审核和管理的技术系统,它可以对互联网上的各种信息和内容进行全面的监控和筛查,以确保网络安全和信息合规。盘古审核系统保管是指将该系统的数据和信息存储在专门的服务器或云存储平台上,以保障数据的安全性和可靠性。
具体来说,盘古审核系统保管的工作包括以下几个方面:
1 数据存储和备份。盘古审核系统会将处理过的数据和信息存储在专门的服务器或云存储平台上,以备份和恢复数据,并且定期进行数据清理和归档。
2 数据加密和安全性保障。盘古审核系统会对存储在服务器上的数据进行加密和安全性保障,以防止数据泄露和被非法访问。
3 系统监控和维护。盘古审核系统会对服务器和系统进行监控和维护,以确保系统的稳定性和可靠性,避免因系统故障而影响数据处理和审核工作。
需要注意的是,盘古审核系统保管的工作需要专业的技术人员和设备来进行 *** 作和管理,以确保数据的安全和可靠性。同时,盘古审核系统也需要遵循相关的法律法规和行业标准,以保证数据的合规性和规范性。

可以的,可以用AI技术实现动态视频的换脸,在Github上有很多关于AI换脸的开源项目,比如faceswap, deepfacelab。
比如我们要将原视频中的人物David替换成Jack的脸,以此为例子解释实现原理。
1
人脸侦测和识别。首先要让机器通过含有David的视频定位并识别到其中的人脸特征值,通过深度学习将David的面部还原到正面、平行均匀光照、标准亮度的场景下。接下来对含Jack的视频进行相同 *** 作,将Jack也还原到正面、平行均匀光照、标准亮度的场景下。
2
确定变换矩阵:接下来我们对原视频的人脸信息进行定位与侦测,并进行特征提取,然后用Jack的特征与David的相对比,找出两者特征转换所需扭曲、光照等变换的矩阵。
3
人脸替换:对Jack的人脸信息基于矩阵进行变换,也就是把Jack还原到原视频的拍摄角度及光源场景下,形成新的人脸信息,并完成替换。
4
对于视频中的每一帧信息重复以上 *** 作直至结束。

一、指代不同

1、机器学习算法:是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

2、深度学习:是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标人工智能。

二、学习过程不同

1、机器学习算法:学习系统的基本结构。环境向系统的学习部分提供某些信息,学习部分利用这些信息修改知识库,以增进系统执行部分完成任务的效能,执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分。

2、深度学习:通过设计建立适量的神经元计算节点和多层运算层次结构,选择合适的输人层和输出层,通过网络的学习和调优,建立起从输入到输出的函数关系,虽然不能100%找到输入与输出的函数关系,但是可以尽可能的逼近现实的关联关系。

三、应用不同

1、机器学习算法::数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

2、深度学习:计算机视觉、语音识别、自然语言处理等其他领域。

参考资料来源:百度百科-机器学习算法

参考资料来源:百度百科-深度学习

数学基础
如果你能够顺畅地读懂深度学习论文中的数学公式,可以独立地推导新方法,则表明你已经具备了必要的数学基础。
掌握数学分析、线性代数、概率论和凸优化四门数学课程包含的数学知识,熟知机器学习的基本理论和方法,是入门深度学习技术的前提。因为无论是理解深度网络中各个层的运算和梯度推导,还是进行问题的形式化或是推导损失函数,都离不开扎实的数学与机器学习基础。
数学分析
在工科专业所开设的高等数学课程中,主要学习的内容为微积分。对于一般的深度学习研究和应用来说,需要重点温习函数与极限、导数(特别是复合函数求导)、微分、积分、幂级数展开、微分方程等基础知识。在深度学习的优化过程中,求解函数的一阶导数是最为基础的工作。当提到微分中值定理、Taylor公式和拉格朗日乘子的时候,你不应该只是感到与它们似曾相识。
线性代数
深度学习中的运算常常被表示成向量和矩阵运算。线性代数正是这样一门以向量和矩阵作为研究对象的数学分支。需要重点温习的包括向量、线性空间、线性方程组、矩阵、矩阵运算及其性质、向量微积分。当提到Jacobian矩阵和Hessian矩阵的时候,你需要知道确切的数学形式;当给出一个矩阵形式的损失函数时,你可以很轻松的求解梯度。
概率论
概率论是研究随机现象数量规律的数学分支,随机变量在深度学习中有很多应用,无论是随机梯度下降、参数初始化方法(如Xavier),还是Dropout正则化算法,都离不开概率论的理论支撑。除了掌握随机现象的基本概念(如随机试验、样本空间、概率、条件概率等)、随机变量及其分布之外,还需要对大数定律及中心极限定理、参数估计、假设检验等内容有所了解,进一步还可以深入学习一点随机过程、马尔可夫随机链的内容。
凸优化
结合以上三门基础的数学课程,凸优化可以说是一门应用课程。但对于深度学习而言,由于常用的深度学习优化方法往往只利用了一阶的梯度信息进行随机梯度下降,因而从业者事实上并不需要多少“高深”的凸优化知识。理解凸集、凸函数、凸优化的基本概念,掌握对偶问题的一般概念,掌握常见的无约束优化方法如梯度下降方法、随机梯度下降方法、Newton方法,了解一点等式约束优化和不等式约束优化方法,即可满足理解深度学习中优化方法的理论要求。
机器学习
归根结底,深度学习只是机器学习方法的一种,而统计机器学习则是机器学习领域事实上的方法论。以监督学习为例,需要你掌握线性模型的回归与分类、支持向量机与核方法、随机森林方法等具有代表性的机器学习技术,并了解模型选择与模型推理、模型正则化技术、模型集成、Bootstrap方法、概率图模型等。深入一步的话,还需要了解半监督学习、无监督学习和强化学习等专门技术。

AIGC 即 AI Generated Content,利用人工智能技术来生成内容,它被认为是继PGC、UGC之后的新型内容创作方式。2022年AIGC高速发展,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。
2、AIGC有哪些应用价值?
AIGC将有望成为数字内容创新发展的新引擎。1)AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。2)AIGC能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式。3)助力“元宇宙”发展。通过AIGC加速复刻物理世界、进行无限内容创作,从而实现自发有机生长。

1)AIGC+传媒:写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播
2)AIGC+电商:商品3D模型、虚拟主播、虚拟货场
3)AIGC+影视:AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片
4)AIGC+娱乐:AI换脸应用(如FaceAPP、ZAO)、AI作曲(如初音未来虚拟歌姬)、AI合成音视频动画
5)AIGC+教育:AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D
6)AIGC+金融:通过AIGC实现金融资讯、产品介绍视频内容的自动化生产,通过AIGC塑造虚拟数字人客服
7)AIGC+医疗;AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴
8)AIGC+工业:通过AIGC完成工程设计中重复的低层次任务,通过AIGC生成衍生设计,为工程师提供灵感
3、AIGC商业模式如何?
1)作为底层平台接入其他产品对外开放,按照数据请求量和实际计算量计算:GPT-3对外提供API接口,采用的四种模型分别采用不同的按量收费方式
2)按产出内容量收费:包括DALL·E、Deep Dream Generator等AI图像生成平台大多按照图像张数收费
3)直接对外提供软件:例如个性化营销文本写作工具AX Semantics则以约1900人民币/月的价格对外出售,并以约4800欧元/月的价格提供支持定制的电子商务版本。大部分C端AGC工具则以约80人民币/月的价格对外出售
4)模型训练费用:适用于NPC训练等个性化定制需求较强的领域
5)根据具体属性收费:例如版权授予(支持短期使用权、长期使用权、排他性使用权和所有权多种合作模式,拥有设计图案的版权)、是否支持商业用途(个人用途、企业使用、品牌使用等)、透明框架和分辨率等
4、AIGC的行业门槛及壁垒是什么?
1)打造一体化解决方案服务能力:AIGC本质上提供的是内容的生成工具,和传统的内容辅助编辑逻辑是相同的。采集、生产、媒资管理、分发消费等视频整个生命周期,一般都需要覆盖内容生成的全生命周期。
2)与行业的深度绑定关系:通过和行业形成深度绑定关系,接入相关平台或底层系统的,与原来的内容载体建立良好的合作关系,除去说明场景可行性外,还需要强调对方在基础架构上的配合意愿。
3)构建业务闭环:创作型的工具如何得到反馈的手段,需要新的模式形成闭环。需要从“拼接式”(需要大量的人工标注数据,只能针对具体任务,不会自我成长)到“进化式”(创造特定条件和核心能力,使之能够完成通用任务并自我成长),并与用户增加对话轮次、建立情感链接。
5、AIGC技术处于什么发展阶段?
2021年之前,AIGC生成的主要是文字,而新一代模型可以处理的格式内容包括:文字、语音、代码、图像、视频、机器人动作等等。AIGC被认为是继专业生产内容(PGC,professional-generated content)、用户生产内容(UGC,User-generated content)之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。
2022年:AIGC高速发展,其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。
6、AIGC的发展面临什么挑战?
AIGC在引发全球关注的同时,知识产权、技术伦理将面临诸多挑战和风险。同时AIGC距离通用人工智能还有较大的差距。
1)知识产权争议。AIGC的飞速发展和商业化应用,除了对创作者造成冲击外,也对大量依靠版权为主要营收的企业带来冲击。
2)关键技术难点。AIGC距离通用人工智能还有较大差距,当前热门的AIGC系统虽然能够快速生成图像,但是这些系统未必能够真正理解绘画的含义,从而能够根据这些含义进行推理并决策。
3)创作伦理问题。部分开源的AIGC项目对生成的图像监管程度较低,数据集系统利用私人用户照片进行AI训练,侵权人像进行训练的现象屡禁不止。一些用户利用AIGC生成虚假名人照片等违禁,甚至会制作出暴力和性有关的画作。由于AI本身尚不具备价值判断能力,一些平台已经开始进行伦理方面的限制和干预,但相关法律法规仍处于真空阶段。
7、如何看待AIGC的未来趋势?
据李彦宏判断,未来AIGC将走过三个发展阶段:助手阶段、协作阶段、原创阶段。
在第一阶段,AIGC将辅助人类进行内容生产;
第二阶段,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;
第三阶段则是原创阶段,AIGC将独立完成内容创作。Gartner预计,到2025年,生成式人工智能将占所有生成数据的10%。
推动这一变化发生的驱动力在于:
1)核心技术升级不断发展。AIGC的三大基础能力包括内容孪生、内容编辑、内容创作,将随着产业发展而逐渐升级。
2)产品类型逐渐丰富。人工智能的不断发展及推进,也将使AIGC模态不再仅仅局限于文本、音频、视觉三种基本形态。嗅觉、触觉、味觉、情感等多重信息感知和认知能力将以数字化的形式传输并指导人工智能进行内容创作,甚至创造出酸甜苦辣外的另一种味道。
3)场景应用趋于多元。目前,AIGC已经在多个领域得到广泛应用,如金融、传媒、文娱、电商等,未来应用场景会进一步多元化。除应用场景的横向扩展外,场景与场景的融合交互也是未来的发展趋势之一。
4)生态建设日益完善。技术研发的不断创新将强有力地推动内容创作,提高生成内容质量,使内容更接近人类智力水平和审美标准,同时应用于各类行业各种场景。AIGC的繁荣发展将促进资产服务快速跟进,通过对生成内容的合规评估、资产管理、产权保护、交易服务等构成AIGC的完整生态链,并进行价值重塑,充分释放其商业潜力。
8、AIGC未来市场空间有多大?
随着标注数据累积、技术架构完善、内容行业对丰富度/事实性/个性化的要求越来越高,AIGC行业即将被推向前台。
在未来2-3年间,AIGC的初创公司和商业落地案例将持续增加。目前由人工智能生成的数据占所有数据的1%不到,根据Gartner预测,到2025年,人工智能生成数据占比将达到10%。根据《Generative AI:A Creative New World》的分析,AIGC有潜力产生数万亿美元的经济价值。
9、AIGC的产业链分布如何?
我国的AIGC行业尚未发展成型,目前,AIGC代表公司较少,且上游还有众多欠缺。
国内的AIGC场景开发较少:在我国,由于技术发展不足以及投资环境的影响,AIGC大多被作为公司的部分业务、乃至相对边缘化的功能进行研发开发,独立运行的初创公司数量明显少于国外,大部分细分赛道的初创玩家在5家以下,这也间接导致了国内的AIGC场景开发较少。
AIGC应用场景深度不足:国内布局最多的赛道是写作和语音合成领域,虚拟人赛道刚刚开始兴起基本均停留在内容领域。而在国外延展领域得到了更为充分的挖掘,例如个性化文本生成、合成数据等赛道均是重点布局领域。此类业务拓展的综合性要求较高,需要客户方的数字化程度以及对对应行业的充分了解。
10、AIGC相关公司有哪些?
上市公司
300418 昆仑万维
业务布局:公司在AIGC领域已经投入了近两年的时间,国内最早布局AIGC领域的公司之一。公司成立了MusicX Lab,致力于打造领先的人工智能音乐生成技术,目前已正式销售AI作曲,具备成熟专业的全链路音乐制作和全球音乐发行能力。22Q3 MusicXLab再推10首新作AI歌曲,算法模型及AIGC能力不断优化提升。目前新歌已在国内外各大平台上线。
客户类型:22Q3在国内外各大平台再推新歌的基础上,也积极拓展了车企、教育、时尚、游戏、娱乐等各个行业的合作生态,达成了歌曲代销、车机音源、公播音乐、AI音乐辅学、品牌联名主题曲、有声书及视频配乐等落地业务。例如,MusicXLab与音乐公司达成歌曲代销合作,与头部车企达成AIGC战略合作,与游戏公司签约BGM长期合作,与教育机构达成AI音乐评价辅学合作等。先进科技的持续赋能和产品矩阵的不断丰富将为StarX发展注入强劲动力。
301270 汉仪股份
公司以技术驱动设计,近年来针对字库产品设计、生产、传输、储存到识别的全业务链条进行持续不断的研发投入,实现了全面的技术储备以保证公司业务持续高效的发展。同时,公司紧随信息技术、人工智能的发展步伐,及时将先进的信息技术应用于字库行业,形成了以大数据、人工智能为基础的技术储备。
300364 中文在线
公司已推出AI绘画功能和AI文字辅助创作功能,其中AI文字辅助创作功能已上线,该功能已向公司旗下17K文学平台全部作者开放。公司深度结合作者的真实写作场景,作者在使用AIGC功能时,通过针对不同的描写场景填写关键词和辅助短语,即可生成对应的文字内容描写,提高写作效率。目前可针对人物、物品等进行AI辅助创作,并针对不同的作品类别如古风、都市等进行语言调整,带来最佳的内容产出体验,大幅提升创作效率和内容的可读性。
000681 视觉中国
公司在AI方面持续投入,已发售数轮AI数字藏品,并使用AIGC方式创作内容,目前平台仍在大力投入AI布局。
300624 万兴科技
公司已布局虚拟数字人、虚拟场景、虚拟直播等创新业务领域;近日在2022全球元宇宙大会论坛上宣布布局AIGC赛道,公司旗下首款AI绘画软件“万兴AI绘画”正式开启公测。
300229 拓尔思
公司已落地了一批服务型虚拟人项目,其中与广东省共建“南方乡村振兴新农人AI数智赋能平台”,定位于农产品直播内容智能创作的AIGC在线服务平台,主要面向农产品电商主播提供直播脚本智能创作、带货虚拟人全链租用等知识赋能服务。
2022年世界杯举办期间,公司将利用自研互联网大数据资讯平台,对世界杯相关的热点和话题进行大数据分析和研判,通过AIGC的内容自动创作和虚拟数字人进行联合,开展“大数据看世界杯”的虚拟数字人系列服务。
002657中科金财
今年服贸会期间,公司发布了中科金财“元宇宙技术服务矩阵”,其中,公司基于WEB30规则架构,研发了数字人内容制作引擎、元宇宙场景开发工具,并通过AIGC的企业级内容互动创作平台,实现与中科金财元宇宙数字化营销平台“觅际”融合,公司作为邮储银行北京分行在服贸会上的合作伙伴,通过上述技术服务,首次实现了“沉浸式购物+数字人民币”场景落地。
BIDU 百度
在9月23日举办的2022万象·百度移动生态大会上,百度发布了AI助理,覆盖了各种AIGC应用,包括AI自动生成文字、以及转换成视频。借助AIGC的力量,百度希望为现有的500多万百家号创作者带来一套AI生产内容工具,帮助他们更快更好地产出视频内容,从而增加百度百家号等产品的用户粘性,以反击头部短视频平台。目前百度已经和数十家权威媒体成立“AIGC媒体联盟”。
300130 新国都
公司全资子公司新国都智能基于图像深度学习、计算机视觉等前沿AI技术,积极探索AI人工智能技术在AIGC、智能驾驶等领域的应用。
0700 腾讯
腾讯AI Lab基于自己的多模态学习及生成能力在游戏领域进行了全流程的布局。「绝悟」AI通过强化学习的方法来模仿真实玩家,包括发育、运营、协作等指标类别,以及每分钟手速、技能释放频率、命中率、击杀数等具体参数,让AI更接近正式服玩家真实表现,将测试的总体准确性提升到95%。目前腾讯绝悟在环境观测、图像信息处理、探索效率等方面的创新算法已经突破了可用英雄限制(英雄池数量从40增为100 ),让 AI 完全掌握 所有英雄的所有技能并达到职业电竞水平,能应对高达10的15次方的英雄组合数变化。目前,腾讯AI Lab还与腾讯 AI Lab 还与王者荣耀联合推出了AI开放研究平台「开悟」,并积极举办相关赛事。
MFST 微软
微软亚洲研究院支持图像变为动态、文本生成视频、文本生成图像、图像补全、图像生成的NUWA-Infinity
BABA 阿里巴巴
阿里巴巴智能设计实验室研发虚拟模特塔玑及AI视觉物料生成系统阿里鹿班。
NVDA 英伟达
在视觉生成研究领域始终位于前沿,代表作品包括CycleGAN、GauGAN、EditGAN、GANverse3D、Instant NeRF等。
未上市公司
小冰公司
成立时间及融资轮次:2020年 A轮(估值已达10亿美元独角兽,高瓴领投)
AIGC相关亮点:作为“AI being”派虚拟人。小冰的产品虚拟人、音频生成、视觉创造、文本创造、虚拟社交、Game AI等。
客户范围:客户已覆盖金融、智能车机、零售、体育、纺织、地产、文旅等十多个垂直领域,并提出了以“人力”的逻辑去进行商业报价的虚拟人商业模式。
DeepMusic(灵动音科技)
成立时间及融资轮次:2018年 A轮(TME领投,单轮融资数千万人民币)
AIGC相关亮点:产品包括针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可AI生成歌词的 LYRICA、AI作曲软件LAZYCOMPOSER。目前已与国内多家音乐平台厂商达成合作。其音乐标注团队已形成了全球最精确的话语歌曲音乐信息库。
倒映有声
成立时间及融资轮次:2019年 Pre-A轮(中文在线投资,单轮融资千万人民币级)
AIGC相关亮点:倒映有声通过神经渲染技术快速构建AI数字分身,通过语音+图像生成技术,生成和驱动数字分身的唇形、表情、动作、肢体姿态,创造表情自然、动作流畅、语音充满情感的高拟真度数字分身IP。2021年3月倒映有声和中央广播电视总台音频客户端「云听」签署战略合作协议。
rct AI
成立时间及融资轮次:2018年 A3轮(元宇宙资本和Springwind Ventures领投,单轮融资额超千万美元)
AIGC相关亮点:通过简单设计并调整不同的参数,rct AI的混沌球(Chaos Box)算法可以在游戏中大规模地轻松生成具有智能意识的虚拟角色。他们的行为和对话不会重复,皆为动态生成。目前,rct AI已凭借核心技术Chaos Box帮助了10余家企业,完成包括对战游戏、虚拟人铸造等多种类型的项目,与世界范围内 20+ 游戏厂商建立了深入合作,触达超过 2 亿用户。
超参数
成立时间及融资轮次:2019年 B轮(红杉中国领投,估值已达10亿独角兽,单轮融资1亿美元)
AIGC相关亮点:超参数科技提供的AI bot支持玩家陪玩、多人团队竞技(球球大作战)、非完美信息博弈AI(斗地主、德扑、麻将等)等。目前,超参数AI Bot已在多款千万日活的产品中上线,每日在线数峰值将近百万,业内率先实现在3D FPS领域的大规模商业化落地。
影谱科技
成立时间及融资轮次:2018年 D轮(单轮融资136亿元,商汤科技领投)
AIGC相关亮点:在视频生成相关领域支持结构化视觉分析、影像自动合成技术、智能视频编辑、视频内容生产等。
Zyro
围绕垂直业务场景,结合业务knowhow 组织相关AIGC能力
围绕电商场景,通过AIGC生成网站搭建过程中所需的各类素材,具体业务包括针对性生成公司介绍、企业价值、Slogan、自动提升清晰度、自动生成logo等。
聆心智能
基于多模态对话生成系统,该公司专注于针对精神心理的AI驱动的高质量数字疗法,让AI围绕认知、情绪和行为三个维度对用户进行评估和干预,生成千人千面的情绪治疗方案,目前已与北医六院、湘雅二院、中日友好医院、清华大学玉泉医院等达成合作。
OpenAI
将其底层模型对外开放商用,开创基础设施型的商业模式。GPT-3目前已经开始对外提供API,并分为四种模型按照用量对外收费。
Gliacloud
输入文本链接,软件能够自动对其中的标题和文字进行区分表示,并根据不同层级自动匹配素材和文字的转场、格式等,进而形成说明式的视频。该方式能够增加10倍的视频产量。类似公司包括:Gliacloud、Synthsvideo、lumen5、Pencil。
Rosebudai
Rosebudai能够生成非真实的人脸图像,并在该图像中匹配相关衣物等所需素材。此外,模型面孔可以根据对应受众的相关数据进行调整。该公司声称,其生成模型能够使活动点击率提升22%。


DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
乐在赚 » 什么是深度学习与机器视觉

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情