本文为搬运+翻译,每周总结AI相关大事,入选标准很主观哈欢迎讨论,翻译不恰当的地方也欢迎指正。
原作者:Jack Clark,欢迎订阅原文,链接:jack-clark.net
『AI大事记』第169期
视觉领域的多任务测试未来无人机将构筑通讯网络AI医疗技术获得FDA许可PyTorch 在移动端更加智能化:
...1.3版本加入了提升效率的试验性更新...PyTorch,这个与广泛使用的Python语言完美贴合的AI编程框架迎来了它的1.3版本。最新版本新增的更新支持用较低的准确度训练模型,并在计算资源有限的移动端实现应用。此外还更新一些小工具,使得在PyTorch内开发的AI系统更具解释性。
硬件支持:AI框架是AI发展领域一块更广阔、也更有竞争力的方向,而硬件/云支持是某个框架是否成功的重要信号。因此,PyTorch的前景似乎很光明,现在Google的定制TPU芯片,以及阿里云都能直接支持它。
【入选理由】就像人类语言一样,编程语言定义了这项技术出生地的文化内核。语言本身也是强大的工具——PyTorch的最大支持者是Facebook,而PyTorch意在取代TensorFlow,这绝非巧合。成功的框架会给它的开发公司带来其他的战略优势(比如:TensorFlow 里会包含一些特有的组件用于支持TPU)。
【相关链接】(PyTorch官方文档)
无人机有可能帮助我们构建机载的通讯网络吗?
...“别害怕,市民们,我们正在自动派遣通讯无人机来修复服务”...台湾学者描绘了一个这样的未来:无人机被用作空中基站,在密集区域提供通讯和监控服务。他们在意见书中写道,要实现这一步是一个很大的挑战,因为要有很多项技术的成熟才能支撑它成为可能。但如果我们能够跨越这些,将会受益匪浅,文明终于能够有能力如愿创造出所谓的(无人机的)“智能云”。
我们和这个美好的无人机未来之间的阻碍到底是什么呢?研究者认为主要有五个挑战,包括:
长期定点:如何制造可以盘旋足够久的无人机,来满足作为通讯网络的要求?人群预判:能够结合计算机视觉技术,让无人机能够自动分析周边人群?(答案是“能”,但其中部分技术仍然处于初期阶段)空间定点:无人机应该固定在哪儿,才能最优化通讯的可靠性?适应性空间定点:是否能够让无人机根据其他数据源自动移动到空间中的新位置?(比如:能否预测人群在往哪儿聚集并提前让无人机移动?)智能化空载传输:如何优化无人机和它们的基站间的通讯?【入选理由】你看过天空吗?超大的!有足够的空间搞事情!并且随着最近无人机运载力和智力的进步,不妨期待一下我们的天空上很快会有一堆无人机在做不同的事情。我认为这对人类文明来说是一件好事,如果我们能够用无人机提供一些适应性基础设施,尤其是在自然灾害之后。像这样的文章让我们感觉离未来更近了。
【相关链接】(论文原文)
机器人测试...负重、曲棍球棍、长颈鹿?
一家做小型四足机器人的初创公司Ghost Robotics,最近炫耀了他们产品的稳定性,让他们的机器人负重再敲打它使它失去平衡。这条推特上有一个短视频,可以看到在被击打之后机器人敏捷地复原了。
机器人&干扰:这个视频让我想到最近各种各样的机器人耍宝视频:波士顿动力用一个曲棍球棍推它的机器人,另一个视频中他们的四足机器人“Spot”被迫在香蕉皮上表演打滑。甚至OpenAI(作者JC所在的公司)最近也加入其中,用“毛绒长颈鹿干扰”一个正在复原魔方的机械手。
【入选理由】我认为这类测试让我们对机器人领域的发展有一个直观的感受。几十年后当有着半意识的AI看到这些“暴力人类”对机器人做的事会发生什么——我很好奇他们会怎么想?
【相关链接】
(Ghost Robotics推特视频)
(OpenAI的“毛绒长颈鹿干扰”)
腾讯携手Mirriad在已有视频中嵌入广告:
...世界上有这么多城镇,城镇里又有这么多酒馆,而她却偏偏走进了我这家。[此处展示哥顿金酒]...(电影卡萨布兰卡片段)腾讯最近和AI初创公司Mirriad达成了合作,用人工智能技术在现有的视频中植入广告,比如综艺和电影。换句话说:等着看《卡萨布兰卡》的酒馆里摆满了醒目的“哥顿”牌金酒吧,又或者在《终结者》里看到侧面是可口可乐巨大logo的卡车。谁知道呢!“通过Mirriad的API,植入会变得快速轻松全自动化,这将会彻底改变广告主对目标客群的辐射方式。”Mirriad作为一个重技术的公司,官网上称有29个已有的或正在流程中的专利。这家公司宣称“我们创造了一种全新的广告生意,能从存量资产中创造出新营收。”
【入选理由】一旦人们开始通过AI植入生意来赚钱,人工智能势必会吸引更多投资,带来越来越丰富的应用场景,把AI越来越深入的带入社会(或好或坏)。像这类买卖展示了机器学习技术是如何快速成熟,孵化出新公司的。也表明了要想篡改那些已经记录下来的事实将会变得越来越容易。
【相关链接】(新闻)
“深度伪造”正在帮助人们造假所有东西:
...英国首相Boris Johnson是怎么和一张合成照片建立人脉的?且听下文分解...在过去几年里,有人开始用人的合成图像来做一些坏事。比如今年早些时候,美联社报道,在据称是间谍的一个LinkedIn账号里用了假的身份信息,包括用一张合成的脸作为头像。当技术变得越来越廉价、易获得并且广为人知,更多的人会用它们来做坏事。最新的应用?据称一家由Jennifer Arcuri(一个初创公司的执行总裁,并且与英国首相Boris Johnson建立了LinkedIn人脉)运营的公司Hacker House可能完全不存在。证据呢?据AI记者Phil Kemp的侦察,至少有一个与这家公司关联的人——“Annie Tacker”——实际上只是一个用了合成照片做头像的LinkedIn账号,除此以外什么信息也没有。AI咨询公司DeepTrace Labs也支持这点,他们在推特上说,这个头像“有用GAN合成的头像的迹象”(更具体的说,他们认为这个图片就是有StyleGAN合成的)。
【入选理由】事实,至少网络上的事实,已经变得非常容易被操纵。于此同时,几百万年以来人类进化得惯于相信眼睛看到的东西,也很容易被精心合成的宣传所感染。像这样的案子表明了这个时代的AI是如何快速渗透进社会,改变人们相信或者欺骗的方式。这不会是终点。
【相关链接】
(Phil Kemp推特 & Deeptrace Lab推特)
(美联社新闻)
计算机,过来优化这个大脑影像!AI技术得到了FDA许可:
...基于深度学习的降噪和解析度增强——已被监管机构许可用于医疗...Subtle Medical,一家用深度学习的技术处理医疗影像以辅助诊断的AI初创企业,已经收到了美国食品及药物管理局的对其产品“SubtleMR”的销售许可。根据Subtle Medical的新闻稿所述,SubtleMR是“用降噪和解析度增强技术来提升图片质量的图像处理软件”。这项技术已经在几个大学附属医院和影像中心进行了试点。Subtle发表过把类似生成式对抗网络的方法用于医疗领域的数篇学术论文。
FDA正在加快对AI工具的许可:美国食品及药物管理局(FDA)正在加速审批AI相关的产品。今年,该部门发布的计划是“考虑建立一个新的监管框架,专门促进那些应用了先进的人工智能算法并且安全有效的医疗设备的发展”。作为这个计划的一部分,该部门也发布了描述这个框架的一份白皮书。
【入选理由】到目前为止,我们看到的很多AI技术的应用是在C端app上(比如:SnapChat的人脸滤镜),监控(包括州层面的监控规划),以及目标远大但还未实现的项目,比如自动驾驶。我个人认为如果AI能在医疗领域(最好是以较低的开销)帮助治愈更多人,人们对AI的接受度会大幅增加。
【相关链接】
(新闻)
(官网)
(FDA计划)
(FDA白皮书)
德国加大对AI研究的经费投入:
...国家研究机构建立用于人工智能研究的战略科研经费...Deutsche Forschungsgemeinschaft (DFG),一个德国科研经费管理组织,称已经专项拨款9千万欧元用于在国内建立新的人工智能科研组织。这项经费意在专门用于鼓励研究AI的年轻科研新星。DFG表示,方案会在2019年发布,而经费分配会在2020年初完成。
【入选原因】世界范围内,政府开始对人工智能的战略重要性有所觉醒,并且相应地增加他们在这方面的经费投入。如果单独地看,这项德国的经费规模并不大,但鉴于世界上大多数国家都开始(至少是)相似规模的战略性投资,聚合在一起的影响会相当大。
【相关链接】(DFG官网通稿)
我们在计算机视觉领域真的在进步吗?这项VTAB测试可能能够给出答案:
...新的多任务基准模型要在视觉领域承担GLUE在NLP领域的角色...近些年,计算机在图像识别领域做得很好——好到我们需要从只看单一的基准,比如ImageNet的分类分,转变到让AI系统运行一系列评价指标的一整套测试。这就是谷歌研究人员开发的视觉任务自适应基准(Visual Task Adaptation Benchmark,VTAB)背后的思路。
VTAB是什么?“VTAB是基于一个原则:更好的算法应该能够用最少的标签解决一系列不同的并且未知的任务”研究人员写道,“关注样本的复杂度其实是反映了我们的一个观点,用少量标签学习应该是表示学习的核心目标”。
任务及其类型:VTAB包含三个类型19个任务:
“本质”类:包含在广泛使用的数据集上执行分类任务,比如Caltech101,Flowers102,以及SVHN等。“专业”类:使用的数据集采用专业设备采集图像,从卫星图像到医疗影像。“结构”类:这部分会测试系统对于场景结构的理解,并且根据他们对图片中物体的计数或是不同视觉场景下估计的深度的准确性来进行评价。现有模型在VTAB上表现如何?研究人员用VTAB测试了16个现有的算法,所有的模型都用ImageNet数据集(不在VTAB数据集范围内)做了预训练。他们评估了一些基于图片和基于块的模型,以及像VAE和GAN这样的生成式模型。有监督学习模型表现的最好,其中最高得分的模型能做到用1000个训练样本时平均分73.6/100,全样本时平均分91.4/100。虽然在ImageNet上预训练似乎是挺好的选择,但是当模型在这上面预训练了之后再在特定数据集上测试,比如医疗领域的数据集,或者那些需要结构理解的数据集,它的表现提升会被减弱。
【入选理由】现在在文本和视觉领域,人们开始在庞大数据集上训练非常大、昂贵的模型。最近,这些模型表现得很好,在很多典型任务上能够接近人类表现。这就带来了对精细化测试体系的需求,这个测试体系应该要能够测量给定模型在不同任务上的能力,这样我们才能更好的评估这个领域的进展。这样的多任务的评价基准在NLP的很多阶段都开始普及(现在以GLUE及其后续的SuperGLUE为典型);VTAB想做一样的事,只不过是对图像。如果它能被广泛使用,能够帮助我们刻画视觉领域的进展,并且让我们对我们的系统表现得究竟多智能有一个更好的感觉。
【相关链接】
(论文)
(代码)
原创文章,作者:afeng135,如若转载,请注明出处:https://www.521dj.com/224900.html