Shared posts

28 Jun 00:32

Oculus联创团队再聚新公司Sesame,发力AI眼镜

by 广东客

查看引用/信息源请点击:映维网Nweon

奈特·米歇尔将出任Sesame的首席产品官

映维网Nweon 2025年06月27日Oculus联合创始人布伦丹·艾瑞比(Brendan Iribe)的新公司Sesame正在积极研发支持自然语音交互的AI眼镜产品,而现在艾瑞比迎来了一个老同事:Oculus联合创始人奈特·米歇尔(Nate Mitchell)。

在2018年离开Meta后,艾瑞比休息了一段时间,然后在2023年邀请老同事兼Reality Labs研发工程师负责人瑞恩·布朗(Ryan Brown)共同创办了Sesame,并致力于通过自然语音交互提升人机交互体验。这家公司的主要产品包括个人语音伴侣和轻量级可穿戴眼镜设备。

至于奈特·米歇尔,这位Oculus联合创始人兼VR产品负责人在离开后曾创立了一家名为Mountaintop Studios的游戏开发工作室,但旗下作品表现并不理想,而公司不久前刚关门歇业。

现在根据LinkedIn,奈特·米歇尔将加入老同事的新公司Sesame,并出任首席产品官的职位。不过,他没有分享太多的信息,只是表示:“我加入了Sesame,担任首席产品官……和布伦丹·艾瑞比, 瑞恩·布朗,以及一系列Oculus团队成员重新组队,再次共同建设未来。”

26 Nov 07:47

AI 最好的载体,为什么只能是 AR 眼镜?

「普适计算之父」Mark Weiser 曾在 1991 年提出,个人计算设备应具备至少四种尺度:墙面大小(Boards)、桌面大小(Desk)、手持大小(Hd),以及可穿戴设备(Wearable Device)。 今天,前三种对应的产品已经在日常生活中随处可见,成为人们工作生活不可或缺的一部分。而可穿戴设备,则有望在大模型的变革中,诞生出一批普世性更强的通用级设备。而智能眼镜,可能就是这个问题的「版本答案」。

1991 年首次发布在月刊上的《21 世纪的计算设备》| 图源:Google 学术

过去一年,海内外厂商纷纷加速智能眼镜产品的开发。而国内 AR 领军企业 Rokid,刚刚交出了自己的答卷。 11 月 18 日,在 Rokid Jungle 2024 发布会上,Rokid 首款基于衍射光波导成像技术实现显示效果的 AR 眼镜——Rokid Glasses 正式发布。对于「可穿戴设备能通过 AI 实现变革」,Rokid 用一款产品的发布,告诉整个行业:作为随身无感终端的价值,才是 AR 眼镜能从诸多产品形态中脱颖而出的关键所在。

Rokid 喊出「AR 眼镜是 AI 的最佳载体」口号 | 图源:极客公园

虽然我们已经很熟悉诸如 TWS 耳机、智能手表以及 VR 头显这样的可穿戴设备,但按照 Mark Weiser 最初的构想,它应该有着「计算设备消失在背景中、用户使用中难以察觉、呼之即来挥之即去」这样的特性;随着 AGI 能力迅速渗透硬件领域,这个问题的答案似乎正在迅速明朗。

Rokid 首款光波导形态 AR 眼镜 Rokid Glasses | 图源:Rokid

如果说 2023 年是 AI 元年,2024 年毫无疑问可以被称为「AI 硬件元年」;从 2023 年第四季度开始,各种原生 AI 硬件品类开始密集发布浪潮:从 Limitless、Friend 等 AI 项链,到 Rabbit R1 为代表的手持 AI 终端,再到 2024 年各种包括智能手机、耳机等硬件的 AI 能力强化,在不到一年的时间内经历了数次迭代变迁。 即使这场 AI 硬件形态创新如同一场熊熊大火,来得快熄灭的也快,但 AI 硬件的这波浪潮仍然淬炼出了「真金」——Rokid 为代表的 AR 眼镜,已经在 2024 年悄然突破了「单品销量超百万」这一里程碑:在硬件领域,单品销量超过百万,在很大程度上可以等同于「一个新形态的产品已经获得了目标用户的喜爱与认可」。  

01

为什么 AR 眼镜是  AI 硬件「版本答案」?

 

要回答这个问题,其实要先从「今天用户需要什么样的 AR 眼镜」这个问题的答案说起。 如果你常年关注消费电子行业,不难发现硬件领域的一个规律:在某个时代最受欢迎、甚至最终「改变世界」的产品,往往并非当时那个时代人类能打造出的技术最先进的产物,而是最先将用户日常使用中感知最多的「基础体验」做好的产品。 而智能眼镜想取得口碑与销量上的成功,无外乎在三个维度上实现最佳平衡:丰富的应用生态、良好的佩戴体验以及用户可接受的售价。 售价 299 美元、重量也与一个普通雷朋墨镜相当的 Ray-Ban Meta,在体验和价格上取得了很好的成功。同时在第一点应用上,Ray-Ban Meta 既有拍照、听歌这些实用的工具,同时还利用大模型和内置传感器提供了人机语音交流、实物等一些颇有创新性的功能,这让其不仅好玩,在一定程度上算是有用。 但其问题在于,由于没有屏幕显示能力,它与用户之间的信息传输方式被局限在了语音这一维度——但这显然是反直觉的,在日常生活中,人类大约有 80% 至 90% 的信息是通过视觉感知的。 而没有了视觉输出,意味着人类在互联网、移动互联网时代构建的覆盖电商、本地生活、音视频娱乐等成千上万的应用和服务,大多无法在智能眼镜的平台上复刻,这决定其很难成为一个通用的计算终端。 所以即使目前还受限于成本和显示技术,但从长期来看,AR 才是智能眼镜的「终极形态」——这点其实不论 Meta、苹果还是国内的 Rokid 等厂商都有共识。但具体到产品的路径上又各有抉择,如果说 Ray-Ban Meta 是短期内砍掉显示优先体验的捷径路线,而 Rokid Glasses 选择的就是在保留 AR 这个核心能力的基础上,持续优化体验和控制成本的传统王道路线。 事实上,在保留增强现实显示的基础上,Rokid Glasses 也确实能够带来更多的应用,并在大模型的加持下得到了应用体验和实用性的增强。 比如此前 Google 等大厂演示过、使用 AR 眼镜实现即时翻译对话的愿景,已经随着 Rokid Glasses 的发布得以实现;同时眼镜还支持接入支小宝,实现端侧处理如买咖啡、打车等简单用户请求,同时通过 AIGC 音频检测技术实现声纹支付,来进一步强化日常使用的可用性。 作为日常距离人体主要感知器官最近的产品形态,AR 眼镜的多模态感知潜力也是过去一年最常被津津乐道的话题,这种方向上的探索同样能在 Rokid Glasses 的应用生态中找到:通过深度整合阿里巴巴旗下通义千问大模型能力,Rokid Glasses 已经能够完成基础的物体识别、文本翻译甚至是数学题解答等任务,以及准确计算出食物卡路里含量等功能。 显而易见,随着「多模态 AI 能力」以一种平台化的能力赋能给更多应用开发者,Rokid Glasses 作为 AR 眼镜平台,本身也逐渐的吸引着更多的开发者加入这个生态之中,这或许就是 Rokid AR 战略布局的「下一步」。 此外,在融合了智能和显示的基础上,Rokid 也在尽可能的增强产品的佩戴体验和成本控制,甚至可以说达到了不输未搭载 AR 的 Ray-Ban Meta 的水平。 与传统太阳镜大厂暴龙合作的 Rokid Glasses,眼镜本身重量控制在 49g,呈现出时尚的质感。据 BOLON 眼镜品牌市场负责人杨光在会上的介绍,这款眼镜的设计上,也大幅强化了「减负」这个属性,无论是材料选择,甚至是摄像头、电池、芯片等硬件的选型搭配,都需要以「佩戴的更加舒适」为前提而设计。

BOLON 眼镜品牌市场负责人杨光介绍 Rokid Glasses 外观设计思路 | 图源:极客公园

此外,Rokid Glasses 还提供了更多的产品搭配选择,给有时尚需求的用户更多的选择空间。 而在价格上,低至 2499 元的定价,可以说是光波导 AR 眼镜的新低,也更有可能触达时尚消费者。 同时与暴龙这样的传统时尚眼镜品牌合作,也意味着 Rokid Glasses 在销售渠道上会有着明显的「破圈」的优势,按照 Rokid 创始人兼 CEO Misa 本人在采访中提到的细节,Rokid Glasses 将会在包括暴龙线下店在内的全国超过 60% 的眼镜线下销售渠道,让用户能够在线下体验并选购 Rokid Glasses 这款产品。

02

AR + AI 的背后

 

前面提到,Ray-Ban Meta 今天最大的局限在于应用的丰富性,而其受限于其硬件平台的基础能力。而相比之下,提供了光波导 AR 显示能力的 Rokid Glasses 有更多的可能性。 但这里有一个逻辑上的「漏洞」:可能性不等于实际。事实上,过去的 AR 也具备创造更丰富的应用生态的基础设施,但并没有掀起如十年前的移动互联网浪潮般的 AR 应用浪潮,开发出一批脍炙人口的游戏、娱乐、社交和办公应用。 这里面有非常复杂的原因,比如设备的渗透率是否对开发者有吸引力,还比如设备的硬件性能和体验,是否支持开发出足够好的应用。 但还有一个不可忽视的问题是:在各种移动应用已经非常成熟的今天,增强现实这个功能是否有足够高的价值,让开发者把各种视频娱乐、办公工具应用迁移到这个平台,实现体验远超移动平台、或者解决手机使用痛点的次世代应用创新。

Rokid Glasses 佩戴实际佩戴效果 | 图源:Rokid

这是贯穿了过去十年 AR 发展的重要问题,而在 AI 大模型的加入以后,对于这个问题有了更加清晰的答案。 比如即使当前语言模型已经足够聪慧,但真正能够实现「AI 全天候陪伴」的产品形态,显然不是智能手机,而随时佩戴在脸上的 AR 眼镜天然具备「陪伴」属性,这一点就足以让其成为更多开发者构建下一个时代「超级应用」的土壤。 例如 Rokid 在发布会中,关于 AI 能力时介绍的一个小功能——AI 闪记,通过眼镜快速记录用户的日常点滴,仅这一个在发布会上快速带过的功能,全球在过去的一年内就诞生了数款专用硬件产品,而这对于用户每天都需要佩戴的 AR 眼镜来讲,只是一个「顺手功能」。 而在发布会中,其实也能看到 Rokid 用大量篇幅,介绍了与 Rokid 一道打造 AR 生态的合作伙伴们:不仅有开发了 AR 版本的钉钉,也有探索空间多屏显示以及 AR 影视内容库的爱奇艺,还有正在 Rokid 平台上构建 3D 商品展示与「虚拟样板间」的淘宝。

未来关于 AR+AI 的更多应用场景 | 图源:极客公园

而在发布会中,其实也能看到除了 Rokid 介绍 Rokid Glasses 之外,还有众多与 Rokid 一道打造 AR 生态的合作伙伴们上台,介绍他们在这个生态中的投入:不仅有开发了 AR 版本的钉钉,也有探索空间多屏显示以及 AR 影视内容库的爱奇艺,还有正在 Rokid 平台上构建 3D 商品展示与「虚拟样板间」的淘宝,从开发者的角度,这些 App 在移动平台上都有不能解决的使用痛点,而智能眼镜能带来更好的体验。 「当你看到别人有一个你喜欢的商品,如果你不好意思问链接,你可以直接交给 AR 眼镜来帮你处理。」祝铭明在发布会上这样介绍 Rokid Glasses 整合的视觉识别能力应用场景。 除了视觉识别,无论是声纹支付,还是会议纪要,这些都是只有 AR 眼镜才能做到、并将日常使用体验做到「无感但好用」的领域;对开发者而言,已经构建起最完善的应用+硬件开放生态的 Rokid,也自然会成为更多 AR+AI 原生应用生长的土壤。 这些都是只有 AR 眼镜才能做到、并将日常使用体验做到「无感但好用」的领域;对开发者而言,已经构建起最完善的应用+硬件开放生态的 Rokid,也自然会成为更多 AR+AI 原生应用生长的土壤。  

03

结语

 

回顾 Rokid 的创业历史,其实早在 2016 年,Rokid 就发布过数款以智能机器人为代表的 AI 原生硬件,这让 Rokid 在一众 AR 眼镜厂商的「AI 转型」中,始终有着做 AI 硬件的「先发优势」。 前面说到,2024 年不仅有 AR 眼镜终于在发展十余年后,在市场上找到了属于自己的定位与进化方向。2024 刚好也是 Rokid 成立的十周年。某种程度上来讲,Rokid Glasses 或许就是两者的交汇点。

Rokid Glasses 的发布,恰逢 Rokid 成立十周年 | 图源:极客公园

从最初的探索人机交互技术,到 Rokid 定义最初的 AR 眼镜标准、发布消费级产品系列,再到今天所有人都在准备迎接「AR 的下一个十年」,Rokid 在人机交互领域与  AR 眼镜设计/制造领域的经验积累,帮助 Rokid 在 AI 时代真正到来后,成为首批拿出成熟产品的厂商之一,这种产品背后的思路同样值得关注。 可以说,今年既是智能眼镜爆发式增长的一年,也是 Rokid 发展历程中最关键的一年。而 Rokid Glasses 的发布,不仅是 Rokid 站在 AI+AR 时代,对用户需求的回答,也是对未来探索的一次平台更新。 随着 AI 与 AR 眼镜的融合愈发紧密,围绕「AR 眼镜如何更快让更多用户认可」这个问题的答案,将会更快地水落石出。
26 Nov 07:46

香港考古学家用HoloLens 2、Quest Pro支持考古工作

by 刘卫华

查看引用/信息源请点击:映维网Nweon

这彻底改变了挖掘和记录古代遗址的方式

映维网Nweon 2024年11月21日)香港大学文学院的考古学家正在利用微软HoloLens 2和Meta Quest Pro来支持考古工作。团队表示,这彻底改变了挖掘和记录古代遗址的方式。

从建筑到物品来研究人类的过去,考古学通过挖掘数千年前人们制造和使用的物品。大多数考古发掘项目会为新发现的空间和物品创建数字3D模型。然而,要在实地考察和研究中有意义地利用相关数据,考古学家需要采用全新的方法。

所以,港大团队已经开始在挖掘过程中采用XR设备,创新地利用数字3D科学数据在考古遗址中进行交互。利用XR设备,用户能够轻松查看3D模型数据,把模型与物理进行比较。

考古学一直被视为“破坏性科学”,因为数据收集涉及挖掘和清理文物,而其他人无法再次在同一个地点进行同等的挖掘。 所以,港大团队认为微软HoloLens 2和Meta Quest Pro等先进设备对于创新考古学研究至为重要。

在南高加索国家亚美尼亚的实地考察计划中,港大的考古团队已经创新地应用了所述科技。在项目中,团队经常要拆除古老的石墙和陶器,以揭示埋藏在地下的早期遗跡。

团队强调了使用创新科技的优势:“在挖掘过程中戴上MR设备,我可以在原始位置看到虚拟的拆除墙壁,这有助於我决定下一步的挖掘方向。我还可以在同一位置比较不同时期被拆除的古建筑的多个部分。”

另外,工作人员在挖掘时需要握住铲子和刷子,但有了XR设备,研究团队可以方便地使用头显​记录​基本数据,透过拍照和语音辨识来做笔记。

26 Nov 07:46

Vuzix推出Vuzix Z100 智能眼镜,售价为499美元

by 刘卫华

查看引用/信息源请点击:映维网Nweon

售价为499美元

映维网Nweon 2024年11月21日)智能眼镜厂商Vuzix日前推出了全新的Vuzix Z100 智能眼镜,售价为499美元。

这款设备可以为用户提供平视信息显示,并通过蓝牙安卓和IOS智能手机无缝对接,从而获得相关通知和消息的实时推送。

Vuzix Z100智能眼镜的重量为38克,相当于一副标准眼镜。另外,它们一次充电可使用48小时,并提供清晰、透明的单色图像。

对于企业用户来说,这种获得安全眼镜认证的智能眼镜专为全天舒适而设计。通过Vuzix Connect移动应用程序,佩戴者可以轻松地配置Vuzix Z100智能眼镜,并显示来自智能手机应用程序的通知,从而令阅读社交应用的文本和直接消息变得简单和即时。

同时,升级后的Vuzix Connect移动应用程序现在有了提词器功能,并提供了一个健身应用程序来帮助实现锻炼目标。用户可以在跑步或骑自行车的同时监控自己的速度,甚至可以在走路时计算步数。

Vuzix表示:“Z100将人工智能/增强现实智能眼镜提升到了一个全新的水平,为个人提供了一个与传统眼镜无异的免手操作人工智能界面。Z100是一款极具吸引力、重量轻、成本效益高的产品,通过人工智能优化软件增强了当前的工作流程。”

更多信息请访问这个页面

26 Nov 07:46

幕后故事:Meta Orion AR眼镜的独家设计

by 刘卫华

查看引用/信息源请点击:fastcompany

这款AR眼镜背后的独家设计故事

映维网Nweon 2024年11月21日)《快公司》的马克·威尔逊(Mark WilsonL)日前拜访了Meta并体验了Orion,并采访了可穿戴设备设计负责人关于这款AR眼镜背后的独家设计故事。以下是具体的整理:

Meta非常清楚自己不想做什么。

早在2016年,亦即马克·扎克伯格将Facebook改名为Meta的五年前,设计师松田桂一就发布了一部名为《Hyper Reality》
的短片。故事情节十分简单:一位年轻的灵活就业者乘公共汽车前往商店购买杂货。但当故事是通过未来的增强现实眼镜讲述时,这个简单的任务就变成了视觉恐怖体验。

世界的每一个表面都覆盖着数字广告,每一个都在争夺主角的注意力。一只哥斯拉大小的猫咪挡住了天空,一位生活教练敦促她跑步,一只虚拟小狗在推车里呜咽着要买越来越多的东西。尽管本片打造出了一个未来的数字化社会图景,但女主角却不断迷失自我,并不断询问“我是谁?”,“我要去哪儿?”,甚至在最后遭到物理割伤时,本需奔赴医院急救的她却因自己的数字角色丢失所有经验值而选择前往教会“复活”。

Meta负责产品设计、增强现实、人工智能和可穿戴设备的副总裁约书亚·杜(Joshua To)说道:“《Hyper Reality》这个视频萦绕于我们所有人的脑海之中。”Meta产品设计总监米歇尔·普杰斯(Michelle Pujals)表示赞同:“我们认为这是一个巨大的责任。我们点亮的每一个像素都应该是有价值的。”

在不久的将来,Meta打造的AR眼镜就会作为一款完整的消费产品进入市场。但约书亚·杜相信它不会令你困于“Hyper Reality”,而是更接近于一款可以轻松开关的安静计算机。他说道:“这有点像你对Airpods的看法。”

经过两个小时的体验后,以及与Meta高管讨论了Orion之后,我留下了一个明显的印象:Meta是懂行的,他们有可能会把事情做好。

Orion看起来像是尚未减肥的雷朋眼镜。多年来,Meta一直在朝着轻薄化的方向努力。Meta跟我说,当产品正式发货的时候,特定尺寸会比现在展示的模型薄33%到50%。

这款设备充满了先进的技术。它几乎具备智能手机的所有功能,并外加七个摄像头(四个用于定位,两个用于追踪眼睛,一个用于人工智能查询),四块电池,两个Micro LED投影仪。Meta之所以能够将所述组件缩小到如此之小,是因为它们几乎都是定制的硅组件,其中大部分属于专有。

你可以在公共场合佩戴这种眼镜,但里面的内容都是隐秘的。当戴上Orion时,对方实际上看不到你所看到的画面。相反,它的镜片包裹着最薄的碳化硅薄膜。折射率是玻璃的两倍,光不仅从会反射回来,而且实际上通过材料中的微蚀刻通道流动,最终只有佩戴者才能看到。当然,这意味着佩戴Orion会给外界带来微弱的彩虹色光芒。

这种光芒不足以将人脸变成五彩纸屑蛋糕,但它是UX团队在整个界面设计中所倾向的美学。应用图标本身采用宝石般的颜色渐变。“Aero”用户界面的灵感来自于气凝胶,世界最轻的半透明材料。

有两个配件伴随着Orion。第一个是Meta所称的Puck,它负责设备的大部分处理工作。第二个,或许同时是最令人兴奋的一个是神经腕带。

这款腕带可以利用手腕周围的外部传感器来检测控制手腕和手的肌肉电信号,并开辟了一种方便和丰富的新型人机交互形式。不像基于摄像头的系统通过手和手指来检测手部的物理运动,同时不像控制器需要按压和推动,即便你不能做出大幅度动作,或者手指少于五个,手腕的肌肉信号都能提供控制信号。

Orion背后的核心用户体验与Apple Vision Pro非常相似。迎接你的是一组应用于面前浮动的应用图标,你的眼睛如同鼠标一样工作。当你看着特定应用的时候,图标会稍微放大。要打开应用时,你需要用食指轻触拇指。要返回,你可以轻触中指。

另外,拇指轻轻一弹就可以向下滚动一页。双击大拇指可以根据需要呼叫人工智能助手。每个窗口下方都有一个抓取条,你只需要看一下,捏一下就可以重新定位,用户界面会对你的触碰做出轻微的反应。

它的核心手势是手指轻触,并产生“咔哒”的声音,而你的手在半空中点击图标时不会发出这种声音。这种实际振动会加强体验。约书亚·杜表示:“当你的手指相互接触时,你基本上会产生触觉;有反馈,尤其是配上一定的音效和视觉效果,真的会非常令人满意。如果你的触觉是正确的,那是有帮助的……可以强化你对界面的理解。”

尽管目前Orion的尺寸依然很大,但穿戴起来还是很舒服。这在很大程度上不仅是有Hololens作为对比,而且是因为它拥有相对较宽的视场(70度)。

这个视场意味着你可以在面前几英尺的位置打开社交媒体、视频通话和网页浏览器。你可以拖动窗口关闭,或将其推到房间更远的地方。

对于这个视场,最令人印象深刻的时刻是玩《3D Pong》。我站在桌子的一端,而约书亚·杜站在另一端。当我们的眼镜无形地同步,并可以毫不费力地来回击球时,我完全停止了对这款产品技术局限性的思考。突然间,我可以想象我的家人戴着这款眼镜打开一款滑稽的棋盘游戏,或者与他人合作创建一个共享模型。Hololens和Magic Leap都已经触及了其中的一角,但我认为,当它变成一副眼镜形式时,当我可以隔着桌子看到对方的眼睛时,这是完全不同的体验。

米歇尔表示:“我认为,我们所有人都在努力建立人与人之间的联系。让你从(手机)或笔记本屏幕解脱出来,看着那个人。”

实际上,共享全息图和游戏是AR最容易的卖点。

例如在一个演示中,我走到厨房,看着一堆配料,包括一袋袋的奇亚籽、抹茶和燕麦,然后询问人工智能我能做什么。每种配料都有发光的文字标记,人工智能生成的配方会弹出。这只是一个静态的概念证明,而Meta承认这是一个演示体验,没有凌乱的冰箱或食品储藏室来展示不同的实际场景。

尽管如此,这一切依然有点奇怪,在家居环境中,每个物品都顶迷离炫目的发光标签。

约书亚·杜承认:“我认为我们想要达到一个增强现实不会对你造成阻碍的状态:它是你周围世界的一种更自然的延伸,而不是像这种人为的照亮。如果我们想要将相关元素转化成游戏,我想我们应该可以让UI元素变得更加独特。但对于烹饪流程,我认为,如果我们能(从包装上)取一个颜色样本和字体,那就太棒了,让人感觉‘就应该是这样子’。”

在AR中,要做到悄然融入比做到显眼更棘手。为了让屏幕更清晰,米歇尔与硬件和软件工程师合作,正确渲染像素,抚平粗糙的边缘,消除奇怪的畸变(团队同时在开发一种新版本的无衬线字体Optimistic,它的曲线更少,墨印更深,更清晰)。

在向市场正式推出产品之前,Meta需要做出的最大决定之一是围绕着自己的屏幕进行技术权衡:优先考虑视场还是分辨率?

Meta有了一个Orion版本的分辨率是我测试的版本的两倍。但就像你家里的投影仪一样,图像越大,就越模糊。Meta依然在考虑如何调整技术以适应消费者,如何平衡视场和清晰度。

这是一个合理的争论,没人想在65英寸的屏幕玩Gameboy。但同时,如果你的图像小而清晰,则Orion就会接近手机的限制。

如果说渲染已经十分困难,UX编排就更难了。这是约书亚·杜第一次申请Meta职位时的想法,当时他被问到AR的杀手级用例是什么。

约书亚·杜回答道:“我的答案还是一样。让通知变得不那么糟糕,对吧?如果你是总统,你要从一个会议到另一个会议,这要像你的幕僚长对你耳语一样。”

Meta的许多理想可以追溯到20世纪90年代,当时一位名叫马克·韦瑟(Mark Weiser)的研究人员在施乐帕洛阿尔托研究中心工作,并设想了一个人类不需要整天坐在电脑前面,而是通过“环境计算”处理任务的未来。他有时将其称之为“安静的计算”,就如同站在森林里,我们可以吸收各种各样的信息,但永远不会感到不知所措。这就是他想为人类创造的计算机,将电子设备融入我们的世界。

Meta的设计师希望通过个人电子设备重新实现这一理念。他们认为,通过使用增强现实眼镜——呈现在你面前的一个屏幕——他们可以创造出比手机更能融入世界的计算机。米歇尔表示团队的目标是打破定义了我们今天的用户界面的矩形。

约书亚·杜说道:“对于我们的主屏幕是一个网格化的应用排列,我感到有点难过。我期望当我们最终推出一款产品时,我们可以进一步发展。但这有点像早期的拟物化图标(早期iPhone添加假木纹和其他模拟饰面,以帮助人们熟悉新颖的互动),它确实帮助人们了解了什么是可能的。”

Meta对AR的乐观态度可能会让你翻白眼,尤其是这家公司在社交领域的主要营收手段是广告。最终,Meta做出的设计选择将决定这项技术是一种超级广告干扰设备,还是一种能够提升人类幸福感的工具。

约书亚·杜表示:“我认为,在很多情况下,在大多数情况下,我们会采用一种‘嘿,如果你想看的话,我们有东西给你看’的方式,而不是‘这里有什么’的方式。想象一下这样一种模式,你可以看到什么,就像我喵一眼灯光一样,‘你对这个感兴趣吗?’然后,只有当你真的感兴趣的时候,我们才会给你更多的信息。”

在隐私方面,Orion对数据进行加密和抽象,并将大部分信息存储在本地。设计师们认为,他们可以减轻联网带来的最糟糕可能性,比如在你的视线中立即定位任何人并获取对方的所有信息(最近有两名哈佛学生破解了Meta的Ray-bans眼镜,并与面部识别软件配合使用)。

Meta已经建立了自己的内部原型,给你通过Orion看到的人贴上名字标签。约书亚·杜提出了一个小型会议的想法。其中,你可以出席并选择加入,就像在手机分享你的联系方式一样,允许你的名字向其他人显示。但你可以选择不展示自己的名字,这时Orion会让你保持匿名。

他说道:“我认为,如果我们能够以一种非常尊重隐私和深思熟虑的方式精心制作姓名标签,那将是我们非常感兴趣的事情。”

几十年来,增强现实一直都只是一个梦想,而我们现在开始触及这个技术可行性。在试用了Orion之后,我更加相信AR眼镜可以在我们的生活中发挥作用,或者戴起来足够吸引人。但要让它们从整体上有益于人类,这要比简单地将人们的目光从手机屏幕转移到周围的世界更具挑战性。

我们不能只是简单地发文什么是可能的,我们更是不断发文什么是必要的?什么是真正值得的?

27 Feb 00:15

3D芯片技术成关键,Meta AR原型芯片获得巨大性能提升

by 刘卫华

查看引用/信息源请点击:spectrum

3D芯片技术成关键

映维网Nweon 2024年02月23日)增强现实系统的设计存在诸多限制,尤其是眼镜形态,AR 眼镜身形狭小,所以搭载的芯片在能效和性能方面均有高度要求。根据IEEE日前发布的博文,Meta研究科学家Tony Wu介绍了团队正在构建的AR原型芯片。根据介绍,3D芯片技术成为了突破的关键,AR原型芯片通过晶圆到晶圆键合获得了巨大的性能提升。

Tony Wu所在的团队致力于开发一种名为Aria的增强现实系统。他告诉工程师,解决方案的一个重要组成是3D芯片集成技术。在ISSCC大会,Meta介绍了他们的AR原型芯片是如何使用3D技术在相同的区域以相同或更少的能量做更多的事情。

原型芯片由两个大小相同的集成电路组成——4.1 × 3.7毫米。它们通过一种叫做face-to-face wafer-to-wafer hybrid bonding的键合过程结合在一起。简单来说,它涉及翻转两个完全加工的晶圆,使它们彼此面对,并将它们键合,使它们的直连在一起。hybrid bonding意味着它是铜对铜的直接连接,不需要焊料。

采用台积电技术,这意味着两块硅片大约每隔2微米就可以形成垂直连接。当然,原型并没有充分利用这种密度:两块硅片之间需要大约33,000个信号连接和600万个电源连接。另外,底部的芯片使用TSV硅通孔实现电力输入和信号传出。

3D堆叠意味着团队可以在不增加芯片尺寸的情况下提高芯片的计算能力。芯片的机器学习单元在底部芯片有四个计算核心和1兆字节的本地内存,但顶部芯片增加了3兆字节的内存, 可以通过27000个垂直数据通道以相同的速度和能量(0.15pJ / Byte)访问。

团队围绕对增强现实至关重要的机器学习任务(手部追踪)测试了芯片。其中,3D芯片能够同时追踪两只手,比单枚芯片追踪单手节省40%的能量。更重要的是,速度快了40%。

除了机器学习,这个芯片同时可以执行图像处理任务,而且3D在这里又起了非常大的作用。尽管2D版本仅限于压缩图像,但3D芯片可以在相同功耗下实现全高清。

26 Aug 14:33

微软分享:混合现实赋能一线工人的三种方式

by 广东客

查看引用/信息源请点击:映维网Nweon

利用混合现实让您的员工为未来智能制造业做好准备。

映维网Nweon 2023年08月21日)全世界的制造商都在大力投资数字化转型,全面改革他们的运营模式和商业模式。但是,营收增长、工人培训、机器停机和生产效率等各种问题都让制造商们很棘手。为了帮助解决这些问题,微软正在大力投资各种技术以赋能一线工人,比如利用混合现实以及下一代 AI 为一线工作者提供卓越的服务。

通过微软HoloLens 2混合现实头显设备和Dynamics 365 Guides、Dynamics 365 Remote等混合现实服务,可以构建协作环境,允许人们在其中将知识付诸行动,实现通过混合现实技术来解决一线员工培训、现场支持和跨行知识学习等问题。

一、通过远程支持和协作快速解决问题

对于制造商来说,工厂设备停机代价高昂,制造商平均每年面临超过 800 小时或每周 15 小时的设备停机时间,造成了每年大约 50 亿美元的损失。

在过去,制造环境的不同会导致知识孤岛的形成,有价值的见解仅在个人、某个团体或部门之间流动。而现在,混合现实的出现改变了这种现象,无论身在何处,工作人员都可以进行实时共享协作,并且可以得到即时有效的专家指导、故障解决说明。这不仅可以使工作者无需再出差,同时也可以减少设备停机和生产中断所带来的损失。

Dynamics 365 Guides 和 Microsoft Dynamics 365 Remote Assist with Teams 能超越物理限制将工作人员联结起来。Teams 可实现跨生产力协作,和 Dynamics 365 Guides 结合使用,赋能工作人员在任意设备上接受指导、协作。

二、加速培训

作为行业中坚力量,一线工人需要能够精通技术、做出快速决策以及能够灵活工作。传统的现场培训和入职流程通常低效,甚至反而会增加早已不堪负重的一线员工的认知负担。

利用实物的传统培训代价高昂且耗费时间,甚至会对人身安全产生影响,培训结果也往往质量不一,或无法针对个人进行个性化培训。然而,利用混合现实可以解决这些问题。

借助混合现实,一线员工可以更好地了解手头的机器和工作流程,相关材料可即时检索或修改,促进知识交流,同时利用人工智能还可以进一步增强知识的交流。借助混合现实,可以精细化操作,个性化且更深入的学习也变得更加容易。混合现实和 AI 的结合运用,可以加速员工培训,缩短培训流程,并即时地为员工提供手头任务所需的工作知识。

通过 Dynamics 365 Guides,一线员工和服务人员立马就可以学习丰富他们的岗位技能,随时随地获得复杂机械、装配协议或维护步骤的专用交互式指导。

三、信息、见解和技能的传授

如今行业正在经历人才流失、全球化、失业和劳动力老龄化等问题,三分之一的制造业高管声称,留住和替换高效员工是 2023 年的战略重点。临退休的老员工通常拥有丰富的专业知识,保留、传授这些知识至关重要。混合现实可以帮助解决这些问题,帮助企业做出明智的决策并提高生产力。

无论什么地方,什么设备,通过创建沉浸式体验和模拟,混合现实可以促进知识保留和传授。Dynamics 365 Guides 可以提供分步说明、注释和见解,为员工提供指引,提高员工的操作准确性、生产力水平和工作效率。

未来的制造业潜力

混合现实是新兴科技领域工业元宇宙的关键部分,其底层跨平台技术包括 AI、云计算、数字孪生、机器学习等,混合现实正在将我们与数据的关系从固定体验转变为动态体验。

混合现实是可视化工业元宇宙各种元素的重要粘合剂,可以无缝集成物理世界和数字世界,创造超越传统的沉浸式体验。利用混合现实让您的员工为未来智能制造业做好准备。

04 Jan 04:49

NASA Is Seeking Custom AR Solutions For Space Suits

by Bobby Carlton

The AR solution must be able to withstand radiation, dust, and extreme temperatures.

NASA is exploring the idea of using augmented reality (AR) to help astronauts access important mission information and life-saving statistics that would be delivered through a heads-up display in their space suits in an effort to improve astronaut autonomy in real-time communication situations between Earth and space.

Last week, NASA released an RFI (request for information) asking for potential partners and suppliers for the development of an AR display system for its spacesuit. The space agency noted that it aims to create a spacesuit-compatible AR system that will feature a display, compute subsystems, and control system. The RFI was first spotted by Nextgov.

NASA noted that in the future, astronauts might need to rely on their own devices to perform their tasks due to the limited communication time between Earth and space. The proposed AR system could allow them to perform their duties in real-time without having to rely on constant communications.

According to NASA, the proposed AR system would allow astronauts to communicate with Earth using a dynamic visual cue system. It would also help them make informed decisions on their own while traveling beyond the planet. The agency noted that the project, which is currently being led by its Johnson Space Center, is part of a much larger initiative that involves multiple agencies.

In NASA’s RFI posted on Sam.Gov, the space agency requests solutions focused on a system that can provide a minimal amount of intrusive information to astronauts while they’re in the suit with the goal of using AR “to comfortably display information to the suited crew member via a minimally intrusive see-through display.” 

The AR solution needed to be something outside of the current device available on the market. According to the RFI, NASA doesn’t want to use head-worn display configurations due to the various system integration issues that each unique mission might encounter.

NASA noted that their spacesuit currently has limitations that prevent the development of traditional head-up display (HUD) designs. However, the agency is currently looking into alternative display options that could be integrated into the suit.

NASA would like the suits to have dual-colored and monocular displays. These should be relatively low-profile and should not interfere with the actions of the astronauts. The agency also said that these should be located inside or outside the suit’s bubble mold line.

In addition to being able to operate in 100% oxygen, NASA also noted that the suits should have powered components that can withstand the effects of being in space, such as radiation, dust, and extreme temperatures, and should also have flexible mounts that can accommodate an AR display. This will help minimize the conflict between the display and the other components in the suit.

Field tests conducted by NASA have shown that the suits should have flexible display panels that can adjust the amount of information that the astronauts can view while looking at various objects at different distances. According to their engineers, this will help improve the usability of the space suits.

According to NASA’s RFI, one of the most critical factors that set Joint AR apart from other systems is its ability to comfortably exhibit information to the crew member. Due to various operational and system issues, head-worn display configurations are currently not being considered. However, this is not the case with conventional head-mounted display systems. Instead, Joint AR is designed to utilize decoupled display configurations.

In addition, the eye box for suit operations will need to be significantly larger than that of head-mounted systems. Other key factors companies need to consider when submitting a solution are:

  • Eye box: 50 x 50mm or larger
  • Field of View: 30 deg. or larger
  • Eye Relief: 40 to 100mm, depending on user anthropometry and head position
  • Brightness: 1000 nits or more, assuming a see-through transmission of 70% or more
  • Mass: Entire system should be less than 4 lbs
  • Power: Entire system should require less than 5Watts

To help with collecting the right information, NASA has provided several questions and areas for respondents to address in their RFI, such as how current AR systems could be modified or scaled to meet the agency’s requirements, how new technologies under development could satisfy these requirements, and what is the feasibility of their request.

Responses are due to the NASA contracting officer on March 17, 2023, by 5 pm EST. For more information visit here.

Image Credit: NASA

The post NASA Is Seeking Custom AR Solutions For Space Suits appeared first on VRScout.

05 Oct 11:16

Quest 3 CAD文件泄露,规格中规中矩,廉价版Quest Pro

by 广东客

查看引用/信息源请点击:roadtovr

规格性能将介于Quest 2和即将推出的Quest Pro之间

映维网Nweon 2022年09月30日)根据The Information在今年5月公布的路线图,Quest 2头显的下一代产品“Stinson”和“Cardiff”预计会在2023年和2024年发布,亦即所谓的Quest 3和Quest 4。

延伸阅读传2024年前Meta将发布四款全新VR头显,布局高、中、低不同档次

实际上,如果大家有留意,著名消息人士YouTuber布拉德利·林奇(Bradley Lynch)曾多次分享了关于“Quest 3”的情报,包括分辨率4128×2208为LCD显示器和2023年亮相等等。在日前的视频中,他又曝光了据称是官方的Quest 3 CAD文件。

这位YouTuber坚称,这正式是代号为“Stinson”的Quest 3,而所述设备将于2023年发布。另外,“Stinson”的规格性能将介于Quest 2和即将推出的Quest Pro之间。

下面是“Quest 3 ”情报的概括:

  • 像Quest 2一样的软式头带,电池不在背面

  • 2个摄像头,用于六自由度追踪

  • 4摄像头阵列:2 BW+2 RGB

  • 深度传感器

  • 2个LCD显示器

  • 机械式IPD调整

  • Pancake透镜模组

  • 眼动追踪或面部追踪

  • 单风扇散热设计

  • 高通骁龙XR2(第二代)SoC

  • 用于对接充电的pogo pin接口

林奇将这款硬件描述为“面向消费者的混合现实设备”,因为它的前端配备了多种传感器:两个黑白摄像头、两个RGB摄像头和一个深度传感器。不同的传感器数据通过软件融合,从而实现类似于Quest Pro的高质量透视模式。

另外,头显侧面安装了另外两个摄像头,并用于对头显进行六自由度追踪。当然,由于成本高昂,Quest 3不像Quest Pro那样支持眼动追踪和面部追踪功能。

在形状参数方面,由于采用了Pancake模组,所以整体构造更为流畅细薄。另外,设备依然采用标配的织物材质,并将电池装在外壳之中,不放在背面,但Quest 3将与Quest Pro的充电器兼容。另外,根据CAD文件,USB-C端口和耳机插孔都集成在支架之中。

根据林奇的消息来源,Quest 3将配备两个LCD显示器,不同于采用单一LCD显示器的Quest 2。在芯片方面,Meta将继续与高通合作,并采用骁龙XR2(第二代)SoC,以及Snapdragon XR2 Gen 2,而新芯片有望带来性能方面的进步。

最后,林奇表示,Quest 3可以提供多达512 GB的存储空间和12 GB的RAM。

需要注意的是,以上情报都未经过官方的确认,所以我们应该保持谨慎态度。尽管林奇的消息源相当准确,但他强调不代表最终产品。

16 May 05:46

卡内基·梅隆大学探索基于控制器的内向外追踪全身动捕解决方案

by 刘卫华

查看引用/信息源请点击:映维网Nweon

他们瞄准的方向是用户的下半身追踪,而不是控制器定位

映维网Nweon 2022年05月05日)目前,诸如Quest 2等VR一体机通常是基于头显端的内向外追踪来追踪控制器(或用户的双手):头显端的摄像头寻找控制器(通常带有红外LED),并使用它们的位置来映射它们相对于头显的移动。

尽管这种方法有效,但前提只控制器需要位于头显摄像头的视场之内。这意味着,如果控制器过于脱离摄像头视场,头显就会丢失控制器的追踪。

所以,行业开始把目光投向一种特别的解决方案:控制器本身配备用于内向外追踪的摄像头。以这种方式,无论控制器位置何在都可以实现定位。

例如,早前有消息称将于今年发布的Magic Leap 2和Project Cambria都会为控制器采用内向外追踪的方式。

卡内基·梅隆大学的未来界面小组( Future Interfaces Group)同样有就控制器内向外追踪方案进行了探索。有趣的是,团队是基于Quest 2的控制器进行了测试,而且他们瞄准的方向是用户下半身的追踪,而不是控制器定位。

简单来说,由于用户一般都会在身前抬起双手并握持控制器,所以与难以“看到”用户下半身的头显摄像头相比,控制器搭载的用户朝向摄像头可以覆盖追踪用户下半身。

尽管并非没有限制,而且性能效果方面尚不完美,但它能够支持用户在虚拟现实中执行跺脚、下蹲、弓步等一系列的腿脚交互。

尽管内向外追踪的性能已经足以在头显、控制器和双手追踪方面取代外向内追踪,但由于视场覆盖问题,全身动捕一直以来都是依靠外向内的追踪设置来实现。

诸如Quest 2这样的一体机目前能够通过内向外追踪实现头部和双手的动捕,而这又使得估计手臂和胸部的位置相对容易。但头显难以判断你的腿、脚或臀部位置,所以今天的Avatar数字人一直都是缺失下半截。

尽管有人建议可以通过计算机视觉和算法技巧来估算双脚的位置,但Meta首席技术官安德鲁·博斯沃思(Andrew Bosworth)早前就曾明确指出,考虑到摄像头位置(视场覆盖),实现起来非常困难,而且随着头显形状参数的不断小型化,问题将变得越发困难。

针对这个挑战,卡内基·梅隆大学把目光投向了用户握持的控制器。由于用户一般都会在身前抬起双手并握持控制器,所以与难以“看到”用户下半身的头显摄像头相比,控制器搭载的用户朝向摄像头可以更轻松覆盖追踪用户下半身。

团队将这种追踪方法称为ControllerPose。研究人员利用一系列基于腿脚交互的VR内容进行了测试,包括一个类俄罗斯方块游戏,曲棍球守门员(用脚来阻挡冰球),以及用脚来击砍方块的类《Beat Saber》游戏《Feet Saber》。

卡内基·梅隆大学表示:“今天的VR系统通常无法捕捉下半身的姿势。在大多数VR体验中,用户在俯视时往往看不到自己的虚拟双腿。这是因为大多数当代虚拟现实系统只捕捉用户头部和双手的运动。”

所以在这项研究中,研究人员考虑了另一种实用的方法来捕捉用户的身体姿势:将摄像头集成到已经存在电池、计算和无线通信单元的控制器之中。

对于VR会话,团队发现用户的双手/控制器在大部分时间(68.3%)里都位于身体前面。所以,他们希望可以利用这一事实来执行摄像头的内向外追踪,从而实现对用户身体的姿势捕捉,尤其是用户的下半身。

利用这种姿势捕捉方式,研究人员认为可以开启全新的和有趣的腿脚交互体验。例如,用户现在可以在虚拟现实中执行跺脚、下蹲、弓步和其他腿脚交互。另外,团队构建了一系列的演示应用以说明方法的潜力和可行性,例如用脚来击砍方块的类《Beat Saber》游戏《Feet Saber》。

结合头显端的头手追踪及数字人上半身渲染,这一系统可以提供包含下半身的全身动捕,平均3D关节误差为6.98厘米。

相关论文ControllerPose: Inside-Out Body Capture with VR Controller Cameras

当然,研究人员强调在其他情况下这种姿势追踪将会失败,例如双手与前胸贴得太近,以及双手自然垂放在身体两侧等等。尽管这可以依赖基于IMU数据的反向运动学进行预测,但效果显然无法达致完美。

另外,团队坦诚这一追踪方案的性能不及外向内追踪或基于马克点的全身动捕,但他们相信所述系统依然存在一定的实用性,并可以为未来的内向外追踪全身动捕作出贡献。

16 Mar 13:16

Nintendo’s Game Builder Garage teaches your kid to code

by Mark Wilson

No one thought the world needed another STEM game. Then Nintendo showed up.

No company has left a bigger mark on the way video games are made than Nintendo. Now, Nintendo has a plan to teach the next generation of game makers.

Read Full Story

08 Jun 05:25

伊拉克食品配送平台 Alsaree3 完成百万美元种子轮融资

by Boyuan

总部位于伊拉克首都巴格达的食品配送应用 Alsaree3 日前宣布,完成了一笔 6 位数的种子轮融资。Iraq Tech Ventures 和 Rabee 证券董事长 Shwan Ibrahim Taha 领投。

该公司在一份新闻稿中透露,该轮投资已于 8 月完成。本轮投资还得到了其他众多投资者的参与,包括 Hiwa Rauf Group 的 New Venture 经理 Rawaz Rauf、Innovest ME 的创始人和管理合伙人 Bassam Falah 以及 Khudairi Group 的总裁 Subhi Khudairi。

Alsaree3 由 Bassam Al-Ateia 于 2018 年成立,在巴格达提供高质量的客户服务、及时送货和丰富的餐厅选择(450 多家)。除了为客户提供无缝体验外,Alsaree3 还专注于为其餐厅合作伙伴创造尽可能多的价值。他们开发了自家的餐厅点餐系统,包括硬件和平台供餐厅使用。

在谈到 Alsaree3 的发展时,Al-Ateia 在声明中表示:” 从 2018 年开始,Alsaree3 是整个地区最早开始开发和使用餐饮管理系统的公司。这种技术让餐厅接受、打印和查看每个订单,包括历史记录。同时还可以接受线下订单。更重要的是,这种设备极大地降低了餐厅接入网络的成本。”

尽管伊拉克面临无数挑战,今年又受到新冠疫情的影响,但 Alsaree3 的背景和团队仍能提供稳定、高质量的服务。出行限制让许多伊拉克人成为 Alsaree3 这样的配送服务的新用户,投资者认为随着伊拉克人口数字素养的提高,这一趋势将继续下去。

Iraq Tech Ventures 的 Mohammed Khudairi 表示:”Alsaree3 的运营能力非常强。我们对这只团队未来的良好表现深信不疑。”

这是伊拉克技术风险投资公司与 Shwan Ibrahim Taha 合作,在伊拉克成功推向市场的第二家企业。

在谈到伊拉克的创业生态系统时,Rabee 证券董事长 Shwan Ibrahim Taha 说:” 我坚信伊拉克的未来。通过我们的财团,我们很自豪地帮助像 Alsaree3 这样的伊拉克初创企业,我们期待着对该行业的更多投资。”

09 Dec 01:10

巨头的反攻:奥迪增加电动汽车预算至 2025 年

by icebin

通过对未来五年的投资计划,奥迪股份公司正在推动其向网络化和可持续性高级移动提供商的转型。尽管营商环境艰难,总投资额仍约为 350 亿欧元(423.5 亿美元),仍处于较高水平,尤其是对未来的汽车项目。仅用于未来技术的投资就达到约 170 亿欧元(205.7 亿美元),占投资总额的一半。

与整个大众汽车集团一样,奥迪也在加大对电动汽车的投资。这家高端制造商已为混合动力以及未来发展预留了约 150 亿欧元(181.5 亿美元)的资金,从而突显了其电力路线图的关键重要性。大众汽车集团在电子平台战略和软件开发方面的协同作用为财务创造了必要的范围。固定成本的改善,更精简的产品组合以及非车辆投资的节省进一步促进了奥迪品牌的财务稳健性。

“通过现已实施的投资计划,我们正在使奥迪更强大,以应对即将到来的核心业务转型。电动和全网络驱动的技术领导地位是监督委员会和管理委员会的目标。我们正在为此提供奥迪必要的资源。” 奥迪股份公司监事会主席赫伯特·迪斯(Herbert Diess)说道。

“今天批准的用于增强奥迪电气化,混合动力技术和数字化前瞻性主题的投资对于我们在这一转型中至关重要。他们确保了集团的技术领先地位。这使我们在许多项目中受益,也使我们创造了高质量的工作机会。位于内卡苏尔姆(Neckarsulm)和英戈尔施塔特(Ingolstadt)的奥迪工厂将从中获得长期优势。这对于我们作为员工代表来说是决定性的因素。” 奥迪股份公司监事会副主席兼奥迪股份公司总务委员会主席彼得·莫斯强调说。

从 2021 年到 2025 年,奥迪公司计划在研发和固定资产投资上的支出约为 350 亿欧元(423.5 亿美元)。高端制造商仅向汽车项目和创新汽车技术就分配了将近 170 亿欧元(205.7 亿美元),以重新激发 “ Vorsprung durch Technik” 的品牌承诺。

开发成本总额考虑了集团的全面协同效应。例如,电动平台的开发和实施遍及各个品牌。奥迪正在与保时捷一起开发高级平台电动汽车(PPE)。同时,奥迪使用模块化电气化平台(MEB)的 Group 技术。

根据投资计划,2021 年至 2025 年的前期支出将重点放在路线图 E 的不妥协实施上,并针对全部和部分电动车型进行大规模产品攻势。仅在电气化方面,就计划回合而言,预计将有约 150 亿欧元(181.5 亿美元)的资金,占总支出的 40%以上。具体来说,约有 100 亿欧元(121 亿美元)将用于电动汽车,50 亿欧元(60.5 亿美元)将用于混合动力。到 2025 年,奥迪股份公司的电子产品组合将扩大到大约 30 种,其中大约 20 种将完全由电池供电。

在数字化方面,奥迪也从集团的合作中受益,现在将更加有效地利用这一竞争优势。在软件开发方面,奥迪首席执行官 Markus Duesmann 现在将接任 Car.Software-Organization 的董事长,该组织结合并扩展了品牌的专业知识。

通过这种方式,集团自身的软件部门正在为集团的所有车辆创建具有基本功能的统一操作系统。Car.Software-Organization 的任务还包括进一步开发自动驾驶功能。

奥迪公司首席执行官马库斯·杜斯曼(Markus Duesmann)表示:“我们的投资计划说明了一个明确的故事:我们不削减产品的实质,并将电动汽车和软件开发的支出放在首位。” “针对这些中心的未来主题,持续专注于团队协作是成功的重要关键。”

通过优化产品组合以提高效率和精益生产,减少内部流程的复杂性以及改善固定成本,奥迪品牌的财务状况稳固。奥迪转型计划(ATP)和 Audi.Zukunft 基本协议将大大提高效率。自三年前该计划启动以来,仅 ATP 一项就释放了超过 65 亿欧元(78.7 亿美元)。

尽管今年冠状病毒大流行给环境带来了挑战,但奥迪股份公司仍继续明确致力于通过该计划在 2022 年前累计实现约 150 亿欧元(181.5 亿美元)的目标。此外,奥迪.Zukunft 协议为奥迪股份公司稳固的市场地位,稳定的工作机会和有利可图的公司地点奠定了基础。通过计划的支出,德国的工厂也将保持完全的竞争力,并在未来处于有利位置。

奥迪财务和法律事务股份公司管理委员会成员 Arno Antlitz 表示:“有了 Audi 转型计划和 Audi.Zukunft,我们使我们的公司适应未来。这两个程序都确保了我们在继续投资于未来技术方面的财务基础,从而为塑造汽车行业的转型做出决定性的贡献。”

08 Dec 04:39

人机协作新突破!这家日本公司教会了机器臂抖空竹,还能和人类打配合

一大早,公园里就热闹了起来,大爷们双手握杆抖动空竹,做出各种花样技巧,引得旁人驻足观看。

这样的场景大多数人应该都不陌生。

早在我国明清时期,抖空竹这项运动就开始兴起、盛行,2006 年 5 月 20 日,空竹更是被国务院批准列入第一批国家级非物质文化遗产名录。

作为一项典型的基础性节律运动,抖空竹可以活动到身体很多部位、预防肩周炎等疾病,还能显著提高新陈代谢,有助于身体健康。

网络上流传着不少抖空竹入门视频,很多人表示抖空竹是个技术活,想轻松自如地抖空竹并没有想象中那么容易,那么问题来了:转眼 2020 年就快结束了,大家都说科技发展得很快,那机器人会抖空竹吗?

您别说,还真会!

脑洞从何而来?

这里有视频截图为证:两条机械臂正在抖空竹。

甚至,人机还能打配合,一起炫技。

其实,这一脑洞来自一家位于日本东京的公司 OMRON SINIC X。

OMRON SINIC X 是总部位于日本京都的知名自动化控制及电子设备制造厂商欧姆龙集团(OMRON Corporation)于 2018 年成立的子公司,其设立的主要目的就在于「近未来设计」——根据其官网介绍,OMRON SINIC X 致力于进行机器人技术、计算机视觉、机器学习和人机交互等领域的前沿研究。

作为欧姆龙集团的一个战略据点,OMRON SINIC X 聘用了多个领域的杰出人才,包括人工智能、机器人、物联网、制造业和金融业等,同时还与高校、科研机构有着密切的合作,旨在重点解决四个领域的社会问题:工厂自动化、医疗、机动、能源管理。

说到这里,就不得不提一下欧姆龙集团在机器人领域的高光时刻——2016 年 9 月 8 日,欧姆龙在官网上宣布,他们开发的能持续与人类进行乒乓球对打的机器人 Forpheus 被吉尼斯世界纪录认定为世界上首台乒乓球教练机器人。

那么这次为何要尝试让机器人抖空竹呢?

研究人员表示,他们的目标在于推进机器人精细控制和人机协作。

对于机器人来说,抖空竹可以说是一个挑战递增、激励不断的绝佳学习过程,可惜类似的模型目前还未被设计出来。

如果用真正的机器臂来训练,成本会很高,而且这样的高加速度任务(抖空竹主要是靠惯性)操作起来的确有一定危险性。

基于上述想法,研究人员做出了一个空竹模型(diabolo model),由此,机器人也能抖空竹了。

模型如何构建?

具体过程如何,我们可以在 OMRON SINIC X 发表于预印本平台 arXiv 的一篇论文中找到答案。

论文题为 An analytical diabolo model for robotic learning and control(机器人学习并控制的空竹分析模型)。

首先,研究人员推导出了一个空竹-绳子系统的分析模型。

抖空竹,核心在于绳子,要模拟绳子并不容易,原因在于——其摩擦力取决于许多难以甚至不可能测量出来的参数,而且空竹本身和绳子之间的相互作用也是十分灵活、非线性的。

因此,模型简化了抖空竹原本的复杂动作,用一个椭圆来表示绳子的轨迹,用以计算力与运动。

如下图所示,两根小棒的顶端恰好是椭圆的焦点。当然这只是平面图,三维空间中,椭圆形就成了椭球体。

研究人员假设了空竹不同的几种状态,比如:

  • 绳子紧绷状态:空竹在椭圆以内运动。

  • 绳子松弛状态:空竹的中间部分安全地卡在绳子上。

  • 空竹飞行状态:空竹在椭圆以外运动。

为确保模型的准确性,研究人员通过记录人们花式抖空竹的过程,形成了一个数据集,将这一数据集和模型进行对比。结果表明,不论是精度还是物理一致性,模型的表现都超过了基于深度学习的预测器。 

接着,研究人员描述了一种基于最优控制的方法「基于模型的预测控制」(Model-based Predictive Control,MPC)。

这一方法以空竹的速度和位置作为输入,通过优化其中一根小棒的运动轨迹,预测两根小棒顶端的运动轨迹,来生成机器人抖空竹的轨迹,让机器人解锁更多花式玩法。

具体到下图:

  • 黄色线条代表预测的空竹轨迹;

  • 绿色线条代表目标状态;

  • 白色线条代表下一次轨迹出现前的预测;

  • 红色、蓝色线条代表两根小棒顶端的轨迹;

  • 透明红色区域代表实际三维情境中形成的椭球体轨迹。

最后,研究人员在真实的机器人系统上进行测试,实现了人机共抖空竹的结果。

研究人员表示,希望这项研究能对机器人技术起到推动作用,激励机器人学习方面涌现出更多想法。

值得一提的是,OMRON SINIC X 官方表示准备发布仿真模型、数据集和控制算法,作为独立模块和 Gazebo 插件供大家学习,感兴趣的小伙伴们可以保持关注。

引用来源:

https://www.omron.com/sinicx/

https://arxiv.org/pdf/2011.09068.pdf

https://www.youtube.com/watch?v=oS-9mCfKIeY

https://www.bilibili.com/video/BV18t411V7QQ?from=search&seid=1725424399981005198

雷锋网雷锋网雷锋网

28 May 01:19

VR医疗培训Precision OS带来570%的学习速度提升

by 黄颜

查看引用/信息源请点击:映维网

学习信息的速度要比非虚拟现实组别快570%

映维网 2020年05月27日)Precision OS是一家温哥华企业,并用虚幻引擎开发了专注于为医生培训开发VR手术模拟软件。他们通过更快捷、更彻底、更便携的培训来改变医学教育的面貌,以及提供了为各种潜在情景培训外科医生的能力。

Precision OS首席执行官、骨科医生丹尼·戈尔(Danny P. Goel)博士表示,他们的目标是改变我们对外科教育的看法。他说到:“这实际上是挑战400年多来所传承下来的教条,即以塑料模型或在尸体进行学习教育。”

尽管医学教科书和塑料模型能够整洁地说明骨骼、肌肉和器官,但现实情况却大不相同。另外,医学教育主要是利用尸体实验室、讲座和在职培训。但医疗服务提供者可能需要数个月的时间才能精通掌握,而且即使是这样,他们都不会体会在手术过程中可能出现的所有情况。

在最近的一项独立研究中,有经验的外科医生评估了PrecisionOS 虚拟现实受训者和非虚拟现实受训者的技能。虚拟现实组别不仅在技能方面优于非虚拟现实组,而且学习信息的速度要比非虚拟现实组别快570%。这项研究已于2020年初发表在《Journal of Bone and Joint Surgery》期刊 。

Precision OS最近与为受伤穷人提供骨折手术的人道主义组织SIGN Fracture Care建立了合作关系。SIGN将向53个国家的365家医院分发Oculus Quest一体机,然后远程向其提供Precision OS的手术培训。这一举措不仅能够缩短培训时间,而且能够节省原本用于外勤出勤的时间和资金。

VR医疗培训Precision OS带来570%的学习速度提升最先出现在映维网

01 Apr 14:55

数字视网膜演化简史

一位学者在学术领域开山立派,最显著的一个标志就是某个学术概念能够与该学者划等号,例如当提起相对论必然会联想到爱因斯坦。

同样的道理,当提起「数字视网膜」这一概念,人们首先能想到的当属中国工程院高文院士。

所谓数字视网膜,即类比于人类视网膜,对传统摄像头乃至视觉计算架构进行演进与革新,从而能够更加智能地支持城市大脑,服务智能安防、城市精细管理等智能应用。

更为具体的来说,传统摄像头只是把拍摄到的视频数据压缩后上传到云端进行存储,再做分析识别处理;而数字视网膜则要求在摄像头端对拍摄视频进行高质量视频编码和视觉特征提取编码,对压缩编码过后的视频流进行本地存储的同时按需上传到云端,而所有的紧凑特征流同步实时同步到云端,从而既能够保证高效的存储,又能够便捷地支撑大数据查询分析,与此同时支持在端-边-云之间进行面向智能视频编码和特征分析的深度学习模型自适应迁移、压缩、更新与转换。简而言之,数字视网膜就是这样一种包含视频编码流、特征编码流和模型更新流的可伸缩端边云协同视觉计算架构。

传统视觉感知系统

数字视网膜技术系统框架

这一概念从正式提出至今,才不过两年,然而从最初构想,前期实践,到理论基础构建却花了近五年的时间。即使到现在,数据视网膜的技术框架也仍然在不断完善当中,但其影响却将是颠覆性的。正如高文院士在2018年的一篇文章[1]中提到:

我国已明确提出“到2020年,基本实现全域覆盖、全网共享、全时可用、全程可控的公共安全视频监控建设联网应用”,但是如果没有重大技术突破,数千万摄像头根本无法实现“全网共享”的实时数据汇聚,更不可能实现“全时可用”的联网分析识别,“数据大”变不成“大数据”,巨大潜在价值无法发掘。数字视网膜是应对上述挑战的一种可行的颠覆性技术发展方向。


1、雏形酝酿

高文院士对于「数字视网膜」的理解,是伴随着对城市中视频监控体系所存在问题的深刻认识而不断深化的。

据可考查资料,高文院士最早对城市中摄像头所存在缺陷以及可能的改进进行思考始于2013年初(或者稍早)。在2013年新年伊始,高文院士曾接受人民网采访[2],他提到现代摄像头密布,但还需要后端人力去盯,一旦遇到重大案件,去调用录像资料,却往往起不到太大作用。如果能够在设计视频编码时,让系统把数据中有用的信息抽取、挖掘并分析出来,不但能节省后期的人力投入,而且能起到应急作用。
可以认为,这个时候,他已经有了模糊的概念,但对于具体如何去做,却仍在酝酿当中。

在2013年10月,高文院士在中国信息化周报上发表了题为《智慧城市中的视频编码、分析与评测》的文章[3]。在这篇文章中,他首次系统提出了他对“智慧城市”中视频监控所存在问题的深入思考,他指出:

1、目前的监控系统在设计时是为了视频存储和以人为核心的视频跟踪,而非以计算机为中心的自动分析,因此靠这样一套系统来实现智慧城市的视频系统,去做自动分析,是根本无法完成的。

2、智慧城市中的视频技术面临三大问题,分别是存储成本高(数据量太大)、检索困难、对象再标识难。而这三个问题归结到本质则是两个问题,一个是编码问题,而另一个是视频分析识别问题。因此如何对监控视频进行高效视频编码,以及如何对其进行分析和检索,是必须思考的两个本质问题。

3、在学术界存在一个奇怪现象,即做视频编码的学者对视频分析不感兴趣;而反过来,做视频分析的人对编码也不感兴趣。原因在于前者处理的是像素和图像块,属于图像处理领域,而后者处理的是图像特征,属于模式识别领域。就像两条路上跑的车很难交汇。

幸运的是,高文院士正好跨界这两个圈子,无论是在视频编码领域,还是在计算机视觉(特别是人脸识别)领域,他都有着重要的影响力。其学生陈熙霖、山世光两位研究员继承了他在人脸识别领域的衣钵,如今已成为国际计算机视觉领域的领军人物;而其学生黄铁军和马思伟两位教授则继承了他在编码领域的衣钵,在国际视频编码领域也有着重要的影响力。[4]

高文院士对当代城市监控系统存在问题的本质分析,尽管只是雏形,但却奠定了他在随后解决这一问题的研究思路和方向。特别是在2014年的“第二届智慧城市与智能系统院士论坛”上,他提出“我们希望把编码和分析所做的技术融合在一起,集中在一个编码的框架下。”[5]

然而,尽管有了大致的方向,但由于以深度学习为代表的新一代人工智能刚刚兴起,许多人对深度学习都还不太熟悉,当时的算法和算力还不足以支持这种设想的技术。当然,从已有的资料中也可以看出,高文院士当时对这一问题的分析和解决方案设想中,对如何将深度学习与视频编码进行融合似乎也并没有很深入的想法,仍然是以“前深度学习”的模式在思考。


2、仿生:数字视网膜

时间一晃,来到了2016年。随着人工智能的发展,计算机视觉变得红红火火。大量以计算机视觉为技术基础的初创公司相继成立,传统安防企业也逐步转型。城市安防成为了一个资本角逐的大市场,高文院士之前提到城市视频监控的三大问题(存储成本高、检索困难、对象再标识难)也显得越加尖锐。

在这些年当中,高文院士逐步将原有的框架丰满起来,然而若想把这一理念落到实处,还需要具体的场景,毕竟这是一个以工程为主体的研究。正如他在随后的一篇文章[1]中提到:

“需要建立一个大规模测试平台来评估和展示数字视网膜架构的技术优势。这个平台至少应该包括上万路的监控摄像头,地理上覆盖一个中等以上城市,从而可以在真实场景中评估与数字视网膜相关的算法和技术。”

巧合的是,2016年以王坚为主导的阿里云在杭州开始试点建设城市大脑。[6]这正符合高文院士研究的需求,于是与王坚等人一拍即合。为了更好的合作,2017年7月,高文院士以前的学生团队成立了一家名为「博雅鸿图」(「博雅」取自北大「博雅塔」;而「鸿图」为立意高远之意)的公司,高文院士担任董事长,依托北京大学数字视频编解码技术国家工程实验室在数字音视频编解码(AVS)国家标准和视觉特征编码(CDVS)国际标准等方面的技术、标准、人才和产业化优势,致力于视觉智能芯片及系统解决方案的研发及产业化。[7]

在这期间,高文院士开始跳出编码和计算机视觉的领域,从更广的范围里思考其框架。一个表现即是,在2017年6月举办的图灵大会上,高文院士做了主题为《Evolution of the Artificial Visual System》的报告。[8]

高文院士在2017年图灵大会上做报告(来源:腾讯视频截图)

在这个报告中,他首次提出动物视觉的演化,以及人类应该借鉴其中的模式,这本质上便是「仿生」。但在报告中,他仅仅做了类比,虽然没有提出「数据视网膜」的概念,但基本框架已经非常完备。

数字视网膜概念的首次提出,是2017年10月份在深圳举办的安博会上。[9]

他在这次报告中进一步指出,传统视觉感知系统中监控摄像头为1-1模式:单摄像机单流、单用途。这种模式是长期自然形成的,效率不高:(1)压缩-解压缩和分析过程造成长延迟;(2)对象检测、模式识别和场景理解的准确性较低;(3)低利用率,目前的监控系统是为存储数据并再由人工离线检查而设计,大部分数据在其生存期内始终没有用。这些是我们当代智慧城市所不能忍受的,我们需要升级这些“眼睛”。

在这次报告中,他也首次指出数字视网膜包含的三个核心技术:

1、基于背景模型的场景视频编码。现有监控摄像头采用的视频编码技术标准对监控视频编码效率不高,因为这些标准主要是针对广播电视视频制定的。在监控场景下,大多数摄像头是固定的,背景相对不变,因而如能够利用背景预测,消除相应的冗余信息,那么编码效率将大大提高。

2、视频特征的紧凑表达。视觉表征是图像视频分析处理的基础,如果在摄像头端利用人工设计特征与深度学习特征自适应融合技术提取帧内帧间视觉紧凑表示,然后传送到云端,就能大大提高搜索效率。他们曾实验表明平均每帧仅需100bit,可达到与未经压缩特征相当甚至更高的检索性能。

3、视频编码与特征编码的联合优化。上述两种数据信息并不是相互独立的,而是相互关联,可互为指导的,因此数字视网膜在同时输出压缩视频流和紧凑特征流时,可以根据码流的大小,设计联合优化函数来计算如何分配各自的码率,从而在保持分析检索性能的情况下,进一步达到压缩需求,如下图所示。

从图中可以看出,在保持视频编码性能基本不变的情况下,特征编码可大幅度压缩。

高文院士也提到数字视网膜的三个特点,分别为高性能、高效率和可伸缩。

在这次报告中,还值得一提有两点。首先,他指出数字视网膜是可软件定义的,即特征学习模型和摄像机参数可以实时地从云中心更新(后面又对这一概念做了升级);其次,针对当前大多数仍然是传统摄像头(而非数字视网膜摄像头)的实际情况,他提出了基于智能边缘节点的解决方案,也即将负责特征提取的“视网膜”功能部署在边缘汇聚服务器,而不是更换已经部署的摄像头。

尽管“数字视网膜”整个框架都已经搭建完整,且已经在杭州、山东文登、重庆等地做了实际试点,但直到2018年初,相关工作才首次正式见于刊物。

2018年初,高文院士,北京大学田永鸿教授,以及阿里巴巴首席技术官王坚博士(2019年被评选为中国工程院院士)在《中国科学》期刊上联名发表了一篇名为《数字视网膜:智慧城市系统演进的关键环节》。[1]

这篇文章首次完整、清晰且严谨地定义了「数字视网膜」的概念:

如何借鉴“人类视网膜同时具有影像编码与特征编码功能”这一生物特性来研究和设计一种更高效的摄像头。我们称之为数字视网膜摄像头(retina-like camera),简称为数字视网膜(digitalretina)。

数字视网膜的核心在于“单摄像机双数据流”,其中压缩视频流是为了存储和离线观看,而紧凑特征流则是为了大数据分析与搜索。

文章也对不久前安博会上报告内容做了更为严谨的描述,同时也首次提出了数字视网膜所必须满足的五个条件:(a)使用全网统一的时间;(b)提供精确地理位置;(c)提供视频数据的高效编码功能;(d)提供视频数据的紧凑特征表达;(e)支持视频编码与特征表达的联合优化。

考虑数字视网膜研究未来可能的演化路线,高文等人在这篇文章中提出三点,分别为:(1)标准化,该研究落地到实际生活中,必须在不同厂商及城市之间形成统一的标准;(2)软硬件开源,对于这样的基础工程来讲,如果无法做到软硬件开源,相关的技术和产品就无法做到有效的开发和应用;(3)大规模测试床,这也是我们前面所提到的,不同于理论研究,数字视网膜本身更偏向应用工程,因此必须有真实场景的测试才能够推进发展。

针对以上三点,高文院士等人也有相应的动作,例如积极推动的AVS2、MPEG CDVS及其扩展MPEG CDVA等。[9]

此外,2017年7月,由高文院士、潘云鹤院士、黄铁军教授等带头发起成立的「新一代人工智能产业技术创新战略联盟」,也在创立之初就积极推动成立人工智能开源开放平台建设。[10]

在寻求建立大规模测试平台来评估和展示数字视网膜架构的技术优势方面,除与阿里云合作在杭州试点外,2018年3月,深圳市也成立了“鹏城实验室”,高文院士担任实验室主任,由此开启了深圳试点。[11]

因此,《数字视网膜:智慧城市系统演进的关键环节》这篇文章的发表具有标志性意义,它也意味着高文院士对于「数字视网膜」的定义正式成形,研究格局基本确立。


3、从「双流」到「多流」

按照上述所示的框架,高文院士所带领的团队(包括其所担任董事长的博雅鸿图)一直在完善从前端到后端,从软件到硬件的探索和设计。

从本质上来说,智慧城市的数字视网膜便是在摄像头中嵌入芯片,从而能够将获取的视觉数据经过高效编码和紧凑特征提取后,传送给城市大脑(后端云),以便更为高效、灵活地检索和分析。这里涉及到两种数据流,分别为视频编码流和特征编码流。

但这种架构忽视了一个问题,即数字视网膜的芯片在做特征提取时,依赖于良好的深度学习模型。为了保障特征提取的准确性,城市大脑通常需要利用搜集到的数据进行学习,训练相应的模型,再将学到的模型发送给前端设备。因此,模型的生成、利用和通信对数字视网膜至关重要,特别是视频数据在位置、时间和环境等方面差异很大的情况下。因此,在视频编码流和特征编码流之外,模型编码流同样是非常重要的一部分。

因此,随着对数字视网膜实践和认识的深入,其结构由「双流」变为了「多流」:视频编码流、特征编码流和模型更新流。

针对这一概念,高文院士最早是在2019年11月底在山东济南召开的“2019世界人工智能融合发展大会”上提出的。[12]

但事实上,他们对此的研究早已开始。

在2019年7月,由北大段凌宇教授课题组在计算机多媒体领域国际学术会议IEEE ICME上发表了《智慧城市数字视网膜的模型生成、利用和传输范式》(Towards Digital Retina in Smart Cities: A Model Generation, Utilization and Communication Paradigm)一文[13],这篇文章首次提出视频流、特征流与模型流的协作计算模式,以克服端-边-云环境下的模型复用与传输瓶颈。值得一提的是,这篇文章还获得了这届会议的最佳论文奖。[14]

段凌宇教授课题组在数字视网膜研究与实践中发现,数字视网膜计算框架下的边缘节点缓存了大量表征模型与无标签数据。为此,课题组提出了一种多模型复用机制,有效利用了边缘节点缓存的模型和数据,生成更具域适应性和判别力的目标模型。针对多模型复用过程中的模型训练稳定性,论文给出了理论证明与分析,并在实验中取得了相比传统方法更优的性能增益。在视网膜计算框架下,模型的频繁传输与部署会带来较大的通信开销。为了提升模型更新效率,进一步提出了模型间高效通信的新问题,并提出了一种新颖的差分模型压缩方法,相比传统的单模型压缩方法,可有效降低模型传输码率开销。该论文围绕视频流、特征流、模型流,提出了城市视觉系统中的协同计算新问题,对于未来数字视网膜理论研究与实践具有指导意义。[14]

2019年10月由博雅鸿图公司研制的第一款数字视网膜芯片—“鸿图 TMGV9531ESHI”流片成功。在同月的第二届雁栖航天论坛上,高文院士对该芯片进行了详细介绍。

在“2019世界人工智能融合发展大会”上,高文院士提到,[12] “第一款数字视网膜芯片已经在路上,很快就会发布,这个芯片很小,就像一块钱硬币一样,但却把我刚才说的三个本质特征、八个功能全都包含在里面。将来,这种芯片可能会直接进入各种智能交通的系统里,会支撑数字视网膜的应用。”

2019年11月22日在杭州举行了第一款数字视网膜芯片发布会和数字视网膜生态伙伴启动仪式,正式命名为“鸿芯图腾GV9531”对外亮相。

“鸿芯图腾GV9531”是首款支持数字视网膜技术体系的智能芯片,也是首颗AVS2视频编码芯片,它对数字视网膜技术进行了完整的诠释,支持全局统一的时空ID、多层次视网膜表示和模型更新及软件定义,在边缘端实现数字视网膜技术的高能效处理,不仅能减少进入云端的无用数据量,还能大大降低视频数据处理的成本,是数字视网膜边云系统视觉计算框架的核心算力支撑平台,是视觉边缘计算、多流智能处理、实现脑眼合一的视觉计算系统不可缺少的关键环节。

另外,在新的一年里面,数字视网膜的研究会有什么新的进展?更为重要的是,在这一领域,它能够给研究者带来哪些值得研究的新课题?它能够给芯片厂商、安防厂商带来什么新的商机?

这是我们所期待的!



本篇文章的写作,离不开中国图象图形学学会以及北京大学多位老师的支持,在此感谢。

AI科技评论了解到,由中国图象图形学学会主办,新疆大学承办的第二十届全国图象图形学学术会议(NCIG 2020)将于2020年6月28-20日在新疆乌鲁木齐举办。高文院士将作为特邀讲者[16],再次为我们带来数字视网膜的最新研究报告,该会议将汇聚国内图像图形及相关领域领军人才,聚焦领域热点问题,多角度全方位洞见未来发展趋势,包含3个特邀报告,2个讲习班,4个论坛,5个竞赛,1个优秀博士论坛,多个展览,是国内图像图形领域专家学者合作交流的平台,值得期待!

NCIG 2020 官方网站:http://ncig2020.csig.org.cn



高文院士简介

高文,北京大学博雅讲席教授。1982年于哈科大获得学士学位,1985年于哈工大获得硕士学位,1988年和1991分别获得哈工大计算机应用博士学位和东京大学电子工程博士学位。1991至1996年就职于哈尔滨工业大学,1996至2006就职于中国科学院计算技术研究所,2006年2月至今就职于北京大学。IEEE Fellow、ACM Fellow、中国工程院院士。他的研究领域为多媒体和计算机视觉,包括视频编码、视频分析、多媒体检索、人脸识别、多模态接口和虚拟现实。他最常被引用的工作是基于模型的视频编码与基于特征的对象表达。他先后出版著作七本,合作发表300余篇期刊论文、700余篇国际会议论文。先后多次获得国家科技进步奖、国家技术发明奖、国家自然科学奖等学术奖励。

参考资料:
[1] 数字视网膜:智慧城市系统演进的关键环节,中国科学:信息科学2018年第48卷第8期:1076–1082

[2] 高文院士:高效视频编码技术前景广阔,人民网(2013年1月10日),http://scitech.people.com.cn/n/2013/0110/c1007-20156410.html

[3] 智慧城市中的视频编码、分析与评测,中国信息化周报(2013年10月21日)第 005 版

[4] 高文院士个人主页,http://www.jdl.ac.cn/htm-gaowen/

[5] 与智能视频监控有关的技术挑战,中国信息化周报(2014年9月22日)第 005 版

[6] 复盘阿里城市大脑这3年(2019年1月25日),https://www.leiphone.com/news/201901/Pq1EAaIrVXM4mDMv.html

[7] 北大高文院士发表重要讲话:人工智能数字视网膜芯片到底能做什么(2018年7月7日),http://www.pinlue.com/article/2018/08/0913/386742019905.html

[8] 图灵会议高文院士主题报告(2017年6月8日),https://v.qq.com/x/page/e0511e3veje.html?fr=v.hao123.com

[9] 高文院士50张PPT,带你看懂城市大脑的瓶颈与重大突破点(2017年12月15日),https://www.leiphone.com/news/201711/esDVM34RTfN0mN67.html

[10] 专访黄铁军:以落实国家「新一代人工智能发展规划」为己任的战略联盟,成立8个月做了哪些事?(2018年3月26日),https://www.leiphone.com/news/201803/UJuG5jWfsHxXe26M.html

[11] 鹏城实验室启动大会召开,
http://www.pcl.ac.cn/index.php/home/index/views/id/164.html

[12] 中国工程院院士高文:数字视网膜消除智能交通痛点 | 世界人工智能融合发展大会(2019年11月20日),https://www.leiphone.com/news/201911/q5Y20D2wqlFqXSHe.html

[13] Towards Digital Retina in Smart Cities: AModel Generation, Utilization and Communication Paradigm(2019年7月31日),https://arxiv.org/abs/1907.13368

[14] 计算机科学技术系段凌宇教授团队荣获IEEE ICME 2019最佳论文奖(2019年8月2日),https://eecs.pku.edu.cn/info/1023/9885.htm

[15] 数据不出本地,还能享受大数据训练模型,联邦学习提供一种应用广阔的学习新范式(2019年9月11日),https://www.leiphone.com/news/201909/WOcl8I1TjMjXVJd5.html

[16] NCIG 2020第二十届全国图象图形学学术会议,http://ncig2020.csig.org.cn

[17] AI Oriented Large-Scale Video Management forSmart City: Technologies, Standards and Beyond(2017年12月5日),https://arxiv.org/pdf/1712.01432.pdf

[18] 高文院士:用类脑颠覆摄像头,数字视网膜是下一站(2018年9月12日),http://tech.163.com/18/0912/18/DRH97U4S00098IEO.html

[19] 解析高文院士提出的“数字视网膜”体系(2019年5月8日),https://www.iyiou.com/p/99569.html

雷锋网雷锋网雷锋网

08 Oct 05:10

Toyota Using VR To Train Robots To Assist The Elderly

by Kyle Melnick

Practice makes perfect for this army of house-cleaning robots. 

Earlier this week Japanese-based Toyota Research Insitute released details regarding a new project currently in development that will have researchers teaching robots how to complete various types of housework using VR technology. 

Using a series of 3D sensors and cameras attached to the robots, researchers in a VR headset can view the world from the robot’s perspective and control its actions using standard motion controllers. As the researcher completes various tasks with its mechanical arms, such as opening and closing cabinets or putting away the dishes, they can leave the robot specific notes or instructions on how to complete the task in different ways. The robot then records and analyzes this information, building upon each new method and instruction that is added. 

Once a researcher has provided a sufficient amount of data to a “robot-in-training,” Toyota then uses that accumulated knowledge to educate other robots using a technique referred to as “fleet learning.” Think of it sort of like a hive mind; whatever knowledge one robot obtains is shared with the rest of the fleet. 

“Operating and navigating in home environments is very challenging for robots,” states the Institute in an official press release. “Every home is unique, with a different combination of objects in distinct configurations that change over time.”

Image Credit: Toyota Research Institute

“To address the diversity a robot faces in a home environment, we teach the robot to perform arbitrary tasks with a variety of objects, rather than program the robot to perform specific predefined tasks with specific objects. In this way, the robot learns to link what it sees with the actions it is taught. When the robot sees a specific object or scenario again, even if the scene has changed slightly, it knows what actions it can take with respect to what it sees.”

The end goal of the project, according to TRI, would be to develop a system that could support those in need of at-home assistance, such as the elderly, by conducting maintenance, cleaning, and performing a variety of other basic activities.

Feature Image Credit: Toyota Research Institute

The post Toyota Using VR To Train Robots To Assist The Elderly appeared first on VRScout.

24 May 12:00

四分之一的 Google Duplex 呼叫其实来自人而不是 AI

Google 的电话智能助手 Duplex 开始为用户提供服务,它使用 AI 帮助用户完成预约或订餐等任务,这项技术给人留下了很深刻的印象,尤其是你以为的 AI 其实是人类的时候。某天下午,一家餐厅的服务员接到了 ID 为 Google Assistant 的呼叫者的订餐电话,服务员察觉打电话的人真的像人类,于是问对方是不是机器人,对方立即回答他不是机器人。Google 随后证实打电话的人来自一家呼叫中心。搜索巨人称 25% 的 Duplex 呼叫始于呼叫中心的工作人员,15% 的自动系统呼叫在某个时候需要有人类介入。换句话说智能电话助手很大一部分还是靠人来运作。在 Duplex 能真正为人类提供服务前它还需要接受更多的呼叫训练,向 AI 的过渡是逐步的。

29 Apr 00:09

在三星的要求下,iFixit 撤下了 Galaxy Fold 的拆解结果

by Steven Lee

三星的折叠屏幕手机 Galaxy Fold 的前景并不明朗,根据知名拆解团队 iFixit 的拆解结果,这款手机非常脆弱。然而三星已经要求该团队撤下其拆解结果。

此前有不少评测机因被撕下一层屏幕保护膜,而出现了屏幕问题。iFixit 在拆解结果中表示,Galaxy Fold 的显示屏在技术上可以在没有保护层的情况下使用,但其粘附力非常紧密,显示器非常脆弱,如果不施加破坏屏幕的压力,很难将其移除。iFixit还表示,铰链处较大间隙会让污垢进入,而污垢可能会夹在铰链和显示器之间,从而影响屏幕性能。

目前,三星已经要求 iFixit 从网上移除关于这款手机拆解结果,因为被拆解的 Galaxy Fold 是由三星提供的。虽然从理论上来说 iFixit 没有义务这样做,但该团队已经遵循了这一要求,并从网站上删除了相关页面。

iFixit 在声明中表示:“我们手上的 Galaxy Fold 由值得信赖的合作伙伴提供。三星通过该合作伙伴要求 iFixit 移除其拆解结果。我们没有义务删除我们的分析结果,无论是从法律上还是其他方面。但出于对该合作伙伴的尊重,我们认为这是让设备更易于修理的盟友,所以我们选择撤回我们的内容,直到 Galaxy Fold 在零售店上架。”

17 Apr 09:33

波士顿动力用 10 台 SpotMini 拉动一辆卡车

by 豆腐

波士顿动力(Boston Dynamics)在官方 YouTube 更新了一段视频——由 10 台 SpotMini 一起拉动一辆卡车。

去年我们看到了 SpotMini 伴随《Uptown Funk》跳了一段舞蹈,波士顿动力为我们展示了它的协调性和灵活度。这次他们展示了一支由 10 台 SpotMini 组成的队伍,共同完成一项工作。

在这之前,波士顿动力已经为我们展示过 SpotMini 开门、爬楼梯、捡起物品等一系列逼真动作。据 The Verge 报道,SpotMini 已经完成生产,波士顿动力表示他们将很快推出一系列应用,不过波士顿动力并没有公布 SpotMini 的价格。

波士顿动力曾表示,计划在 2019 年制造大约 100 个 SpotMini,以供商业使用,最终实现大规模量产。这是波士顿动力公司成立 26 年来,首次出售它生产的机器人产品。

 

图片:Boston Dynamics

29 Apr 00:44

Thoughts on Low Latency Interrupt Handling (SAMD51) @microchipmakes

by phillip torrone

Screen1

Thoughts on Low Latency Interrupt Handling | Big Mess o’ Wires.

For this analysis, I’ll assume the microcontroller is an Atmel SAMD51. If I were actually building this hardware now, that’s what I’d probably choose. The SAMD51 is a fairly new 120 MHz ARM Cortex M4 microcontroller, and is like an upgraded version of the popular SAMD21 used in the Arduino Zero. Adafruit had a gushing review of the SAMD51 when it was released last year. It has a nice selection of hardware peripherals, including some programmable logic, and it’s fairly fast, and cheap.

Read more.

28 Mar 00:05

Waymo向捷豹路虎下单2万辆I-Pace,组建庞大高端服务车队

雷锋网·新智驾按:美国东部时间3月27日一早,Waymo在纽约宣布了一条重大消息。Waymo将向捷豹路虎采购2万台高端电动SUV I-Pace,两家合作组建的这个车队将是全球第一支高端电动无人驾驶车队。I-Pace的价格如果按7万美金计算,Waymo这次又砸下了14亿美金。

Waymo CEO John Krafcik在简短的发布会上透露,在确立此次合作前,Waymo用相当长时间调研了市面上可能的车型,最后选定了I-Pace。选定I-Pace有几个原因:I-Pace的车型尺寸适合城市路段的驾驶,其基于纯电设计的车辆架构易于部署自动驾驶系统;I-Pace在设计时采用了较高的安全标准,最后它的电池容量和续航里程可以支撑一天的城市驾驶。

Waymo 的自动驾驶车队又要再次壮大了,这次它们的合作伙伴可不是菲亚特-克莱斯勒这种普通车厂,而是最近凭借纯电动 SUV I-Pace 成为特斯拉最大威胁的豪华品牌捷豹路虎。最关键的是,两家公司的合作并非小打小闹,财大气粗的 Waymo 可是一次要买 2 万辆 I-Pace 充实自家车队。

本月月初才在全球首发的 I-Pace 可不是克莱斯勒 Pacifica 那样的大众运输工具,它一旦正式服役,必然会开辟一个全新的细分市场,帮 Waymo 笼络更多钱包鼓鼓的用户(这类用户也是最愿意为新技术花钱的)。

令人惊喜的是,据雷锋网新智驾了解,两家公司的合作进展迅速,今年年末第一辆整合了 Waymo 自动驾驶技术的 I-Pace 原型车就将正式上路测试。

值得一提的是,全自动驾驶版的 I-Pace 并非下了捷豹生产线后加装一些 Waymo 的套件。相反,两家公司的工程师会通力合作,从零开始完成这款车与自动驾驶技术的结合。从 Waymo 公布的长远计划来看,两家公司计划在两年内打造 2 万辆全自动驾驶版的 I-Pace,实现每天 100 万次的运输量。虽然公布了不少数字,但 Waymo 并未透露这笔庞大的订单要花多少钱。

眼下,Waymo 的自动驾驶车队有大约 600 台 Pacifica 自动驾驶汽车,其中一些已经开始在亚利桑那执行接送乘客的任务了。与 I-Pace 不同,这些 Pacifica 均为插电混动车型。为了进行深入合作,Waymo 和菲亚特-克莱斯勒(FCA)还专门在密歇根建了一座工厂,离 FCA 的美国总部非常近。

在 Pacifica 之前,Waymo 的自动驾驶车队主力一直是呆萌的“萤火虫”(已于去年退役)和雷克萨斯 RX SUV。

去年 11 月份,艺高人胆大的 Waymo 玩起了“大撒把”,原本要在关键时刻力挽狂澜的安全司机都下岗了。最近几周,胸有成竹的 Waymo 开始邀请一些乘客体验它们真正的全自动驾驶汽车。

随着 Waymo 商业自动驾驶打车服务的逐步成型,它们也开始为挑剔的用户考虑了。于是,本月初在日内瓦车展大放异彩,被各路媒体称为 Model X 竞争对手的 I-Pace 成了 Waymo 的新欢,更偏向于交通工具属性的 Pacifica 要“失宠”了。拥有一切豪华车特质的 I-Pace 定价不到 7 万美元,比乞丐版 Model X 75D 还便宜 1 万美元,比乞丐版的 Model S 也便宜 5000 美元,绝对竞争力满满。

除了肩负将特斯拉挑落马下的重任,全自动驾驶版的 I-Pace 也是 Waymo 巩固自己自动驾驶行业老大的定心丸。有了豪华和纯电动两大元素压阵,I-Pace 可比紧随其后的通用 Cruise 团队高大上多了,后者也要在 2019 年推出自动驾驶打车服务,不过车型是较为廉价的雪弗兰 Bolt 纯电动车。在通用看来,未来的汽车市场自动驾驶和电动化一个都不能少。不过,通用老对手福特则没有走极端,它们也把混动车当成了自动驾驶战略的重要一环。Waymo 也一样,2020 年插电混动的 Pacifica 与纯电版的 I-Pace 将一同在车队中服役。

现在,我们还不知道哪个城市会成为幸运儿,第一个用上全自动驾驶的 I-Pace。Waymo 的首个商业化自动驾驶打车服务今年将落地凤凰城,不过它们的测试车遍布全美 25 个城市,到底谁会成为 Waymo 相中的第二个市场,恐怕今年晚些时候才会见分晓。鉴于这次的合作伙伴是捷豹路虎,因此英国也有可能成为未来 Waymo 的大市场之一。

捷豹路虎对自动驾驶并不陌生,这家老牌制造商此前就在考文垂总部附近的测试场进行过自动驾驶研发车辆的测试。雷锋网新智驾了解到,去年夏天,它们更是为 Lyft 投资 2500 万美元,以支持打车巨头的自动驾驶和联网汽车项目。这次合作也为捷豹路虎换来了新机遇,它们要在 Lyft 平台上测试自己的自动驾驶汽车(Waymo 也是 Lyft 的合作伙伴之一)。

复杂的合纵连横形势也体现了自动驾驶行业的焦虑感,上周 Uber 的致命车祸更是让许多人觉得,自动驾驶行业可能要遇到诞生以来最大的坎坷了。在回应这次车祸时,Waymo CEO Krafcik 还不忘给死对头 Uber 补刀,称 Waymo 的技术可以游刃有余的应付相同的情况,而此前闹的沸沸扬扬的专利案,也以 Uber 赔偿 Waymo 2.45 亿美元收场。

拉了新的制造商上船后,Waymo 正试图打造自己的光环,即使整个行业现在的主题是弄清 Uber 致命车祸的根本原因。作为 Uber 的合作伙伴,丰田已经暂停了自动驾驶测试,不过 Waymo 可不会停下脚步,为了那个吸引力十足的大市场,它们会继续前进以争夺胜利果实。

Via. The Verge

PS:6项会员专享特权,全年100期精华内容,带你深入浅出看懂自动驾驶。欢迎点击链接,加入「新智驾会员计划」 :https://www.leiphone.com/aidrive/vip 或扫描海报下方二维码了解详情。

20 Mar 12:57

想要干掉笔记本键盘的苹果,究竟在想些什么?

作为很多人的日常生产力工具,笔记本电脑近年来变化越来越快。而其中最重要的一部分——键盘的形态,也在超出我们的预期。

今年二月西班牙 MWC 大会上,我们就见到了华为将摄像头隐藏在键盘上而不再是屏幕上的设计,再往前,我们见到了将触控面板放在键盘部位的 MacBook Pro 的 TouchBar 设计,这些让人眼前一亮的变化可以说不但为笔记本电脑增色,还兼具了更好的实用功能。

而说到苹果,我们不得不提到今年三月被正式公开的两个专利,从这两份专利,我们不但见到了苹果对于电脑键盘的展望,甚至还可以预见未来的苹果将「干掉」键盘。这究竟是怎么回事?不妨就先从这两个专利说起。

两份专利和一个野心

梳理一下今年三月份公开的两份笔记本键盘相关专利,我们不难看出苹果对于笔记本电脑键盘部分的重视。

第一份专利申请于 2016 年,是针对苹果在 2015 年起开始推行的全新的「蝶式键盘」。

图自 9TO5Mac

蝶式键盘是伴随 2015 年发布的 12 英寸 New MacBook 而带来的新型设计,为了追求笔记本电脑轻薄的极致,苹果选择利用蝶式来代替传统的剪刀式键盘设计,这种结构也延续到了之后的 MacBook Pro 系列产品上。

图自苹果官网

但这一设计在让笔记本更薄的同时,也带来了别的问题。不少用户除了吐槽敲击手感差之外,还抱怨在使用蝶式键盘遇到了按键卡住,无法顺利按压的情况。由于特别的结构设计,MacBook 产品的确出现了遭遇灰尘污垢和食物碎屑后的键盘问题,而这一份专利,想要通过为蝶式结构的按键增加一圈防尘膜来杜绝杂物的影响,甚至于不用担心不小心洒出的液体。

图自 9TO5Mac

另一份专利则指出了键盘的更多可能。专利指出,苹果尝试通过技术手段让触摸屏来代替传统的机械式键盘,从而带给键盘更多可能。具体来说,苹果给出了三种技术想要改变我们对于触摸的认知:

首先,当在键盘用手打字时,触摸板会相应形成凹陷,通过电容监测层可以感知这种按压的深度和位置,从而对手指进行反馈。

其次,通过振动马达来提供用户手指按压相应的压力反馈,振动马达的感觉类似于日常使用 iPhone 的 3D Touch 带来的反馈。

第三,通过静电来表现手指触控的感觉,当手指放在键盘上面时,静电摩擦能对手指对键盘的按压有明确感知。

通过这三点改进,苹果在专利中表达出希望能用触摸板完全代替传统键盘的想法,而不论是前面提到的第一份专利还是第二份专利,苹果似乎都在传达出一个想法,那就是笔记本电脑键盘仍然有很多改进空间,为了让笔记本的设计更加极致,这些专利都必不可少。

那么问题来了,资金充足,野心十足的苹果,到底为什么要在键盘上这样较劲,苹果最终理想中的键盘到底会变成什么样?

干掉键盘真的靠谱吗?

干掉键盘这件事,苹果其实已经干过一次了。

不妨让时间回到 2007 年,当乔布斯站在演讲台上,对着当时市面上各种流行的手机点评时,曾这样说:

这些(传统)手机上的按键,无论你需不需要它,它们都在那儿。而不论你打开任何手机应用,按键也都同样存在,但这些应用需要的却是不同的按键。它们不能做出改变。

乔布斯认为,最好的键盘应该是当你需要的时候它才出现,对于不同应用程序,也会有所不同。这种想法对当时的人们来说还很超前,一些人甚至吐槽说自己用 iPhone 的按键手感太差。但事实证明,这种趋势就是主流,并且延续到现在,人们今天早已熟悉使用手机上的虚拟键盘。

不妨再来到 2016 年十月的苹果发布会上,当蒂姆·库克带来新的 MacBook Pro 时,在产品详细设计介绍环节,时任苹果全球营销高级副总裁的 Phil Schiller 对于用 Touch Bar 代替传统的笔记本电脑功能区这样说:

这(传统功能键)是 45 年前就推出的设计,我们今天还在还在使用。如果我们把它去掉会发生什么?在它们原本的位置我们能用什么取代它们,确切地说我们能用什么方式,进一步提升它的使用体验?

似曾相识不是吗?苹果对于给电脑加上 TouchBar 和当年给 iPhone 加上虚拟键盘而非实体键盘,这两件不同产品却代表着近乎相同的想法。之所以想要干掉实体按键,是因为虚拟按键的好处能掩盖它的不足,而这种好处,会让人一旦习惯就回不到过去。而且 Phil Schiller 曾经表示苹果不会推出基于触摸屏的笔记本电脑,从另一面似乎也说明,苹果想要实现的最终目标是这样的笔记本。

但在笔记本电脑的键盘上,苹果考虑的要比手机更多一些。因为笔记本电脑对于人们提升生产力有更高要求,因此即便最终要变成一整块触摸板,它也仍然需要人们不会有太大的体验差异,因此苹果先通过蝶式键盘升级让人们能习惯这种手感,同时又希望在触摸屏上花大力气让它能模拟出真实键盘的感受,这样一点点的改进,你的使用习惯就会发生改变。

而关于这种「模拟真实感受」的虚拟按键,苹果其实在 iPhone 8 的 Home 键上通过给出合适的震动反馈模拟真实按键,已经做出过尝试。另外,很早以前苹果就通过为笔记本触摸板加入 Force Touch 功能让人们感受出不同按压力度带来的不同效果,这一点一滴的积累,想必都在努力让人们能对未来的变化逐渐适应。

虚拟胜过实体

延续了一贯路线的苹果,看来的确可以把「干掉键盘」这件事在笔记本电脑上再做一次,那么问题来了,对苹果来说,除了一个更有未来感的产品之外,这样做还能让普通人得到什么样的好处?

图自 Yanko Design

首先,它让电脑更灵活。我们不妨看看 iPhone 上的变化,因为虚拟键盘代替了传统的手机实体按键,乔布斯实现了当时的愿望,它能够在你需要的时候出现,能够针对不同应用做出任何需要的改变,因此它拥有了极大的扩展性。

图自 9TO5Mac

这正如苹果在关于触摸键盘的专利中提出的,可触摸的键盘可以像 TouchBar 那样,在不同的应用下出现不同的界面,通过这种变化,键盘就不再像从前那样一成不变,而是非常灵活。就拿绘图来说,苹果可以让触摸板在绘图软件种直接变成一个画板,从而提供更专业的绘图功能。

图自 Yanko Design

第二,让电脑更轻薄。和蝶式键盘对笔记本的轻薄做出贡献一样。利用触摸键盘的一个直接好处是有可能进一步压缩笔记本电脑厚度。过去我们曾经说要专业就没有办法追求轻薄,但尝试将键盘做成触摸屏,就可以兼顾这两个方面,因此对于用户来说来,会有更强的吸引力。

第三,更耐用。在追求轻薄之外,苹果的目标是一向是让电脑更好用,那么干掉键盘,最直接的结果就是干掉了过去那些和键盘有关的问题,比如缝隙的清理以及防水等,对于用户来说,这种变化也会在日常生活中有所帮助。

虽然最终目标是「消灭」键盘,但在走向这条路的过程中,苹果其实充满着诸多挑战,这正是如今一步步前进,一点点做出改变的原因。好在苹果一向受人欢迎,它有能力等待时机成熟,也许到时候我们就会看到「又一次改变世界」的产品。

头图来自 Yanko Design


05 Sep 22:39

More After School Projects from the Adafruit Learning System #BackToSchool

by Jessie Mae

Iadafruit BackToSchool blog

Get Inspired with more back to school projects from the Adafruit Learning System!


Wireless Inductive Power Night Light

Projects inductivelilght

Wireless Inductive Power Nightlight: Every time I hear about wireless power systems, or see a wireless charger in action, it feels like some sort of crazy magic. The idea of harnessing an electromagnetic field to produce enough power to even glow an LED is amazing to me.

So, when Adafruit started to carry a couple of Inductive Charging modules, I knew I had to create a project with it beyond just charging a battery.

I often go to bed much later than my wife, and like to do a bit of reading before going to sleep. I decided to create a nice little night light / reading light that I could easily set at just the right brightness without waking up my wife. With this light, all you need to do is slide the LED block closer to the power block to make the light brighter.

It’s a bit of a hack, which takes advantage of the fact that the inductive chargers work ‘better’ the closer they are together. In this case, pulling them apart dims the LEDs because the voltage drops. This won’t work with Qi chargers, which don’t have this ‘bug’! I mean, you can still use a Qi charger, but it will only be on or off, no dimming.

The Wireless Inductive Power Night Light is a very simple and easy to complete project. All you need is to make one is an inductive charging set, a power supply, leds, an enclosure, and couple other pieces.

See full project guide here!


Wireless Game Show Poppers for the Classroom!

Hacks duo pop usb receiver

Is it time for school already? Need ways to keep students engaged but on a tight budget? We have a $15.00 game show system for you based on a combination of wireless IR poppers and game show software for PC and Mac computers. All you need are 1) the Duo Pop for iPad Game , 2) a 5 volt Pro Trinket Arduino-compatible microcontroller, 3) Game Show Presenter Software (free demo version available) to create your questions as well as host your game, and 4) a little bit of time to hack and solder on the Duo Pop for iPad Receiver. Once finished with this project, you will have a popper USB receiver system that is completely hackable allowing you to interface the poppers with all kinds of other learning software for both PC and Mac computers. Are you ready to hack the Duo Pop? Before hacking, let’s discuss the parts that you will need for this project.

See full guide here!


Solar Boost Bag

Make your own backup battery and recharge it with the sun! This is an upgrade project to our original Solar Charging Handbag and uses a PowerBoost 500 Basic, a solar lipoly charger, slide switch, and 2000mAh rechargeable battery, all housed in a 3D printed enclosure.

Before you begin, read through the following guides:

For this project, you will need:

  • 3D printer with filament
  • A sturdy handbag or backpack
  • #4-40 3/8 flat Phillips machine screws

See full guide here!


AND MORE! Check out our searchable learn system for many more projects!


adafruit_BackToSchool_logo

August is Back to School Month here at Adafruit! Each week we’ll be bringing you a two #BackToSchool posts on the blog! Stay tuned for product and gift guides, tutorials from the Adafruit Learning System, and inspiration from around the web! Get started by checking out Adafruit’s educational resources, such as our kits and project packs, suggested products for young engineers, blog posts for educators and an extensive selection of books to help you learn!

24 Aug 13:08

uSens凌感发布双手交互动作识别SDK

by 映维网

映维网,国际权威虚拟现实(VR)信息平台,提供最快、最全、最有价值VR信息资讯!

文章相关引用及参考:映维网

新增一系列双手交互动作,如握拳、手心写字、十指交叉等。

映维网 2017年08月24日)uSens凌感今日发布全新Fingo SDK,在手势算法底层进行了改进,新增一系列双手交互动作,如握拳、手心写字、十指交叉等,在同类产品中,实现对大面积遮挡的双手交叠类手部动作的识别,并可实现对十个手指的灵活细微运动的追踪。

uSens凌感在2017年2月正式公开发售其手部追踪解决方案——Fingo。Fingo集成软硬件为一体,硬件上通过两个红外摄像头及三个红外辅助灯追踪手部动作,软件上基于计算机视觉及深度学习等算法,实现对双手骨骼的识别。

人的手部动作灵活复杂,不仅有直接可见的清晰手型,也有握拳、手指交叉、左右手交叠等等对关节点有大幅遮挡的动作。经过半年的不断优化改进,uSens凌感本次发布的新版SDK在手势的整体稳定性、精确度以及多样化方面大幅提升,对常用手势动作进行了深度优化。

文章《uSens凌感发布双手交互动作识别SDK》首发于 映维网

22 Jun 13:38

2017,最受欢迎的 15 大 Python 库有哪些?

雷锋网按:本文作者为 ActiveWizards 的数据顾问 Igor Bobriakov,雷锋网林立宏与 Raey Raey Li 编译。

Igor Bobriakov

近年来,Python 在数据科学行业扮演着越来越重要的角色。因此,我根据近来的使用体验,在本文中列出了对数据科学家、工程师们最有用的那些库。

由于这些库都开源了,我们从Github上引入了提交数,贡献者数和其他指标,这可以作为库流行程度的参考指标。

核心库

1. NumPy (提交数: 15980, 贡献者数: 522)

当开始处理Python中的科学任务,Python的SciPy Stack肯定可以提供帮助,它是专门为Python中科学计算而设计的软件集合(不要混淆SciPy库,它是SciPy Stack的一部分,和SciPy Stack的社区)这样我们开始来看一下吧。然而,SciPy Stack相当庞大,其中有十几个库,我们把焦点放在核心包上(特别是最重要的)。

关于建立科学计算栈,最基本的包是Numpy(全称为Numerical Python)。它为Python中的n维数组和矩阵的操作提供了大量有用的功能。该库提供了NumPy数组类型的数学运算向量化,可以改善性能,从而加快执行速度。

2. SciPy (提交数: 17213, 贡献者数: 489)

SciPy是一个工程和科学软件库。雷锋网再次提醒,你需要理解SciPy Stack和SciPy库之间的区别。

SciPy包含线性代数,优化,集成和统计的模块。SciPy库的主要功能是建立在NumPy上,从而它的数组大量的使用了NumPy的。它通过其特定子模块提供有效的数值例程,并作为数字积分、优化和其他例程。SciPy的所有子模块中的功能都有详细的说明 ——又是一个SciPy非常有帮助的点。

3. Pandas (提交数: 15089, 贡献者数:762)

Pandas是一个Python包,旨在通过“标记”和“关系”数据进行工作,简单直观。Pandas是数据整理的完美工具。它设计用于快速简单的数据操作,聚合和可视化。

库中有两个主要的数据结构:

  • “系列”(Series),一维


  • “数据帧”(Data Frames),二维


例如,当您要从这两种类型的结构中接收到一个新的Dataframe时,通过传递一个Series,您将收到一个单独的行到DataFrame的DF:

 这里稍微列出了你可以用Pandas做的事情:

  • 轻松删除并添加数据帧(DataFrame)中的列

  • 将数据结构转换为数据帧(DataFrame)对象

  • 处理丢失的数据,表示为NaN

  • 功能强大的分组

Google趋势记录

trends.google.com

GitHub请求历史记录

datascience.com/trends 

可视化

4.Matplotlib (提交数: 21754, 贡献者数: 588) 

又一个SciPy Stack核心软件包以及 Python库,Matplotlib为轻松生成简单而强大的可视化而量身定制。它是一个顶尖的软件(在NumPy,SciPy和Pandas的帮助下),它使Python成为像MatLab或Mathematica这样的科学工具的竞争对手。

然而,这个库是低层级的,这意味着你需要编写更多的代码才能达到高级的可视化效果,而且通常会比使用更多的高级工具付出更多的努力,但总体上这些努力是值得的。

只要付出一点你就可以做任何可视化:

  • 线图

  • 散点图

  • 条形图和直方图

  • 饼状图;

  • 茎图

  • 轮廓图

  • 场图

  • 频谱图

还有使用Matplotlib创建标签,网格,图例和许多其他格式化实体的功能。基本上,一切都是可定制的。

该库由不同的平台支持,并使用不同的GUI套件来描述所得到的可视化。不同的IDE(如IPython)都支持Matplotlib的功能。

还有一些额外的库可以使可视化变得更加容易。

5. Seaborn (提交数: 1699, 贡献者数: 71)

Seaborn主要关注统计模型的可视化;这种可视化包括热图,这些热图(heat map)总结数据但仍描绘整体分布。Seaborn基于Matplotlib,并高度依赖于此。

 

 6. Bokeh (提交数: 15724, 贡献者数: 223)

另一个很不错的可视化库是Bokeh,它针对交互式可视化。与以前的库相比,它独立于Matplotlib。正如我们提到的,Bokeh的主要焦点是交互性,它通过现代浏览器以数据驱动文档(d3.js)的风格呈现。

7. Plotly (提交数: 2486, 贡献者数: 33)

最后,关于Plotly的话。它是一个基于Web用于构建可视化的工具箱,提供API给一些编程语言(Python在内)。在plot.ly网站上有一些强大的、上手即用的图形。为了使用Plotly,你将需要设置API密钥。图形将在服务器端处理,并发布到互联网,但有一种方法可以避免。

Google趋势记录

trends.google.com

GitHub请求历史记录

datascience.com/trends

机器学习

8. SciKit-Learn (提交数:21793, 贡献者数:842)

Scikits是Scikits Stack额外的软件包,专为像图像处理和机器学习辅助等特定功能而设计。对于机器学习辅助,scikit-learn是所有软件包里最突出的一个。它建立在SciPy之上,并大量利用它的数学运算。

scikit-learn给常见的机器学习算法公开了一个简洁、一致的接口,可简单地将机器学习带入生产系统中。该库中集成了有质量的代码和良好的文档、简单易用并且十分高效,是使用Python进行机器学习的实际行业标准。

深度学习—— Keras / TensorFlow / Theano

在深度学习方面,Python中最着名和最便的库之一是Keras,它可以在TensorFlow或Theano框架上运行。让我们来看一下它们的一些细节。 

9.Theano. (提交数:25870, 贡献者数:300) 

首先让我们谈谈Theano。

Theano是一个Python软件包,它定义了与NumPy类似的多维数组,以及数学运算和表达式。此库是被编译的,可实现在所有架构上的高效运行。最初由蒙特利尔大学机器学习组开发,它主要用于满足机器学习的需求。

值得注意的是,Theano紧密结合了NumPy在低层次上的运算 。另外,该库还优化了GPU和CPU的使用,使数据密集型的计算平台性能更佳。

效率和稳定性微调保证了即使在数值很小的情况下,仍有更精确的结果,例如,即使只给出x的最小值,log(1 + x)仍能计算出合理的结果。

10. TensorFlow. (提交数: 16785,贡献者数: 795)

TensorFlow来自Google的开发人员,它是数据流图计算的开源库,为机器学习不断打磨。它旨在满足谷歌对训练神经网络的高需求,并且是基于神经网络的机器学习系统DistBelief的继任者。然而,TensorFlow并不限制于谷歌的科学应用范围 – 它可以通用于多种多样的现实应用中。 

TensorFlow的关键特征是它的多层节点系统,可以在大型数据集上快速训练神经网络。这为谷歌的语音识别和图像对象识别提供了支持。

11. Keras. (提交数: 3519,贡献者数: 428)

最后我们来看看Keras。它是一个用Python编写的开源的库,用于在高层的接口上构建神经网络。它简单易懂,具有高级可扩展性。Keras使用Theano或TensorFlow作为后端,但微软现在正努力整合CNTK(微软的认知工具包)作为新的后端。

设计中的简约方法旨在通过建立紧凑型系统进行快速、简便的实验。

Keras真的容易上手,并在持续完善它的快速原型能力。它完全用Python编写,可被高度模块化和扩展。尽管它以易上手、简单和以高层次为导向,但是Keras足够有深度并且足够强大,去支持复杂的模型。

谷歌发展趋势历史

trends.google.com

GitHub请求历史记录

datascience.com/trends

自然语言处理

12. NLTK (提交数: 12449,贡献者数: 196)

这个库的名称“Natural Language Toolkit”,代表自然语言工具包,顾名思义,它用于符号学和统计学自然语言处理(NLP) 的常见任务。 NLTK旨在促进NLP及相关领域(语言学,认知科学人工智能等)的教学和研究,目前受到重点关注。

NLTK的功能允许很多操作,例如文本标记,分类和标记,实体名称识别,建立语料库,可以显示语言内部和各句子间的依赖性、词根、语义推理等。所有的构建模块都可以为不同的任务构建复杂的研究系统,例如情绪分析,自动总结。

13. Gensim (提交数: 2878,贡献者数: 179)

它是一个用于Python的开源库,为有向量空间模型和主题模型的工作提供了使用工具。这个库是为了高效处理大量文本而设计的,所以不仅可以进行内存处理,还可以通过广泛使用NumPy数据结构和SciPy操作来获得更高的效率。Gensim高效也易于使用。

Gensim旨在与原始和非结构化的数字文本一起使用。 它实现了诸如hierarchical Dirichlet processes(HDP),潜在语义分析(LSA)和潜在Dirichlet分配(LDA)之类的算法,以及tf-idf,随机预测,word2vec和document2vec,便于检查一组文档中有重复模式的文本 (通常称为语料库)。所有的算法均是无监督的,意味着不需要任何参数,唯一的输入只有语料库。 

谷歌发展趋势历史

trends.google.com

GitHub请求历史记录

datascience.com/trends

数据挖掘,统计学

14. Scrapy (提交数: 6325,贡献者数: 243)

Scrapy库是用于从网络结构化检索数据(如联系人信息或URL),可以用来设计crawling程序(也称为蜘蛛bots)。

它是开源的,使用用Python编写的。最开始只是如它的名字暗示的一样,只用来做scraping,但是它现在已经在完整的框架中发展,能够从API采集数据并作为通用的crawlers了。

该库在界面设计中标榜着“不要重复自己”  它推荐用户们编写泛化得到、可被重复使用的通用代码,从而构建和扩展大型的crawlers。

Scrapy的架构围绕着Spider class构建,这其中包含了crawler追从的一套指令。

 15. Statsmodels (提交数: 8960,贡献者数: 119) 

你可能从名字就猜出大概了,statsmodels使用户能够通过使用各种统计模型的估算方法进行数据挖掘,并执行统计判断和分析。

 许多有用的特征是可被描述的,并通过使用线性回归模型,广义线性模型,离散选择模型,鲁棒线性模型,时间序列分析模型,各种估计方法得出统计结果。

这个库还提供了广泛的标定功能,专门用于大数据统计中的性能优化工作。 

总结

许多数据科学家和工程师认为这些库是顶级的,并值得关注,或者需要或多或少了解它们。 以下是每个库在Github上的详细统计资料:

当然,这不是完全详尽的列表,还有许多其他的库和框架也是值得关注。一个很好的例子是SciKit的不同软件包各自专注一个特定的领域,如SciKit-Image是用于处理图像的。

via medium

03 Jun 07:29

New Project! PiTFT Touch Screen OctoPrint Rig!

by Noe Ruiz

Today we’re putting an Adafruit 3.5″ PiTFT on our Raspberry Pi to make an all-one-in OctoPrint Rig using the Touch UI plugin.

Learning Guide
https://learn.adafruit.com/3-dot-5-pitft-octoprint-rig/3d-printed-case

Download STLs
YouMagine Download
Thingiverse Download

Download Fusion 360 Source


649-1
Every Thursday is #3dthursday here at Adafruit! The DIY 3D printing community has passion and dedication for making solid objects from digital models. Recently, we have noticed electronics projects integrated with 3D printed enclosures, brackets, and sculptures, so each Thursday we celebrate and highlight these bold pioneers!

Have you considered building a 3D project around an Arduino or other microcontroller? How about printing a bracket to mount your Raspberry Pi to the back of your HD monitor? And don’t forget the countless LED projects that are possible when you are modeling your projects in 3D!

The Adafruit Learning System has dozens of great tools to get you well on your way to creating incredible works of engineering, interactive art, and design with your 3D printer! If you’ve made a cool project that combines 3D printing and electronics, be sure to let us know, and we’ll feature it here!

28 Aug 04:59

基于Python的卷积神经网络和特征提取

by Christian S.Peron
本文展示了如何基于nolearn使用一些卷积层和池化层来建立一个简单的ConvNet体系结构,以及如何使用ConvNet去训练一个特征提取器,然后在使用如SVM、Logistic回归等不同的模型之前使用它来进行特征提取。
26 Jul 14:02

IBM 推出开源项目门户,将开源 50个项目

IBM推出了一个新的门户网站 developerWorks Open,里面带来了许多开源的项目。这些项目涉及多个领域,包括分析,云,物联网,移动,安全,社交,Watson等等。目前,IBM已经开源来30个项目,并在今年底将把这个数字扩大到50个,未来还会开源更多。

这些项目有的针对 IBM 特有的技术,如 Cognitive Catalyst —— 一个给 Watson 创建扩展的协作工具,其它的项目可以脱离 IBM 的生态系统,和其它开源工具结合使用。以下是部分项目的简介:

  • Activity Streams —— 一个 W3C Activity Streams 2.0 Specification 的实现。以 JSON 格式描述当前或已完成活动的活动流。

  • Agentless System Crawler —— 一个云监控和分析框架,抓取云中的系统来收集数据并进行分析。它使用了 VM introspection 技术来弄清出虚拟机的状态,无须在其中安装代理。

  • Clampify —— 将 Docker Swarm 集群与 OpenStack Neutron 联网

  • i18n4go —— 一个用于 Go 写的程序的 internationalization (i18n) 工具。

  • libsecurity —— 一个库,向物联网应用提供了安全功能。

  • Node-RED —— 一个物联网项目,包含了一个可视化工具,能用于连线事件和整合社交平台的设备

  • Node Application Metrics —— 一个用于监控 Node.js 应用的工具

  • Spark Kernel —— 能让交互和远程应用访问 Spark 集群

门户网站包含了 IBM Bluemix Mobile Services SDKs ,还有一系列 IBM Ready Apps 可用于银行、医疗、保险以及零售。

项目的源代码保存在 Github。

developerWorks Open 门户还有 blogs ,欢迎整个社区 contribute


编译自:infoq.com

30 Jun 14:06

音乐识别系统 Audio-Fingerprinting

Audio-Fingerprinting 是一个音乐指纹识别系统,使用的语言为 JAVA,同时需要用到 MySQL 数据库(虽然不是必须的,但这个系统采用他保存指纹和音乐信息)。他包含了指纹生成,数据库存储,和简易的服务器和客户端。 他通过生成和记录音乐指纹,能够识别来自麦克风、文件等各个来源的音乐,并且有很高的抗噪性,同时他对文件属性和音乐质量不敏感。你可以使用服务器给手机或者其他程序提供音乐识别服务。 你可以根据需求调节里面的...