Shared posts

27 Feb 00:15

3D芯片技术成关键,Meta AR原型芯片获得巨大性能提升

by 刘卫华

查看引用/信息源请点击:spectrum

3D芯片技术成关键

映维网Nweon 2024年02月23日)增强现实系统的设计存在诸多限制,尤其是眼镜形态,AR 眼镜身形狭小,所以搭载的芯片在能效和性能方面均有高度要求。根据IEEE日前发布的博文,Meta研究科学家Tony Wu介绍了团队正在构建的AR原型芯片。根据介绍,3D芯片技术成为了突破的关键,AR原型芯片通过晶圆到晶圆键合获得了巨大的性能提升。

Tony Wu所在的团队致力于开发一种名为Aria的增强现实系统。他告诉工程师,解决方案的一个重要组成是3D芯片集成技术。在ISSCC大会,Meta介绍了他们的AR原型芯片是如何使用3D技术在相同的区域以相同或更少的能量做更多的事情。

原型芯片由两个大小相同的集成电路组成——4.1 × 3.7毫米。它们通过一种叫做face-to-face wafer-to-wafer hybrid bonding的键合过程结合在一起。简单来说,它涉及翻转两个完全加工的晶圆,使它们彼此面对,并将它们键合,使它们的直连在一起。hybrid bonding意味着它是铜对铜的直接连接,不需要焊料。

采用台积电技术,这意味着两块硅片大约每隔2微米就可以形成垂直连接。当然,原型并没有充分利用这种密度:两块硅片之间需要大约33,000个信号连接和600万个电源连接。另外,底部的芯片使用TSV硅通孔实现电力输入和信号传出。

3D堆叠意味着团队可以在不增加芯片尺寸的情况下提高芯片的计算能力。芯片的机器学习单元在底部芯片有四个计算核心和1兆字节的本地内存,但顶部芯片增加了3兆字节的内存, 可以通过27000个垂直数据通道以相同的速度和能量(0.15pJ / Byte)访问。

团队围绕对增强现实至关重要的机器学习任务(手部追踪)测试了芯片。其中,3D芯片能够同时追踪两只手,比单枚芯片追踪单手节省40%的能量。更重要的是,速度快了40%。

除了机器学习,这个芯片同时可以执行图像处理任务,而且3D在这里又起了非常大的作用。尽管2D版本仅限于压缩图像,但3D芯片可以在相同功耗下实现全高清。

26 Aug 14:33

微软分享:混合现实赋能一线工人的三种方式

by 广东客

查看引用/信息源请点击:映维网Nweon

利用混合现实让您的员工为未来智能制造业做好准备。

映维网Nweon 2023年08月21日)全世界的制造商都在大力投资数字化转型,全面改革他们的运营模式和商业模式。但是,营收增长、工人培训、机器停机和生产效率等各种问题都让制造商们很棘手。为了帮助解决这些问题,微软正在大力投资各种技术以赋能一线工人,比如利用混合现实以及下一代 AI 为一线工作者提供卓越的服务。

通过微软HoloLens 2混合现实头显设备和Dynamics 365 Guides、Dynamics 365 Remote等混合现实服务,可以构建协作环境,允许人们在其中将知识付诸行动,实现通过混合现实技术来解决一线员工培训、现场支持和跨行知识学习等问题。

一、通过远程支持和协作快速解决问题

对于制造商来说,工厂设备停机代价高昂,制造商平均每年面临超过 800 小时或每周 15 小时的设备停机时间,造成了每年大约 50 亿美元的损失。

在过去,制造环境的不同会导致知识孤岛的形成,有价值的见解仅在个人、某个团体或部门之间流动。而现在,混合现实的出现改变了这种现象,无论身在何处,工作人员都可以进行实时共享协作,并且可以得到即时有效的专家指导、故障解决说明。这不仅可以使工作者无需再出差,同时也可以减少设备停机和生产中断所带来的损失。

Dynamics 365 Guides 和 Microsoft Dynamics 365 Remote Assist with Teams 能超越物理限制将工作人员联结起来。Teams 可实现跨生产力协作,和 Dynamics 365 Guides 结合使用,赋能工作人员在任意设备上接受指导、协作。

二、加速培训

作为行业中坚力量,一线工人需要能够精通技术、做出快速决策以及能够灵活工作。传统的现场培训和入职流程通常低效,甚至反而会增加早已不堪负重的一线员工的认知负担。

利用实物的传统培训代价高昂且耗费时间,甚至会对人身安全产生影响,培训结果也往往质量不一,或无法针对个人进行个性化培训。然而,利用混合现实可以解决这些问题。

借助混合现实,一线员工可以更好地了解手头的机器和工作流程,相关材料可即时检索或修改,促进知识交流,同时利用人工智能还可以进一步增强知识的交流。借助混合现实,可以精细化操作,个性化且更深入的学习也变得更加容易。混合现实和 AI 的结合运用,可以加速员工培训,缩短培训流程,并即时地为员工提供手头任务所需的工作知识。

通过 Dynamics 365 Guides,一线员工和服务人员立马就可以学习丰富他们的岗位技能,随时随地获得复杂机械、装配协议或维护步骤的专用交互式指导。

三、信息、见解和技能的传授

如今行业正在经历人才流失、全球化、失业和劳动力老龄化等问题,三分之一的制造业高管声称,留住和替换高效员工是 2023 年的战略重点。临退休的老员工通常拥有丰富的专业知识,保留、传授这些知识至关重要。混合现实可以帮助解决这些问题,帮助企业做出明智的决策并提高生产力。

无论什么地方,什么设备,通过创建沉浸式体验和模拟,混合现实可以促进知识保留和传授。Dynamics 365 Guides 可以提供分步说明、注释和见解,为员工提供指引,提高员工的操作准确性、生产力水平和工作效率。

未来的制造业潜力

混合现实是新兴科技领域工业元宇宙的关键部分,其底层跨平台技术包括 AI、云计算、数字孪生、机器学习等,混合现实正在将我们与数据的关系从固定体验转变为动态体验。

混合现实是可视化工业元宇宙各种元素的重要粘合剂,可以无缝集成物理世界和数字世界,创造超越传统的沉浸式体验。利用混合现实让您的员工为未来智能制造业做好准备。

04 Jan 04:49

NASA Is Seeking Custom AR Solutions For Space Suits

by Bobby Carlton

The AR solution must be able to withstand radiation, dust, and extreme temperatures.

NASA is exploring the idea of using augmented reality (AR) to help astronauts access important mission information and life-saving statistics that would be delivered through a heads-up display in their space suits in an effort to improve astronaut autonomy in real-time communication situations between Earth and space.

Last week, NASA released an RFI (request for information) asking for potential partners and suppliers for the development of an AR display system for its spacesuit. The space agency noted that it aims to create a spacesuit-compatible AR system that will feature a display, compute subsystems, and control system. The RFI was first spotted by Nextgov.

NASA noted that in the future, astronauts might need to rely on their own devices to perform their tasks due to the limited communication time between Earth and space. The proposed AR system could allow them to perform their duties in real-time without having to rely on constant communications.

According to NASA, the proposed AR system would allow astronauts to communicate with Earth using a dynamic visual cue system. It would also help them make informed decisions on their own while traveling beyond the planet. The agency noted that the project, which is currently being led by its Johnson Space Center, is part of a much larger initiative that involves multiple agencies.

In NASA’s RFI posted on Sam.Gov, the space agency requests solutions focused on a system that can provide a minimal amount of intrusive information to astronauts while they’re in the suit with the goal of using AR “to comfortably display information to the suited crew member via a minimally intrusive see-through display.” 

The AR solution needed to be something outside of the current device available on the market. According to the RFI, NASA doesn’t want to use head-worn display configurations due to the various system integration issues that each unique mission might encounter.

NASA noted that their spacesuit currently has limitations that prevent the development of traditional head-up display (HUD) designs. However, the agency is currently looking into alternative display options that could be integrated into the suit.

NASA would like the suits to have dual-colored and monocular displays. These should be relatively low-profile and should not interfere with the actions of the astronauts. The agency also said that these should be located inside or outside the suit’s bubble mold line.

In addition to being able to operate in 100% oxygen, NASA also noted that the suits should have powered components that can withstand the effects of being in space, such as radiation, dust, and extreme temperatures, and should also have flexible mounts that can accommodate an AR display. This will help minimize the conflict between the display and the other components in the suit.

Field tests conducted by NASA have shown that the suits should have flexible display panels that can adjust the amount of information that the astronauts can view while looking at various objects at different distances. According to their engineers, this will help improve the usability of the space suits.

According to NASA’s RFI, one of the most critical factors that set Joint AR apart from other systems is its ability to comfortably exhibit information to the crew member. Due to various operational and system issues, head-worn display configurations are currently not being considered. However, this is not the case with conventional head-mounted display systems. Instead, Joint AR is designed to utilize decoupled display configurations.

In addition, the eye box for suit operations will need to be significantly larger than that of head-mounted systems. Other key factors companies need to consider when submitting a solution are:

  • Eye box: 50 x 50mm or larger
  • Field of View: 30 deg. or larger
  • Eye Relief: 40 to 100mm, depending on user anthropometry and head position
  • Brightness: 1000 nits or more, assuming a see-through transmission of 70% or more
  • Mass: Entire system should be less than 4 lbs
  • Power: Entire system should require less than 5Watts

To help with collecting the right information, NASA has provided several questions and areas for respondents to address in their RFI, such as how current AR systems could be modified or scaled to meet the agency’s requirements, how new technologies under development could satisfy these requirements, and what is the feasibility of their request.

Responses are due to the NASA contracting officer on March 17, 2023, by 5 pm EST. For more information visit here.

Image Credit: NASA

The post NASA Is Seeking Custom AR Solutions For Space Suits appeared first on VRScout.

05 Oct 11:16

Quest 3 CAD文件泄露,规格中规中矩,廉价版Quest Pro

by 广东客

查看引用/信息源请点击:roadtovr

规格性能将介于Quest 2和即将推出的Quest Pro之间

映维网Nweon 2022年09月30日)根据The Information在今年5月公布的路线图,Quest 2头显的下一代产品“Stinson”和“Cardiff”预计会在2023年和2024年发布,亦即所谓的Quest 3和Quest 4。

延伸阅读传2024年前Meta将发布四款全新VR头显,布局高、中、低不同档次

实际上,如果大家有留意,著名消息人士YouTuber布拉德利·林奇(Bradley Lynch)曾多次分享了关于“Quest 3”的情报,包括分辨率4128×2208为LCD显示器和2023年亮相等等。在日前的视频中,他又曝光了据称是官方的Quest 3 CAD文件。

这位YouTuber坚称,这正式是代号为“Stinson”的Quest 3,而所述设备将于2023年发布。另外,“Stinson”的规格性能将介于Quest 2和即将推出的Quest Pro之间。

下面是“Quest 3 ”情报的概括:

  • 像Quest 2一样的软式头带,电池不在背面

  • 2个摄像头,用于六自由度追踪

  • 4摄像头阵列:2 BW+2 RGB

  • 深度传感器

  • 2个LCD显示器

  • 机械式IPD调整

  • Pancake透镜模组

  • 眼动追踪或面部追踪

  • 单风扇散热设计

  • 高通骁龙XR2(第二代)SoC

  • 用于对接充电的pogo pin接口

林奇将这款硬件描述为“面向消费者的混合现实设备”,因为它的前端配备了多种传感器:两个黑白摄像头、两个RGB摄像头和一个深度传感器。不同的传感器数据通过软件融合,从而实现类似于Quest Pro的高质量透视模式。

另外,头显侧面安装了另外两个摄像头,并用于对头显进行六自由度追踪。当然,由于成本高昂,Quest 3不像Quest Pro那样支持眼动追踪和面部追踪功能。

在形状参数方面,由于采用了Pancake模组,所以整体构造更为流畅细薄。另外,设备依然采用标配的织物材质,并将电池装在外壳之中,不放在背面,但Quest 3将与Quest Pro的充电器兼容。另外,根据CAD文件,USB-C端口和耳机插孔都集成在支架之中。

根据林奇的消息来源,Quest 3将配备两个LCD显示器,不同于采用单一LCD显示器的Quest 2。在芯片方面,Meta将继续与高通合作,并采用骁龙XR2(第二代)SoC,以及Snapdragon XR2 Gen 2,而新芯片有望带来性能方面的进步。

最后,林奇表示,Quest 3可以提供多达512 GB的存储空间和12 GB的RAM。

需要注意的是,以上情报都未经过官方的确认,所以我们应该保持谨慎态度。尽管林奇的消息源相当准确,但他强调不代表最终产品。

16 May 05:46

卡内基·梅隆大学探索基于控制器的内向外追踪全身动捕解决方案

by 刘卫华

查看引用/信息源请点击:映维网Nweon

他们瞄准的方向是用户的下半身追踪,而不是控制器定位

映维网Nweon 2022年05月05日)目前,诸如Quest 2等VR一体机通常是基于头显端的内向外追踪来追踪控制器(或用户的双手):头显端的摄像头寻找控制器(通常带有红外LED),并使用它们的位置来映射它们相对于头显的移动。

尽管这种方法有效,但前提只控制器需要位于头显摄像头的视场之内。这意味着,如果控制器过于脱离摄像头视场,头显就会丢失控制器的追踪。

所以,行业开始把目光投向一种特别的解决方案:控制器本身配备用于内向外追踪的摄像头。以这种方式,无论控制器位置何在都可以实现定位。

例如,早前有消息称将于今年发布的Magic Leap 2和Project Cambria都会为控制器采用内向外追踪的方式。

卡内基·梅隆大学的未来界面小组( Future Interfaces Group)同样有就控制器内向外追踪方案进行了探索。有趣的是,团队是基于Quest 2的控制器进行了测试,而且他们瞄准的方向是用户下半身的追踪,而不是控制器定位。

简单来说,由于用户一般都会在身前抬起双手并握持控制器,所以与难以“看到”用户下半身的头显摄像头相比,控制器搭载的用户朝向摄像头可以覆盖追踪用户下半身。

尽管并非没有限制,而且性能效果方面尚不完美,但它能够支持用户在虚拟现实中执行跺脚、下蹲、弓步等一系列的腿脚交互。

尽管内向外追踪的性能已经足以在头显、控制器和双手追踪方面取代外向内追踪,但由于视场覆盖问题,全身动捕一直以来都是依靠外向内的追踪设置来实现。

诸如Quest 2这样的一体机目前能够通过内向外追踪实现头部和双手的动捕,而这又使得估计手臂和胸部的位置相对容易。但头显难以判断你的腿、脚或臀部位置,所以今天的Avatar数字人一直都是缺失下半截。

尽管有人建议可以通过计算机视觉和算法技巧来估算双脚的位置,但Meta首席技术官安德鲁·博斯沃思(Andrew Bosworth)早前就曾明确指出,考虑到摄像头位置(视场覆盖),实现起来非常困难,而且随着头显形状参数的不断小型化,问题将变得越发困难。

针对这个挑战,卡内基·梅隆大学把目光投向了用户握持的控制器。由于用户一般都会在身前抬起双手并握持控制器,所以与难以“看到”用户下半身的头显摄像头相比,控制器搭载的用户朝向摄像头可以更轻松覆盖追踪用户下半身。

团队将这种追踪方法称为ControllerPose。研究人员利用一系列基于腿脚交互的VR内容进行了测试,包括一个类俄罗斯方块游戏,曲棍球守门员(用脚来阻挡冰球),以及用脚来击砍方块的类《Beat Saber》游戏《Feet Saber》。

卡内基·梅隆大学表示:“今天的VR系统通常无法捕捉下半身的姿势。在大多数VR体验中,用户在俯视时往往看不到自己的虚拟双腿。这是因为大多数当代虚拟现实系统只捕捉用户头部和双手的运动。”

所以在这项研究中,研究人员考虑了另一种实用的方法来捕捉用户的身体姿势:将摄像头集成到已经存在电池、计算和无线通信单元的控制器之中。

对于VR会话,团队发现用户的双手/控制器在大部分时间(68.3%)里都位于身体前面。所以,他们希望可以利用这一事实来执行摄像头的内向外追踪,从而实现对用户身体的姿势捕捉,尤其是用户的下半身。

利用这种姿势捕捉方式,研究人员认为可以开启全新的和有趣的腿脚交互体验。例如,用户现在可以在虚拟现实中执行跺脚、下蹲、弓步和其他腿脚交互。另外,团队构建了一系列的演示应用以说明方法的潜力和可行性,例如用脚来击砍方块的类《Beat Saber》游戏《Feet Saber》。

结合头显端的头手追踪及数字人上半身渲染,这一系统可以提供包含下半身的全身动捕,平均3D关节误差为6.98厘米。

相关论文ControllerPose: Inside-Out Body Capture with VR Controller Cameras

当然,研究人员强调在其他情况下这种姿势追踪将会失败,例如双手与前胸贴得太近,以及双手自然垂放在身体两侧等等。尽管这可以依赖基于IMU数据的反向运动学进行预测,但效果显然无法达致完美。

另外,团队坦诚这一追踪方案的性能不及外向内追踪或基于马克点的全身动捕,但他们相信所述系统依然存在一定的实用性,并可以为未来的内向外追踪全身动捕作出贡献。

16 Mar 13:16

Nintendo’s Game Builder Garage teaches your kid to code

by Mark Wilson

No one thought the world needed another STEM game. Then Nintendo showed up.

No company has left a bigger mark on the way video games are made than Nintendo. Now, Nintendo has a plan to teach the next generation of game makers.

Read Full Story

08 Jun 05:25

伊拉克食品配送平台 Alsaree3 完成百万美元种子轮融资

by Boyuan

总部位于伊拉克首都巴格达的食品配送应用 Alsaree3 日前宣布,完成了一笔 6 位数的种子轮融资。Iraq Tech Ventures 和 Rabee 证券董事长 Shwan Ibrahim Taha 领投。

该公司在一份新闻稿中透露,该轮投资已于 8 月完成。本轮投资还得到了其他众多投资者的参与,包括 Hiwa Rauf Group 的 New Venture 经理 Rawaz Rauf、Innovest ME 的创始人和管理合伙人 Bassam Falah 以及 Khudairi Group 的总裁 Subhi Khudairi。

Alsaree3 由 Bassam Al-Ateia 于 2018 年成立,在巴格达提供高质量的客户服务、及时送货和丰富的餐厅选择(450 多家)。除了为客户提供无缝体验外,Alsaree3 还专注于为其餐厅合作伙伴创造尽可能多的价值。他们开发了自家的餐厅点餐系统,包括硬件和平台供餐厅使用。

在谈到 Alsaree3 的发展时,Al-Ateia 在声明中表示:” 从 2018 年开始,Alsaree3 是整个地区最早开始开发和使用餐饮管理系统的公司。这种技术让餐厅接受、打印和查看每个订单,包括历史记录。同时还可以接受线下订单。更重要的是,这种设备极大地降低了餐厅接入网络的成本。”

尽管伊拉克面临无数挑战,今年又受到新冠疫情的影响,但 Alsaree3 的背景和团队仍能提供稳定、高质量的服务。出行限制让许多伊拉克人成为 Alsaree3 这样的配送服务的新用户,投资者认为随着伊拉克人口数字素养的提高,这一趋势将继续下去。

Iraq Tech Ventures 的 Mohammed Khudairi 表示:”Alsaree3 的运营能力非常强。我们对这只团队未来的良好表现深信不疑。”

这是伊拉克技术风险投资公司与 Shwan Ibrahim Taha 合作,在伊拉克成功推向市场的第二家企业。

在谈到伊拉克的创业生态系统时,Rabee 证券董事长 Shwan Ibrahim Taha 说:” 我坚信伊拉克的未来。通过我们的财团,我们很自豪地帮助像 Alsaree3 这样的伊拉克初创企业,我们期待着对该行业的更多投资。”

09 Dec 01:10

巨头的反攻:奥迪增加电动汽车预算至 2025 年

by icebin

通过对未来五年的投资计划,奥迪股份公司正在推动其向网络化和可持续性高级移动提供商的转型。尽管营商环境艰难,总投资额仍约为 350 亿欧元(423.5 亿美元),仍处于较高水平,尤其是对未来的汽车项目。仅用于未来技术的投资就达到约 170 亿欧元(205.7 亿美元),占投资总额的一半。

与整个大众汽车集团一样,奥迪也在加大对电动汽车的投资。这家高端制造商已为混合动力以及未来发展预留了约 150 亿欧元(181.5 亿美元)的资金,从而突显了其电力路线图的关键重要性。大众汽车集团在电子平台战略和软件开发方面的协同作用为财务创造了必要的范围。固定成本的改善,更精简的产品组合以及非车辆投资的节省进一步促进了奥迪品牌的财务稳健性。

“通过现已实施的投资计划,我们正在使奥迪更强大,以应对即将到来的核心业务转型。电动和全网络驱动的技术领导地位是监督委员会和管理委员会的目标。我们正在为此提供奥迪必要的资源。” 奥迪股份公司监事会主席赫伯特·迪斯(Herbert Diess)说道。

“今天批准的用于增强奥迪电气化,混合动力技术和数字化前瞻性主题的投资对于我们在这一转型中至关重要。他们确保了集团的技术领先地位。这使我们在许多项目中受益,也使我们创造了高质量的工作机会。位于内卡苏尔姆(Neckarsulm)和英戈尔施塔特(Ingolstadt)的奥迪工厂将从中获得长期优势。这对于我们作为员工代表来说是决定性的因素。” 奥迪股份公司监事会副主席兼奥迪股份公司总务委员会主席彼得·莫斯强调说。

从 2021 年到 2025 年,奥迪公司计划在研发和固定资产投资上的支出约为 350 亿欧元(423.5 亿美元)。高端制造商仅向汽车项目和创新汽车技术就分配了将近 170 亿欧元(205.7 亿美元),以重新激发 “ Vorsprung durch Technik” 的品牌承诺。

开发成本总额考虑了集团的全面协同效应。例如,电动平台的开发和实施遍及各个品牌。奥迪正在与保时捷一起开发高级平台电动汽车(PPE)。同时,奥迪使用模块化电气化平台(MEB)的 Group 技术。

根据投资计划,2021 年至 2025 年的前期支出将重点放在路线图 E 的不妥协实施上,并针对全部和部分电动车型进行大规模产品攻势。仅在电气化方面,就计划回合而言,预计将有约 150 亿欧元(181.5 亿美元)的资金,占总支出的 40%以上。具体来说,约有 100 亿欧元(121 亿美元)将用于电动汽车,50 亿欧元(60.5 亿美元)将用于混合动力。到 2025 年,奥迪股份公司的电子产品组合将扩大到大约 30 种,其中大约 20 种将完全由电池供电。

在数字化方面,奥迪也从集团的合作中受益,现在将更加有效地利用这一竞争优势。在软件开发方面,奥迪首席执行官 Markus Duesmann 现在将接任 Car.Software-Organization 的董事长,该组织结合并扩展了品牌的专业知识。

通过这种方式,集团自身的软件部门正在为集团的所有车辆创建具有基本功能的统一操作系统。Car.Software-Organization 的任务还包括进一步开发自动驾驶功能。

奥迪公司首席执行官马库斯·杜斯曼(Markus Duesmann)表示:“我们的投资计划说明了一个明确的故事:我们不削减产品的实质,并将电动汽车和软件开发的支出放在首位。” “针对这些中心的未来主题,持续专注于团队协作是成功的重要关键。”

通过优化产品组合以提高效率和精益生产,减少内部流程的复杂性以及改善固定成本,奥迪品牌的财务状况稳固。奥迪转型计划(ATP)和 Audi.Zukunft 基本协议将大大提高效率。自三年前该计划启动以来,仅 ATP 一项就释放了超过 65 亿欧元(78.7 亿美元)。

尽管今年冠状病毒大流行给环境带来了挑战,但奥迪股份公司仍继续明确致力于通过该计划在 2022 年前累计实现约 150 亿欧元(181.5 亿美元)的目标。此外,奥迪.Zukunft 协议为奥迪股份公司稳固的市场地位,稳定的工作机会和有利可图的公司地点奠定了基础。通过计划的支出,德国的工厂也将保持完全的竞争力,并在未来处于有利位置。

奥迪财务和法律事务股份公司管理委员会成员 Arno Antlitz 表示:“有了 Audi 转型计划和 Audi.Zukunft,我们使我们的公司适应未来。这两个程序都确保了我们在继续投资于未来技术方面的财务基础,从而为塑造汽车行业的转型做出决定性的贡献。”

08 Dec 04:39

人机协作新突破!这家日本公司教会了机器臂抖空竹,还能和人类打配合

一大早,公园里就热闹了起来,大爷们双手握杆抖动空竹,做出各种花样技巧,引得旁人驻足观看。

这样的场景大多数人应该都不陌生。

早在我国明清时期,抖空竹这项运动就开始兴起、盛行,2006 年 5 月 20 日,空竹更是被国务院批准列入第一批国家级非物质文化遗产名录。

作为一项典型的基础性节律运动,抖空竹可以活动到身体很多部位、预防肩周炎等疾病,还能显著提高新陈代谢,有助于身体健康。

网络上流传着不少抖空竹入门视频,很多人表示抖空竹是个技术活,想轻松自如地抖空竹并没有想象中那么容易,那么问题来了:转眼 2020 年就快结束了,大家都说科技发展得很快,那机器人会抖空竹吗?

您别说,还真会!

脑洞从何而来?

这里有视频截图为证:两条机械臂正在抖空竹。

甚至,人机还能打配合,一起炫技。

其实,这一脑洞来自一家位于日本东京的公司 OMRON SINIC X。

OMRON SINIC X 是总部位于日本京都的知名自动化控制及电子设备制造厂商欧姆龙集团(OMRON Corporation)于 2018 年成立的子公司,其设立的主要目的就在于「近未来设计」——根据其官网介绍,OMRON SINIC X 致力于进行机器人技术、计算机视觉、机器学习和人机交互等领域的前沿研究。

作为欧姆龙集团的一个战略据点,OMRON SINIC X 聘用了多个领域的杰出人才,包括人工智能、机器人、物联网、制造业和金融业等,同时还与高校、科研机构有着密切的合作,旨在重点解决四个领域的社会问题:工厂自动化、医疗、机动、能源管理。

说到这里,就不得不提一下欧姆龙集团在机器人领域的高光时刻——2016 年 9 月 8 日,欧姆龙在官网上宣布,他们开发的能持续与人类进行乒乓球对打的机器人 Forpheus 被吉尼斯世界纪录认定为世界上首台乒乓球教练机器人。

那么这次为何要尝试让机器人抖空竹呢?

研究人员表示,他们的目标在于推进机器人精细控制和人机协作。

对于机器人来说,抖空竹可以说是一个挑战递增、激励不断的绝佳学习过程,可惜类似的模型目前还未被设计出来。

如果用真正的机器臂来训练,成本会很高,而且这样的高加速度任务(抖空竹主要是靠惯性)操作起来的确有一定危险性。

基于上述想法,研究人员做出了一个空竹模型(diabolo model),由此,机器人也能抖空竹了。

模型如何构建?

具体过程如何,我们可以在 OMRON SINIC X 发表于预印本平台 arXiv 的一篇论文中找到答案。

论文题为 An analytical diabolo model for robotic learning and control(机器人学习并控制的空竹分析模型)。

首先,研究人员推导出了一个空竹-绳子系统的分析模型。

抖空竹,核心在于绳子,要模拟绳子并不容易,原因在于——其摩擦力取决于许多难以甚至不可能测量出来的参数,而且空竹本身和绳子之间的相互作用也是十分灵活、非线性的。

因此,模型简化了抖空竹原本的复杂动作,用一个椭圆来表示绳子的轨迹,用以计算力与运动。

如下图所示,两根小棒的顶端恰好是椭圆的焦点。当然这只是平面图,三维空间中,椭圆形就成了椭球体。

研究人员假设了空竹不同的几种状态,比如:

  • 绳子紧绷状态:空竹在椭圆以内运动。

  • 绳子松弛状态:空竹的中间部分安全地卡在绳子上。

  • 空竹飞行状态:空竹在椭圆以外运动。

为确保模型的准确性,研究人员通过记录人们花式抖空竹的过程,形成了一个数据集,将这一数据集和模型进行对比。结果表明,不论是精度还是物理一致性,模型的表现都超过了基于深度学习的预测器。 

接着,研究人员描述了一种基于最优控制的方法「基于模型的预测控制」(Model-based Predictive Control,MPC)。

这一方法以空竹的速度和位置作为输入,通过优化其中一根小棒的运动轨迹,预测两根小棒顶端的运动轨迹,来生成机器人抖空竹的轨迹,让机器人解锁更多花式玩法。

具体到下图:

  • 黄色线条代表预测的空竹轨迹;

  • 绿色线条代表目标状态;

  • 白色线条代表下一次轨迹出现前的预测;

  • 红色、蓝色线条代表两根小棒顶端的轨迹;

  • 透明红色区域代表实际三维情境中形成的椭球体轨迹。

最后,研究人员在真实的机器人系统上进行测试,实现了人机共抖空竹的结果。

研究人员表示,希望这项研究能对机器人技术起到推动作用,激励机器人学习方面涌现出更多想法。

值得一提的是,OMRON SINIC X 官方表示准备发布仿真模型、数据集和控制算法,作为独立模块和 Gazebo 插件供大家学习,感兴趣的小伙伴们可以保持关注。

引用来源:

https://www.omron.com/sinicx/

https://arxiv.org/pdf/2011.09068.pdf

https://www.youtube.com/watch?v=oS-9mCfKIeY

https://www.bilibili.com/video/BV18t411V7QQ?from=search&seid=1725424399981005198

雷锋网雷锋网雷锋网

28 May 01:19

VR医疗培训Precision OS带来570%的学习速度提升

by 黄颜

查看引用/信息源请点击:映维网

学习信息的速度要比非虚拟现实组别快570%

映维网 2020年05月27日)Precision OS是一家温哥华企业,并用虚幻引擎开发了专注于为医生培训开发VR手术模拟软件。他们通过更快捷、更彻底、更便携的培训来改变医学教育的面貌,以及提供了为各种潜在情景培训外科医生的能力。

Precision OS首席执行官、骨科医生丹尼·戈尔(Danny P. Goel)博士表示,他们的目标是改变我们对外科教育的看法。他说到:“这实际上是挑战400年多来所传承下来的教条,即以塑料模型或在尸体进行学习教育。”

尽管医学教科书和塑料模型能够整洁地说明骨骼、肌肉和器官,但现实情况却大不相同。另外,医学教育主要是利用尸体实验室、讲座和在职培训。但医疗服务提供者可能需要数个月的时间才能精通掌握,而且即使是这样,他们都不会体会在手术过程中可能出现的所有情况。

在最近的一项独立研究中,有经验的外科医生评估了PrecisionOS 虚拟现实受训者和非虚拟现实受训者的技能。虚拟现实组别不仅在技能方面优于非虚拟现实组,而且学习信息的速度要比非虚拟现实组别快570%。这项研究已于2020年初发表在《Journal of Bone and Joint Surgery》期刊 。

Precision OS最近与为受伤穷人提供骨折手术的人道主义组织SIGN Fracture Care建立了合作关系。SIGN将向53个国家的365家医院分发Oculus Quest一体机,然后远程向其提供Precision OS的手术培训。这一举措不仅能够缩短培训时间,而且能够节省原本用于外勤出勤的时间和资金。

VR医疗培训Precision OS带来570%的学习速度提升最先出现在映维网

01 Apr 14:55

数字视网膜演化简史

一位学者在学术领域开山立派,最显著的一个标志就是某个学术概念能够与该学者划等号,例如当提起相对论必然会联想到爱因斯坦。

同样的道理,当提起「数字视网膜」这一概念,人们首先能想到的当属中国工程院高文院士。

所谓数字视网膜,即类比于人类视网膜,对传统摄像头乃至视觉计算架构进行演进与革新,从而能够更加智能地支持城市大脑,服务智能安防、城市精细管理等智能应用。

更为具体的来说,传统摄像头只是把拍摄到的视频数据压缩后上传到云端进行存储,再做分析识别处理;而数字视网膜则要求在摄像头端对拍摄视频进行高质量视频编码和视觉特征提取编码,对压缩编码过后的视频流进行本地存储的同时按需上传到云端,而所有的紧凑特征流同步实时同步到云端,从而既能够保证高效的存储,又能够便捷地支撑大数据查询分析,与此同时支持在端-边-云之间进行面向智能视频编码和特征分析的深度学习模型自适应迁移、压缩、更新与转换。简而言之,数字视网膜就是这样一种包含视频编码流、特征编码流和模型更新流的可伸缩端边云协同视觉计算架构。

传统视觉感知系统

数字视网膜技术系统框架

这一概念从正式提出至今,才不过两年,然而从最初构想,前期实践,到理论基础构建却花了近五年的时间。即使到现在,数据视网膜的技术框架也仍然在不断完善当中,但其影响却将是颠覆性的。正如高文院士在2018年的一篇文章[1]中提到:

我国已明确提出“到2020年,基本实现全域覆盖、全网共享、全时可用、全程可控的公共安全视频监控建设联网应用”,但是如果没有重大技术突破,数千万摄像头根本无法实现“全网共享”的实时数据汇聚,更不可能实现“全时可用”的联网分析识别,“数据大”变不成“大数据”,巨大潜在价值无法发掘。数字视网膜是应对上述挑战的一种可行的颠覆性技术发展方向。


1、雏形酝酿

高文院士对于「数字视网膜」的理解,是伴随着对城市中视频监控体系所存在问题的深刻认识而不断深化的。

据可考查资料,高文院士最早对城市中摄像头所存在缺陷以及可能的改进进行思考始于2013年初(或者稍早)。在2013年新年伊始,高文院士曾接受人民网采访[2],他提到现代摄像头密布,但还需要后端人力去盯,一旦遇到重大案件,去调用录像资料,却往往起不到太大作用。如果能够在设计视频编码时,让系统把数据中有用的信息抽取、挖掘并分析出来,不但能节省后期的人力投入,而且能起到应急作用。
可以认为,这个时候,他已经有了模糊的概念,但对于具体如何去做,却仍在酝酿当中。

在2013年10月,高文院士在中国信息化周报上发表了题为《智慧城市中的视频编码、分析与评测》的文章[3]。在这篇文章中,他首次系统提出了他对“智慧城市”中视频监控所存在问题的深入思考,他指出:

1、目前的监控系统在设计时是为了视频存储和以人为核心的视频跟踪,而非以计算机为中心的自动分析,因此靠这样一套系统来实现智慧城市的视频系统,去做自动分析,是根本无法完成的。

2、智慧城市中的视频技术面临三大问题,分别是存储成本高(数据量太大)、检索困难、对象再标识难。而这三个问题归结到本质则是两个问题,一个是编码问题,而另一个是视频分析识别问题。因此如何对监控视频进行高效视频编码,以及如何对其进行分析和检索,是必须思考的两个本质问题。

3、在学术界存在一个奇怪现象,即做视频编码的学者对视频分析不感兴趣;而反过来,做视频分析的人对编码也不感兴趣。原因在于前者处理的是像素和图像块,属于图像处理领域,而后者处理的是图像特征,属于模式识别领域。就像两条路上跑的车很难交汇。

幸运的是,高文院士正好跨界这两个圈子,无论是在视频编码领域,还是在计算机视觉(特别是人脸识别)领域,他都有着重要的影响力。其学生陈熙霖、山世光两位研究员继承了他在人脸识别领域的衣钵,如今已成为国际计算机视觉领域的领军人物;而其学生黄铁军和马思伟两位教授则继承了他在编码领域的衣钵,在国际视频编码领域也有着重要的影响力。[4]

高文院士对当代城市监控系统存在问题的本质分析,尽管只是雏形,但却奠定了他在随后解决这一问题的研究思路和方向。特别是在2014年的“第二届智慧城市与智能系统院士论坛”上,他提出“我们希望把编码和分析所做的技术融合在一起,集中在一个编码的框架下。”[5]

然而,尽管有了大致的方向,但由于以深度学习为代表的新一代人工智能刚刚兴起,许多人对深度学习都还不太熟悉,当时的算法和算力还不足以支持这种设想的技术。当然,从已有的资料中也可以看出,高文院士当时对这一问题的分析和解决方案设想中,对如何将深度学习与视频编码进行融合似乎也并没有很深入的想法,仍然是以“前深度学习”的模式在思考。


2、仿生:数字视网膜

时间一晃,来到了2016年。随着人工智能的发展,计算机视觉变得红红火火。大量以计算机视觉为技术基础的初创公司相继成立,传统安防企业也逐步转型。城市安防成为了一个资本角逐的大市场,高文院士之前提到城市视频监控的三大问题(存储成本高、检索困难、对象再标识难)也显得越加尖锐。

在这些年当中,高文院士逐步将原有的框架丰满起来,然而若想把这一理念落到实处,还需要具体的场景,毕竟这是一个以工程为主体的研究。正如他在随后的一篇文章[1]中提到:

“需要建立一个大规模测试平台来评估和展示数字视网膜架构的技术优势。这个平台至少应该包括上万路的监控摄像头,地理上覆盖一个中等以上城市,从而可以在真实场景中评估与数字视网膜相关的算法和技术。”

巧合的是,2016年以王坚为主导的阿里云在杭州开始试点建设城市大脑。[6]这正符合高文院士研究的需求,于是与王坚等人一拍即合。为了更好的合作,2017年7月,高文院士以前的学生团队成立了一家名为「博雅鸿图」(「博雅」取自北大「博雅塔」;而「鸿图」为立意高远之意)的公司,高文院士担任董事长,依托北京大学数字视频编解码技术国家工程实验室在数字音视频编解码(AVS)国家标准和视觉特征编码(CDVS)国际标准等方面的技术、标准、人才和产业化优势,致力于视觉智能芯片及系统解决方案的研发及产业化。[7]

在这期间,高文院士开始跳出编码和计算机视觉的领域,从更广的范围里思考其框架。一个表现即是,在2017年6月举办的图灵大会上,高文院士做了主题为《Evolution of the Artificial Visual System》的报告。[8]

高文院士在2017年图灵大会上做报告(来源:腾讯视频截图)

在这个报告中,他首次提出动物视觉的演化,以及人类应该借鉴其中的模式,这本质上便是「仿生」。但在报告中,他仅仅做了类比,虽然没有提出「数据视网膜」的概念,但基本框架已经非常完备。

数字视网膜概念的首次提出,是2017年10月份在深圳举办的安博会上。[9]

他在这次报告中进一步指出,传统视觉感知系统中监控摄像头为1-1模式:单摄像机单流、单用途。这种模式是长期自然形成的,效率不高:(1)压缩-解压缩和分析过程造成长延迟;(2)对象检测、模式识别和场景理解的准确性较低;(3)低利用率,目前的监控系统是为存储数据并再由人工离线检查而设计,大部分数据在其生存期内始终没有用。这些是我们当代智慧城市所不能忍受的,我们需要升级这些“眼睛”。

在这次报告中,他也首次指出数字视网膜包含的三个核心技术:

1、基于背景模型的场景视频编码。现有监控摄像头采用的视频编码技术标准对监控视频编码效率不高,因为这些标准主要是针对广播电视视频制定的。在监控场景下,大多数摄像头是固定的,背景相对不变,因而如能够利用背景预测,消除相应的冗余信息,那么编码效率将大大提高。

2、视频特征的紧凑表达。视觉表征是图像视频分析处理的基础,如果在摄像头端利用人工设计特征与深度学习特征自适应融合技术提取帧内帧间视觉紧凑表示,然后传送到云端,就能大大提高搜索效率。他们曾实验表明平均每帧仅需100bit,可达到与未经压缩特征相当甚至更高的检索性能。

3、视频编码与特征编码的联合优化。上述两种数据信息并不是相互独立的,而是相互关联,可互为指导的,因此数字视网膜在同时输出压缩视频流和紧凑特征流时,可以根据码流的大小,设计联合优化函数来计算如何分配各自的码率,从而在保持分析检索性能的情况下,进一步达到压缩需求,如下图所示。

从图中可以看出,在保持视频编码性能基本不变的情况下,特征编码可大幅度压缩。

高文院士也提到数字视网膜的三个特点,分别为高性能、高效率和可伸缩。

在这次报告中,还值得一提有两点。首先,他指出数字视网膜是可软件定义的,即特征学习模型和摄像机参数可以实时地从云中心更新(后面又对这一概念做了升级);其次,针对当前大多数仍然是传统摄像头(而非数字视网膜摄像头)的实际情况,他提出了基于智能边缘节点的解决方案,也即将负责特征提取的“视网膜”功能部署在边缘汇聚服务器,而不是更换已经部署的摄像头。

尽管“数字视网膜”整个框架都已经搭建完整,且已经在杭州、山东文登、重庆等地做了实际试点,但直到2018年初,相关工作才首次正式见于刊物。

2018年初,高文院士,北京大学田永鸿教授,以及阿里巴巴首席技术官王坚博士(2019年被评选为中国工程院院士)在《中国科学》期刊上联名发表了一篇名为《数字视网膜:智慧城市系统演进的关键环节》。[1]

这篇文章首次完整、清晰且严谨地定义了「数字视网膜」的概念:

如何借鉴“人类视网膜同时具有影像编码与特征编码功能”这一生物特性来研究和设计一种更高效的摄像头。我们称之为数字视网膜摄像头(retina-like camera),简称为数字视网膜(digitalretina)。

数字视网膜的核心在于“单摄像机双数据流”,其中压缩视频流是为了存储和离线观看,而紧凑特征流则是为了大数据分析与搜索。

文章也对不久前安博会上报告内容做了更为严谨的描述,同时也首次提出了数字视网膜所必须满足的五个条件:(a)使用全网统一的时间;(b)提供精确地理位置;(c)提供视频数据的高效编码功能;(d)提供视频数据的紧凑特征表达;(e)支持视频编码与特征表达的联合优化。

考虑数字视网膜研究未来可能的演化路线,高文等人在这篇文章中提出三点,分别为:(1)标准化,该研究落地到实际生活中,必须在不同厂商及城市之间形成统一的标准;(2)软硬件开源,对于这样的基础工程来讲,如果无法做到软硬件开源,相关的技术和产品就无法做到有效的开发和应用;(3)大规模测试床,这也是我们前面所提到的,不同于理论研究,数字视网膜本身更偏向应用工程,因此必须有真实场景的测试才能够推进发展。

针对以上三点,高文院士等人也有相应的动作,例如积极推动的AVS2、MPEG CDVS及其扩展MPEG CDVA等。[9]

此外,2017年7月,由高文院士、潘云鹤院士、黄铁军教授等带头发起成立的「新一代人工智能产业技术创新战略联盟」,也在创立之初就积极推动成立人工智能开源开放平台建设。[10]

在寻求建立大规模测试平台来评估和展示数字视网膜架构的技术优势方面,除与阿里云合作在杭州试点外,2018年3月,深圳市也成立了“鹏城实验室”,高文院士担任实验室主任,由此开启了深圳试点。[11]

因此,《数字视网膜:智慧城市系统演进的关键环节》这篇文章的发表具有标志性意义,它也意味着高文院士对于「数字视网膜」的定义正式成形,研究格局基本确立。


3、从「双流」到「多流」

按照上述所示的框架,高文院士所带领的团队(包括其所担任董事长的博雅鸿图)一直在完善从前端到后端,从软件到硬件的探索和设计。

从本质上来说,智慧城市的数字视网膜便是在摄像头中嵌入芯片,从而能够将获取的视觉数据经过高效编码和紧凑特征提取后,传送给城市大脑(后端云),以便更为高效、灵活地检索和分析。这里涉及到两种数据流,分别为视频编码流和特征编码流。

但这种架构忽视了一个问题,即数字视网膜的芯片在做特征提取时,依赖于良好的深度学习模型。为了保障特征提取的准确性,城市大脑通常需要利用搜集到的数据进行学习,训练相应的模型,再将学到的模型发送给前端设备。因此,模型的生成、利用和通信对数字视网膜至关重要,特别是视频数据在位置、时间和环境等方面差异很大的情况下。因此,在视频编码流和特征编码流之外,模型编码流同样是非常重要的一部分。

因此,随着对数字视网膜实践和认识的深入,其结构由「双流」变为了「多流」:视频编码流、特征编码流和模型更新流。

针对这一概念,高文院士最早是在2019年11月底在山东济南召开的“2019世界人工智能融合发展大会”上提出的。[12]

但事实上,他们对此的研究早已开始。

在2019年7月,由北大段凌宇教授课题组在计算机多媒体领域国际学术会议IEEE ICME上发表了《智慧城市数字视网膜的模型生成、利用和传输范式》(Towards Digital Retina in Smart Cities: A Model Generation, Utilization and Communication Paradigm)一文[13],这篇文章首次提出视频流、特征流与模型流的协作计算模式,以克服端-边-云环境下的模型复用与传输瓶颈。值得一提的是,这篇文章还获得了这届会议的最佳论文奖。[14]

段凌宇教授课题组在数字视网膜研究与实践中发现,数字视网膜计算框架下的边缘节点缓存了大量表征模型与无标签数据。为此,课题组提出了一种多模型复用机制,有效利用了边缘节点缓存的模型和数据,生成更具域适应性和判别力的目标模型。针对多模型复用过程中的模型训练稳定性,论文给出了理论证明与分析,并在实验中取得了相比传统方法更优的性能增益。在视网膜计算框架下,模型的频繁传输与部署会带来较大的通信开销。为了提升模型更新效率,进一步提出了模型间高效通信的新问题,并提出了一种新颖的差分模型压缩方法,相比传统的单模型压缩方法,可有效降低模型传输码率开销。该论文围绕视频流、特征流、模型流,提出了城市视觉系统中的协同计算新问题,对于未来数字视网膜理论研究与实践具有指导意义。[14]

2019年10月由博雅鸿图公司研制的第一款数字视网膜芯片—“鸿图 TMGV9531ESHI”流片成功。在同月的第二届雁栖航天论坛上,高文院士对该芯片进行了详细介绍。

在“2019世界人工智能融合发展大会”上,高文院士提到,[12] “第一款数字视网膜芯片已经在路上,很快就会发布,这个芯片很小,就像一块钱硬币一样,但却把我刚才说的三个本质特征、八个功能全都包含在里面。将来,这种芯片可能会直接进入各种智能交通的系统里,会支撑数字视网膜的应用。”

2019年11月22日在杭州举行了第一款数字视网膜芯片发布会和数字视网膜生态伙伴启动仪式,正式命名为“鸿芯图腾GV9531”对外亮相。

“鸿芯图腾GV9531”是首款支持数字视网膜技术体系的智能芯片,也是首颗AVS2视频编码芯片,它对数字视网膜技术进行了完整的诠释,支持全局统一的时空ID、多层次视网膜表示和模型更新及软件定义,在边缘端实现数字视网膜技术的高能效处理,不仅能减少进入云端的无用数据量,还能大大降低视频数据处理的成本,是数字视网膜边云系统视觉计算框架的核心算力支撑平台,是视觉边缘计算、多流智能处理、实现脑眼合一的视觉计算系统不可缺少的关键环节。

另外,在新的一年里面,数字视网膜的研究会有什么新的进展?更为重要的是,在这一领域,它能够给研究者带来哪些值得研究的新课题?它能够给芯片厂商、安防厂商带来什么新的商机?

这是我们所期待的!



本篇文章的写作,离不开中国图象图形学学会以及北京大学多位老师的支持,在此感谢。

AI科技评论了解到,由中国图象图形学学会主办,新疆大学承办的第二十届全国图象图形学学术会议(NCIG 2020)将于2020年6月28-20日在新疆乌鲁木齐举办。高文院士将作为特邀讲者[16],再次为我们带来数字视网膜的最新研究报告,该会议将汇聚国内图像图形及相关领域领军人才,聚焦领域热点问题,多角度全方位洞见未来发展趋势,包含3个特邀报告,2个讲习班,4个论坛,5个竞赛,1个优秀博士论坛,多个展览,是国内图像图形领域专家学者合作交流的平台,值得期待!

NCIG 2020 官方网站:http://ncig2020.csig.org.cn



高文院士简介

高文,北京大学博雅讲席教授。1982年于哈科大获得学士学位,1985年于哈工大获得硕士学位,1988年和1991分别获得哈工大计算机应用博士学位和东京大学电子工程博士学位。1991至1996年就职于哈尔滨工业大学,1996至2006就职于中国科学院计算技术研究所,2006年2月至今就职于北京大学。IEEE Fellow、ACM Fellow、中国工程院院士。他的研究领域为多媒体和计算机视觉,包括视频编码、视频分析、多媒体检索、人脸识别、多模态接口和虚拟现实。他最常被引用的工作是基于模型的视频编码与基于特征的对象表达。他先后出版著作七本,合作发表300余篇期刊论文、700余篇国际会议论文。先后多次获得国家科技进步奖、国家技术发明奖、国家自然科学奖等学术奖励。

参考资料:
[1] 数字视网膜:智慧城市系统演进的关键环节,中国科学:信息科学2018年第48卷第8期:1076–1082

[2] 高文院士:高效视频编码技术前景广阔,人民网(2013年1月10日),http://scitech.people.com.cn/n/2013/0110/c1007-20156410.html

[3] 智慧城市中的视频编码、分析与评测,中国信息化周报(2013年10月21日)第 005 版

[4] 高文院士个人主页,http://www.jdl.ac.cn/htm-gaowen/

[5] 与智能视频监控有关的技术挑战,中国信息化周报(2014年9月22日)第 005 版

[6] 复盘阿里城市大脑这3年(2019年1月25日),https://www.leiphone.com/news/201901/Pq1EAaIrVXM4mDMv.html

[7] 北大高文院士发表重要讲话:人工智能数字视网膜芯片到底能做什么(2018年7月7日),http://www.pinlue.com/article/2018/08/0913/386742019905.html

[8] 图灵会议高文院士主题报告(2017年6月8日),https://v.qq.com/x/page/e0511e3veje.html?fr=v.hao123.com

[9] 高文院士50张PPT,带你看懂城市大脑的瓶颈与重大突破点(2017年12月15日),https://www.leiphone.com/news/201711/esDVM34RTfN0mN67.html

[10] 专访黄铁军:以落实国家「新一代人工智能发展规划」为己任的战略联盟,成立8个月做了哪些事?(2018年3月26日),https://www.leiphone.com/news/201803/UJuG5jWfsHxXe26M.html

[11] 鹏城实验室启动大会召开,
http://www.pcl.ac.cn/index.php/home/index/views/id/164.html

[12] 中国工程院院士高文:数字视网膜消除智能交通痛点 | 世界人工智能融合发展大会(2019年11月20日),https://www.leiphone.com/news/201911/q5Y20D2wqlFqXSHe.html

[13] Towards Digital Retina in Smart Cities: AModel Generation, Utilization and Communication Paradigm(2019年7月31日),https://arxiv.org/abs/1907.13368

[14] 计算机科学技术系段凌宇教授团队荣获IEEE ICME 2019最佳论文奖(2019年8月2日),https://eecs.pku.edu.cn/info/1023/9885.htm

[15] 数据不出本地,还能享受大数据训练模型,联邦学习提供一种应用广阔的学习新范式(2019年9月11日),https://www.leiphone.com/news/201909/WOcl8I1TjMjXVJd5.html

[16] NCIG 2020第二十届全国图象图形学学术会议,http://ncig2020.csig.org.cn

[17] AI Oriented Large-Scale Video Management forSmart City: Technologies, Standards and Beyond(2017年12月5日),https://arxiv.org/pdf/1712.01432.pdf

[18] 高文院士:用类脑颠覆摄像头,数字视网膜是下一站(2018年9月12日),http://tech.163.com/18/0912/18/DRH97U4S00098IEO.html

[19] 解析高文院士提出的“数字视网膜”体系(2019年5月8日),https://www.iyiou.com/p/99569.html

雷锋网雷锋网雷锋网

08 Oct 05:10

Toyota Using VR To Train Robots To Assist The Elderly

by Kyle Melnick

Practice makes perfect for this army of house-cleaning robots. 

Earlier this week Japanese-based Toyota Research Insitute released details regarding a new project currently in development that will have researchers teaching robots how to complete various types of housework using VR technology. 

Using a series of 3D sensors and cameras attached to the robots, researchers in a VR headset can view the world from the robot’s perspective and control its actions using standard motion controllers. As the researcher completes various tasks with its mechanical arms, such as opening and closing cabinets or putting away the dishes, they can leave the robot specific notes or instructions on how to complete the task in different ways. The robot then records and analyzes this information, building upon each new method and instruction that is added. 

Once a researcher has provided a sufficient amount of data to a “robot-in-training,” Toyota then uses that accumulated knowledge to educate other robots using a technique referred to as “fleet learning.” Think of it sort of like a hive mind; whatever knowledge one robot obtains is shared with the rest of the fleet. 

“Operating and navigating in home environments is very challenging for robots,” states the Institute in an official press release. “Every home is unique, with a different combination of objects in distinct configurations that change over time.”

Image Credit: Toyota Research Institute

“To address the diversity a robot faces in a home environment, we teach the robot to perform arbitrary tasks with a variety of objects, rather than program the robot to perform specific predefined tasks with specific objects. In this way, the robot learns to link what it sees with the actions it is taught. When the robot sees a specific object or scenario again, even if the scene has changed slightly, it knows what actions it can take with respect to what it sees.”

The end goal of the project, according to TRI, would be to develop a system that could support those in need of at-home assistance, such as the elderly, by conducting maintenance, cleaning, and performing a variety of other basic activities.

Feature Image Credit: Toyota Research Institute

The post Toyota Using VR To Train Robots To Assist The Elderly appeared first on VRScout.

24 May 12:00

四分之一的 Google Duplex 呼叫其实来自人而不是 AI

Google 的电话智能助手 Duplex 开始为用户提供服务,它使用 AI 帮助用户完成预约或订餐等任务,这项技术给人留下了很深刻的印象,尤其是你以为的 AI 其实是人类的时候。某天下午,一家餐厅的服务员接到了 ID 为 Google Assistant 的呼叫者的订餐电话,服务员察觉打电话的人真的像人类,于是问对方是不是机器人,对方立即回答他不是机器人。Google 随后证实打电话的人来自一家呼叫中心。搜索巨人称 25% 的 Duplex 呼叫始于呼叫中心的工作人员,15% 的自动系统呼叫在某个时候需要有人类介入。换句话说智能电话助手很大一部分还是靠人来运作。在 Duplex 能真正为人类提供服务前它还需要接受更多的呼叫训练,向 AI 的过渡是逐步的。

29 Apr 00:09

在三星的要求下,iFixit 撤下了 Galaxy Fold 的拆解结果

by Steven Lee

三星的折叠屏幕手机 Galaxy Fold 的前景并不明朗,根据知名拆解团队 iFixit 的拆解结果,这款手机非常脆弱。然而三星已经要求该团队撤下其拆解结果。

此前有不少评测机因被撕下一层屏幕保护膜,而出现了屏幕问题。iFixit 在拆解结果中表示,Galaxy Fold 的显示屏在技术上可以在没有保护层的情况下使用,但其粘附力非常紧密,显示器非常脆弱,如果不施加破坏屏幕的压力,很难将其移除。iFixit还表示,铰链处较大间隙会让污垢进入,而污垢可能会夹在铰链和显示器之间,从而影响屏幕性能。

目前,三星已经要求 iFixit 从网上移除关于这款手机拆解结果,因为被拆解的 Galaxy Fold 是由三星提供的。虽然从理论上来说 iFixit 没有义务这样做,但该团队已经遵循了这一要求,并从网站上删除了相关页面。

iFixit 在声明中表示:“我们手上的 Galaxy Fold 由值得信赖的合作伙伴提供。三星通过该合作伙伴要求 iFixit 移除其拆解结果。我们没有义务删除我们的分析结果,无论是从法律上还是其他方面。但出于对该合作伙伴的尊重,我们认为这是让设备更易于修理的盟友,所以我们选择撤回我们的内容,直到 Galaxy Fold 在零售店上架。”

17 Apr 09:33

波士顿动力用 10 台 SpotMini 拉动一辆卡车

by 豆腐

波士顿动力(Boston Dynamics)在官方 YouTube 更新了一段视频——由 10 台 SpotMini 一起拉动一辆卡车。

去年我们看到了 SpotMini 伴随《Uptown Funk》跳了一段舞蹈,波士顿动力为我们展示了它的协调性和灵活度。这次他们展示了一支由 10 台 SpotMini 组成的队伍,共同完成一项工作。

在这之前,波士顿动力已经为我们展示过 SpotMini 开门、爬楼梯、捡起物品等一系列逼真动作。据 The Verge 报道,SpotMini 已经完成生产,波士顿动力表示他们将很快推出一系列应用,不过波士顿动力并没有公布 SpotMini 的价格。

波士顿动力曾表示,计划在 2019 年制造大约 100 个 SpotMini,以供商业使用,最终实现大规模量产。这是波士顿动力公司成立 26 年来,首次出售它生产的机器人产品。

 

图片:Boston Dynamics

29 Apr 00:44

Thoughts on Low Latency Interrupt Handling (SAMD51) @microchipmakes

by phillip torrone

Screen1

Thoughts on Low Latency Interrupt Handling | Big Mess o’ Wires.

For this analysis, I’ll assume the microcontroller is an Atmel SAMD51. If I were actually building this hardware now, that’s what I’d probably choose. The SAMD51 is a fairly new 120 MHz ARM Cortex M4 microcontroller, and is like an upgraded version of the popular SAMD21 used in the Arduino Zero. Adafruit had a gushing review of the SAMD51 when it was released last year. It has a nice selection of hardware peripherals, including some programmable logic, and it’s fairly fast, and cheap.

Read more.

28 Mar 00:05

Waymo向捷豹路虎下单2万辆I-Pace,组建庞大高端服务车队

雷锋网·新智驾按:美国东部时间3月27日一早,Waymo在纽约宣布了一条重大消息。Waymo将向捷豹路虎采购2万台高端电动SUV I-Pace,两家合作组建的这个车队将是全球第一支高端电动无人驾驶车队。I-Pace的价格如果按7万美金计算,Waymo这次又砸下了14亿美金。

Waymo CEO John Krafcik在简短的发布会上透露,在确立此次合作前,Waymo用相当长时间调研了市面上可能的车型,最后选定了I-Pace。选定I-Pace有几个原因:I-Pace的车型尺寸适合城市路段的驾驶,其基于纯电设计的车辆架构易于部署自动驾驶系统;I-Pace在设计时采用了较高的安全标准,最后它的电池容量和续航里程可以支撑一天的城市驾驶。

Waymo 的自动驾驶车队又要再次壮大了,这次它们的合作伙伴可不是菲亚特-克莱斯勒这种普通车厂,而是最近凭借纯电动 SUV I-Pace 成为特斯拉最大威胁的豪华品牌捷豹路虎。最关键的是,两家公司的合作并非小打小闹,财大气粗的 Waymo 可是一次要买 2 万辆 I-Pace 充实自家车队。

本月月初才在全球首发的 I-Pace 可不是克莱斯勒 Pacifica 那样的大众运输工具,它一旦正式服役,必然会开辟一个全新的细分市场,帮 Waymo 笼络更多钱包鼓鼓的用户(这类用户也是最愿意为新技术花钱的)。

令人惊喜的是,据雷锋网新智驾了解,两家公司的合作进展迅速,今年年末第一辆整合了 Waymo 自动驾驶技术的 I-Pace 原型车就将正式上路测试。

值得一提的是,全自动驾驶版的 I-Pace 并非下了捷豹生产线后加装一些 Waymo 的套件。相反,两家公司的工程师会通力合作,从零开始完成这款车与自动驾驶技术的结合。从 Waymo 公布的长远计划来看,两家公司计划在两年内打造 2 万辆全自动驾驶版的 I-Pace,实现每天 100 万次的运输量。虽然公布了不少数字,但 Waymo 并未透露这笔庞大的订单要花多少钱。

眼下,Waymo 的自动驾驶车队有大约 600 台 Pacifica 自动驾驶汽车,其中一些已经开始在亚利桑那执行接送乘客的任务了。与 I-Pace 不同,这些 Pacifica 均为插电混动车型。为了进行深入合作,Waymo 和菲亚特-克莱斯勒(FCA)还专门在密歇根建了一座工厂,离 FCA 的美国总部非常近。

在 Pacifica 之前,Waymo 的自动驾驶车队主力一直是呆萌的“萤火虫”(已于去年退役)和雷克萨斯 RX SUV。

去年 11 月份,艺高人胆大的 Waymo 玩起了“大撒把”,原本要在关键时刻力挽狂澜的安全司机都下岗了。最近几周,胸有成竹的 Waymo 开始邀请一些乘客体验它们真正的全自动驾驶汽车。

随着 Waymo 商业自动驾驶打车服务的逐步成型,它们也开始为挑剔的用户考虑了。于是,本月初在日内瓦车展大放异彩,被各路媒体称为 Model X 竞争对手的 I-Pace 成了 Waymo 的新欢,更偏向于交通工具属性的 Pacifica 要“失宠”了。拥有一切豪华车特质的 I-Pace 定价不到 7 万美元,比乞丐版 Model X 75D 还便宜 1 万美元,比乞丐版的 Model S 也便宜 5000 美元,绝对竞争力满满。

除了肩负将特斯拉挑落马下的重任,全自动驾驶版的 I-Pace 也是 Waymo 巩固自己自动驾驶行业老大的定心丸。有了豪华和纯电动两大元素压阵,I-Pace 可比紧随其后的通用 Cruise 团队高大上多了,后者也要在 2019 年推出自动驾驶打车服务,不过车型是较为廉价的雪弗兰 Bolt 纯电动车。在通用看来,未来的汽车市场自动驾驶和电动化一个都不能少。不过,通用老对手福特则没有走极端,它们也把混动车当成了自动驾驶战略的重要一环。Waymo 也一样,2020 年插电混动的 Pacifica 与纯电版的 I-Pace 将一同在车队中服役。

现在,我们还不知道哪个城市会成为幸运儿,第一个用上全自动驾驶的 I-Pace。Waymo 的首个商业化自动驾驶打车服务今年将落地凤凰城,不过它们的测试车遍布全美 25 个城市,到底谁会成为 Waymo 相中的第二个市场,恐怕今年晚些时候才会见分晓。鉴于这次的合作伙伴是捷豹路虎,因此英国也有可能成为未来 Waymo 的大市场之一。

捷豹路虎对自动驾驶并不陌生,这家老牌制造商此前就在考文垂总部附近的测试场进行过自动驾驶研发车辆的测试。雷锋网新智驾了解到,去年夏天,它们更是为 Lyft 投资 2500 万美元,以支持打车巨头的自动驾驶和联网汽车项目。这次合作也为捷豹路虎换来了新机遇,它们要在 Lyft 平台上测试自己的自动驾驶汽车(Waymo 也是 Lyft 的合作伙伴之一)。

复杂的合纵连横形势也体现了自动驾驶行业的焦虑感,上周 Uber 的致命车祸更是让许多人觉得,自动驾驶行业可能要遇到诞生以来最大的坎坷了。在回应这次车祸时,Waymo CEO Krafcik 还不忘给死对头 Uber 补刀,称 Waymo 的技术可以游刃有余的应付相同的情况,而此前闹的沸沸扬扬的专利案,也以 Uber 赔偿 Waymo 2.45 亿美元收场。

拉了新的制造商上船后,Waymo 正试图打造自己的光环,即使整个行业现在的主题是弄清 Uber 致命车祸的根本原因。作为 Uber 的合作伙伴,丰田已经暂停了自动驾驶测试,不过 Waymo 可不会停下脚步,为了那个吸引力十足的大市场,它们会继续前进以争夺胜利果实。

Via. The Verge

PS:6项会员专享特权,全年100期精华内容,带你深入浅出看懂自动驾驶。欢迎点击链接,加入「新智驾会员计划」 :https://www.leiphone.com/aidrive/vip 或扫描海报下方二维码了解详情。

20 Mar 12:57

想要干掉笔记本键盘的苹果,究竟在想些什么?

作为很多人的日常生产力工具,笔记本电脑近年来变化越来越快。而其中最重要的一部分——键盘的形态,也在超出我们的预期。

今年二月西班牙 MWC 大会上,我们就见到了华为将摄像头隐藏在键盘上而不再是屏幕上的设计,再往前,我们见到了将触控面板放在键盘部位的 MacBook Pro 的 TouchBar 设计,这些让人眼前一亮的变化可以说不但为笔记本电脑增色,还兼具了更好的实用功能。

而说到苹果,我们不得不提到今年三月被正式公开的两个专利,从这两份专利,我们不但见到了苹果对于电脑键盘的展望,甚至还可以预见未来的苹果将「干掉」键盘。这究竟是怎么回事?不妨就先从这两个专利说起。

两份专利和一个野心

梳理一下今年三月份公开的两份笔记本键盘相关专利,我们不难看出苹果对于笔记本电脑键盘部分的重视。

第一份专利申请于 2016 年,是针对苹果在 2015 年起开始推行的全新的「蝶式键盘」。

图自 9TO5Mac

蝶式键盘是伴随 2015 年发布的 12 英寸 New MacBook 而带来的新型设计,为了追求笔记本电脑轻薄的极致,苹果选择利用蝶式来代替传统的剪刀式键盘设计,这种结构也延续到了之后的 MacBook Pro 系列产品上。

图自苹果官网

但这一设计在让笔记本更薄的同时,也带来了别的问题。不少用户除了吐槽敲击手感差之外,还抱怨在使用蝶式键盘遇到了按键卡住,无法顺利按压的情况。由于特别的结构设计,MacBook 产品的确出现了遭遇灰尘污垢和食物碎屑后的键盘问题,而这一份专利,想要通过为蝶式结构的按键增加一圈防尘膜来杜绝杂物的影响,甚至于不用担心不小心洒出的液体。

图自 9TO5Mac

另一份专利则指出了键盘的更多可能。专利指出,苹果尝试通过技术手段让触摸屏来代替传统的机械式键盘,从而带给键盘更多可能。具体来说,苹果给出了三种技术想要改变我们对于触摸的认知:

首先,当在键盘用手打字时,触摸板会相应形成凹陷,通过电容监测层可以感知这种按压的深度和位置,从而对手指进行反馈。

其次,通过振动马达来提供用户手指按压相应的压力反馈,振动马达的感觉类似于日常使用 iPhone 的 3D Touch 带来的反馈。

第三,通过静电来表现手指触控的感觉,当手指放在键盘上面时,静电摩擦能对手指对键盘的按压有明确感知。

通过这三点改进,苹果在专利中表达出希望能用触摸板完全代替传统键盘的想法,而不论是前面提到的第一份专利还是第二份专利,苹果似乎都在传达出一个想法,那就是笔记本电脑键盘仍然有很多改进空间,为了让笔记本的设计更加极致,这些专利都必不可少。

那么问题来了,资金充足,野心十足的苹果,到底为什么要在键盘上这样较劲,苹果最终理想中的键盘到底会变成什么样?

干掉键盘真的靠谱吗?

干掉键盘这件事,苹果其实已经干过一次了。

不妨让时间回到 2007 年,当乔布斯站在演讲台上,对着当时市面上各种流行的手机点评时,曾这样说:

这些(传统)手机上的按键,无论你需不需要它,它们都在那儿。而不论你打开任何手机应用,按键也都同样存在,但这些应用需要的却是不同的按键。它们不能做出改变。

乔布斯认为,最好的键盘应该是当你需要的时候它才出现,对于不同应用程序,也会有所不同。这种想法对当时的人们来说还很超前,一些人甚至吐槽说自己用 iPhone 的按键手感太差。但事实证明,这种趋势就是主流,并且延续到现在,人们今天早已熟悉使用手机上的虚拟键盘。

不妨再来到 2016 年十月的苹果发布会上,当蒂姆·库克带来新的 MacBook Pro 时,在产品详细设计介绍环节,时任苹果全球营销高级副总裁的 Phil Schiller 对于用 Touch Bar 代替传统的笔记本电脑功能区这样说:

这(传统功能键)是 45 年前就推出的设计,我们今天还在还在使用。如果我们把它去掉会发生什么?在它们原本的位置我们能用什么取代它们,确切地说我们能用什么方式,进一步提升它的使用体验?

似曾相识不是吗?苹果对于给电脑加上 TouchBar 和当年给 iPhone 加上虚拟键盘而非实体键盘,这两件不同产品却代表着近乎相同的想法。之所以想要干掉实体按键,是因为虚拟按键的好处能掩盖它的不足,而这种好处,会让人一旦习惯就回不到过去。而且 Phil Schiller 曾经表示苹果不会推出基于触摸屏的笔记本电脑,从另一面似乎也说明,苹果想要实现的最终目标是这样的笔记本。

但在笔记本电脑的键盘上,苹果考虑的要比手机更多一些。因为笔记本电脑对于人们提升生产力有更高要求,因此即便最终要变成一整块触摸板,它也仍然需要人们不会有太大的体验差异,因此苹果先通过蝶式键盘升级让人们能习惯这种手感,同时又希望在触摸屏上花大力气让它能模拟出真实键盘的感受,这样一点点的改进,你的使用习惯就会发生改变。

而关于这种「模拟真实感受」的虚拟按键,苹果其实在 iPhone 8 的 Home 键上通过给出合适的震动反馈模拟真实按键,已经做出过尝试。另外,很早以前苹果就通过为笔记本触摸板加入 Force Touch 功能让人们感受出不同按压力度带来的不同效果,这一点一滴的积累,想必都在努力让人们能对未来的变化逐渐适应。

虚拟胜过实体

延续了一贯路线的苹果,看来的确可以把「干掉键盘」这件事在笔记本电脑上再做一次,那么问题来了,对苹果来说,除了一个更有未来感的产品之外,这样做还能让普通人得到什么样的好处?

图自 Yanko Design

首先,它让电脑更灵活。我们不妨看看 iPhone 上的变化,因为虚拟键盘代替了传统的手机实体按键,乔布斯实现了当时的愿望,它能够在你需要的时候出现,能够针对不同应用做出任何需要的改变,因此它拥有了极大的扩展性。

图自 9TO5Mac

这正如苹果在关于触摸键盘的专利中提出的,可触摸的键盘可以像 TouchBar 那样,在不同的应用下出现不同的界面,通过这种变化,键盘就不再像从前那样一成不变,而是非常灵活。就拿绘图来说,苹果可以让触摸板在绘图软件种直接变成一个画板,从而提供更专业的绘图功能。

图自 Yanko Design

第二,让电脑更轻薄。和蝶式键盘对笔记本的轻薄做出贡献一样。利用触摸键盘的一个直接好处是有可能进一步压缩笔记本电脑厚度。过去我们曾经说要专业就没有办法追求轻薄,但尝试将键盘做成触摸屏,就可以兼顾这两个方面,因此对于用户来说来,会有更强的吸引力。

第三,更耐用。在追求轻薄之外,苹果的目标是一向是让电脑更好用,那么干掉键盘,最直接的结果就是干掉了过去那些和键盘有关的问题,比如缝隙的清理以及防水等,对于用户来说,这种变化也会在日常生活中有所帮助。

虽然最终目标是「消灭」键盘,但在走向这条路的过程中,苹果其实充满着诸多挑战,这正是如今一步步前进,一点点做出改变的原因。好在苹果一向受人欢迎,它有能力等待时机成熟,也许到时候我们就会看到「又一次改变世界」的产品。

头图来自 Yanko Design


05 Sep 22:39

More After School Projects from the Adafruit Learning System #BackToSchool

by Jessie Mae

Iadafruit BackToSchool blog

Get Inspired with more back to school projects from the Adafruit Learning System!


Wireless Inductive Power Night Light

Projects inductivelilght

Wireless Inductive Power Nightlight: Every time I hear about wireless power systems, or see a wireless charger in action, it feels like some sort of crazy magic. The idea of harnessing an electromagnetic field to produce enough power to even glow an LED is amazing to me.

So, when Adafruit started to carry a couple of Inductive Charging modules, I knew I had to create a project with it beyond just charging a battery.

I often go to bed much later than my wife, and like to do a bit of reading before going to sleep. I decided to create a nice little night light / reading light that I could easily set at just the right brightness without waking up my wife. With this light, all you need to do is slide the LED block closer to the power block to make the light brighter.

It’s a bit of a hack, which takes advantage of the fact that the inductive chargers work ‘better’ the closer they are together. In this case, pulling them apart dims the LEDs because the voltage drops. This won’t work with Qi chargers, which don’t have this ‘bug’! I mean, you can still use a Qi charger, but it will only be on or off, no dimming.

The Wireless Inductive Power Night Light is a very simple and easy to complete project. All you need is to make one is an inductive charging set, a power supply, leds, an enclosure, and couple other pieces.

See full project guide here!


Wireless Game Show Poppers for the Classroom!

Hacks duo pop usb receiver

Is it time for school already? Need ways to keep students engaged but on a tight budget? We have a $15.00 game show system for you based on a combination of wireless IR poppers and game show software for PC and Mac computers. All you need are 1) the Duo Pop for iPad Game , 2) a 5 volt Pro Trinket Arduino-compatible microcontroller, 3) Game Show Presenter Software (free demo version available) to create your questions as well as host your game, and 4) a little bit of time to hack and solder on the Duo Pop for iPad Receiver. Once finished with this project, you will have a popper USB receiver system that is completely hackable allowing you to interface the poppers with all kinds of other learning software for both PC and Mac computers. Are you ready to hack the Duo Pop? Before hacking, let’s discuss the parts that you will need for this project.

See full guide here!


Solar Boost Bag

Make your own backup battery and recharge it with the sun! This is an upgrade project to our original Solar Charging Handbag and uses a PowerBoost 500 Basic, a solar lipoly charger, slide switch, and 2000mAh rechargeable battery, all housed in a 3D printed enclosure.

Before you begin, read through the following guides:

For this project, you will need:

  • 3D printer with filament
  • A sturdy handbag or backpack
  • #4-40 3/8 flat Phillips machine screws

See full guide here!


AND MORE! Check out our searchable learn system for many more projects!


adafruit_BackToSchool_logo

August is Back to School Month here at Adafruit! Each week we’ll be bringing you a two #BackToSchool posts on the blog! Stay tuned for product and gift guides, tutorials from the Adafruit Learning System, and inspiration from around the web! Get started by checking out Adafruit’s educational resources, such as our kits and project packs, suggested products for young engineers, blog posts for educators and an extensive selection of books to help you learn!

24 Aug 13:08

uSens凌感发布双手交互动作识别SDK

by 映维网

映维网,国际权威虚拟现实(VR)信息平台,提供最快、最全、最有价值VR信息资讯!

文章相关引用及参考:映维网

新增一系列双手交互动作,如握拳、手心写字、十指交叉等。

映维网 2017年08月24日)uSens凌感今日发布全新Fingo SDK,在手势算法底层进行了改进,新增一系列双手交互动作,如握拳、手心写字、十指交叉等,在同类产品中,实现对大面积遮挡的双手交叠类手部动作的识别,并可实现对十个手指的灵活细微运动的追踪。

uSens凌感在2017年2月正式公开发售其手部追踪解决方案——Fingo。Fingo集成软硬件为一体,硬件上通过两个红外摄像头及三个红外辅助灯追踪手部动作,软件上基于计算机视觉及深度学习等算法,实现对双手骨骼的识别。

人的手部动作灵活复杂,不仅有直接可见的清晰手型,也有握拳、手指交叉、左右手交叠等等对关节点有大幅遮挡的动作。经过半年的不断优化改进,uSens凌感本次发布的新版SDK在手势的整体稳定性、精确度以及多样化方面大幅提升,对常用手势动作进行了深度优化。

文章《uSens凌感发布双手交互动作识别SDK》首发于 映维网

22 Jun 13:38

2017,最受欢迎的 15 大 Python 库有哪些?

雷锋网按:本文作者为 ActiveWizards 的数据顾问 Igor Bobriakov,雷锋网林立宏与 Raey Raey Li 编译。

Igor Bobriakov

近年来,Python 在数据科学行业扮演着越来越重要的角色。因此,我根据近来的使用体验,在本文中列出了对数据科学家、工程师们最有用的那些库。

由于这些库都开源了,我们从Github上引入了提交数,贡献者数和其他指标,这可以作为库流行程度的参考指标。

核心库

1. NumPy (提交数: 15980, 贡献者数: 522)

当开始处理Python中的科学任务,Python的SciPy Stack肯定可以提供帮助,它是专门为Python中科学计算而设计的软件集合(不要混淆SciPy库,它是SciPy Stack的一部分,和SciPy Stack的社区)这样我们开始来看一下吧。然而,SciPy Stack相当庞大,其中有十几个库,我们把焦点放在核心包上(特别是最重要的)。

关于建立科学计算栈,最基本的包是Numpy(全称为Numerical Python)。它为Python中的n维数组和矩阵的操作提供了大量有用的功能。该库提供了NumPy数组类型的数学运算向量化,可以改善性能,从而加快执行速度。

2. SciPy (提交数: 17213, 贡献者数: 489)

SciPy是一个工程和科学软件库。雷锋网再次提醒,你需要理解SciPy Stack和SciPy库之间的区别。

SciPy包含线性代数,优化,集成和统计的模块。SciPy库的主要功能是建立在NumPy上,从而它的数组大量的使用了NumPy的。它通过其特定子模块提供有效的数值例程,并作为数字积分、优化和其他例程。SciPy的所有子模块中的功能都有详细的说明 ——又是一个SciPy非常有帮助的点。

3. Pandas (提交数: 15089, 贡献者数:762)

Pandas是一个Python包,旨在通过“标记”和“关系”数据进行工作,简单直观。Pandas是数据整理的完美工具。它设计用于快速简单的数据操作,聚合和可视化。

库中有两个主要的数据结构:

  • “系列”(Series),一维


  • “数据帧”(Data Frames),二维


例如,当您要从这两种类型的结构中接收到一个新的Dataframe时,通过传递一个Series,您将收到一个单独的行到DataFrame的DF:

 这里稍微列出了你可以用Pandas做的事情:

  • 轻松删除并添加数据帧(DataFrame)中的列

  • 将数据结构转换为数据帧(DataFrame)对象

  • 处理丢失的数据,表示为NaN

  • 功能强大的分组

Google趋势记录

trends.google.com

GitHub请求历史记录

datascience.com/trends 

可视化

4.Matplotlib (提交数: 21754, 贡献者数: 588) 

又一个SciPy Stack核心软件包以及 Python库,Matplotlib为轻松生成简单而强大的可视化而量身定制。它是一个顶尖的软件(在NumPy,SciPy和Pandas的帮助下),它使Python成为像MatLab或Mathematica这样的科学工具的竞争对手。

然而,这个库是低层级的,这意味着你需要编写更多的代码才能达到高级的可视化效果,而且通常会比使用更多的高级工具付出更多的努力,但总体上这些努力是值得的。

只要付出一点你就可以做任何可视化:

  • 线图

  • 散点图

  • 条形图和直方图

  • 饼状图;

  • 茎图

  • 轮廓图

  • 场图

  • 频谱图

还有使用Matplotlib创建标签,网格,图例和许多其他格式化实体的功能。基本上,一切都是可定制的。

该库由不同的平台支持,并使用不同的GUI套件来描述所得到的可视化。不同的IDE(如IPython)都支持Matplotlib的功能。

还有一些额外的库可以使可视化变得更加容易。

5. Seaborn (提交数: 1699, 贡献者数: 71)

Seaborn主要关注统计模型的可视化;这种可视化包括热图,这些热图(heat map)总结数据但仍描绘整体分布。Seaborn基于Matplotlib,并高度依赖于此。

 

 6. Bokeh (提交数: 15724, 贡献者数: 223)

另一个很不错的可视化库是Bokeh,它针对交互式可视化。与以前的库相比,它独立于Matplotlib。正如我们提到的,Bokeh的主要焦点是交互性,它通过现代浏览器以数据驱动文档(d3.js)的风格呈现。

7. Plotly (提交数: 2486, 贡献者数: 33)

最后,关于Plotly的话。它是一个基于Web用于构建可视化的工具箱,提供API给一些编程语言(Python在内)。在plot.ly网站上有一些强大的、上手即用的图形。为了使用Plotly,你将需要设置API密钥。图形将在服务器端处理,并发布到互联网,但有一种方法可以避免。

Google趋势记录

trends.google.com

GitHub请求历史记录

datascience.com/trends

机器学习

8. SciKit-Learn (提交数:21793, 贡献者数:842)

Scikits是Scikits Stack额外的软件包,专为像图像处理和机器学习辅助等特定功能而设计。对于机器学习辅助,scikit-learn是所有软件包里最突出的一个。它建立在SciPy之上,并大量利用它的数学运算。

scikit-learn给常见的机器学习算法公开了一个简洁、一致的接口,可简单地将机器学习带入生产系统中。该库中集成了有质量的代码和良好的文档、简单易用并且十分高效,是使用Python进行机器学习的实际行业标准。

深度学习—— Keras / TensorFlow / Theano

在深度学习方面,Python中最着名和最便的库之一是Keras,它可以在TensorFlow或Theano框架上运行。让我们来看一下它们的一些细节。 

9.Theano. (提交数:25870, 贡献者数:300) 

首先让我们谈谈Theano。

Theano是一个Python软件包,它定义了与NumPy类似的多维数组,以及数学运算和表达式。此库是被编译的,可实现在所有架构上的高效运行。最初由蒙特利尔大学机器学习组开发,它主要用于满足机器学习的需求。

值得注意的是,Theano紧密结合了NumPy在低层次上的运算 。另外,该库还优化了GPU和CPU的使用,使数据密集型的计算平台性能更佳。

效率和稳定性微调保证了即使在数值很小的情况下,仍有更精确的结果,例如,即使只给出x的最小值,log(1 + x)仍能计算出合理的结果。

10. TensorFlow. (提交数: 16785,贡献者数: 795)

TensorFlow来自Google的开发人员,它是数据流图计算的开源库,为机器学习不断打磨。它旨在满足谷歌对训练神经网络的高需求,并且是基于神经网络的机器学习系统DistBelief的继任者。然而,TensorFlow并不限制于谷歌的科学应用范围 – 它可以通用于多种多样的现实应用中。 

TensorFlow的关键特征是它的多层节点系统,可以在大型数据集上快速训练神经网络。这为谷歌的语音识别和图像对象识别提供了支持。

11. Keras. (提交数: 3519,贡献者数: 428)

最后我们来看看Keras。它是一个用Python编写的开源的库,用于在高层的接口上构建神经网络。它简单易懂,具有高级可扩展性。Keras使用Theano或TensorFlow作为后端,但微软现在正努力整合CNTK(微软的认知工具包)作为新的后端。

设计中的简约方法旨在通过建立紧凑型系统进行快速、简便的实验。

Keras真的容易上手,并在持续完善它的快速原型能力。它完全用Python编写,可被高度模块化和扩展。尽管它以易上手、简单和以高层次为导向,但是Keras足够有深度并且足够强大,去支持复杂的模型。

谷歌发展趋势历史

trends.google.com

GitHub请求历史记录

datascience.com/trends

自然语言处理

12. NLTK (提交数: 12449,贡献者数: 196)

这个库的名称“Natural Language Toolkit”,代表自然语言工具包,顾名思义,它用于符号学和统计学自然语言处理(NLP) 的常见任务。 NLTK旨在促进NLP及相关领域(语言学,认知科学人工智能等)的教学和研究,目前受到重点关注。

NLTK的功能允许很多操作,例如文本标记,分类和标记,实体名称识别,建立语料库,可以显示语言内部和各句子间的依赖性、词根、语义推理等。所有的构建模块都可以为不同的任务构建复杂的研究系统,例如情绪分析,自动总结。

13. Gensim (提交数: 2878,贡献者数: 179)

它是一个用于Python的开源库,为有向量空间模型和主题模型的工作提供了使用工具。这个库是为了高效处理大量文本而设计的,所以不仅可以进行内存处理,还可以通过广泛使用NumPy数据结构和SciPy操作来获得更高的效率。Gensim高效也易于使用。

Gensim旨在与原始和非结构化的数字文本一起使用。 它实现了诸如hierarchical Dirichlet processes(HDP),潜在语义分析(LSA)和潜在Dirichlet分配(LDA)之类的算法,以及tf-idf,随机预测,word2vec和document2vec,便于检查一组文档中有重复模式的文本 (通常称为语料库)。所有的算法均是无监督的,意味着不需要任何参数,唯一的输入只有语料库。 

谷歌发展趋势历史

trends.google.com

GitHub请求历史记录

datascience.com/trends

数据挖掘,统计学

14. Scrapy (提交数: 6325,贡献者数: 243)

Scrapy库是用于从网络结构化检索数据(如联系人信息或URL),可以用来设计crawling程序(也称为蜘蛛bots)。

它是开源的,使用用Python编写的。最开始只是如它的名字暗示的一样,只用来做scraping,但是它现在已经在完整的框架中发展,能够从API采集数据并作为通用的crawlers了。

该库在界面设计中标榜着“不要重复自己”  它推荐用户们编写泛化得到、可被重复使用的通用代码,从而构建和扩展大型的crawlers。

Scrapy的架构围绕着Spider class构建,这其中包含了crawler追从的一套指令。

 15. Statsmodels (提交数: 8960,贡献者数: 119) 

你可能从名字就猜出大概了,statsmodels使用户能够通过使用各种统计模型的估算方法进行数据挖掘,并执行统计判断和分析。

 许多有用的特征是可被描述的,并通过使用线性回归模型,广义线性模型,离散选择模型,鲁棒线性模型,时间序列分析模型,各种估计方法得出统计结果。

这个库还提供了广泛的标定功能,专门用于大数据统计中的性能优化工作。 

总结

许多数据科学家和工程师认为这些库是顶级的,并值得关注,或者需要或多或少了解它们。 以下是每个库在Github上的详细统计资料:

当然,这不是完全详尽的列表,还有许多其他的库和框架也是值得关注。一个很好的例子是SciKit的不同软件包各自专注一个特定的领域,如SciKit-Image是用于处理图像的。

via medium

03 Jun 07:29

New Project! PiTFT Touch Screen OctoPrint Rig!

by Noe Ruiz

Today we’re putting an Adafruit 3.5″ PiTFT on our Raspberry Pi to make an all-one-in OctoPrint Rig using the Touch UI plugin.

Learning Guide
https://learn.adafruit.com/3-dot-5-pitft-octoprint-rig/3d-printed-case

Download STLs
YouMagine Download
Thingiverse Download

Download Fusion 360 Source


649-1
Every Thursday is #3dthursday here at Adafruit! The DIY 3D printing community has passion and dedication for making solid objects from digital models. Recently, we have noticed electronics projects integrated with 3D printed enclosures, brackets, and sculptures, so each Thursday we celebrate and highlight these bold pioneers!

Have you considered building a 3D project around an Arduino or other microcontroller? How about printing a bracket to mount your Raspberry Pi to the back of your HD monitor? And don’t forget the countless LED projects that are possible when you are modeling your projects in 3D!

The Adafruit Learning System has dozens of great tools to get you well on your way to creating incredible works of engineering, interactive art, and design with your 3D printer! If you’ve made a cool project that combines 3D printing and electronics, be sure to let us know, and we’ll feature it here!

28 Aug 04:59

基于Python的卷积神经网络和特征提取

by Christian S.Peron
本文展示了如何基于nolearn使用一些卷积层和池化层来建立一个简单的ConvNet体系结构,以及如何使用ConvNet去训练一个特征提取器,然后在使用如SVM、Logistic回归等不同的模型之前使用它来进行特征提取。
26 Jul 14:02

IBM 推出开源项目门户,将开源 50个项目

IBM推出了一个新的门户网站 developerWorks Open,里面带来了许多开源的项目。这些项目涉及多个领域,包括分析,云,物联网,移动,安全,社交,Watson等等。目前,IBM已经开源来30个项目,并在今年底将把这个数字扩大到50个,未来还会开源更多。

这些项目有的针对 IBM 特有的技术,如 Cognitive Catalyst —— 一个给 Watson 创建扩展的协作工具,其它的项目可以脱离 IBM 的生态系统,和其它开源工具结合使用。以下是部分项目的简介:

  • Activity Streams —— 一个 W3C Activity Streams 2.0 Specification 的实现。以 JSON 格式描述当前或已完成活动的活动流。

  • Agentless System Crawler —— 一个云监控和分析框架,抓取云中的系统来收集数据并进行分析。它使用了 VM introspection 技术来弄清出虚拟机的状态,无须在其中安装代理。

  • Clampify —— 将 Docker Swarm 集群与 OpenStack Neutron 联网

  • i18n4go —— 一个用于 Go 写的程序的 internationalization (i18n) 工具。

  • libsecurity —— 一个库,向物联网应用提供了安全功能。

  • Node-RED —— 一个物联网项目,包含了一个可视化工具,能用于连线事件和整合社交平台的设备

  • Node Application Metrics —— 一个用于监控 Node.js 应用的工具

  • Spark Kernel —— 能让交互和远程应用访问 Spark 集群

门户网站包含了 IBM Bluemix Mobile Services SDKs ,还有一系列 IBM Ready Apps 可用于银行、医疗、保险以及零售。

项目的源代码保存在 Github。

developerWorks Open 门户还有 blogs ,欢迎整个社区 contribute


编译自:infoq.com

30 Jun 14:06

音乐识别系统 Audio-Fingerprinting

Audio-Fingerprinting 是一个音乐指纹识别系统,使用的语言为 JAVA,同时需要用到 MySQL 数据库(虽然不是必须的,但这个系统采用他保存指纹和音乐信息)。他包含了指纹生成,数据库存储,和简易的服务器和客户端。 他通过生成和记录音乐指纹,能够识别来自麦克风、文件等各个来源的音乐,并且有很高的抗噪性,同时他对文件属性和音乐质量不敏感。你可以使用服务器给手机或者其他程序提供音乐识别服务。 你可以根据需求调节里面的...
14 May 16:35

AppCode 3.1.6 发布,Objective-C 集成开发环境

AppCode 3.1.6 发布,相隔上一版本时间比较长,因为 AppCode 团队正在努力开发下一个 EAP 版本。此版本主要是解决 OS X 10.10.4 beta 方面的一些问题。

AppCode 3.1.6 现已提供下载,也可以获取自动升级。

Yours as always,

The AppCode Team

AppCode 是一个全新的 Objective-C 的集成开发环境,用于帮助开发 Mac、iPhone 和 iPad 的应用程序。

16 Nov 00:26

Project Tango tablet appears on Google Play, but it's not for sale — yet

by Rex Santus
Project-tango-tablet
Feed-twFeed-fb

Google's Project Tango tablet — the one with 3D sensors and a rumored $1,000 price tag — is now up for viewing on Google Play. Curiously, though, it's not up for purchase.

The tablet that's listed on Google Play right now is geared at developers to build apps on the technology. So it looks like Google might be keeping its word that the device will be available to developers this year. The Project Tango tablet is also supposed to be available to consumers in 2015

project-tango-examples-last

Image: Google Play

The tablet has 3D-motion trackers and captures the geometry of the environment around you. The project goes beyond the tablet itself — Tango is a campaign to "give mobile devices a human-scale understanding of space and motion." Read more...

More about Google, 3d, Tablets, Tech, and Dev Design
16 Nov 00:21

Brain-to-brain technology allows for partial 'mind control'

by LiveScience
Mris
Feed-twFeed-fb

Humans could be much more efficient communicators if they could bypass language altogether and directly transmit thoughts, ideas and instructions from one brain to another. Scientists have demonstrated that instant brain-to-brain communication could become a reality with the help of computers.

In recent experiments, researchers from the University of Washington showed that they could send one person's thoughts through a computer to control the hand motion of a person sitting half a mile (0.8 kilometers) away.

The team first demonstrated this brain-to-brain connection was possible back in August 2013. But now the researchers have put the technology through more rigorous testing and are close to making it usable in real-world scenarios, they said Read more...

More about Communication, Mind, Brain, Tech, and Dev Design
27 Jul 06:02

Primesense cute video about our future

by Den Ivanov
andol

lovely technologically

So cute video from Primesense about world of 3D sensing. Sensors everywhere! )))

BTW. Today at CES 2013 they will present the smallest 3d sensor - the Capri.

26 Jul 13:32

【每日一博】用红外遥控器遥控树莓派

andol

this is interestingly amazing

本篇教程将会讲解如何用一部红外遥控器来遥控操作树莓派上安装的影音中心.

概述