Shared posts

04 Sep 22:45

The importance of aligning everything you do in your VR career to your goals

by Skarredghost

Today I want to get back to writing a post about VR startup life and personal development, an article more similar to what you usually find in a personal blog. In particular, I want to talk about a strategy I’ve recently applied to plan my days better and align what I’m doing with what I want to obtain in my VR career. I’ve been using this strategy for a few weeks now and I’m seeing very positive results, so I’m sharing it with you.

So what is this mysterious secret strategy I’m talking about? Well, actually, nothing that is rocket science, but a principle so simple that it may seem obvious: “Decide what you want to obtain in your work life and align all your choices according to it”. I know, after the initial tease, you were expecting some incredible revelation, or a sign coming directly from above, but trust me when I say that this simple sentence is much more powerful than you think.

It all starts by deciding what you want to do in your work life in the next 3-5 years. What is your goal? What is your mission? What drives you to wake up every day and go to work? Where do you want to arrive? This on its own, is a very difficult task to do: some people have a clear idea of what they want to become, others are just working on autopilot. But it’s not only important, it is SUPER important to have a goal, to have a destination, and to know where you want to be, otherwise, it would be like being in a car and not knowing where are you heading. How can you know if you are on the right path if you don’t know which one is your destination?

via GIPHY

I know you are always busy, but it’s overly important you stop for a moment and think about this. Dedicate a few hours to find your goal, which should be something that you like doing, and also give you enough money to sustain yourself. Remember that there are no right or wrong answers, there are only YOUR answers. Even an answer like “I just want to do my 8-5 VR development job every day and have no career advancement and focus on enjoying the time with my family” is perfectly fine. Don’t be fooled by the hustle culture or the “LinkedIn influencers” that say that everyone should be the CEO of a unicorn, just think about where YOU personally want to arrive in a few years. Of course, the goal should be stimulating for you, something that gives you enthusiasm so I still suggest you be ambitious: no one wakes up motivated in the morning by the long-term goal of being the average potato frier at McDonald’s. You may want to be a famous XR Youtuber, an XR CTO, the best XR stand-up comedian, an XR artist at Ubisoft, the champion of XR potato frying (this is my goal), whatever you want.

After you have your destination, the usual suggestion is to go backward in calculating the path you need to get there. So for instance, to be an XR CTO you need first to become an XR developer, have some experience in a few companies, study code architecture, get knowledge about a few different technologies, etc…

After you have this rough plan, the important things you have to do is: stick with it, and verify you are advancing towards it every day. These are the two things that I’ve started to do more frequently in the last weeks and that are bringing me good results.

One of the most difficult things is sticking with the plan because it means being very focused on what you want to become and making it your priority, ignoring other opportunities you may find down the line. Everything in your working life should align with your goal or be rejected if it can slow down the path toward your goal. This is a hard part because it means letting go of interesting opportunities.

via GIPHY

So if your goal is to become a super-famous VR YouTuber and someone offers you a good job as a developer, theoretically you should decline it, which also means giving up on thousands of dollars. I said “theoretically” because real life is much more nuanced than a simple statement can be. For instance, you may have in your plan to be a developer and do your first YouTube videos in the evening or during the weekends. If this was part of the plan, you should get the job. Or maybe the development gig is a part-time one, and you can make it fit your schedule as a YouTuber and earn extra money. Different cases lead to different outcomes.

Life is not all black and white, so probably it is better to talk about “priorities” than about a hard yes/no switch. You must make your main goals the top priority of your working life, with the rest coming after it. If you want to become a VR Youtuber, that should be the priority and all the other opportunities should be secondary of it. For every activity that is proposed to you, you should ask yourself: does it align with my goal of becoming a VR Youtuber? If it does not help you directly, can it help indirectly (e.g. providing money or connections)? And if it does not help at all, can you do it anyway because it does not steal resources from that main goal? Are there any factors for which you would need to do it anyway (e.g. the activity would be helpful for a close friend)? Keeping in mind your priorities helps you in deciding what you want to do.

This also trickles down on how you organize your weeks and your days: when you do your daily and weekly planning, you should allocate first the time dedicated to the tasks of your priority goals, assigning to them all the time that they need, and then assign the remaining time to the other activities, until you fill all your working time. And if an activity does not fit in your schedule, that’s fine: it is not a priority one, you can let it go. Basically, every decision you take should be made in a way consistent with your goals. Will this make you lose some opportunities? Yes. Will this disappoint someone who hoped to count on your help with something? Absolutely. But you have only one life and you should be satisfied with it. Your priority is being happy yourself, not not-disappointing the others.

Of course, plans should be changed and reassessed once in a while. Nothing goes exactly as planned, so every few weeks, you should see if your plan is going as expected and re-plan if needed (usually it is needed). Sometimes you may even realize that you have changed in the meantime and you have now different priorities in life (this happens for instance when people have children) and this means you may change your destination goals. Or you may change your goals because you have reached the current ones, or because you realized there is no chance you can obtain what you hoped for (e.g. the goal was overly ambitious): giving up can sometimes be the wise thing to do instead of keeping stubbornly going for the same route and keeping failing. Or an unexpected opportunity may come: maybe your goal is becoming a Youtuber when Mark Zuckerberg sends you an email and asks you to become an executive of Meta and support him in his quest on the harvestingdataverse for a gazillion dollars a year: in this case, it is wise to get the opportunity, because it is something that happens once in a lifetime.

via GIPHY

The last point that I want to suggest and that has been a good addition to my daily routine is: to ask yourself frequently what you are doing to fulfill your goals. Every week, in my weekly planning, I put the tasks that put me closer to my goals in a different color and I give them priority. And every day, in my morning routine, I now ask myself what I will do during the day to become what I want to be. I’m not gonna lie, doing that every day sounds stupid… a lot of mornings, I just answer myself “Yeah, I’m doing this VR thing that I did also yesterday and the day before”. But asking it every day like a mantra helps me keep committed, and helps me in questioning if I’m really working towards my goals: because if in two consecutive days, I answer “no today I’m not doing anything that fits my priorities” then I realize that something is wrong with my planning. That is also a good moment to assess if the direction that I’m following is the correct one and evaluate if my recent progress has been good.

It is a bit like when you want to lose weight and you go on a scale every day. It is good because this action reminds you that your goal is losing weight and then checking your weight frequently, you can notice if you are doing well (and so keep doing what you are doing) or going bad (and so fixing your bad behavior). If you weigh yourself once a month, I’m pretty sure you won’t obtain many results.

These simple rules I just told you are actually helping me a lot in my VR career. I’m not trying anymore to do everything in VR and I feel less “guilty” when I reject a proposal that doesn’t fit my current goals (of course I always do that in the kindest way possible). I feel I’m behaving more coherently and I’m more “aggressive” and consistent in my efforts. Also sometimes during the daily assessment time, I have new ideas on things I can do during the day to get closer to my goals.

And I’m seeing the results of this: I believe I’m advancing my career much better than before. And even for some small goals I set for myself, like meeting Palmer Luckey at AWE, this fact of doing everything I could to make it happen, in the end, made me obtain what I wanted. That’s what made me write this article: I’ve found this strategy is working for me and I wanted to suggest it to you, too.

And if you try to apply it, of course, let me know how you feel doing it. Good luck with your VR career!

The post The importance of aligning everything you do in your VR career to your goals appeared first on The Ghost Howls.

04 Sep 22:44

Voice commerce: the next frontier in retail

by Staff Writer

Just think; you are in the kitchen and are working on a recipe, and you simply say, ‘hello assistant, kindly add ten packets of milk to my cart,’ and it is done for you. Or, you are getting back from work, and you ask the assistant to reorder your favourite food – that’s what voice commerce is all about. Digital shopping has come a long way from when we browsed on desktops to now, where we can shop hands-free.

According to Datam Intelligence, the global voice commerce market had grown to US$108.33 billion in 2024 and was projected to continue growing at a CAGR of 27.28% until 2031.

In May 2023, Amazon confirmed it had sold over 500 million Alexas since the device was launched about a decade ago. So, with more individuals turning to these devices, what does the future hold for conversational commerce?

The power of customer engagement

Customer engagement has always been the heartbeat of online shopping. For instance, in the casino industry, providers have been evolving to include online platforms where players can participate in games from any place.

And, if you have been keeping a close watch on this industry, you must have noticed games like live casino games where players can participate with live dealers in real-time from any place. The whole idea is usually bettering customer engagement.

By using voice data and analytics, businesses can extract meaningful insights into user preferences and, thus, provide more personalised experiences. Especially now that over 91% of customers will likely shop at a business that customises, tailoring your experiences to fit customer needs can be a great way to differentiate yourself from the crowded market.

Referencing to the example we gave - the casino industry - game providers can integrate AI voice assistants to cater to individual preferences. This could be in the form of adjusting game music to their preferences, recommending games or just conversing naturally.

More and more online businesses are also likely to incorporate this technology into their payment methods as it eliminates the need to enter your details manually; you only need to give a voice command.

Plus, using voice commands to pay can be quite fast compared to traditional methods of payment, and if you have a disability, this technology can make online shopping more accessible. On top of this, your voice can be used as a biometric for security authentication, strengthening your security.

Why are more people turning to it, and what will the future be like?

Just recently, in mid-2024, a Data Intelligence report showed that North America dominated the voice commerce market while Asia-Pacific businesses welcomed this technology significantly. As if that is not enough,

Bazaarvoice added that of all the Google searches, voice searches accounted for 20%. In this report that was published in July 2023, 62% of smart speaker users confirmed that they would purchase their speakers in the succeeding month.

Among the many reasons why this industry’s global market share is increasing is that voice assistants have been widely accepted among all age groups.

Most smartphones will have this technology pre-installed, which makes it more accessible to a larger audience of users. In most cases, users will find it valuable as it allows them to conveniently play music, access information and control smart home devices.

Conversation commerce best strategies

Voice commerce uses artificial intelligence, natural language processing (NLP) and other machine learning algorithms to interpret user queries accurately.

And good enough, the algorithms are such that they can continuously learn how users interact. NLP, for instance, can decode nuances of language such as sentiment and content and help virtual assistants engage users more meaningfully.

And since most of these voice assistants are directly linked to search engines, you want to ensure that the products you sell have relevant keywords that are more likely to feature in voice searches. You may want to consider using long-tail or full-sentence keywords mostly.

If voice assistants can easily understand your content, and if you provide the necessary information that customers are looking for, then you can ensure that customers have a great experience.

You can also enhance the customer experience by allowing them to find support through voice-assisted chatbots. And with all this in place, you also want to ensure you have a way to measure your voice commerce results.

These metrics could include but are not limited to the number of searches, purchases and requests. Such information can help you determine whether or not your voice commerce efforts are helping you meet your company goals.

It’s without a shadow of a doubt that voice commerce has a bright future. Offering a more convenient way to shop, this technology will definitely affect our purchase behaviours in the coming days.

On top of that, rapid technological advancements in different regions like North America will continue to offer a conducive environment for the further spread of technology.

04 Sep 22:43

Warhammer 40K: Space Marine 2 is serious heavy-metal shooting and slashing

by Kevin Purdy
Red Chaos Marine approaching the player's position in a jungle-like setting.

Enlarge / There are different types of Space Marines. Some of them are traitors. All of them weigh as much as a Fiat 500.

If you had given me, at age 15 or so, a game in which you can fight seemingly hundreds of Tyranid bugs at once with two friends, alternately blasting them with bolt rifles or pulverizing them with a chainsword, then finishing the biggest of them by ripping off one of his claws and shoving it through his head, all of it happening to the sounds of action-movie orchestration and dialogue about stoic duty, would I have had any complaints?

No, I would not. But we're spoiled for choice now. How much you enjoy Warhammer 40K: Space Marine 2 (for PC, Xbox, and PlayStation and releasing on September 9) will depend on your ability to tap into the deep basement of your kill-'em-all mentality and fantasy lore engagement. You can enjoy it somewhat ironically, which I did at times, especially when playing co-op with friends who told me that they did not like the game's aesthetics at all. But strip away the grimdark trappings of zealotry, Chaos Marines, and skulls—so, so many skulls—and you have a competent, sometimes innovative third-person squad shooter. It feels like Gears of War, minus the cover, but with heavier characters, more melee combat, and somehow even fewer women.

Getting the most out of Space Marine 2 means suspending disbelief, feeling heavy metal, and wanting to kill a whole bunch of things with some very big dudes. In roughly a dozen hours of gameplay, I found the core gameplay loop relatively engaging, with enough mix-ups, upgrades, and challenges to keep it feeling more like the fun kind of endless war, not the real kind. It's pretty enjoyable to team up with friends, too, so long as they're cool with Warhammer 40K's vibes and some occasionally repetitive challenges.

Read 7 remaining paragraphs | Comments

04 Sep 22:31

Ukrainian drones now spray 2,500° C thermite streams right into Russian trenches

by Nate Anderson
Ukrainian drones now spray 2,500° C thermite streams right into Russian trenches

Enlarge

Wars of necessity spawn weapons innovation as each side tries to counter the other's tactics and punch through defenses. For instance—as the Russian invasion of Ukraine has made drone warfare real, both sides have developed ways to bring down drones more easily. One recent Ukrainian innovation has been building counter-drone ramming drones that literally knock Russian drones from the sky.

In the case of the trench warfare that currently dominates the Russian invasion of eastern Ukraine, the Ukrainians have another new tactic: dragon's fire. Delivered by drone.

Videos have begun to circulate on Telegram and X this week from Ukrainian units showing their new weapon. (You can see three of them below.) The videos each show a drone moving deliberately along a trench line as it releases a continuous stream of incendiary material, which often starts fires on the ground below (and ignites nearby ammunition).

Read 7 remaining paragraphs | Comments

04 Sep 09:16

OpenSCAD Library Creates QR Codes on the Fly

by Tom Nardi

If you’ve been reading Hackaday for awhile, you’ll know we’re big fans of OpenSCAD around these parts. There’s a number of reasons it’s a tool we often reach for, but certainly one of the most important ones is its parametric nature. Since you’re already describing the object you want to generate with code and variables, it’s easy to do things like generate an arbitrary number of cloned objects by using a for loop.

There are a number of fantastic OpenSCAD libraries that explore this blurred line between code and physical objects, and one that recently caught our eye is scadqr from [xypwn]. The description says it lets you “Effortlessly generate QR codes directly in OpenSCAD”, and after playing around with it for a bit, we have to agree.

How effortlessly are we talking about? Take a look:

Yeah, that’s pretty damn easy. Even better, there’s no alphabet soup of libraries or APIs going on behind the scenes here. It’s just a single file you include in your OpenSCAD script. In fact, you don’t even need to go that far. As [xypwn] explains, the source for the library itself is just the one file, so you could just copy its code right into your project if you didn’t want to have to pull it in as an include. That could be especially handy if you’re deploying this code somewhere that doesn’t let you pull in external files, like Thingiverse’s Customizer.

Now, there’s all sorts of reasons you might want to create a QR code from within OpenSCAD. But one of first ones that popped into our heads is for the purposes of part identification. Forget simple version numbers, this library would let you physically embed all sorts of ancillary data into your printed components, like who rendered them and at what time. Or perhaps each printed part in an assembly could have a unique QR code that pointed to its respective page in your online documentation.

Got any interesting ideas? Let us know in the comments.

03 Sep 19:56

Optical computing empowers direction of arrival estimation beyond the diffraction limit

Wireless sensing and communication have become integral components of modern life. Among them, the key technology of direction-of-arrival (DOA) estimation, which utilizes array signal processing techniques to measure the angular direction of RF signals, has been widely applied in both civilian and military domains.
03 Sep 11:29

Actualité : Internet quantique : des photons intriqués plus robustes pourraient signifier son avènement

by Paul Tozier
L'Internet quantique du futur devrait permettre de transmettre des informations à l'aide de paires de photons intriqués, c'est-à-dire des particules de lumière partageant les mêmes informations quelle que soit la distance. Les informations encodées dans ces photons intriqués peuvent dès lors être transférées à grande vitesse, et il est impossible de...
03 Sep 09:29

Réalité virtuelle et augmentée : danger caché pour vos perceptions

by Faniry R.

Les technologies de réalité virtuelle (VR) et augmentée (AR) modifient la perception des distances. Une étude récente de l'Université de Toronto révèle des effets surprenants et potentiellement risqués pour les utilisateurs de ces technologies.

Réalité virtuelle, dangereux pour la perception des distances

L'étude montre que la VR et l'AR altèrent temporairement les perceptions et mouvements des utilisateurs. Les participants en VR n'atteignaient souvent pas leurs objectifs en ne se déplaçant pas assez loin. À l'inverse, ceux en AR allaient trop loin et dépassent souvent leurs objectifs. Ces changements se manifestaient immédiatement après l'utilisation des technologies, mais les effets s'atténuaient progressivement en revenant aux conditions réelles.

Les chercheurs ont constaté une différence marquée entre VR et AR. Les effets de l'AR disparaissaient plus rapidement avec les utilisateurs se réadaptant plus vite aux réalités physiques. Cela pourrait s'expliquer par le fait que l'AR permet toujours de voir et d'interagir avec le monde réel. Ainsi, les utilisateurs gardent une perception plus précise de la profondeur et des distances. Cette découverte souligne un défi crucial pour les industries qui intègrent ces technologies dans leurs formations.

Une adaptation inégale entre VR et AR

L'équipe de recherche a exploré l'impact des environnements numériques sur les capacités physiques dans le monde réel. Xiaoye Michael Wang, chercheur associé à l'étude, a expliqué que les technologies de réalité mixte affectent la précision des mouvements après utilisation. Les résultats suggèrent que l'adaptation du cerveau et du corps à ces environnements numériques influence les interactions physiques une fois de retour dans le monde réel.

Tim Welsh, professeur et co-auteur de l'étude, a souligné l'importance de ces résultats pour les formations utilisant VR et AR. Ils mettent en lumière un défi potentiel dans le transfert des compétences acquises en réalité virtuelle vers des applications réelles. Les industries adoptent de plus en plus ces technologies pour former des professionnels, comme les chirurgiens ou les pilotes. Certes, il faut comprendre leurs limites pour assurer des performances optimales dans des situations réelles.

Des implications majeures pour la formation professionnelle

Ces découvertes posent des questions cruciales sur l'efficacité et la sécurité des technologies de réalité mixte. Les chercheurs insistent sur l'importance d'une meilleure compréhension des effets secondaires de la VR et de l'AR. Cela permettrait de maximiser leur potentiel tout en minimisant les risques pour les utilisateurs. Par exemple, dans des domaines critiques comme la chirurgie ou la conduite, une perception erronée des distances pourrait avoir des conséquences graves.

L'équipe souhaite maintenant explorer comment différents types d'expériences immersives influencent les performances réelles. Ils comptent également étudier l'impact de la durée de l'entraînement et des différences individuelles, telles que l'expérience antérieure avec ces technologies. Ces recherches pourraient mener à des améliorations dans la conception des systèmes de VR et AR. Ceci en réduisant les effets secondaires et en optimisant leur utilisation pour le développement des compétences.

Cette étude révèle des effets inattendus des technologies de réalité mixte. Cela souligne la nécessité d'une approche prudente dans leur déploiement. Les découvertes pourraient guider les futures adaptations de la VR et de l'AR et ainsi garantir l'enrichissent des compétences des utilisateurs sans compromettre leur sécurité.

Cet article Réalité virtuelle et augmentée : danger caché pour vos perceptions est apparu en premier sur OBJETCONNECTE.COM.

03 Sep 08:07

Doubling down on cashierless shopping in Hamburg: August’s coolest retail technology plays

by Staff Writer

RTIH Editor, Scott Thompson, brings you his stand out ‘future of retail’ systems deployments from August, including Walmart, Target, Trigo, Best Buy, Victoria Beckham, Bambuser, Blippar, Hasbro, Paramount Pictures, Ikea, Hugo Boss, Franprix, Warner Bros., Fandango, and Roblox.

REWE Group

A second REWE Pick&Go store has opened in Hamburg, powered by Trigo technology.

In a LinkedIn post, the retailer said: “After the successful launch of Europe's largest cashierless supermarket two months ago in the heart of Hamburg, the second store is now ready for operation.

“Hamburg's First Mayor Dr. Peter Tschentscher gave the official starting signal for the REWE Pick&Go system in Altonaerstraße, corner of Amandastraße. If you don't yet know how such a cashierless shopping works, you should either stop by the store directly or our media centre.”

Customers will be able to choose between four different payment options: at the cash register; by scanning and paying at the self-checkout terminal; via computer vision support without scanning at the self-checkout terminal; or completely cashless when using an app.

Walmart

Walmart Marketplace, which allows third-party sellers to list their items on the US retail giant’s website, is introducing Resold at Walmart, its first digital destination for cross-category and cross-condition pre-owned items from performance managed sellers.

With five million items from more than 1,700 sellers, this offers customers a selection of goods from luxury fashion and electronics to collectibles, sporting goods and more.

According to a press release: “By extending the life of these products, Resold at Walmart aligns with our commitment to make the more sustainable choice the everyday choice and builds on the success of Walmart Restored, a collection of refurbished electronics and small appliances powered by Walmart Marketplace.”

Target

Target has completed a roll-out across its nearly 2,000 stores of a new GenAI tool that helps store employees quickly resolve on the job challenges.

The solution, called Store Companion, is a chatbot designed by Target that can answer on the job process questions, coach new team members, support store operations management and more.

The initiative is part of Target's broader strategic approach to using GenAI across its business.

"We know technology will continue to play an outsized role in the future of retail - for our team members, our guests and our business,” says Brett Craig, Executive Vice President and Chief Information Officer at Target.

“With that in mind, we're continually experimenting with new tools to make it even easier for our team to do their jobs and to bring more of what guests love about shopping at Target to life.”

“The transformative nature of GenAI is helping us accelerate the rate of innovation across our operations, and we're excited about the role these new tools and applications will play in driving growth."

Store Companion is available as an app on store team members' specially equipped handheld devices, providing immediate answers to their questions about processes and procedures.

Best Buy

Best Buy reports a new live tracking feature, leveraging AI solutions, that aims to improve the Best Buy delivery or installation experience.

In an online post, the retailer said: “With this new digital feature, we’ve created a new way for our customers to digitally track their Best Buy deliveries and installations when they purchase large items like big screen TVs, refrigerators, washers, dryers and more.”

“Now, on the day of their delivery or installation, customers will have to-the-minute tracking details on the progress of their order, including a real-time map view of where their driver is along their route.”

It added: “It’s the latest example of how we’re using technology to create a better experience for our customers from start to finish. (It also aligns with some of the recent additions we’ve made to customer support services that provide easier access to information when it matters most.)”

“We’re using data like predicted demand and real-time traffic patterns to reduce delivery lead times, optimise our routes and ultimately provide customers with live estimated time of arrivals down to the minute.”

Victoria Beckham

Victoria Beckham has partnered with Bambuser as it looks to create a seamless shopping experience through video commerce, starting with the brand’s newly launched denim collection.

This will be showcased through high quality video, available on Victoria Beckham’s website and social media channels.

“We're excited to introduce video commerce for the launch of our denim collection and push the boundaries of how fashion can be presented and experienced. By integrating our social channels with our e-commerce platform, we're providing our customers with an immersive and convenient shopping experience” says Kate Hurrell, Head of E-Commerce at Victoria Beckham.

Blippar, Hasbro, Paramount Pictures and Walmart

Walmart shoppers can now experience a Transformers One augmented reality experience via the retailer’s website.

They can do so by scanning a QR code that also unlocks a digital reward.

Transformers One is an upcoming American animated science fiction action film based on Hasbro's Transformers toy line. The ensemble voice cast includes Chris Hemsworth, Brian Tyree Henry, Scarlett Johansson, Keegan-Michael Key, Steve Buscemi, Laurence Fishburne, and Jon Hamm.

Blippar is the company behind the AR experience.

Ikea

Ikea has announced the next phase in its drone technology programme: an upgraded AI powered system capable of operating around the clock alongside co-workers.

This will be integrated into fulfilment units, including distribution centres.

After a year of testing at the retailer’s DC in Winterslag, Belgium, Ikea is ready to deploy its drones to more locations over the next year. 

The next phase will automate the physically demanding and time-consuming task of stock inventory, which is otherwise handled by employees.

This shift will not only free up co-workers to enhance the customer experience but also provides Ijea with faster, more precise and accurate stock management. 

In 2021, Ikea launched a collaboration with Verity, a provider of AI and robotics, to develop a fully autonomous drone solution for its warehouses.

The first drone took flight in Ikea Switzerland, and today, more than 250 drones operate across 73 locations, in nine countries.

CITY Furniture

American retailer CITY Furniture has announced a partnership with 3D Cloud.

Starting with 3D Cloud 360 Spins and 3D Cloud WebAR in 2024, CITY will integrate the full suite of 3D Cloud's visualisation tools for furniture over the next six to eight months.

"3D Cloud are experts at understanding the customer's journey and have developed best in class technology to help address customer's pain points," says Andrew Koenig, CEO at CITY Furniture.

"We're excited to offer our customers an engaging shopping experience that seamlessly combines online and in-store elements. This partnership allows us to create a unique experience that not only attracts our customers but also guides them in making confident purchasing decisions, setting a new industry standard."

Woolworths Supermarkets

Woolworths Supermarkets is piloting a scan-as-you-go trolley system at a store in Sydney, marking a first for the Australian market.

The technology, developed in collaboration with Hanshow, enables shoppers to scan groceries at their trolley using the Everyday Rewards card and a touchscreen device.

Customers still have to pay at the checkout, but further down the line they might be able to swipe their cards and pay at their trolley.

If the trial is successful, Woolworths says it would look at expanding the smart carts to all Australian stories.

Hugo Boss

Hugo Boss has gone live with a smart fitting room in its new flagship Boss store in Düsseldorf, Germany, which has around 1,000 square metres of sales space, spread over two floors.

It worked with One iota on the project, integrating it into eight of 17 fitting rooms in the store for the first time.

This is a screen that reads items taken in via RFID, displays the items (and other items that may go with it) and allows customers to select different size/colour variants if required.

This triggers a request to an iPad app for a store member to pick the item and take it to the nominated dressing room number.

"Today more than ever, our stores are points of experience where we can offer a unique experience and individualised services to our customers,” says Oliver Timm, Chief Sales Officer and Deputy CEO at Hugo Boss. 

“The aim is to inspire customers for our brands in the long term and create new opportunities to connect beyond the collections available in our stores.”

“The new Boss store in Düsseldorf demonstrates this approach, together with our flagship stores in London, Dubai, and Tokyo.”

“With our new design and hospitality concept, which reflects our premium positioning, and new digital services that are industry leading, we are taking the customer experience to the next level.”

Warner Bros., Fandango and Roblox

An immersive Beetlejuice Beetlejuice experience has gone live on Roblox, courtesy of Warner Bros. Motion Picture Group.

This includes an integrated virtual Fandango box office, where eligible users can purchase movie tickets - a first for the Roblox platform as it tests and invests in commerce.

[Beetlejuice] Escape the Afterlife was developed by Sawhorse and provides Warner Bros. the opportunity to expand its reach with new audiences and ways to increase content viewership, as well as drive ticket sales.

“We are always looking to engage audiences and amplify our reach in new and exciting ways; this first of its kind collaboration with Roblox and Fandango for Beetlejuice Beetlejuice allows for just that,” says Cameron Curtis, Executive VP of Marketing, Warner Bros.

“By leveraging the vast Roblox creator community, we are not only able to connect with existing Beetlejuice fans, but also have the opportunity to reach new audiences who are being introduced to him for the first time. And we are thrilled to be the first studio to test ticketing on the platform.”

“We are excited to collaborate with Warner Bros. and Roblox on this unique in-world experience and test the first ever virtual Fandango box office for the much anticipated Beetlejuice Beetlejuice movie,” says Will McIntosh, Fandango President.

“We are champions of the big screen and remain committed to reaching new fans through innovative, one of a kind experiences that drive increased theatre attendance.”

Franprix

A2Z Smart Technologies Corp. has announced the first deployment of its new generation Cust2Mate 3.0 smart shopping carts at Franprix in Paris, France.

Franprix is a grocery chain that operates over 600 stores in France.

The launch is part of a framework agreement with IR2S to deploy 30,000 smart carts until 2026 across retail chains in France.

The A2Z Cust2Mate smart shopping carts that were deployed feature an all in one clip-on panel equipped with AI technology, self-scanning, and in-cart payments for a "pick and go" experience.

The 3.0 carts aim to enable the "connected store," combining online and physical shopping to offer exclusive promotions and personalised product recommendations as if shopping online.

Customers based in Paris were able to use them for the first time during a public launch.

Amazon

Amazon has announced an advancement in the technology behind Just Walk Out, its checkout-free service for retailers.

A new multi-modal foundation model increases its accuracy by using the same transformer-based machine learning models underlying many generative AI applications, and applies them to physical stores.

In an online post, Jon Jenkins, Vice President, Just Walk Out technology, AWS Applications, said: “We accomplish this by analysing data from cameras and sensors throughout the store simultaneously, instead of looking at which items shoppers pick up and put back in a linear sequence.”

“For retailers, the new AI system makes Just Walk Out faster, easier to deploy, and more efficient. For shoppers, this means worry free shopping at even more third-party checkout-free stores worldwide.”

B&Q

B&Q is trialling a robot delivery option in Milton Keynes with DPD.

Customers will be notified in advance about that their order (related to smaller parcels) being delivered. Once they confirm they will be home to accept the parcel, a robot will be dispatched.

The deliveries are trackable on a map and shoppers are notified when the robot reaches their property. They are then given a code to unlock a compartment and retrieve their parcel.

03 Sep 08:04

Top 8 des magasins les plus digitalisés.

by Arnaud Pagès

Depuis plusieurs années, certaines enseignes ont enclenché un véritable bond en avant numérique pour digitaliser leurs points de vente et ainsi mieux répondre aux attentes des consommateurs. Quels sont les magasins les plus en avance sur le sujet ?

 

Automatisation des processus d’achat, personnalisation par la donnée, intelligence artificielle, réalité virtuelle… Le numérique révolutionne la façon de vendre en apportant une véritable valeur ajoutée en termes de services. Pour autant, dans cette course à l’imbrication des outils digitaux dans le commerce physique, toutes les enseignes ne sont pas au même niveau. Voici 8 retailers qui poussent le curseur un cran plus loin que les autres.

 

1/ Nike’s House of Innovation, États-Unis

 

Ouvert en 2018 sur la 5ème avenue à New-York, la Nike’s House of Innovation est un concentré de nouvelles technologies. Magasin hybride entre consommation digitale et physique, véritable laboratoire du futur, ce lieu innovant, d’une superficie de 6000 m2, propose toute une gamme de services numériques.

 

En entrant, les clients se connectent à l’application Nike. Ils reçoivent des recommandations personnalisées qui correspondent à leurs gouts et leurs usages, et peuvent ensuite commander directement les produits qui les intéressent et les récupérer dans des points de retrait in situ afin de gagner du temps.

 

Autre innovation, le plateau intelligent « Nike Fit » leur permet de scanner leurs pieds au millimètre près, afin de choisir la chaussure idéale, celle qui correspond à 100% à leur morphologie. L’outil « Bra Fit by Nike » permet quant à lui aux clientes de recevoir des conseils pour choisir un soutien-gorge adapté à la pratique sportive.

 

Bien évidemment, le passage en caisse est superflu. Tous les achats peuvent être réglés directement sur smartphone. A l’occasion du lancement de ce magasin high-tech, Heidi O’Neill, présidente de Nike Direct, en avait précisé le concept : « Nike’s House of Innovation est conçu pour être un environnement de boutique dynamique, aussi personnalisé et rapide que le digital. Cette destination premium offre aux clients une connexion authentique, immersive et humaine avec la marque. » Depuis cette première expérience, Nike a ouvert deux autres House of Innovation, une à Paris sur les champs élysées, et une à Shangaï dans le quartier de Huangpu.

 

2/ Ochama Robotic Pickup Point, Pays-Bas

 

En 2022, Ochama, détaillant omnicanal du géant chinois de la vente en ligne JD.com, principal concurrent d’Alibaba, a ouvert deux points de retrait entièrement automatisés dans les villes de Leiden et de Rotterdam, avec l’objectif de faire gagner du temps et de l’argent aux clients. Après avoir fait leurs courses en ligne sur le site d’Ochama, ceux-ci scannent le code-barre correspondant à leurs achats sur la borne interactive du point de retrait. La commande est alors immédiatement identifiée. Des bras robotisés la préparent, l’emballent et la mettent ensuite à disposition des clients sans aucune assistance humaine.

 

Cette innovation permet à Ochama de déployer des réseaux d’entrepôts automatisés au plus près des consommateurs. En 2024, deux ans plus tard, 400 points de retrait robotisés, qui n’ont besoin ni de caissiers, ni de manutentionnaires, ni de managers, sont en service dans les principales villes des Pays-Bas, de Belgique et d’Allemagne, ce qui permet au retailer chinois de proposer des produits en moyenne 10% moins chers que ceux vendus par les autres enseignes. « Avec l’expérience dans le commerce de détail et les technologies logistiques de pointe que l’entreprise a accumulées au fil des ans, nous aspirons à créer un format d’achat sans précédent pour les clients en Europe avec un meilleur prix et un meilleur service », avait déclaré Pass Lei, directeur général d’Ochama.

 

3/ Satellite Store S, Hongrie

 

En 2023, à Budapest, le géant néerlandais de la grande distribution Spar, qui comptabilise près de 16 000 points de vente dans plus de 30 pays différents, a testé Satellite Store S, un modèle de pop-up store augmenté grâce à l’IA qui préfigure ce que sera le magasin de demain. Pour y accéder, les clients devaient générer un QR code à partir d’une application dédiée. Des caméras intelligentes, des détecteurs de mouvement et des capteurs de poids identifiaient ensuite automatiquement leurs achats.

 

Conçu à l’occasion du festival Sneakerness, qui réunit tous les ans la fine fleur des digital natives adeptes de mode urbaine, ce point de vente 100% technologique proposait donc une expérience sans caisses, mais qui était plus efficace, plus fluide et plus agréable que tout ce qui a été fait du même ordre jusqu’à présent, notamment par Amazon et par carrefour.

 

4/ Sephora Champs-Elysées, France

 

On le sait, le géant des cosmétiques Sephora aime bien le numérique et a entamé, depuis plusieurs plusieurs années, un processus de digitalisation de ses points de vente.  Preuve en est avec l’imposant flagship-store que la marque a ouvert sur les Champs-Elysées fin 2023, et qui est son plus gros investissement en Europe.

 

Au centre de ce vaste espace de 1200 mètres carrés, une table connectée, baptisée « Hot on social media »,  fait découvrir les produits les plus tendances sur les réseaux sociaux, ceux  qui sont bien évidemment disponibles chez Sephora.

 

Un peu plus loin, le Beauty Hub, concept stratégique que l’enseigne expérimente depuis plusieurs années, consacre la beauté augmentée par le numérique. Ainsi, la borne interactive Fragrance Discovery permet aux clientes de trouver leur parfum idéal en réinventant totalement l’expérience liée à ce type d’achat. Après avoir sélectionné des options de fragrance sur un écran tactile, elles indiquent leurs préférences, ce qui génère des recommandations personnalisées. Puis, grâce à un diffuseur; elles peuvent sentir les parfums choisis pour elles. En scannant un QR code, elles peuvent ensuite déterminer la fragrance qui leur correspond le mieux.

 

5/ Saatva Viewing Room, États-Unis

 

En 2019, à New York, Saatva, la marque américaine leader de la literie haut de gamme, a inauguré le concept Viewing Room, élaboré en collaboration avec Samsung, dans son magasin de Manhattan. Il s’agit d’un dispositif digital composé d’écrans tactils et de bornes interactives qui renseignent les clients avec une grande précision sur chaque produit proposé, et qui permet également d’établir un diagnostic poussé de leur sommeil afin de l’améliorer, en recueillant des informations sur leur façon de dormir et sur leurs préférences en matière de matelas. Face au succès rencontré par ce dispositif, Saatva l’a progressivement déployé dans la plupart de ses points de vente.

 

6/ Kroger Edge, États-Unis

 

En 2018, Kroger, acteur américain de la grande distribution qui possède plus de 2800 points de vente aux Etats-Unis, a expérimenté la technologie Kroger EDGE (Enhanced Display for Grocery Environment), mise au point grâce à un partenariat avec Microsoft, dans plusieurs de ses magasins. Basée sur l’IA, elle remplace les étiquettes classiques par mini-écrans digitaux qui affichent les prix et l’ensemble des informations relatives à un produit, ainsi que des publicités vidéo et des coupons de réduction. Plus fort encore, Kroger Edge permet de proposer des offres personnalisées aux clients en fonction de leurs habitudes d’achat, à partir du moment où ceux-ci ont téléchargé l’application de l’enseigne. Depuis 2018, cette innovation a été généralisée à tous les points de vente de Kroger.

 

7/ Marionnaud Convention, France

 

Dans le cadre de sa stratégie de premiumisation, Marionnaud a repensé plusieurs de ses points de vente, et notamment celui qui est situé à Convention dans le 15ème arrondissement de Paris, avec l’objectif de faire la part belle au digital. Des écrans connectés au site marchand permettent aux clientes de passer commande puis de se faire livrer à domicile ou en boutique, ou de récupérer les produits qu’elles ont achetés en ligne directement sur place dans des casiers sécurisés. Par ailleurs, les clientes qui ont adhéré au programme de fidélité peuvent bénéficier d’un diagnostic de peau gratuit réalisé par une intelligence artificielle. Elles reçoivent ensuite par mail des recommandations pour améliorer leur routine beauté.

 

8/ Audi City Berlin, Allemagne

 

Audi, l’un des plus grands constructeurs automobile au monde, a inauguré, il y a dix ans, le showroom dédié à la réalité virtuelle le plus abouti au monde, et qui reste encore aujourd’hui un modèle du genre. Situé sur le Kurfürstendamm, Audi City Berlin est un temple des nouvelles technologies. Au rez-de-chaussée, quatre panneaux interactifs à commande tactile présentent toutes les gammes de modèles du constructeur sous forme entièrement digitale. En naviguant dans un vaste catalogue d’options, les clients peuvent personnaliser leur automobile, choisir la couleur, les jantes, l’aménagement intérieur, le revêtement des sièges…  Au premier étage,  un mur d’images 3D d’une surface de projection virtuelle de 87 mètres carrés, composé de 18 écrans d’une résolution totale de 37 millions de pixels, leur permet de visualiser leur futur véhicule sous toutes les coutures.

 

Dans le back office, neuf ordinateurs hautes performances et six serveurs transmettent environ 20 à 30 gigaoctets de données par modèle Audi pour obtenir une image parfaite. Quatre voitures d’exposition physiques complètent la présentation virtuelle de la marque. Les clients peuvent ensuite prévoir un essai ou passer directement commande.

L’article Top 8 des magasins les plus digitalisés. est apparu en premier sur Altavia Watch.

03 Sep 07:55

Samsung bouleverse le quotidien avec des mises à jour révolutionnaires

by Faniry R.

Samsung innove en prolongeant la vie de ses appareils avec des mises à jour inédites. Sécurité, efficacité énergétique, et nouvelles fonctionnalités transforment l'expérience utilisateur.

De nouvelles fonctionnalités pour une meilleure expérience

Samsung propose une gamme de mises à jour pour améliorer ses appareils déjà en circulation. Le Family Hub des réfrigérateurs bénéficie de trois nouvelles fonctionnalités : Quick Share, Buds Auto Switch et Fridge Call. Quick Share permet aux utilisateurs d'envoyer des photos depuis leurs mobiles vers le Family Hub en un clin d'œil. D'ailleurs, Buds Auto Switch assure une transition audio fluide entre le Family Hub et les appareils mobiles utilisant les Galaxy Buds. Quant à Fridge Call, il permet de recevoir des appels téléphoniques directement sur le Family Hub grâce à son microphone et haut-parleur intégrés.

Ces nouvelles options s'ajoutent aux réfrigérateurs Family Hub produits depuis 2017 qui donnent un nouveau souffle à des modèles plus anciens. D'autre part, l'assistant vocal Bixby se dote de capacités avancées. Il comprend désormais plusieurs intentions dans les commandes et retient les conversations récentes en rendant les interactions plus naturelles et intuitives.

Une personnalisation accrue et une sécurité renforcée

Les réfrigérateurs 2024 avec Family Hub offrent une nouvelle fonction d'ouverture de porte sur demande, sans commandes de réveil. Samsung ajoute aussi une option de fond d'écran pour personnaliser l'interface du Family Hub, disponible sur les modèles lancés en Corée et aux États-Unis après 2022. Les nouvelles mises à jour Smart Forward incluent des fonctionnalités de sécurité essentielles, comme la détection de pannes de courant et l'envoi d'alertes via l'application SmartThings lorsque les températures internes sont trop élevées. Cela apporte une sécurité alimentaire renforcée pour les utilisateurs.

Les utilisateurs peuvent maintenant choisir différents carillons pour les notifications d'ouverture de porte, et mettre les machines à glaçons en mode veille pour éviter le bruit durant la nuit. Ces ajustements visent à rendre les appareils plus agréables à utiliser au quotidien, sans nuisances sonores. En outre, les mises à jour apportent une gestion optimisée de l'énergie avec la fonction de planification optimale. Cela permet de retarder le démarrage des appareils pour éviter les pics de consommation d'énergie et réduire les coûts.

Des mises à jour pour des appareils durables et performants

Samsung déploie ses mises à jour sur les réfrigérateurs fabriqués depuis 2021. Cela souligne l'engagement de la marque à prolonger la durée de vie de ses produits. En améliorant continuellement ses appareils, Samsung vise à prévenir l'obsolescence. Cela permet d'éviter aux consommateurs des remplacements coûteux et réguliers. Ces innovations reflètent une stratégie axée sur la satisfaction client, avec un accent particulier sur la réduction de l'empreinte écologique.

Les mises à jour Smart Forward arriveront progressivement au second semestre 2024. Cette évolution  offre une transition en douceur vers une expérience utilisateur enrichie. Samsung continue de démontrer sa capacité à innover en transformant ses appareils existants en dispositifs toujours plus intelligents et adaptés aux besoins modernes. Cette initiative marque un tournant dans la façon dont les marques peuvent revitaliser leur gamme de produits sans nécessiter l'achat de nouveaux appareils.

Avec ces mises à jour, Samsung se positionne comme un leader de la transformation numérique des appareils domestiques. Cette position renforce d'ailleurs sa place sur le marché des technologies pour la maison. L'entreprise montre qu'il est possible de combiner innovation et durabilité, pour le plus grand bénéfice des consommateurs.

Cet article Samsung bouleverse le quotidien avec des mises à jour révolutionnaires est apparu en premier sur OBJETCONNECTE.COM.

02 Sep 12:18

Le GPD Pocket 4 change d’envergure avec un écran 8.8 pouces

by Pierre Lecourt

Le GPD Pocket 4 n’a rien d’officiel pour le moment, la marque n’a pas réellement communiqué dessus. L’histoire est assez classique, le site publie par mégarde 1 une page produit pour son nouveau modèle, juste le temps qu’il faut pour qu’un petit malin en prenne note, puis la dépublie aussi sec. Résultat, on récupère des tonnes d’infos sur le GPD Pocket 4 pendant que la marque respecte toujours son embargo de publication. 

Le GPD Pocket 3 est sorti en 2021 et depuis tout ce temps la marque a juste mis à jour son processeur sans changer le reste de ses composants. Ainsi le nouveau venu arrive assez tard après la commercialisation et décide de changer le matériel de fond en comble. On garde les éléments principaux de la famille Pocket : écran tactile rabattable pour un usage tablette ou présentation, clavier compact en QWERTY rétro éclairé et surmonté d’un petit pavé tactile et de boutons de clic. Un ensemble qui permettra tout type de saisie.

Mais beaucoup d’éléments changent. Adieu l’écran de 8 pouces de diagonale en 1920 x 1200 pixels IPS 60 Hz. Bienvenue à un écran de 8.8 pouces de diagonale qui bascule en 2560 x 1600 pixels 144 Hz. On reste sur un écran IPS avec 500 nits de luminosité et 10 points de contact capacitifs mais la densité de pixels par pouce explose. Passant de 249 ppp pour le modèle 2021 à 343 pour le modèle 2024.

La raison de ce changement s’explique dans le choix du processeur embarqué. Le GPD Pocket 3 est sorti sous Core i7-1195G7 et Pentium Gold 7505. Des puces Intel Tiger Lake aux performances graphiques plus limitées. Le nouveau venu bascule chez AMD avec un Ryzen AI 9 HX 370 d’une toute autre envergure. Il faut dire qu’on passe de solutions qui restaient sagement entre 12 et 25 watts à une puce qui tourne de base à 28 watts  et qui peut osciller de 15 à 54 watts de TDP. L’engin sera évidemment ventilé activement.

La raison est assez simple, le Ryzen est un 12 cœurs, 24 threads, composé de 4 cœurs Zen 5 et 8 cœurs Zen 5C fonctionnant de 2 GHz de base à 5.1 GHz au max. Il propose un NPU délivrant 50 TOPS. Son circuit graphique est également plus musclé avec un Radeon 890M poussant 16 cœurs RDNA 3.5 et capable d’atteindre 2.9 GHz. Pour alimenter cette formule, le GPD Pocket 4 bascule sur du 32 à 64 Go de mémoire vive en LPDDR5x-7500. Le stockage est confié à un SSD M.2 2280 NVMe PCIe 4.0 x4 en 2 ou 4 To. 

Autant dire que malgré son format compact, le nouveau venu offrira des prestations élevées. Si on ne connait pas son poids pour le moment, le châssis restera compact avec 20.7 cm de large pour 14.5 cm de profondeur et 2.2 cm d’épaisseur. La conception d’un boitier en aluminium taillé dans la masse devrait permettre de rester rigide et léger à l’ensemble. La batterie embarquée sera une 44.8 Wh avec une charge rapide 100 Watts 20V/5A mais sans aucune mention d’autonomie pour le moment.

L’autre particularité de ce GPD Pocket 4 est sa connectique. Outre son lecteur d’empreintes, ses enceintes stéréo, sa webcam, son module Wi-Fi6E et Bluetooth 5.3 et son support d’un stylet MPP 2.0, la minimachine proposera une connectique originale avec des ports amovibles.

On retrouvera un port USB Type-A classique par défaut qui pourra être interchangé avec d’autres modules comme un lecteur de cartes MicroSDXC UHS-I, un module KVM/USB, un module 4G LTE ou même un port RS-232.

Les autres éléments connectiques proposeront un USB4, un USB 3.2 Gen2 Type-C ainsi qu’un second Type-A, un USB 2.0, une sortie vidéo HDMI 2.1, un Ethernet 2.5 Gigabit et enfin un jack audio combo 3.5 mm.

Pas de date ni de prix mais cela ne devrait pas tarder. Comme d’habitude, l’engin sortira d’abord en financement participatif avant d’atterrir en magasin.

Minimachines.net en partenariat avec Geekbuying.com
Le GPD Pocket 4 change d’envergure avec un écran 8.8 pouces © MiniMachines.net. 2024.

02 Sep 07:20

Eye-tracking tech detects impairment

by Matthew Hempstead

Spotted: Breathalysers and other tests are now commonplace to spot drunk drivers, who are involved in about a third of all traffic collision fatalities in the US. But alcohol isn’t the only substance that can impair your driving – cannabis, which is now legal across many US states, also impacts your concentration, reaction times, and motor skills. Because cannabis stays in the body for weeks after initial use, existing tests aren’t effective at estimating the current impairment of an individual, making it difficult to spot and prevent impaired drivers from getting on the road. US startup Gaize might have a solution.

Gaize has developed an eye-testing device that automatically conducts eye movement and pupil size tests, much like a human law enforcement officer. The idea began when Ken Fichtler, the company’s founder and CEO, was the Director of Economic Development for the state of Montana and became aware of the challenges that businesses and law enforcement faced with legal cannabis. Shocked that there was no way to test for real-time cannabis impairment, Fichtler spent the next few years designing and developing Gaize’s system.

Embedded with eye-tracking sensors, the VR headset captures eye movement data with extreme precision and this data is analysed using statistical and AI models to detect impairment of drivers and employees at work. The device also records these eye movements and the footage can then also be used as video evidence to prosecute impaired drivers and machine operators. Fichtler explained to Springwise that “This video provides Gaize with a level of defensibility radically above and beyond any other impairment detection technology.”

Gaize began with a focus on testing cannabis impairment, but the device is now also able to detect signs of impairment from alcohol, opiates, stimulants, dissociative anesthetics, and some psychedelics. According to the Fichtler, Gaize’s technology is already over 98 per cent effective at detecting the signs of impairment that law enforcement know about, but the company is continually working to improve the product. “We’ve also discovered new indicators of impairment that we want to integrate into our product to take accuracy to another level,” Fichtler told Springwise. To achieve this, the company is conducting further machine learning research and capturing more impairment data in clinical trials.

Written By: Matilda Cox

02 Sep 07:18

T1000-E Card Tracker is a thin, credit card-sized GPS tracker with Meshtastic support

by Sayantan Nandy
SenseCAP Card Tracker T1000 E

Seeed Studio has introduced the T1000-E, an updated version of the SenseCAP T1000 Card Tracker, built for Meshtastic. This rugged tracker is compact, about the size of a credit card, making it easy to carry or attach to assets. It uses Semtech LR1110 RF transceiver, Nordic Semi nRF52840 wireless SoC, and MediaTek/Aihora AG3335 GPS module for precise, low-power tracking and communication. With an IP65 rating for dust and water resistance, the T1000-E is ideal for reliable asset tracking.

The T1000-E supports LoRa and Bluetooth v5.1 for communication and includes a 3-axis accelerometer, an LED, a buzzer, and a button for operation. It has internal antennas for GNSS, LoRa, Wi-Fi, and BLE communication range of 2 to 5 km, depending on the environment.

T1000-E Tracker

SenseCAP Card Tracker T1000-E specifications:

  • SoC – Nordic Semiconductor nRF52840
    • CPU – 32-bit Cortex-M4 core with FPU running at 64 MHz
    • Flash – 1 MB
    • RAM – 256 kB RAM
    • Arm TrustZone Cryptocell 310 security subsystem
  • Wireless
    • Semtech LoRa Edge LR1110 Asset Management Platform
      • LoRa/(G)FSK Half-Duplex RF transceiver working in the 150 – 960MHz; compatible with LoRaWAN 1.0.4 standard
      • GNSS (GPS/ BeiDou) low-power scanning
      • 802.11b/g/n Wi-Fi ultra-low-power passive scanning
    • Bluetooth 5.1 LE for initial configuration (via nRF52840)
    • Mediatek AG3335 GPS chip to provide high-precision positioning services.
    • Antennas – Internal antennas for GNSS, LoRa, and WiFi/BLE
    • Range – Up to 2 to 5km depending on gateway antenna, installation, and environment
  • Sensors
    • Temperature sensor with +/- 1°C accuracy, -20°C to +60°C measurement range
    • Light sensor from 0% (dark) to 100%
    • 3-axis IMU to detect movement
  • Misc
    • 1x LED and 1x buzzer for status indication.
    • 1x button for device operation.
  • Power
    • Input voltage – 4.7 to 5.5V DC via USB magnetic charging cable
    • Battery – 700mAh rechargeable lithium battery with periodic uplink battery level monitoring
  • Dimensions – 85 x 55 x 6.5mm
  • Weight – 32 grams
  • Temperature Range
    • Operating : -20°C to +60°C
    • Charging Temperature: 0 to +45°C
  • Operating Humidity – 5% – 95% (No condensation)
  • IP Rating – IP65 dust and water resistance
  • Certifications – CE/FCC

Tracker T1000-E specifications

The T1000-E tracker includes four pogo pins that offer USB support for DFU (Device Firmware Upgrade), serial logging, and API access, simplifying device management and debugging. More details about the hardware and firmware can be found on the wiki page. It is also compatible with the Meshtastic open-source firmware that implementation a mesh networking protocol for long-range, low-power messaging and GPS coordinate sharing.

Meshtastic is a free, open-source, decentralized mesh network that uses LoRa radios to establish a low-power, long-range, off-grid communication system in areas without reliable infrastructure. Driven entirely by the community, Meshtastic enables decentralized, encrypted communication without the need for a dedicated router or phone. The Meshtastic mobile app is available on both Android and iOS platforms.

Meshtastic

Previously, we covered other GPS trackers like the Seeed Studio Wio Tracker 1110, Wio LTE GPS Tracker, Wio GPS Tracker, and the S5 Trekker. Feel free to check them out.

The SenseCAP Card Tracker T1000-E for Meshtastic is available for purchase on Seeed Studio for $39.90 and includes a 1-meter USB charging cable.

The post T1000-E Card Tracker is a thin, credit card-sized GPS tracker with Meshtastic support appeared first on CNX Software - Embedded Systems News.

01 Sep 22:41

Actualité : James-Webb détecte six nouvelles planètes errantes et améliore notre compréhension de l'univers

by Antoine Roche
En cette fin août 2024, l'observatoire spatial James-Webb (JWST) a un nouveau cliché agréable pour les yeux à partager. Il s'agit de l'image d'une zone du nuage moléculaire dans la constellation de Persée, baptisée NGC 1333. Située à environ 960 années-lumière de nous, cette région de la voûte céleste est non seulement magnifique, mais recèle avant t...
01 Sep 22:39

Virtual and augmented reality can temporarily change the way people perceive distances, finds study

Researchers at the University of Toronto have found that using virtual and augmented reality (VR and AR) can temporarily change the way people perceive and interact with the real world—with potential implications for the growing number of industries that use these technologies for training purposes.
01 Sep 22:39

OpenAI, Meta flex muscles as AI race heats up

The world's biggest AI companies are releasing new usage data showing significant growth as competition in the generative artificial intelligence sector heats up.
01 Sep 22:38

The Multi-Agent AI Outlook: Here’s what you need to know about the next major development in genAI

by Isabelle Selles

What you need to know:

  • Multi-agent systems outperform single agents on complex tasks by leveraging specialized sub-agents, improving accuracy and modularity.
  • While still in the early stages, multi-agent architectures are gaining traction in enterprise applications like customer service and software development, with major tech companies and startups developing frameworks and tools.
  • Future software applications will be defined by their agent architectures. We envision that AI agent marketplaces will emerge, enabling dynamic integration and collaboration between specialized agents across platforms.

AI agents — LLM-based bots that can independently assign themselves to and complete tasks to fulfill a user’s goal — took off like wildfire in 2023.

Want to see more research? Join a demo of the CB Insights platform.

If you’re already a customer, log in here.

The post The Multi-Agent AI Outlook: Here’s what you need to know about the next major development in genAI appeared first on CB Insights Research.

01 Sep 22:37

🧬 Une inquiétante zone corrosive en expansion dans l'océan

by Adrien BERNARD
Les profondeurs océaniques, bien en-dessous des 4 000 mètres, cachent un phénomène inquiétant lié aux changements climatiques. À ces profondeurs extrêmes, la pression élevée et les basses...
01 Sep 22:37

Liens vagabonds : Telegram au cœur d'une bataille juridique inédite

by aklinnik

L'arrestation de Pavel Durov marque une première historique dans le monde de la technologie.  Le 24 août, le PDG de l’application Telegram, a été arrêté à l’aéroport du Bourget, à Paris. Une information judiciaire est ouverte contre le milliardaire franco-émirati par le pôle cyber du parquet de Paris. Parmi les six chefs d'accusation, on reproche au dirigeant tech une « complicité de diffusion en bande organisée d’images de mineur présentant un caractère pornographique ». En cause, l’absence quasi-totale de modération et de coopération avec les autorités judiciaires françaises. La France surveille Telegram de près depuis que le réseau a été utilisé pour la coordination des attaques terroristes de Paris en 2015. Pour Wired, « Pavel Durov est le premier de sa génération de fondateurs de grandes plateformes à faire face à de telles conséquences sévères ». Ce cas pourrait créer un précédent pour toute l'industrie. 

Pourquoi Pavel Durov, le 'Robin Hood' d'Internet, est-il arrêté ? 

Telegram, "le dark web de poche" qui revendique 900 millions d’utilisateurs dans le monde, est critiqué pour avoir laissé prospérer des groupes diffusant des images pédopornographiques, des fausses informations, et des contenus criminels. Contrairement à d'autres réseaux sociaux, Telegram ne coopère pas par exemple avec des organisations telles que le National Center for Missing & Exploited Children (NCMEC), qui centralise la plus grande base de données mondiale de contenus pédopornographiques. Cette non-coopération avec les demandes de suppression de contenus et les réquisitions judiciaires fait de Telegram une plateforme à part : « Parmi les dirigeants des plus grands réseaux sociaux, Pavel Durov a toujours été un outsider », observe Wired. Contrairement à ses pairs, comme Mark Zuckerberg de Facebook ou Shou Zi Chew de TikTok, il a refusé de répondre aux convocations des autorités pour s'expliquer sur sa politique de gestion de contenu. 

Les motivations derrière cette action judiciaire 

Telegram, dont la santé financière repose essentiellement sur la crypto-monnaie, se positionne en "outsider" en affirmant ne pas être soumis aux mêmes règles de modération que les autres grands réseaux sociaux. En effet, la plateforme considère qu'elle n'est pas concernée par le Digital Services Act (DSA), la loi européenne qui oblige les plateformes de plus de 45 millions d'utilisateurs actifs à lutter contre les contenus illégaux sous peine de sanctions. Le DSA impose des règles telles que l'interdiction de cibler les publicités selon la religion, le sexe ou l'orientation sexuelle, la transparence sur la lutte contre la désinformation, et de nouvelles protections pour les mineurs. 

Telegram déclare officiellement avoir 41 millions d'utilisateurs actifs en Europe, juste en dessous de ce seuil. Cependant, des responsables de l'UE soupçonnent l'application d'avoir sous-estimé ce chiffre pour éviter d'être classée parmi les « très grandes plateformes ». En ne fournissant pas un chiffre actualisé ce mois-ci, Telegram se trouve déjà en infraction avec le DSA, note The Financial Times

L'affaire est aussi hautement politique, avec un accusé qui détient les nationalités de quatre puissances mondiales. Il y a six ans, selon le Wall Street Journal, Emmanuel Macron avait tenté de convaincre Durov de déplacer Telegram à Paris et lui a offert la nationalité française. Bien que Durov a depuis reçu le cadeau de la nationalité française (tout comme Evan Spiegel, patron de Snapchat), le siège de Telegram se trouve actuellement à Dubaï. La Russie, de son côté, prétend ne pas être au courant d'autres nationalités détenues par son ressortissant (également fondateur de VKontakte, le Facebook russe), et défend l'application de messagerie la plus populaire du pays dans un élan qui réunit gouvernement et opposition politique. Et en Ukraine, où Telegram bénéficie de la même popularité, on se demande toujours si est-elle un cheval de Troie russe.

Enjeux pour les autres plateformes 

Cette affaire pourrait créer un précédent significatif pour d'autres plateformes numériques. Evelyn Austin, de la fondation Bits of Freedom, déclare : « L’arrestation de Durov intervient à un moment particulièrement volatile pour les plateformes en ligne et leurs utilisateurs. » L'idée que les entreprises puissent être tenues responsables des actions criminelles de leurs utilisateurs gagne du terrain. Un sondage récent au Royaume-Uni montre que deux tiers des personnes interrogées estiment que les entreprises tech devraient être tenus responsables d'héberger du contenu incitant à la violence

Selon Casey Newton, journaliste spécialisé dans les technologies, la poursuite éventuelle de Telegram par la France pourrait encourager d'autres pays à adopter des mesures similaires contre les dirigeants de plateformes pour non-divulgation des données des utilisateurs. « Nous nous sommes déjà dangereusement rapprochés de cette réalité », avertit-il. « L'Inde et la Russie ont été parmi les premiers pays à utiliser des « lois de prise d'otage » pour menacer les employés des plateformes de prison en raison de décisions de modération de contenu, et d'autres pays pourraient suivre. » 

Un changement de paradigme pour l'industrie numérique ? 

L'arrestation de Pavel Durov (qui a été libéré sous caution de 5 millions d'euros mercredi) marque un tournant dans la façon dont les gouvernements traitent les plateformes numériques, en soulignant une volonté croissante de tenir les dirigeants responsables de la diffusion de contenus illégaux. À l'heure où l'équilibre entre liberté d'expression et sécurité en ligne est de plus en plus débattu, cette affaire représente un test pour Telegram et pour toutes les autres entreprises technologiques. 

En attendant, Marc Zuckerberg se retrouve de l'autre côté du mirroir de la censure, en avouant cette semaine que Meta a cédé aux pressions de l'administration Biden pour censurer du contenu sur le COVID-19 en 2021.

CETTE SEMAINE EN FRANCE

  • L’UMICC annonce la nomination de Gaspard G en tant que secrétaire général (Influencia)
  • Agnès Vahramian nommée à la tête de France Info et Céline Pigalle à la direction de l'information de Radio France (Le Figaro)
  • Une rentrée des radios et des télévisions marquée par les Jeux paralympiques, des nouveaux castings et toujours plus de Cyril Hanouna (Le Monde)
  • « Télématin » : Julien Arnaud quitte TF1 et remplace Thomas Sotto sur France 2 (Le Parisien)
  • Le personnel politique face à une défiance généralisée de l’électorat (Le Monde)
  • L'irruption de l'IA dans la chaîne éditoriale suscite des inquiétudes au Figaro (La Lettre)
  • L'Equipe s'excuse à propos de sa Une (L'Equipe)

3 CHIFFRES

  • Près de la moitié des utilisateurs de TikTok âgés de moins de 30 ans déclarent l'utiliser pour se tenir au courant de la politique et de l'actualité, selon le Pew Research Center.
  • 56 % des utilisateurs ont déjà cessé de suivre un créateur à cause de ses opinions politiques. Pourtant, 82 % des influenceurs américains prévoient de partager leur orientation politique durant cette période électorale, selon Business Insider.
  • 4 500 années-développeur et 260 millions de dollars - c'est ce que l'IA générative aurait déjà fait économiser à Amazon, selon son directeur 

LE GRAPHIQUE DE LA SEMAINE

Deux tiers des Britanniques estiment que les entreprises tech devraient être tenues responsables des publications incitant aux émeutes

Source : YouGov

NOS MEILLEURES LECTURES / DIGNES DE VOTRE TEMPS / LONG READ

  • Pourquoi les femmes n'utilisent-elles pas l'intelligence artificielle ? (The Economist)
  • Les Républicains inondent la télévision de publicités trompeuses sur l'immigration et les frontières (The Washington Post)
  • La plupart des avatars d'IA sont féminins, jeunes et séduisants. S'agit-il d'une tendance passagère ou d'une tendance durable ? (Reuters)
  • Les stars de YouTube veulent du respect (Wall Street Journal)
  • Le problème de Kamala avec la génération Z (Business Insider)

Crédit image : Anna Moneymaker/Getty Images

DISRUPTION, DISLOCATION, MONDIALISATION

  • Des pirates iraniens ont ciblé les comptes WhatsApp d'employés des administrations Biden et Trump, selon Meta (APNews)
  • Comment l'IA va fusionner le cinéma et les jeux (A16z)

DONNEES, CONFIANCE, LIBERTÉ DE LA PRESSE, DÉSINFORMATION 

  • Les gens sont-ils plus susceptibles d'évaluer correctement la désinformation lorsque les enjeux politiques sont élevés ? Haha, non (NiemanLab)
  • L'UE est exhortée à annuler son accord commercial avec Israël en raison des meurtres de journalistes (PressGazette)
  • L'outil d'IA Grok d'X (anciennement Twitter) d'Elon Musk manque de garde-fous efficaces pour prévenir la désinformation électorale (independent)
  • Persécutés par le régime Maduro, les journalistes vénézuéliens ont recours à l'IA (The Guardian)

Source : The Guardian

LÉGISLATION, RÉGLEMENTATION

  • Brésil : le réseau social X bloqué après un ordre de la Cour suprême (AP)
  • Sarah Palin obtient un nouveau procès dans l'affaire de diffamation contre le New York Times (Reuters)
  • OpenAI soutient le projet de loi californien sur l'IA exigeant le 'filigrane' du contenu synthétique (Reuters)

JOURNALISME

  • Comment le journalisme est devenu la profession la plus dangereuse au Mexique (Financial Times)
  • Lors de la Mostra de Venise, le manque d'accès aux vedettes de cinéma laisse les journalistes internationaux frustrés (Variety)
  • Écart générationnel, rhétorique militaire et polarisation : ce qui doit changer dans le journalisme sportif italien (The Fix)
  • Un conseiller en sécurité de Reuters tué, deux journalistes blessés à Kramatorsk, en Ukraine (Reuters)
  • "Le point de non-retour" : la chute de Stand News, autrefois principal média en ligne de Hong Kong (Reuters)
  • Les lecteurs préfèrent cliquer sur un titre clair et simple, comme celui-ci (NiemanLab)

Crédit image : NiemanLab

STORYTELLING, NOUVEAUX FORMATS

  • Cet agrégateur de nouvelles/application de rencontre aide les passionnés d'actualité à se rencontrer (NiemanLab)
  • Est-ce que nous faisons fondre notre cerveau en faisant défiler des vidéos courtes sans fin ? (Sophia Smith Galer)

ENVIRONNEMENT 

  • Le gouvernement Albanese accusé d’essayer d’‘enterrer les mauvaises nouvelles’ concernant l’état de santé de la Grande Barrière de Corail (The Guardian)
  • La longue bataille du climat dans les pages du « Monde » (Le Monde)

RÉSEAUX SOCIAUX, MESSAGERIES, APPS

  • Si TikTok est interdit, les créateurs de haut niveau pourraient se tourner vers Facebook plutôt que vers Instagram (emarketer)
  • La lutte de marques autour de ‘Demure’ révèle un changement massif dans le pouvoir des mèmes (Wired)
  • Pizza Hut permet aux clients de payer leur pizza avec des danses TikTok (gizmodo)
  • La tournure politique marquée d'Elon Musk (Wall Street Journal)
  • X se prépare à une interdiction au Brésil (BBC)

Source : Wall Street Journal

 STREAMING, OTT, SVOD

AUDIO, PODCAST, BORNES

  • Les frères Kelce signent un accord de podcast 'New Heights' avec Wondery d'Amazon pour plus de 100 millions de dollars (The Wrap)
  • Qu'est-ce qui fait une bonne alchimie ? Pour les podcasts de discussion, c'est fondamental (New York Times)

Web3, BLOCKCHAIN, CRYPTO, NFT

  • Le plus grand défenseur de Telegram : l’industrie mondiale de la crypto-monnaie (New York Times)

INTELLIGENCE ARTIFICIELLE, DATA, AUTOMATISATION

  • Le nouvel assistant vocal Alexa d'Amazon utilisera Claude AI (The Verge)
  • Le nouvel outil d'IA du Washington Post passe au crible d'énormes ensembles de données (Axios)
  • SAG-AFTRA obtient l'adoption d'une loi en Californie pour limiter les répliques d'IA (Variety)
  • La prise de notes automatique par IA de Google Meet est disponible (The Verge)
  • Gannett ferme un site accusé de publier des critiques de produits basées sur l'IA (The Verge)
  • Bonjour, vous êtes ici parce que vous avez dit que l'édition d'images par IA était comme Photoshop (The Verge)
  • Des grands sites internet disent non à l'extraction de données par l'IA d'Apple (Wired)
  • GameNGen Google : Les modèles de diffusion sont des moteurs de jeu en temps réel (GitHub)

MONÉTISATION, MODÈLE ÉCONOMIQUE, PUBLICITÉ

  • Les éditeurs font la promotion du jeu sur leurs plateformes (Axios)
  • Voici comment 7 directeurs d'audience de médias envisagent les résumés générés par l'IA de Google (NiemanLab)
  • Apple réduit ses effectifs dans ses applications Livres et News (The Verge)

 

 

Par KATI BREMME, ALEXANDRA KLINNIK ET AUDE NEVO

 

 

 

The post Liens vagabonds : Telegram au cœur d'une bataille juridique inédite first appeared on Méta-media | La révolution de l'information.

01 Sep 22:33

The Starliner spacecraft has started to emit strange noises

by Eric Berger
Boeing's Starliner spacecraft is seen docked at the International Space Station on June 13.

Enlarge / Boeing's Starliner spacecraft is seen docked at the International Space Station on June 13. (credit: NASA)

On Saturday NASA astronaut Butch Wilmore noticed some strange noises emanating from a speaker inside the Starliner spacecraft.

"I've got a question about Starliner," Wilmore radioed down to Mission Control at Johnson Space Center in Houston. "There's a strange noise coming through the speaker... I don't know what's making it."

Wilmore said he was not sure if there was some oddity in the connection between the station and the spacecraft causing the noise, or something else. He asked the flight controllers in Houston to see if they could listen to the audio inside the spacecraft. A few minutes later, Mission Control radioed back that they were linked via "hardline" to listen to audio inside Starliner, which has now been docked to the International Space Station for nearly three months.

Read 8 remaining paragraphs | Comments

01 Sep 22:30

Boeing’s Starliner started making a repeating ‘pulsing’ sound yesterday

by Wes Davis
A photo showing the Starliner spacecraft docked at the ISS
Image: NASA

US astronaut Barry Wilmore called NASA ground crew on Saturday, asking for help with a repetitive knocking sound that was coming from the Boeing Starliner craft. The interaction was captured by a NASA Space Flight forum member, who included a recording of it in a post that was spotted by Ars Technica.

In the recording, Wilmore asks NASA crew in Houston to configure their call so that he could show them the noise, which he says is coming from the speaker inside Starliner. Then, a repetitive clanging sound with slight there’s-something-on-the-wing vibes can be heard. The Earthside crew member describes it as sounding “almost like a sonar ping.”

Continue reading…

30 Aug 13:38

Integrating Image-To-Text And Text-To-Speech Models (Part 2)

by hello@smashingmagazine.com (Joas Pambou)

In Part 1 of this brief two-part series, we developed an application that turns images into audio descriptions using vision-language and text-to-speech models. We combined an image-to-text that analyses and understands images, generating description, with a text-to-speech model to create an audio description, helping people with sight challenges. We also discussed how to choose the right model to fit your needs.

Now, we are taking things a step further. Instead of just providing audio descriptions, we are building that can have interactive conversations about images or videos. This is known as Conversational AI — a technology that lets users talk to systems much like chatbots, virtual assistants, or agents.

While the first iteration of the app was great, the output still lacked some details. For example, if you upload an image of a dog, the description might be something like “a dog sitting on a rock in front of a pool,” and the app might produce something close but miss additional details such as the dog’s breed, the time of the day, or location.

The aim here is simply to build a more advanced version of the previously built app so that it not only describes images but also provides more in-depth information and engages users in meaningful conversations about them.

We’ll use LLaVA, a model that combines understanding images and conversational capabilities. After building our tool, we’ll explore multimodal models that can handle images, videos, text, audio, and more, all at once to give you even more options and easiness for your applications.

Visual Instruction Tuning and LLaVA

We are going to look at visual instruction tuning and the multimodal capabilities of LLaVA. We’ll first explore how visual instruction tuning can enhance the large language models to understand and follow instructions that include visual information. After that, we’ll dive into LLaVA, which brings its own set of tools for image and video processing.

Visual Instruction Tuning

Visual instruction tuning is a technique that helps large language models (LLMs) understand and follow instructions based on visual inputs. This approach connects language and vision, enabling AI systems to understand and respond to human instructions that involve both text and images. For example, Visual IT enables a model to describe an image or answer questions about a scene in a photograph. This fine-tuning method makes the model more capable of handling these complex interactions effectively.

There’s a new training approach called LLaVAR that has been developed, and you can think of it as a tool for handling tasks related to PDFs, invoices, and text-heavy images. It’s pretty exciting, but we won’t dive into that since it is outside the scope of the app we’re making.

Examples of Visual Instruction Tuning Datasets

To build good models, you need good data — rubbish in, rubbish out. So, here are two datasets that you might want to use to train or evaluate your multimodal models. Of course, you can always add your own datasets to the two I’m going to mention.

Vision-CAIR

  • Instruction datasets: English;
  • Multi-task: Datasets containing multiple tasks;
  • Mixed dataset: Contains both human and machine-generated data.

Vision-CAIR provides a high-quality, well-aligned image-text dataset created using conversations between two bots. This dataset was initially introduced in a paper titled “MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models,” and it provides more detailed image descriptions and can be used with predefined instruction templates for image-instruction-answer fine-tuning.

There are more multimodal datasets out there, but these two should help you get started if you want to fine-tune your model.

Let’s Take a Closer Look At LLaVA

LLaVA (which stands for Large Language and Vision Assistant) is a groundbreaking multimodal model developed by researchers from the University of Wisconsin, Microsoft Research, and Columbia University. The researchers aimed to create a powerful, open-source model that could compete with the best in the field, just like GPT-4, Claude 3, or Gemini, to name a few. For developers like you and me, its open nature is a huge benefit, allowing for easy fine-tuning and integration.

One of LLaVA’s standout features is its ability to understand and respond to complex visual information, even with unfamiliar images and instructions. This is exactly what we need for our tool, as it goes beyond simple image descriptions to engage in meaningful conversations about the content.

Architecture

LLaVA’s strength lies in its smart use of existing models. Instead of starting from scratch, the researchers used two key models:

  • CLIP VIT-L/14
    This is an advanced version of the CLIP (Contrastive Language–Image Pre-training) model developed by OpenAI. CLIP learns visual concepts from natural language descriptions. It can handle any visual classification task by simply being given the names of the visual categories, similar to the “zero-shot” capabilities of GPT-2 and GPT-3.
  • Vicuna
    This is an open-source chatbot trained by fine-tuning LLaMA on 70,000 user-shared conversations collected from ShareGPT. Training Vicuna-13B costs around $300, and it performs exceptionally well, even when compared to other models like Alpaca.

These components make LLaVA highly effective by combining state-of-the-art visual and language understanding capabilities into a single powerful model, perfectly suited for applications requiring both visual and conversational AI.

Training

LLaVA’s training process involves two important stages, which together enhance its ability to understand user instructions, interpret visual and language content, and provide accurate responses. Let’s detail what happens in these two stages:

  1. Pre-training for Feature Alignment
    LLaVA ensures that its visual and language features are aligned. The goal here is to update the projection matrix, which acts as a bridge between the CLIP visual encoder and the Vicuna language model. This is done using a subset of the CC3M dataset, allowing the model to map input images and text to the same space. This step ensures that the language model can effectively understand the context from both visual and textual inputs.
  2. End-to-End Fine-Tuning
    The entire model undergoes fine-tuning. While the visual encoder’s weights remain fixed, the projection layer and the language model are adjusted.

The second stage is tailored to specific application scenarios:

  • Instructions-Based Fine-Tuning
    For general applications, the model is fine-tuned on a dataset designed for following instructions that involve both visual and textual inputs, making the model versatile for everyday tasks.
  • Scientific reasoning
    For more specialized applications, particularly in science, the model is fine-tuned on data that requires complex reasoning, helping the model excel at answering detailed scientific questions.

Now that we’re keen on what LLaVA is and the role it plays in our applications, let’s turn our attention to the next component we need for our work, Whisper.

Using Whisper For Text-To-Speech

In this chapter, we’ll check out Whisper, a great model for turning text into speech. Whisper is accurate and easy to use, making it perfect for adding natural-sounding voice responses to our app. We’ve used Whisper in a different article, but here, we’re going to use a new version — large v3. This updated version of the model offers even better performance and speed.

Whisper large-v3

Whisper was developed by OpenAI, which is the same folks behind ChatGPT. Whisper is a pre-trained model for automatic speech recognition (ASR) and speech translation. The original Whisper was trained on 680,000 hours of labeled data.

Now, what’s different with Whisper large-v3 compared to other models? In my experience, it comes down to the following:

  • Better inputs
    Whisper large-v3 uses 128 Mel frequency bins instead of 80. Think of Mel frequency bins as a way to break down audio into manageable chunks for the model to process. More bins mean finer detail, which helps the model better understand the audio.
  • More training
    This specific Whisper version was trained on 1 million hours of weakly labeled audio and 4 million hours of pseudo-labeled audio that was collected from Whisper large-v2. From there, the model was trained for 2.0 epochs over this mix.

Whisper models come in different sizes, from tiny to large. Here’s a table comparing the differences and similarities:

Size Parameters English-only Multilingual
tiny 39 M
base 74 M
small 244 M
medium 769 M
large 1550 M
large-v2 1550 M
large-v3 1550 M
Integrating LLaVA With Our App

Alright, so we’re going with LLaVA for image inputs, and this time, we’re adding video inputs, too. This means the app can handle both images and videos, making it more versatile.

We’re also keeping the speech feature so you can hear the assistant’s replies, which makes the interaction even more engaging. How cool is that?

For this, we’ll use Whisper. We’ll stick with the Gradio framework for the app’s visual layout and user interface. You can, of course, always swap in other models or frameworks — the main goal is to get a working prototype.

Installing and Importing the Libraries

We will start by installing and importing all the required libraries. This includes the transformers libraries for loading the LLaVA and Whisper models, bitsandbytes for quantization, gtts, and moviepy to help in processing video files, including frame extraction.

#python
!pip install -q -U transformers==4.37.2
!pip install -q bitsandbytes==0.41.3 accelerate==0.25.0
!pip install -q git+https://github.com/openai/whisper.git
!pip install -q gradio
!pip install -q gTTS
!pip install -q moviepy

With these installed, we now need to import these libraries into our environment so we can use them. We’ll use colab for that:

#python
import torch
from transformers import BitsAndBytesConfig, pipeline
import whisper
import gradio as gr
from gtts import gTTS
from PIL import Image
import re
import os
import datetime
import locale
import numpy as np
import nltk
import moviepy.editor as mp

nltk.download('punkt')
from nltk import sent_tokenize

# Set up locale
os.environ["LANG"] = "en_US.UTF-8"
os.environ["LC_ALL"] = "en_US.UTF-8"
locale.setlocale(locale.LC_ALL, 'en_US.UTF-8')

Configuring Quantization and Loading the Models

Now, let’s set up a 4-bit quantization to make the LLaVA model more efficient in terms of performance and memory usage.

#python

# Configuration for quantization
quantization_config = BitsAndBytesConfig(
  load_in_4bit=True,
  bnb_4bit_compute_dtype=torch.float16
)

# Load the image-to-text model
model_id = "llava-hf/llava-1.5-7b-hf"
pipe = pipeline("image-to-text",
  model=model_id,
  model_kwargs={"quantization_config": quantization_config})

# Load the whisper model
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
model = whisper.load_model("large-v3", device=DEVICE)

In this code, we’ve configured the quantization to four bits, which reduces memory usage and improves performance. Then, we load the LLaVA model with these settings. Finally, we load the whisper model, selecting the device based on GPU availability for better performance.

Note: We’re using llava-v1.5-7b as the model. Please feel free to explore other versions of the model. For Whisper, we’re loading the “large” size, but you can also switch to another size like “medium” or “small” for your experiments.

To get our assistant up and running, we need to implement five essential functions:

  1. Handling conversations,
  2. Converting images to text,
  3. Converting videos to text,
  4. Transcribing audio,
  5. Converting text to speech.

Once these are in place, we will create another function to tie all this together seamlessly. The following sections provide the code that defines each function.

Conversation History

We’ll start by setting up the conversation history and a function to log it:

#python

# Initialize conversation history
conversation_history = []

def writehistory(text):
  """Write history to a log file."""
  tstamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
  logfile = f'{tstamp}_log.txt'
  with open(logfile, 'a', encoding='utf-8') as f:
    f.write(text + '\n')

Image to Text

Next, we’ll create a function to convert images to text using LLaVA and iterative prompts.

#python
def img2txt(input_text, input_image):
  """Convert image to text using iterative prompts."""
  try:
    image = Image.open(input_image)

    if isinstance(input_text, tuple):
      input_text = input_text[0]  # Take the first element if it's a tuple

      writehistory(f"Input text: {input_text}")
      prompt = "USER: <image>\n" + input_text + "\nASSISTANT:"
      while True:
        outputs = pipe(image, prompt=prompt, generate_kwargs={"max_new_tokens": 200})

          if outputs and outputs[0]["generated_text"]:
            match = re.search(r'ASSISTANT:\s*(.*)', outputs[0]["generated_text"])
            reply = match.group(1) if match else "No response found."
            conversation_history.append(("User", input_text))
            conversation_history.append(("Assistant", reply))
            prompt = "USER: " + reply + "\nASSISTANT:"
            return reply  # Only return the first response for now
          else:
            return "No response generated."
  except Exception as e:
    return str(e)

Video to Text

We’ll now create a function to convert videos to text by extracting frames and analyzing them.

#python
def vid2txt(input_text, input_video):
  """Convert video to text by extracting frames and analyzing."""
  try:
    video = mp.VideoFileClip(input_video)
    frame = video.get_frame(1)  # Get a frame from the video at the 1-second mark
    image_path = "temp_frame.jpg"
    mp.ImageClip(frame).save_frame(image_path)
    return img2txt(input_text, image_path)
  except Exception as e:
    return str(e)

Audio Transcription

Let’s add a function to transcribe audio to text using Whisper.

#python
def transcribe(audio_path):
  """Transcribe audio to text using Whisper model."""
  if not audio_path:
    return ''

  audio = whisper.load_audio(audio_path)
  audio = whisper.pad_or_trim(audio)
  mel = whisper.log_mel_spectrogram(audio).to(model.device)
  options = whisper.DecodingOptions()
  result = whisper.decode(model, mel, options)
  return result.text

Text to Speech

Lastly, we create a function to convert text responses into speech.

#python
def text_to_speech(text, file_path):
  """Convert text to speech and save to file."""
  language = 'en'
  audioobj = gTTS(text=text, lang=language, slow=False)
  audioobj.save(file_path)
  return file_path

With all the necessary functions in place, we can create the main function that ties everything together:

#python

def chatbot_interface(audio_path, image_path, video_path, user_message):
  """Process user inputs and generate chatbot response."""
  global conversation_history

  # Handle audio input
  if audio_path:
    speech_to_text_output = transcribe(audio_path)
  else:
    speech_to_text_output = ""

  # Determine the input message
  input_message = user_message if user_message else speech_to_text_output

  # Ensure input_message is a string
  if isinstance(input_message, tuple):
    input_message = input_message[0]

  # Handle image or video input
  if image_path:
    chatgpt_output = img2txt(input_message, image_path)
  elif video_path:
      chatgpt_output = vid2txt(input_message, video_path)
  else:
    chatgpt_output = "No image or video provided."

  # Add to conversation history
  conversation_history.append(("User", input_message))
  conversation_history.append(("Assistant", chatgpt_output))

  # Generate audio response
  processed_audio_path = text_to_speech(chatgpt_output, "Temp3.mp3")

  return conversation_history, processed_audio_path

Using Gradio For The Interface

The final piece for us is to create the layout and user interface for the app. Again, we’re using Gradio to build that out for quick prototyping purposes.

#python

# Define Gradio interface
iface = gr.Interface(
  fn=chatbot_interface,
  inputs=[
    gr.Audio(type="filepath", label="Record your message"),
    gr.Image(type="filepath", label="Upload an image"),
    gr.Video(label="Upload a video"),
    gr.Textbox(lines=2, placeholder="Type your message here...", label="User message (if no audio)")
  ],
  outputs=[
    gr.Chatbot(label="Conversation"),
    gr.Audio(label="Assistant's Voice Reply")
  ],
  title="Interactive Visual and Voice Assistant",
  description="Upload an image or video, record or type your question, and get detailed responses."
)

# Launch the Gradio app
iface.launch(debug=True)

Here, we want to let users record or upload their audio prompts, type their questions if they prefer, upload videos, and, of course, have a conversation block.

Here’s a preview of how the app will look and work:

Looking Beyond LLaVA

LLaVA is a great model, but there are even greater ones that don’t require a separate ASR model to build a similar app. These are called multimodal or “any-to-any” models. They are designed to process and integrate information from multiple modalities, such as text, images, audio, and video. Instead of just combining vision and text, these models can do it all: image-to-text, video-to-text, text-to-speech, speech-to-text, text-to-video, and image-to-audio, just to name a few. It makes everything simpler and less of a hassle.

Examples of Multimodal Models that Handle Images, Text, Audio, and More

Now that we know what multimodal models are, let’s check out some cool examples. You may want to integrate these into your next personal project.

CoDi

So, the first on our list is CoDi or Composable Diffusion. This model is pretty versatile, not sticking to any one type of input or output. It can take in text, images, audio, and video and turn them into different forms of media. Imagine it as a sort of AI that’s not tied down by specific tasks but can handle a mix of data types seamlessly.

CoDi was developed by researchers from the University of North Carolina and Microsoft Azure. It uses something called Composable Diffusion to sync different types of data, like aligning audio perfectly with the video, and it can generate outputs that weren’t even in the original training data, making it super flexible and innovative.

ImageBind

Now, let’s talk about ImageBind, a model from Meta. This model is like a multitasking genius, capable of binding together data from six different modalities all at once: images, video, audio, text, depth, and even thermal data.

Source: Meta AI. (Large preview)

ImageBind doesn’t need explicit supervision to understand how these data types relate. It’s great for creating systems that use multiple types of data to enhance our understanding or create immersive experiences. For example, it could combine 3D sensor data with IMU data to design virtual worlds or enhance memory searches across different media types.

Gato

Gato is another fascinating model. It’s built to be a generalist agent that can handle a wide range of tasks using the same network. Whether it’s playing games, chatting, captioning images, or controlling a robot arm, Gato can do it all.

The key thing about Gato is its ability to switch between different types of tasks and outputs using the same model.

GPT-4o

The next on our list is GPT-4o; GPT-4o is a groundbreaking multimodal large language model (MLLM) developed by OpenAI. It can handle any mix of text, audio, image, and video inputs and give you text, audio, and image outputs. It’s super quick, responding to audio inputs in just 232ms to 320ms, almost like a real conversation.

There’s a smaller version of the model called GPT-4o Mini. Small models are becoming a trend, and this one shows that even small models can perform really well. Check out this evaluation to see how the small model stacks up against other large models.

Conclusion

We covered a lot in this article, from setting up LLaVA for handling both images and videos to incorporating Whisper large-v3 for top-notch speech recognition. We also explored the versatility of multimodal models like CoDi or GPT-4o, showcasing their potential to handle various data types and tasks. These models can make your app more robust and capable of handling a range of inputs and outputs seamlessly.

Which model are you planning to use for your next app? Let me know in the comments!

30 Aug 09:54

Apple is reportedly trying to invest in OpenAI

by Samuel Axon
OpenAI logo displayed on a phone screen and ChatGPT website displayed on a laptop screen.

Enlarge / The OpenAI logo. (credit: Getty Images)

According to a report in The Wall Street Journal, Apple is in talks to invest in OpenAI, the generative AI company whose ChatGPT will feature in future versions of iOS.

If the talks are successful, Apple will join a multi-billion dollar funding round led by Thrive Capital that would value the startup at more than $100 billion.

The report doesn't say exactly how much Apple would invest, but it does note that it would not be the only participant in this round of funding. For example, Microsoft is expected to invest further, and Bloomberg reports that Nvidia is also considering participating.

Read 5 remaining paragraphs | Comments

30 Aug 09:52

Le CV qui m'a permis d'être embauché chez Microsoft. Trois fois...

by Marie LePanda

Oui, vous avez bien lu ! J’ai reçu une offre d’emploi chez Microsoft à trois reprises au cours de ma… Tagged with career, microsoft.


Commentaires
L'article Le CV qui m'a permis d'être embauché chez Microsoft. Trois fois... a été posté dans la catégorie Développement de Human Coders News
30 Aug 09:52

ChatGPT dépasse les 200 millions d’utilisateurs hebdomadaires : Un tournant pour OpenAI

by Yohann Poiron

OpenAI a récemment confirmé que son produit phare, ChatGPT, compte désormais plus de 200 millions d’utilisateurs actifs hebdomadaires. Ce chiffre, impressionnant, représente le double du nombre d’utilisateurs qu’il y avait il y a seulement 10 mois. Ce succès témoigne de l’adoption massive de ChatGPT, tant chez les particuliers que chez les entreprises. Parmi ces utilisateurs, […]

L’article ChatGPT dépasse les 200 millions d’utilisateurs hebdomadaires : Un tournant pour OpenAI est apparu en premier sur BlogNT : le Blog des Nouvelles Technologies.

30 Aug 09:51

Seti part à la chasse aux communications radio extraterrestres intergalactiques !

by Laurent Sacco, Journaliste
Il ne semble pas y avoir de civilisation de type III de Kardashev dans notre Voie lactée. Mais peut-être existent-elles dans des galaxies voisines, exploitant l'énergie des étoiles pour des télécommunications galactiques et intergalactiques insondables pour Homo sapiens entre des super-IA, mais...
30 Aug 09:51

(Actu) Les journalistes vénézuéliens se cachent derrière des avatars

Au Vénézuéla, dans un contexte de répression croissante, des journalistes innovent pour continuer à informer en utilisant des avatars créés par intelligence artificielle.

Face aux risques d'arrestations et de violences au Vénézuéla, depuis l'élection de Maduro, les journalistes utilisent des présentateurs virtuels alimentés par le récit de leurs enquêtes. Cette initiative, baptisée "Opération Retweet", permet aux reporters de mener des enquêtes sur le terrain tout en préservant leur anonymat lors de la diffusion des informations.

Cette méthode, qui utilise notamment la plateforme Connectas, est une réponse créative à la menace qui pèse sur la liberté de la presse dans le pays. Ironiquement, elle détourne une technologie précédemment utilisée par le régime de Chavez pour diffuser de la propagande. Les journalistes vénézuéliens espèrent ainsi continuer à exercer leur métier malgré les pressions du gouvernement de Nicolas Maduro.

- Source : The Guardian

-----------

♥️ Soutenez Monde Numérique : https://donorbox.org/monde-numerique

🌏 Web : https://mondenumerique.info 

🗞️ Newsletter : https://mondenumerique.substack.com/ 

📹 YouTube : https://www.youtube.com/@mondenumerique 

-----------


Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.

30 Aug 09:51

L'emballage : un atout stratégique pour la livraison du dernier kilomètre

Ulrick Parfum, Directeur Achats et Marketing Produits Groupe chez RAJA, revient sur le rôle stratégique de l'emballage pour les acteurs du e-commerce. Il décrit en 10 points les bénéfices générés par un emballage adapté.
30 Aug 09:51

Une nouvelle main robotisée révolutionne les tâches quotidiennes

by Faniry R.

Une nouvelle main robotisée à deux doigts, conçue par des chercheurs du MIT, promet de transformer la manipulation d'objets dans les tâches du quotidien. Ce prototype pourrait bien redéfinir le futur des robots domestiques.

Une main robotisée pour les tâches simples du quotidien

Des chercheurs de l'Improbable AI Lab et du MIT ont développé une main robotisée innovante à deux doigts. Cette nouvelle technologie, appelée le doigt de tous les jours, facilite la manipulation d'objets dans des situations concrètes. Sa conception vise à rendre les robots plus efficaces pour assister les humains.

Ce système peut saisir divers objets, qu'ils soient lisses ou texturés, et les placer avec précision. Les tests ont prouvé la capacité du robot à effectuer des tâches basiques, comme saisir des objets et les poser. Ce projet ouvre la voie à des améliorations futures dans le domaine de la robotique domestique.

Une conception adaptée aux objets du quotidien

Les doigts du robot sont conçus pour ressembler aux doigts humains, tant par leur forme que par leur taille. Ils se plient et saisissent fermement les objets. Ces derniers imitent ainsi les mouvements humains. L'équipe de chercheurs a créé une pince à deux doigts avec deux degrés de liberté (DoF) pour permettre une manipulation précise et efficace.

Cependant, les concepteurs ne comptent pas s'arrêter là. Ils prévoient de développer des pinces avec davantage de doigts. Avec plus de doigts, la pince pourrait s'adapter à des tâches plus complexes, tout en restant compacte et efficace. L'objectif reste de rendre cette technologie encore plus performante et utile.

Des tests prometteurs en conditions réelles

Pour évaluer cette nouvelle technologie, l'équipe a soumis la pince robotisée à une série d'expériences en conditions réelles. Ils ont analysé la vitesse, la flexibilité et la force appliquée par la pince sur divers objets lors de tâches de base, telles que le ramassage et le placement. Ces tests ont montré des résultats impressionnants.

Le prototype a réussi les trois tâches pour lesquelles il a été conçu. Cela démontre ainsi sa capacité à manipuler divers objets, du papier aux fruits délicats. Ces expériences révèlent le potentiel du robot à devenir un outil de manipulation polyvalent et pratique dans un environnement domestique.

Des perspectives pour les robots de demain

Les performances de cette main robotisée ouvrent la voie à des applications variées dans les foyers. Les chercheurs envisagent déjà d'améliorer leur prototype pour des tâches plus complexes. Une main à trois ou quatre doigts pourrait voir le jour. Cela permettrait au robot d'accomplir des fonctions encore plus diversifiées.

Pour atteindre cet objectif, l'équipe du MIT devra attendre des actionneurs plus puissants. Cette attente ne freine pas leur ambition, car ils imaginent déjà une main à cinq doigts capable de manipuler une multitude d'objets de la vie quotidienne. Les résultats initiaux montrent un potentiel énorme pour cette technologie de pointe.

 Vers une nouvelle ère de robots domestiques

Cette nouvelle pince robotisée se distingue par sa simplicité et son efficacité. Les chercheurs visent à rendre la technologie accessible et utile dans des contextes variés. Ils cherchent à développer une solution capable de s'adapter aux défis quotidiens, tout en améliorant continuellement la conception.

Le MIT espère que cette innovation aidera à révolutionner l'utilisation des robots dans nos maisons. La technologie de manipulation robotique pourrait se généraliser et offrir une aide précieuse pour les tâches du quotidien. Une nouvelle ère d'interaction homme-machine se dessine avec cette main robotisée.

Une innovation au service de l'humain

Cette main robotisée à deux doigts représente une avancée majeure pour l'automatisation des tâches domestiques. Elle combine une conception simple avec une performance efficace qui permet d'ailleurs une manipulation précise des objets. La recherche continue afin d'étendre les capacités de ce robot et de le rendre encore plus utile.

Les chercheurs de l'Improbable AI Lab et du MIT restent optimistes quant à l'avenir de leur création. En améliorant la pince, ils espèrent voir cette technologie déployée dans les foyers du monde entier. La main robotisée pourrait bientôt devenir un outil indispensable dans la vie quotidienne.

Cet article Une nouvelle main robotisée révolutionne les tâches quotidiennes est apparu en premier sur OBJETCONNECTE.COM.