Progresele în viziunea computerizată propulsează autonomia de transport

Mașina autonomă cu conducere autonomă recunoaște semnele rutiere. Viziunea computerizată și inteligența artificială ... [+] concept.

getty

Viziunea este un aport senzorial uman puternic. Permite sarcini și procese complexe pe care le considerăm de la sine înțeles. Odată cu creșterea AoT™ (Autonomie a lucrurilor) în diverse aplicații, de la transport și agricultură până la robotică și medicină, rolul camerelor, computerului și învățării automate în furnizarea unei vederi și cogniții asemănătoare omului devine semnificativ. Viziunea pe computer ca disciplină academică a luat amploare în anii 1960, în primul rând la universitățile implicate în domeniul emergent al inteligenței artificiale (AI) și al învățării automate. A progresat dramatic în următoarele patru decenii, pe măsură ce s-au făcut progrese semnificative în tehnologiile semiconductoare și de calcul. Progresele recente în învățarea profundă și inteligența artificială au accelerat și mai mult aplicarea viziunii computerizate pentru a oferi percepție și cunoaștere a mediului în timp real, cu latență scăzută, permițând autonomie, siguranță și eficiență în diverse aplicații. Transportul este un domeniu care a beneficiat semnificativ.

LiDAR (Light Detection and Ranging) este o abordare activă a imaginii optice care utilizează lasere pentru a determina mediul 3D din jurul unui obiect. Este una dintre tehnologiile pe care soluțiile de viziune computerizată (care se bazează exclusiv pe lumina ambientală și nu folosesc lasere pentru percepția 3D) încearcă să le perturbe. Tema comună este că șoferii umani nu au nevoie de LiDAR pentru percepția în profunzime, așa că nici mașinile nu ar trebui. Caracteristici comerciale actuale de conducere autonomă L3 (autonomie completă în anumite zone geografice și condiții meteorologice, cu șoferul gata să preia controlul în câteva secunde) produse astăzi utilizați LiDAR. Tehnicile bazate exclusiv pe viziune nu au reușit încă să ofere această capacitate comercial.

PUBLICITATE

TeslaTSLA
este un susținător dominant al utilizării viziunii computerizate pe bază de cameră pasivă pentru a oferi autonomie vehiculului de pasageri. În timpul evenimentului recent al companiei AI Day, Elon Musk și inginerii săi au oferit o prezentare impresionantă AI, gestionarea datelor și capabilitățile de calcul care susțin, printre alte inițiative, funcția Full Self Driving (FSD) pe mai multe modele Tesla. FSD necesită ca șoferul uman să fie implicat în sarcina de conducere în orice moment (ceea ce este în concordanță cu autonomia L2). În prezent, această opțiune este disponibilă pentru 160,000 de vehicule achiziționate de clienții din SUA și Canada. O suită de 8 camere pe fiecare vehicul oferă o hartă de ocupare la 360°. Datele camerei (și alte) de la aceste vehicule sunt folosite pentru a-și antrena rețeaua neuronală (care folosește etichetarea automată) pentru a recunoaște obiecte, a trasa potențiale traiectorii vehiculului, a le selecta pe cele optime și a activa acțiunile de control corespunzătoare. ~75 actualizări ale rețelei neuronale au avut loc în ultimele 12 luni (~1 actualizare la fiecare 7 minute), deoarece sunt colectate în mod continuu date noi și sunt detectate erori de etichetare sau greșeli de manevră. Rețeaua instruită execută acțiuni de planificare și control printr-o arhitectură redundantă integrată a electronicii de calcul special concepute. Tesla se așteaptă ca FSD să conducă în cele din urmă la vehicule autonome (AV), care oferă autonomie completă în anumite domenii de proiectare operațională, fără a fi necesară implicarea unui șofer uman (numită și autonomie L4).

Alte companii precum Phiar, Helm.ai și NODAR urmăresc, de asemenea, calea viziunii computerizate. NODAR își propune să extindă în mod semnificativ gama de imagini și percepția 3D a sistemelor de camere stereo, învățând să se ajusteze pentru dezalinierea camerei și efectele de vibrație prin algoritmi patentați de învățare automată. A strâns recent 12 milioane de dolari pentru producția produsului său emblematic, Hammerhead™, care utilizează camere de calitate auto și platforme standard de calcul.

În afară de cost și dimensiune, un argument frecvent împotriva utilizării LiDAR este că are o rază și o rezoluție limitate în comparație cu camerele. De exemplu, LiDAR cu o rază de acțiune de 200 m și 5-10 M puncte/secundă (PPS asemănător cu rezoluția) sunt disponibile astăzi. La 200 m, obstacole mici precum cărămizi sau resturi de anvelope vor înregistra foarte puține puncte (poate 2-3 pe verticală și 3-5 pe orizontală), îngreunând recunoașterea obiectelor. Lucrurile devin și mai grosolane la distanțe mai lungi. Prin comparație, camerele standard cu megapixeli care rulează la 30 Hz pot genera 30 de milioane de pixeli/secundă, permițând recunoașterea superioară a obiectelor chiar și la distanțe mari. Camerele mai avansate (12 M pixeli) pot crește acest lucru și mai mult. Problema este cum să utilizați aceste date masive și să produceți o percepție acționabilă cu latențe de nivel de milisecunde, consum redus de energie și condiții de iluminare degradate.

PUBLICITATE

Recunoaște, o companie din California, încearcă să rezolve această problemă. Potrivit CEO-ului Mark Bolitho, misiunea sa este de a „oferă o percepție vizuală supraumană pentru vehiculele complet autonome.” Compania a fost fondată în 2017, a strâns 75 de milioane de dolari până în prezent și are 70 de angajați. RK Anand, un alum al Juniper Networks, este unul dintre co-fondatorii și Chief Product Officer. El consideră că utilizarea camerelor cu rezoluție mai mare, cu o gamă dinamică > 120 dB, care rulează la rate de cadre ridicate (de exemplu, OnSemi, Sony și Omnivision) oferă datele necesare pentru a crea informații 3D de înaltă rezoluție, care sunt esențiale pentru realizarea AV-urilor. Factorii care contribuie la aceasta sunt:

ASIC-uri personalizate pentru a procesa datele în mod eficient și pentru a produce hărți 3D precise și de înaltă rezoluție ale mediului auto. Acestea sunt fabricate pe un proces TSMC de 7 nm, cu o dimensiune a cipului de 100 mm², care funcționează la o frecvență de 1 GHz.
Algoritmi proprietari de învățare automată pentru a procesa milioane de puncte de date offline pentru a crea rețeaua neuronală antrenată, care poate funcționa eficient și poate învăța continuu. Această rețea oferă percepția și include clasificarea și detectarea obiectelor, segmentarea semantică, detectarea benzii, semnele de circulație și recunoașterea semaforului
Minimizarea operațiunilor de stocare și multiplicare off-chip care consumă energie și creează o latență ridicată. Designul ASIC al lui Recogni este optimizat pentru matematica logaritmică și folosește adăugarea. Eficiențe suplimentare sunt realizate prin gruparea optimă a greutăților în rețeaua neuronală antrenată.

În timpul fazei de antrenament, un LiDAR comercial este utilizat ca adevăr la sol pentru a antrena date de camere stereo de înaltă rezoluție, cu gamă dinamică înaltă, pentru a extrage informații despre adâncime și a le face robustă împotriva efectelor de dezaliniere și vibrații. Potrivit domnului Anand, implementarea lor de învățare automată este atât de eficientă încât poate extrapola estimările de adâncime dincolo de intervalele de antrenament furnizate de calibrarea LiDAR (care oferă adevărul la sol la o rază de 100 m).

PUBLICITATE

Figura 1: Casetele verzi arată performanța 3D a stivei de percepție Recogni pe datele antrenate la 100 ... [+] m interval. Săgeata albastră arată percepția adâncimii la distanțe dincolo de datele de antrenament la 130 m.

Recunoaște

Datele de antrenament de mai sus au fost efectuate în timpul zilei cu o pereche stereo de camere de 8.3 megapixeli care rulează la frecvențe de cadre de 30 Hz (~0.5 miliarde de pixeli pe secundă). Demonstrează capacitatea rețelei antrenate de a extrage informații 3D din scenă dincolo de raza de 100 m cu care a fost antrenat. Soluția Recogni își poate extrapola, de asemenea, învățarea cu date din timpul zilei la performanța pe timp de noapte (Figura 2).

Figura 2: Stack-ul de percepție al lui Recogni instruit pe datele din timpul zilei funcționează și la un nivel de lumină mai scăzut ... [+] conditii de noapte

Recunoaște

PUBLICITATE

Potrivit domnului Anand, datele privind intervalul sunt precise cu 5% (la intervale lungi) și aproape de 2% (la intervale mai scurte). Soluția oferă 1000 TOPS (trilioane de operații pe secundă) cu o latență de 6 ms și un consum de energie de 25 W (40 TOPS/W), ceea ce este lider în industrie. Concurenții care folosesc matematica cu numere întregi sunt de > 10 ori mai mici în această valoare. Soluția Recogni este în prezent în încercare la mai mulți furnizori auto Tier 1.

Profeți („prevedere și vedea unde este acțiunea”), cu sediul în Franța, își folosește camerele bazate pe evenimente pentru AV-uri, sisteme avansate de asistență pentru șofer (ADAS), automatizări industriale, aplicații pentru consumatori și asistență medicală. Fondată în 2014, the compania și-a închis recent finanțarea rundei C de 50 de milioane de dolari, cu un total de 127 milioane USD strânși până în prezent. Xiaomi, un producător de top de telefoane mobile, este unul dintre investitori. Scopul lui Prophesee este de a emula viziunea umană în care receptorii din retină reacţionează la informaţia dinamică. Creierul uman se concentrează pe procesarea modificărilor din scenă (în special pentru conducere). Ideea de bază este să folosiți arhitecturi de cameră și pixeli care detectează modificări ale intensității luminii peste un prag (un eveniment) și furnizează doar aceste date stivei de calcul pentru procesare ulterioară. Pixelii funcționează asincron (nu încadrați ca în camerele CMOS obișnuite) și la viteze mult mai mari, deoarece nu trebuie să integreze fotoni ca într-o cameră convențională bazată pe cadru și să aștepte ca întregul cadru să termine acest lucru înainte de citirea datelor. Avantajele sunt semnificative – lățime de bandă de date mai mică, latență de decizie, stocare și consum de energie. Primul senzor de viziune VGA de calitate comercială bazat pe evenimente al companiei a prezentat o gamă dinamică ridicată (>120 dB), un consum redus de energie (26 mW la nivelul senzorului sau 3 nW/eveniment). De asemenea, a fost lansată o versiune HD (înaltă definiție) (dezvoltată în comun cu Sony), cu dimensiunea pixelilor lider în industrie (< 5 μm).

Figura 3: Senzor de imagine bazat pe evenimente în format de înaltă definiție cu pas de pixeli de 5 um, dezvoltat în comun ... [+] cu Sony

Profeți

PUBLICITATE

Acești senzori formează nucleul platformei de detectare Metavision®, care utilizează AI pentru a oferi o percepție inteligentă și eficientă pentru aplicațiile de autonomie și este în curs de evaluare de către mai multe companii din spațiul de transport. În afară de percepția orientată spre înainte pentru AV și ADAS, Prophesee este implicat activ cu clienții pentru monitorizarea în cabină a șoferului pentru aplicațiile L2 și L3, vezi Figura 4:

Figura 4: Monitorizarea șoferului XPERI în cabină bazată pe viziunea neuromorfă inspirată de numan

Profeți

Oportunitățile auto sunt profitabile, dar ciclurile de proiectare sunt lungi. În ultimii doi ani, Prophesee a observat un interes și tracțiune semnificative în spațiul de viziune artificială pentru aplicații industriale. Acestea includ numărarea de mare viteză, inspecția suprafeței și monitorizarea vibrațiilor.

PUBLICITATE

Figura 5: Număr mare folosind camere bazate pe evenimente

Profeți

Prophesee a anunțat recent colaborări cu dezvoltatori de top de sisteme de viziune artificială pentru a exploata oportunitățile în automatizarea industrială, robotică, auto și IoT (Internet of Things). Alte oportunități imediate sunt corectarea încețoșării imaginii pentru telefoanele mobile și aplicațiile AR/VR. Acestea folosesc senzori cu format mai mic decât cei utilizați pentru oportunitățile ADAS/AV pe termen lung, consumă și mai puțină energie și funcționează cu o latență semnificativ mai mică.

Israelul este un inovator de top în domeniul tehnologiei înalte, cu investiții semnificative de risc și un mediu activ de start-up. Din 2015, au avut loc aproximativ 70 de miliarde de dolari în investiții conduse de riscuri în sectorul tehnologiei. O parte din aceasta este în zona viziunii computerizate. Mobileye a fost vârful de lance a acestei revoluții în 1999, când Amnon Shashua, un cercetător de top în domeniul inteligenței artificiale la Universitatea Ebraică, a fondat compania pentru a se concentra pe percepția bazată pe cameră pentru ADAS și AV-uri. Compania a depus o IPO în 2014 și a fost achiziționată de IntelINTC
în 2017 pentru 15 miliarde de dolari. Astăzi, este cu ușurință jucătorul lider în domeniul vederii computerizate și AV și recent și-a anunțat intenția de a depune o IPO și să devină o entitate independentă. Mobileye a avut venituri de 1.4 miliarde USD/an și pierderi modeste (75 milioane USD). Oferă capacități de viziune computerizată pentru 50 de producători de automobile care le implementează pe 800 de modele de mașini pentru capabilități ADAS. În viitor, intenționează să conducă în autonomia vehiculului L4 (nu este nevoie de șofer) folosind această expertiză în viziunea computerizată și capabilitățile LiDAR bazate pe platforma fotonică de siliciu a Intel. Evaluarea Mobileye este estimată la ~ 50 de miliarde de dolari atunci când acestea vor fi în cele din urmă la bursă.

PUBLICITATE

Capitala Champel, cu sediul în Ierusalim, este în fruntea investițiilor în companii care dezvoltă produse bazate pe viziune computerizată pentru diverse aplicații, de la transport și agricultură până la securitate și siguranță. Amir Weitman este co-fondator și partener de conducere și și-a început compania de risc în 2017. Primul fond a investit 20 de milioane de dolari în 14 companii. Una dintre investițiile lor a fost în Innoviz, care a devenit publică printr-o fuziune SPAC în 2018 și a devenit un unicorn LiDAR. Condus de Omer Keilaf (care provine din unitatea de tehnologie a Corpului de Informații al Forței de Apărare Israelului), compania este astăzi lider în implementările LiDAR pentru ADAS și AV-uri, cu mai multe victorii în design la BMW și Volkswagen.

Al doilea fond al Champel Capital (Impact Deep Tech Fund II) a fost inițiat în ianuarie 2022 și a strâns până în prezent 30 de milioane de dolari (ținta este de 100 de milioane de dolari până la sfârșitul lui 2022). Un accent dominant este pe viziunea computerizată, cu 12 milioane USD dislocați în cinci companii. Trei dintre acestea folosesc viziunea computerizată pentru transport și robotică.

TankU, cu sediul în Haifa, a început operațiunile în 2018 și a strâns fonduri de 10 milioane USD. Dan Valdhorn este CEO și este absolvent al Unității 8200, un grup de elită de înaltă tehnologie din cadrul Forțelor de Apărare Israeliene responsabil pentru informațiile de semnal și decriptarea codului. Produsele SaaS (Software as a Service) TankU automatizează și securizează procesele în medii exterioare complexe care deservesc vehicule și șoferi. Aceste produse sunt folosite de proprietarii de flote de vehicule, mașini private, stații de alimentare și de încărcare electrică pentru a preveni furtul și frauda în tranzacțiile financiare automate. Serviciile de carburanți pentru vehicule generează anual venituri globale de aproximativ 2 miliarde USD, dintre care proprietarii de flote de vehicule private și comerciale consumă 40% sau 800 miliarde USD. Comercianții cu amănuntul și proprietarii de flote pierd anual aproximativ 100 de miliarde de dolari din cauza furtului și fraudei (de exemplu, folosind un card de combustibil pentru flote pentru vehicule private neautorizate). Frauda CNP (Card nu este prezent) și manipularea/furtul de combustibil sunt surse suplimentare de pierdere, în special atunci când se utilizează detaliile cardului furat în aplicațiile mobile pentru plăți.

PUBLICITATE

Produsul TUfuel al companiei facilitează plata sigură cu o singură atingere, blochează majoritatea tipurilor de fraudă și alertează clienții atunci când suspectează fraudă. Face acest lucru pe baza unui motor AI antrenat pe date de la CCTV-urile existente în aceste facilități și pe date de tranzacții digitale (inclusiv POS și alte date back-end). Parametri precum traiectoria și dinamica vehiculului, ID-ul vehiculului, timpul de călătorie, kilometrajul, timpul de alimentare, cantitatea de combustibil, istoricul combustibilului și comportamentul șoferului sunt câteva atribute monitorizate pentru a detecta frauda. Aceste date ajută, de asemenea, comercianții să optimizeze funcționarea site-ului, să sporească loialitatea clienților și să implementeze instrumente de marketing bazate pe viziune. Potrivit CEO-ului Dan Valdhorn, soluția lor detectează 70% din flotă, 90% din cardurile de credit și 70% din evenimentele de fraudă legate de falsificare.

Figura 6: TUfuel utilizează date în timp real de la camerele CCTV ale stațiilor de alimentare și alte date digitale de la ... [+] Punctul de service și activitățile aplicațiilor mobile

TankU

Sonol este o companie de servicii energetice care deține și operează o rețea de 240 de stații și magazine universale în Israel. TUfuel este implementat pe site-urile lor și a demonstrat securitate sporită, prevenirea fraudei și loialitatea clienților. Testele produselor sunt în curs de desfășurare în SUA, în colaborare cu un furnizor mondial de top de benzinării și echipamente pentru magazine. Inițiative similare sunt în curs de desfășurare și în Africa și Europa.

PUBLICITATE

cu sediul în Tel-Aviv ITC a fost fondată în 2019 de către cadre universitare de învățare automată de la Universitatea Ben-Gurion. ITC creează produse SaaS care „Măsurați fluxul de trafic, anticipați aglomerația și atenuați-o printr-o manipulare inteligentă a semafoarelor – înainte ca blocajele să înceapă să se formeze.” Similar cu TankU, folosește date de la camerele disponibile (deja instalate la numeroase intersecții de trafic) pentru a obține date de trafic în direct. Sunt analizate date de la mii de camere dintr-un oraș, iar parametri precum tipul vehiculului, viteza, direcția de mișcare și secvența tipurilor de vehicule (camioane vs. mașini) sunt extrași prin aplicarea algoritmilor AI proprietari. Simulările prevăd fluxul de trafic și situațiile potențiale de blocaj de trafic cu până la 30 de minute înainte. Semafoarele sunt reglate folosind aceste rezultate pentru a fluidiza fluxul de trafic și pentru a preveni blocajele.

Figura 7: Datele de la mii de camere sunt compilate de un VMS în cadrul unui control al traficului administrat de un oraș ... [+] cameră. Serverele ITC prelucrează aceste date prin algoritmi AI instruiți pentru a controla semafoarele

ITC

Antrenarea sistemului AI necesită o lună de date vizuale într-un oraș tipic și implică o combinație de învățare supravegheată și nesupravegheată. Soluția ITC este deja implementată în Tel-Aviv (locul 25 în cele mai aglomerate orașe din lume în 2020), cu mii de camere instalate în sute de intersecții controlate de semafoare. Sistemul ITC gestionează în prezent 75 de vehicule, care se așteaptă să continue să crească. Compania instalează un capacitate similară în Luxemburg și începe studiile în marile orașe din SUA. La nivel global, soluția sa gestionează 300,000 de vehicule cu locații de operare în Israel, SUA, Brazilia și Australia. Dvir Kenig, CTO, este pasionat de rezolvarea acestei probleme – să ofere oamenilor timpul personal înapoi, să reducă gazele cu efect de seră, să sporească productivitatea generală și, cel mai important, să reducă accidentele la intersecțiile aglomerate. Potrivit domnului Kenig, „Implementările noastre demonstrează o reducere cu 30% a ambuteiajelor, reducând timpul neproductiv de condus, stresul, consumul de combustibil și poluarea.”

PUBLICITATE

Robotică de interior a fost fondată în 2018 și recent a strâns fonduri de 18 milioane USD. Compania, cu sediul în apropiere de Tel-Aviv, Israel, dezvoltă și vinde soluții de drone autonome pentru securitatea interioară, siguranța și monitorizarea întreținerii. CEO-ul și co-fondatorul, Doron Ben-David, are o experiență semnificativă în robotică și aeronautică acumulată la IAIIAI
(un antreprenor principal de apărare) și MAFAT (o organizație de cercetare avansată din cadrul Ministerului israelian al Apărării), care este similar cu DARPA din Statele Unite. Investițiile în creștere în clădiri inteligente și piețe de securitate comercială alimentează nevoia de sisteme autonome care să poată utiliza viziunea computerizată și alte intrări senzoriale în spații comerciale interioare mici și mari (birouri, centre de date, depozite și spații comerciale). Indoor Robotics vizează această piață utilizând drone de interior echipate cu camere standard și senzori termici și infraroșii.

Figura 8: Flota de drone autonome a Robotics de interior se poate alimenta singură printr-un tavan montat ... [+] țiglă de andocare. Tando Control Bridge prelucrează datele și controlează calea de zbor

Robotică de interior

Ofir Bar-Levav este Chief Business Officer. El explică că lipsa GPS-ului a împiedicat dronele de interior să se localizeze în interiorul clădirilor (de obicei, GPS-ul refuzat sau inexact). În plus, lipseau soluțiile de andocare și alimentare convenabile și eficiente. Indoor Robotics abordează acest lucru cu patru camere montate pe drone (sus, jos, stânga, dreapta) și senzori de rază simplă care cartografiază cu precizie un spațiu interior și conținutul acestuia. Datele camerei (camere oferă date de localizare și cartografiere) și senzorii termici (montați și pe dronă) sunt analizate de un sistem AI pentru a detecta potențiale probleme de securitate, siguranță și întreținere și avertiza clientul. Dronele se alimentează prin intermediul unei „plăci de andocare” montată pe tavan, care economisește spațiu valoros pe podea și permite colectarea datelor în timpul încărcării. Avantajele financiare ale automatizării acestor procese banale în care munca umană este complexă și costisitoare în ceea ce privește recrutarea, reținerea și formarea sunt evidente. Utilizarea dronelor aeriene față de roboții de la sol are, de asemenea, avantaje semnificative în ceea ce privește capitalul și costurile de operare, o mai bună utilizare a spațiului de pe podea, libertatea de mișcare fără a întâmpina obstacole și eficiența captării datelor camerei. Potrivit domnului Bar-Levav, TAM (Total Addressable Market) de la Indoor Robotics în sistemele de securitate inteligente de interior va fi de 80 de miliarde de dolari până în 2026. Locațiile cheie ale clienților de astăzi includ depozite, centre de date și campusuri de birouri ale unor corporații globale de top.

PUBLICITATE

Viziunea computerizată revoluționează jocul autonomiei – în automatizarea mișcărilor, securitate, monitorizarea clădirilor inteligente, detectarea fraudelor și gestionarea traficului. Puterea semiconductoarelor și a IA sunt factori puternici de activare. Odată ce computerele stăpânesc această modalitate senzorială incredibilă într-un mod scalabil, posibilitățile sunt nesfârșite.

Sursa: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/