Apocalipsa legală pentru chat AI generativ GPT, dacă este prins plagiând sau încălcând, avertizează etica AI și legea AI

Acordați credit acolo unde este datorat.

Aceasta este un pic de înțelepciune în care probabil ai fost crescut să crezi cu fermitate. Într-adevăr, cineva presupune sau ne imaginăm că am putea fi toți oarecum de acord în mod rezonabil că aceasta este o regulă de bază corectă și sensibilă în viață. Când cineva face ceva care merită recunoaștere, asigurați-vă că primește recunoașterea meritată.

Punctul de vedere contrariant ar părea mult mai puțin convingător.

Dacă cineva s-ar plimba insistând că creditul ar trebui nu să fie recunoscut atunci când creditul este datorat, ei bine, ați putea afirma că o astfel de convingere este nepoliticosă și, posibil, subtilă. Adesea ne trezim deranjați când se înșeală creditul cuiva care a realizat ceva notabil. Îndrăznesc să spun că defavorizăm în special atunci când alții își asumă în mod fals meritul pentru munca altora. Acesta este un dublu zgomot neliniştitor. Persoanei care ar fi trebuit să obțină creditul i se refuză momentul în soare. În plus, șmecherul se bucură de lumina reflectoarelor, deși în mod greșit ne păcălesc să ne însușim afecțiunile favorabile.

De ce tot acest discurs despre obținerea de credit în modurile cele mai corecte și evitarea căilor greșite și disprețuitoare?

Pentru că se pare că ne confruntăm cu o situație dificilă similară atunci când vine vorba de cele mai recente informații din Inteligența Artificială (AI).

Da, afirmațiile sunt că acest lucru se întâmplă în mod demonstrabil printr-un tip de AI cunoscut sub numele de AI generativă. Există o mulțime de mânuiri că AI generativ, cel mai tare AI din știri din aceste zile, și-a luat deja credit pentru ceea ce nu merită să-și ia credit. Și acest lucru este probabil să se înrăutățească pe măsură ce IA generativă devine din ce în ce mai extinsă și utilizată. Din ce în ce mai mult credit care pătrunde AI generativ, în timp ce, din păcate, cei care merită din plin meritul adevărat sunt lăsați în praf.

Modul pe care mi l-am propus de a denota clar acest presupus fenomen este prin intermediul a două expresii captivante:

  • 1) Plagiat la scară
  • 2) Încălcarea drepturilor de autor la scară

Presupun că s-ar putea să cunoști AI generativ datorită unei aplicații AI foarte populare, cunoscută sub numele de ChatGPT, care a fost lansată în noiembrie de OpenAI. Voi spune mai multe despre AI generativ și ChatGPT pentru moment. Stai acolo.

Să ajungem imediat la miezul a ceea ce aduce caprele oamenilor, parcă.

Unii s-au plâns cu ardoare că inteligența artificială generativă poate fura oamenii care au creat conținut. Vedeți, majoritatea aplicațiilor AI generative sunt date antrenate prin examinarea datelor găsite pe Internet. Pe baza acestor date, algoritmii pot perfecționa o vastă rețea internă de potrivire a modelelor în cadrul aplicației AI, care poate produce ulterior conținut aparent nou, care arată uimitor ca și cum ar fi fost conceput de mâna umană, mai degrabă decât o piesă de automatizare.

Această performanță remarcabilă se datorează în mare măsură utilizării conținutului scanat pe Internet. Fără volumul și bogăția conținutului de pe Internet ca sursă pentru instruirea datelor, AI generativă ar fi aproape goală și ar fi de puțin sau deloc interes pentru a fi utilizată. Prin faptul că AI examinează milioane și milioane de documente și texte online, împreună cu tot felul de conținut asociat, potrivirea tiparelor este derivată treptat pentru a încerca să imite conținutul produs de oameni.

Cu cât este mai mult conținut examinat, șansele sunt ca potrivirea modelului să fie mai mult perfecționată și să devină și mai bună la mimica, toate celelalte fiind egale.

Iată atunci întrebarea de un miliard de dolari:

  • Întrebare mare: Dacă dvs. sau alții aveți conținut pe Internet pe care a fost instruit o aplicație AI generativă, făcând acest lucru probabil fără permisiunea dvs. directă și poate în totalitate fără conștientizarea dvs., ar trebui să aveți dreptul la o parte din plăcintă cu privire la orice valoare rezultă din acel antrenament generativ de date AI?

Unii susțin vehement că singurul răspuns corect este Da, în special că acei creatori de conținut uman merită într-adevăr tăierea lor din acțiune. Ideea este că ți-ar fi greu să găsești pe cineva care și-a câștigat cota echitabilă și, mai rău, aproape nimeni nu a primit nicio cotă. Creatorilor de conținut pe internet care au contribuit în mod involuntar și fără să știe, li se refuză, în esență, creditul care le cuvine.

Acest lucru ar putea fi caracterizat ca fiind atroce și scandalos. Tocmai am trecut prin despachetarea înțelepciunii înțelepte conform căreia trebuie acordat credit acolo unde se datorează. În cazul IA generativă, se pare că nu este așa. Regula generală de lungă durată și virtuoasă a creditului pare să fie încălcată cu cruzime.

Uau, spune replica, exagerezi complet și afirmi greșit situația. Sigur, IA generativă a examinat conținutul de pe Internet. Sigur, acest lucru a fost util din abundență ca parte a antrenamentului de date al IA generativă. Desigur, impresionantele aplicații AI generative de astăzi nu ar fi la fel de impresionante fără această abordare considerată. Dar ați mers prea departe când ați spus că creatorilor de conținut ar trebui să li se acorde orice aparență de credit.

Logica este următoarea. Oamenii merg pe Internet și învață lucruri de pe Internet, făcând acest lucru în mod obișnuit și fără nicio agitație în sine. O persoană care citește bloguri despre instalații sanitare și apoi urmărește videoclipuri disponibile gratuit despre repararea instalațiilor sanitare ar putea a doua zi să iasă și să obțină de lucru ca instalator. Trebuie să dea o parte din sumele lor legate de instalații sanitare bloggerului care a scris despre cum să asezăm o chiuvetă? Trebuie să plătească o taxă vloggerului care a realizat videoclipul care prezintă pașii pentru a repara o cadă care curge?

Aproape sigur nu.

Antrenamentul de date al IA generativă este doar un mijloc de dezvoltare a tiparelor. Atâta timp cât rezultatele din IA generativă nu sunt o simplă regurgitare a exact ceea ce a fost examinat, ați putea argumenta în mod convingător că au „învățat” și, prin urmare, nu sunt supuse acordării vreunui credit specific unei anumite surse. Cu excepția cazului în care puteți prinde IA generativă în efectuarea unei regurgitații exacte, indicațiile sunt că IA s-a generalizat dincolo de orice sursă anume.

Niciun credit nu se datorează nimănui. Sau, se presupune, ai putea spune că meritul este pentru toată lumea. Textul colectiv și alte conținuturi ale omenirii care se găsesc pe Internet primesc meritul. Toți primim creditul. Încercarea de a identifica creditul unei anumite surse este lipsită de sens. Fiți bucuroși că AI este avansată și că umanitatea va beneficia. Acele postări de pe Internet ar trebui să se simtă onorate că au contribuit la un viitor de progrese în AI și la modul în care acest lucru va ajuta omenirea pentru eternitate.

Voi avea mai multe de spus despre ambele vederi contrastante.

Între timp, te înclini spre tabăra care spune că creditul este datorat și cu întârziere întârziată pentru cei care au site-uri web pe Internet sau găsești că partea opusă care spune că creatorii de conținut pe internet sunt hotărât nu a fi furat este o postură mai convingătoare?

O enigmă și o ghicitoare, toate împreunate.

Să despachetăm asta.

În coloana de astăzi, voi aborda aceste îngrijorări exprimate că AI generativă plagiază sau poate încalcă drepturile de autor ale conținutului care a fost postat pe Internet (considerat drept drept de proprietate intelectuală sau problemă IP). Ne vom uita la baza acestor nelămuriri. Mă voi referi ocazional la ChatGPT în timpul acestei discuții, deoarece este gorila de 600 de lire a IA generativă, deși rețineți că există o mulțime de alte aplicații AI generative și, în general, se bazează pe aceleași principii generale.

Între timp, s-ar putea să vă întrebați ce este de fapt IA generativă.

Să acoperim mai întâi elementele fundamentale ale inteligenței artificiale generative și apoi putem arunca o privire atentă asupra chestiunii presante la îndemână.

În toate acestea se regăsesc o mulțime de considerente de etică AI și de legislație AI.

Vă rugăm să fiți conștienți de faptul că există eforturi în desfășurare pentru a introduce principiile AI etice în dezvoltarea și implementarea aplicațiilor AI. Un contingent tot mai mare de eticieni ai inteligenței artificiale îngrijorați și de altădată încearcă să se asigure că eforturile de a concepe și adopta IA țin cont de viziunea de a face AI pentru bine si evitarea AI pentru rău. De asemenea, există noi legi propuse pentru AI, care sunt puse în discuție ca potențiale soluții pentru a împiedica eforturile AI să devină dezmembrate cu privire la drepturile omului și altele asemenea. Pentru acoperirea mea continuă și extinsă a eticii AI și a legii AI, consultați linkul aici și linkul aici, Doar pentru a numi câteva.

Dezvoltarea și promulgarea preceptelor de IA etică sunt urmărite pentru a preveni, sperăm, ca societatea să cadă într-o multitudine de capcane care inducă IA. Pentru acoperirea mea a principiilor de etică a ONU AI așa cum au fost concepute și susținute de aproape 200 de țări prin eforturile UNESCO, a se vedea linkul aici. Într-o ordine similară, sunt explorate noi legi AI pentru a încerca să mențină AI pe o chilă uniformă. Una dintre cele mai recente preluari constă într-un set de propuse Declarația drepturilor AI pe care Casa Albă a SUA a eliberat recent pentru a identifica drepturile omului într-o epocă a IA, vezi linkul aici. Este nevoie de un sat pentru a menține AI și dezvoltatorii AI pe calea corectă și pentru a descuraja eforturile intemeiate sau accidentale care ar putea submina societatea.

Voi integra în această discuție considerațiile legate de Etica AI și Legea AI.

Fundamentele AI generative

Cea mai cunoscută instanță de IA generativă este reprezentată de o aplicație AI numită ChatGPT. ChatGPT a apărut în conștiința publicului în noiembrie, când a fost lansat de firma de cercetare AI OpenAI. De când ChatGPT a adunat titluri uimitoare și a depășit uimitor cele cincisprezece minute de faimă alocate.

Bănuiesc că probabil ați auzit de ChatGPT sau poate chiar cunoașteți pe cineva care l-a folosit.

ChatGPT este considerată o aplicație AI generativă deoarece ia ca intrare ceva text de la un utilizator și apoi generează sau produce o ieșire care constă într-un eseu. AI este un generator text-to-text, deși descriu AI-ul ca fiind un generator text-to-essay, deoarece asta clarifică mai ușor pentru ce este folosit în mod obișnuit. Puteți folosi AI generativ pentru a compune compoziții lungi sau îl puteți face să ofere comentarii destul de scurte și concise. Totul este la cererea ta.

Tot ce trebuie să faceți este să introduceți o solicitare, iar aplicația AI va genera pentru dvs. un eseu care încearcă să răspundă la solicitarea dvs. Textul compus va părea ca și cum eseul a fost scris de mâna și mintea omului. Dacă ar fi să introduceți un mesaj care spune „Spune-mi despre Abraham Lincoln”, IA generativă vă va oferi un eseu despre Lincoln. Există și alte moduri de AI generativă, cum ar fi text-to-art și text-to-video. Mă voi concentra aici pe variația text-to-text.

Primul tău gând ar putea fi că această capacitate generativă nu pare atât de mare în ceea ce privește producerea de eseuri. Puteți face cu ușurință o căutare online pe Internet și puteți găsi cu ușurință tone și tone de eseuri despre președintele Lincoln. Dezactivarea în cazul IA generativă este că eseul generat este relativ unic și oferă o compoziție originală mai degrabă decât o imitație. Dacă ar fi să încercați să găsiți eseul produs de inteligență artificială online undeva, este puțin probabil să îl descoperiți.

IA generativă este pregătită în prealabil și folosește o formulare matematică și computațională complexă care a fost creată prin examinarea tiparelor din cuvintele scrise și poveștile de pe web. Ca rezultat al examinării a mii și milioane de pasaje scrise, AI poate scoate noi eseuri și povești care sunt o mizerie a ceea ce a fost găsit. Adăugând diferite funcționalități probabilistice, textul rezultat este destul de unic în comparație cu ceea ce a fost folosit în setul de antrenament.

Există numeroase preocupări cu privire la IA generativă.

Un dezavantaj esențial este că eseurile produse de o aplicație AI bazată pe generație pot avea încorporate diverse falsuri, inclusiv fapte vădit neadevărate, fapte care sunt descrise în mod înșelător și fapte aparente care sunt în întregime fabricate. Aceste aspecte fabricate sunt adesea denumite o formă de halucinații AI, o expresie pe care o dezamăgesc, dar, din păcate, pare să câștige popularitate oricum (pentru explicația mea detaliată despre motivul pentru care aceasta este o terminologie proastă și nepotrivită, consultați acoperirea mea la linkul aici).

O altă îngrijorare este că oamenii își pot asuma cu ușurință creditul pentru un eseu generativ produs de inteligență artificială, în ciuda faptului că nu au compus eseul ei înșiși. S-ar putea să fi auzit că profesorii și școlile sunt destul de îngrijorați de apariția aplicațiilor AI generative. Elevii pot folosi AI generativ pentru a scrie eseurile atribuite. Dacă un elev susține că un eseu a fost scris de propria mână, există șanse mici ca profesorul să poată discerne dacă a fost în schimb falsificat de IA generativă. Pentru analiza mea a acestei fațete care confundă elevul și profesorul, consultați acoperirea mea la linkul aici și linkul aici.

Pe rețelele de socializare au existat câteva afirmații exagerate despre AI generativă afirmând că această ultimă versiune a AI este de fapt AI sensibil (nu, au gresit!). Cei din Etica AI și Legea AI sunt îngrijorați în special de această tendință în plină dezvoltare a revendicărilor extinse. Ai putea spune politicos că unii oameni exagerează ceea ce poate face de fapt IA de astăzi. Ei presupun că AI are capacități pe care încă nu le-am putut realiza. Ce păcat. Mai rău încă, ei își pot permite lor și altora să intre în situații îngrozitoare din cauza presupunerii că IA va fi simțitoare sau asemănătoare omului pentru a putea lua măsuri.

Nu antropomorfizați IA.

Dacă procedați astfel, veți fi prins într-o capcană de încredere lipicioasă și dură de a aștepta ca AI să facă lucruri pe care nu le poate realiza. Acestea fiind spuse, cea mai recentă IA generativă este relativ impresionantă pentru ceea ce poate face. Fiți conștienți de faptul că există limitări semnificative pe care ar trebui să le aveți în vedere în mod continuu atunci când utilizați orice aplicație AI generativă.

O ultimă avertizare deocamdată.

Indiferent ce vedeți sau citiți într-un răspuns AI generativ, asta pare pentru a fi transmis ca fiind pur faptice (date, locuri, oameni etc.), asigurați-vă că rămâneți sceptici și sunteți dispus să verificați din nou ceea ce vedeți.

Da, datele pot fi inventate, locurile pot fi inventate, iar elementele la care de obicei ne așteptăm să fie fără reproș sunt toate supus suspiciunilor. Nu credeți ceea ce citiți și păstrați un ochi sceptic atunci când examinați eseuri sau rezultate generative de AI. Dacă o aplicație generativă de inteligență artificială vă spune că Abraham Lincoln a zburat prin țară cu avionul său privat, ați ști fără îndoială că acest lucru este malarky. Din păcate, unii oameni s-ar putea să nu realizeze că avioanele cu avioane nu existau pe vremea lui sau s-ar putea să știe, dar să nu observe că eseul face această afirmație nespusă și scandalos de falsă.

O doză puternică de scepticism sănătos și o mentalitate persistentă de neîncredere vor fi cel mai bun atu al tău atunci când folosești IA generativă.

Suntem gata să trecem la următoarea etapă a acestei elucidări.

Internetul și inteligența artificială generativă sunt împreună

Acum că aveți o imagine a ceea ce este IA generativă, putem explora întrebarea enervantă dacă IA generativă „exploatează” în mod corect sau nedrept, sau ar spune unii ostentativ exploatând Conținut de internet.

Iată cele patru subiecte esențiale ale mele relevante pentru această chestiune:

  • 1) Problemă dublă: plagiat și încălcarea drepturilor de autor
  • 2) Încercarea de a dovedi plagiatul sau încălcarea drepturilor de autor va fi încercată
  • 3) Aducerea cazului pentru plagiat sau încălcarea drepturilor de autor
  • 4) Așteaptă mine legale

Voi acoperi fiecare dintre aceste subiecte importante și voi oferi considerații perspicace la care toți ar trebui să le gândim cu atenție. Fiecare dintre aceste subiecte este o parte integrantă a unui puzzle mai mare. Nu te poți uita la o singură bucată. Nici nu poți privi nicio piesă separat de celelalte piese.

Acesta este un mozaic complicat și întregului puzzle trebuie să i se acorde o atenție armonioasă adecvată.

Problemă dublă: plagiat și încălcarea drepturilor de autor

Problema dublă cu care se confruntă cei care produc și lansează IA generativă este că produsele lor ar putea face două lucruri rele:

  • 1) Plagiat. IA generativă ar putea fi interpretată ca plagiat conținut care există pe Internet conform scanării pe Internet care a avut loc în timpul antrenamentului de date al AI.
  • 2) Încălcarea drepturilor de autor. IA generativă ar putea fi revendicată ca întreprindere încălcarea drepturilor de autor asociat cu conținutul de Internet care a fost scanat în timpul instruirii datelor.

Pentru a clarifica, există mult mai mult conținut pe Internet decât este de obicei scanat pentru antrenamentul de date al IA generativă. Doar o mică parte din Internet este de obicei folosită. Astfel, putem presupune că orice conținut care nu a fost scanat în timpul antrenamentului de date nu are nicio țesătură specială cu AI generativă.

Acest lucru este oarecum discutabil, deoarece ați putea trage o linie care să conecteze alt conținut care a fost scanat cu conținutul care nu a fost scanat. De asemenea, o altă condiție importantă este că, chiar dacă există conținut care nu a fost scanat, acesta ar putea fi argumentat ca fiind plagiat și/sau încălcat drepturile de autor, dacă rezultatele AI generative aterizează probabil pe același verb. Ideea mea este că există multă mizerie în toate acestea.

Linia de fund: Inteligența artificială generativă este plină de potențiale dificultăți legale în materie de etică și de lege AI atunci când vine vorba de plagiat și încălcarea drepturilor de autor care stau la baza practicilor predominante de formare a datelor.

Până acum, producătorii de AI și cercetătorii AI au patinat prin acest lucru aproape fără scot, în ciuda sabiei care se profilează și atârnă precar care atârnă deasupra lor. Doar câteva procese au fost lansate până în prezent împotriva acestor practici. Este posibil să fi auzit sau văzut articole de știri despre astfel de acțiuni legale. Unul, de exemplu, implică firmele de text-to-image ale Midjourney și Stability AI pentru încălcarea conținutului artistic postat pe internet. Un altul implică încălcarea text-to-code împotriva GitHub, Microsoft și OpenAI din cauza software-ului Copilot care produce aplicații AI. Getty Images și-a propus, de asemenea, să urmărească Stability AI pentru încălcarea text-to-image.

Puteți anticipa că vor fi depuse mai multe astfel de procese.

În acest moment, este puțin șanse să lansăm acele procese, deoarece rezultatul este relativ necunoscut. Va fi instanța de partea creatorilor de inteligență artificială sau cei care cred că conținutul lor a fost exploatat pe nedrept vor fi învingătorii? O bătălie juridică costisitoare este întotdeauna o problemă serioasă. Cheltuirea costurilor legale la scară largă trebuie să fie cântărită în raport cu șansele de câștig sau de pierdere.

Creatorii de AI s-ar părea că nu au de ales decât să lupte. Dacă ar ceda, chiar și puțin, șansele sunt că ar rezulta un torent de procese suplimentare (în esență, deschizând ușa șanselor sporite ca și alții să prevaleze). Odată ce există sânge legal în apă, rechinii legali rămași se vor grăbi la „scorul ușor” considerat și va avea loc cu siguranță o baie de sânge bătută și bătută.

Unii cred că ar trebui să adoptăm noi legi AI care să-i protejeze pe producătorii de AI. Protecția ar putea fi chiar retroactivă. Baza pentru aceasta este că, dacă vrem să vedem progrese generative ale AI, trebuie să oferim producătorilor de AI o zonă sigură. Odată ce procesele încep să obțină victorii împotriva producătorilor de AI, dacă se întâmplă acest lucru (nu știm încă), îngrijorarea este că IA generativă se va evapora, deoarece nimeni nu va fi dispus să sprijine firmele de AI.

După cum s-a subliniat cu pricepere într-un articol recent de Bloomberg Law intitulat „ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI” de Dr. Ilia Kolochenko și Gordon Platt, Bloomberg Law, februarie 2023, iată două fragmente vitale care fac ecou aceste puncte de vedere:

  • „O dezbatere aprinsă se dezlănțuie acum între jurnaliștii din SUA și profesorii de drept al proprietății intelectuale cu privire la dacă răzuirea neautorizată și utilizarea ulterioară a datelor protejate prin drepturi de autor echivalează cu o încălcare a drepturilor de autor. Dacă punctul de vedere al practicienilor din domeniul juridic care văd încălcări ale drepturilor de autor într-o astfel de practică prevalează, utilizatorii unor astfel de sisteme AI pot fi, de asemenea, răspunzători pentru încălcarea secundară și pot fi confruntați cu ramificații legale.”
  • „Pentru a aborda în mod cuprinzător această provocare, parlamentarii ar trebui să ia în considerare nu doar modernizarea legislației existente privind drepturile de autor, ci și implementarea unui set de legi și reglementări specifice IA”.

Amintiți-vă că, ca societate, am instituit protecții legale pentru expansiune a Internetului, așa cum este martor acum de către Curtea Supremă care revizuiește celebra sau infama Secțiune 230. Astfel, se pare că am putea fi dispuși să facem niște protecții asemănătoare pentru dezvoltarea IA generativă. Poate că protecțiile ar putea fi stabilite temporar, expirând după ce IA generativă a atins un nivel predeterminat de competență. Alte prevederi de salvgardare ar putea fi elaborate.

În curând voi posta analiza mea despre modul în care evaluarea Curții Supreme și hotărârea finală privind Secțiunea 230 ar putea avea un impact asupra apariției IA generativă. Fii atent pentru acea postare viitoare!

Revenind la opinia exprimată cu strident că ar trebui să acordăm o marjă de libertate inovației tehnologice uimitoare a societății, cunoscută sub numele de IA generativă. Unii ar spune că, chiar dacă pretinsa încălcare a drepturilor de autor are sau are loc, societatea în ansamblu ar trebui să fie dispusă să permită acest lucru în scopurile specifice de a promova IA generativă.

Speranța este că noile legi AI vor fi elaborate cu atenție și adaptate la detaliile asociate cu instruirea datelor pentru AI generativă.

Există o mulțime de contraargumente la această noțiune de a concepe noi legi AI în acest scop. O preocupare este că orice astfel de nouă lege AI va deschide porțile pentru toate tipurile de încălcare a drepturilor de autor. Ne vom regreta ziua în care am permis ca astfel de legi noi AI să aterizeze pe cărți. Indiferent de cât de mult ai încerca să limitezi acest lucru doar la instruirea datelor AI, alții vor găsi în mod ascuns sau inteligent lacune care vor echivala cu o încălcare neîngrădită și rampantă a drepturilor de autor.

Rond și rotund argumentele merg.

Un argument care nu ține în mod special de apă are de-a face cu încercarea de a da în judecată IA în sine. Observați că m-am referit la producătorul AI sau la cercetătorii AI ca la părțile interesate vinovate. Aceștia sunt oameni și companii. Unii sugerează că ar trebui să țintim AI ca parte care urmează să fie dată în judecată. Am discutat pe larg în coloana mea că încă nu atribuim personalitatea juridică AI, vezi linkul aici de exemplu, și astfel astfel de procese care vizează AI în sine ar fi considerate lipsite de sens chiar acum.

Ca un addendum la întrebarea cine sau ce ar trebui dat în judecată, acest lucru aduce în discuție un alt subiect suculent.

Să presupunem că o anumită aplicație AI generativă este concepută de un producător de AI pe care îl vom numi Compania Widget. Compania Widget este de dimensiuni relativ mici și nu are prea multe venituri și nici active. A-i da în judecată nu va aduce probabil marile bogății pe care cineva le-ar putea căuta. Cel mult, ai avea doar satisfacția de a îndrepta ceea ce percepi ca fiind greșit.

Vrei să mergi după peștele mare.

Iată cum va apărea asta. Un producător de AI optează pentru a-și pune AI generativă la dispoziția Big Time Company, un conglomerat major cu tone de aluat și tone de active. Un proces prin care se numește Compania Widget ar avea acum în vedere o țintă mai bună, și anume și denumirea Companiei Big Time. Aceasta este o luptă între David și Goliat de care avocații ar savura. Bineînțeles, Big Time Company va încerca fără îndoială să se dea jos din cârligul de pescuit. Dacă pot face acest lucru este încă o dată o problemă juridică care este incertă și s-ar putea să se înfunde fără speranță în noroi.

Înainte de a ajunge mult mai departe în acest sens, aș dori să pun ceva esențial pe masă despre încălcările susținute ale AI generative din cauza antrenamentului de date. Sunt sigur că îți dai seama intuitiv că plagiatul și încălcarea drepturilor de autor sunt două fiare oarecum diferite. Au multe în comun, deși diferă semnificativ.

Iată o descriere foarte succintă de la Universitatea Duke care explică cele două:

  • „Plagiatul este cel mai bine definit ca utilizarea nerecunoscută a muncii unei alte persoane. Este o problemă etică care implică o cerere de credit pentru munca pe care reclamantul nu a creat-o. Se poate plagia opera altcuiva, indiferent de statutul dreptului de autor al acelei lucrări. De exemplu, este totuși un plagiat să copiați dintr-o carte sau un articol care este prea vechi pentru a fi încă protejat prin drepturi de autor. Este, de asemenea, un plagiat să folosești date preluate dintr-o sursă necunoscută, chiar dacă materialele faptice, cum ar fi datele, s-ar putea să nu fie protejate prin drepturi de autor. Cu toate acestea, plagiatul este ușor de vindecat – citarea corectă a sursei inițiale a materialului.”
  • „Încălcarea dreptului de autor, pe de altă parte, este utilizarea neautorizată a lucrării altuia. Aceasta este o problemă juridică care depinde de faptul dacă lucrarea este sau nu protejată prin drepturi de autor, în primul rând, precum și de detalii precum cât de mult este utilizat și scopul utilizării. Dacă se copiază prea mult dintr-o lucrare protejată sau se copiază într-un scop neautorizat, pur și simplu recunoașterea sursei originale nu va rezolva problema. Numai prin obținerea permisului prealabil de la deținătorul drepturilor de autor se evită riscul unei acuzații de încălcare a dreptului.”

Subliniez importanța acestor două preocupări, astfel încât să vă dați seama că remediile pot diferi în consecință. De asemenea, ambele sunt implicate în considerații care pătrund în etica AI și Legea AI, făcându-le la fel de valoroase de examinat.

Să explorăm un remediu sau o soluție revendicată. Veți vedea că ar putea ajuta una dintre problemele duble, dar nu și pe cealaltă.

Unii au insistat că tot ce trebuie să facă producătorii de AI este să-și citeze sursele. Când IA generativă produce un eseu, includeți doar citate specifice pentru ceea ce este menționat în eseu. Oferiți diverse adrese URL și alte indicații ale conținutului de pe Internet utilizat. Acest lucru ar părea să-i elibereze de rețineri cu privire la plagiat. Eseul produs ar identifica în mod clar ce surse au fost folosite pentru formularea care este produsă.

Există câteva dispute în acea soluție revendicată, dar la un nivel de 30,000 de picioare să spunem că servește ca un remediu semi-satisfăcător pentru dilema plagiatului. După cum sa menționat mai sus în explicația privind încălcarea drepturilor de autor, citarea materialului sursă nu te scoate neapărat din adăpost. Presupunând că conținutul a fost protejat prin drepturi de autor și în funcție de alți factori, cum ar fi cantitatea de material folosită, sabia care așteaptă încălcarea drepturilor de autor poate scădea brusc și definitiv.

Problemă dublă este cuvântul de ordine aici.

Încercarea de a dovedi plagiatul sau încălcarea drepturilor de autor va fi încercată

Incearca-l!

Acesta este refrenul bine uzat pe care l-am auzit cu toții în diferite momente ale vieții noastre.

Știi cum merge. Ai putea pretinde că ceva se întâmplă sau s-a întâmplat. S-ar putea să știți în inima voastră că acest lucru a avut loc. Dar când vine vorba de împingere-versus-împingere, trebuie să ai dovada.

În limbajul de astăzi, trebuie să arătați încasări, cum se spune.

Intrebarea mea pentru tine este aceasta: Cum vom demonstra în mod demonstrabil că IA generativă a exploatat în mod necorespunzător conținutul de pe internet?

Se presupune că răspunsul ar trebui să fie ușor. Cereți sau spuneți AI generativ să producă un eseu. Apoi luați eseul și îl comparați cu ceea ce se găsește pe internet. Dacă găsești eseul, bam, ai inteligența artificială generativă țintuită de zidul proverbial.

Viața pare să nu fie niciodată atât de ușoară.

Imaginați-vă că obținem IA generativă pentru a produce un eseu care conține aproximativ 100 de cuvinte. Ocolim și încercăm să ajungem în toate colțurile și colțurile internetului, căutând acele 100 de cuvinte. Dacă găsim cele 100 de cuvinte, afișate în aceeași ordine exactă și într-un mod identic, se pare că ne-am prins unul fierbinte.

Să presupunem totuși că găsim pe Internet un eseu aparent „comparabil”, deși se potrivește doar cu 80 din cele 100 de cuvinte. Acest lucru pare încă suficient, poate. Dar imaginați-vă că găsim doar un exemplu de 10 cuvinte din cele 100 care se potrivesc. Este suficient pentru a afirma că fie a avut loc plagiat, fie că a avut loc încălcarea drepturilor de autor?

Cenușiul există.

Textul este amuzant așa.

Comparați acest lucru cu circumstanțele text-to-image sau text-to-art. Atunci când AI generativ oferă o capacitate text-to-image sau text-to-art, introduceți o solicitare de text și aplicația AI produce o imagine bazată oarecum pe promptul pe care l-ați furnizat. Imaginea ar putea fi diferită de orice imagine care a fost văzută vreodată pe aceasta sau pe orice altă planetă.

Pe de altă parte, imaginea ar putea să amintească de alte imagini care există. Ne putem uita la imaginea generativă produsă de inteligența artificială și, oarecum, prin instinct, putem spune că arată cu siguranță ca o altă imagine pe care am văzut-o înainte. În general, cel vizual aspectele de comparare și contrast sunt puțin mai ușor de realizat. Acestea fiind spuse, vă rugăm să știți că dezbaterile juridice uriașe asigură ceea ce constituie suprapunerea sau replicarea unei imagini de la alta.

O altă situație similară există și cu muzica. Există aplicații AI generative care vă permit să introduceți un mesaj text, iar rezultatul produs de AI este muzica audio. Aceste capabilități AI de text în audio sau text în muzică abia acum încep să apară. Un lucru pe care vă puteți paria cel mai bun dolar este că muzica produsă de IA generativă va fi examinată cu atenție pentru încălcare. Se pare că știm când auzim încălcarea muzicală, deși din nou aceasta este o problemă juridică complexă, care nu se bazează doar pe modul în care ne simțim cu privire la replicarea percepută.

Permiteți-mi încă un exemplu.

AI generativ text-to-code vă oferă posibilitatea de a introduce un mesaj text, iar AI va produce cod de programare pentru dvs. Apoi puteți utiliza acest cod pentru a pregăti un program de calculator. Puteți utiliza codul exact așa cum a fost generat sau puteți opta pentru a edita și ajusta codul pentru a se potrivi nevoilor dvs. De asemenea, este necesar să vă asigurați că codul este adecvat și funcțional, deoarece este posibil să apară erori și falsități în codul generat.

Prima ta presupunere ar putea fi că codul de programare nu este diferit de text. Este doar text. Sigur, este un text care oferă un scop anume, dar este tot text.

Ei bine, nu tocmai. Majoritatea limbajelor de programare au un format și o structură stricte în raport cu natura declarațiilor de codare ale acelui limbaj. Acesta, într-un sens, este mult mai restrâns decât limbajul natural care curge liber. Sunteți oarecum încadrat în ceea ce privește modul în care sunt formulate declarațiile de codare. De asemenea, secvența și modul în care instrucțiunile sunt utilizate și aranjate sunt oarecum încadrate în casete.

Una peste alta, posibilitatea de a arăta că codul de programare a fost plagiat sau încălcat este aproape mai ușoară decât limbajul natural. Astfel, atunci când o IA generativă merge să scaneze cod de programare pe Internet și mai târziu generează cod de programare, șansele de a argumenta că codul a fost replicat flagrant vor fi relativ mai convingătoare. Nu este un slam dunk, așa că așteaptă-te să se ducă bătălii amare în acest sens.

Ideea mea generală este că vom avea aceleași probleme de etică a IA și de Legea AI cu care se confruntă toate modurile de IA generativă.

Plagiatul și încălcarea drepturilor de autor vor fi problematice pentru:

  • Text-to-text sau text-to-eseu
  • Text-to-image sau text-to-art
  • Text-to-audio sau text-to-muzică
  • Text-to-video
  • Text-to-code
  • Etc

Toate sunt supuse acelorași preocupări. Unele ar putea fi puțin mai ușor de „demonstrat” decât altele. Toți vor avea propria lor varietate de coșmaruri legate de etica AI și legea AI.

Aducerea cazului pentru plagiat sau încălcarea drepturilor de autor

În scopuri de discuție, să ne concentrăm pe IA generativă text-to-text sau text-to-essay. Fac acest lucru parțial din cauza popularității extraordinare a ChatGPT, care este tipul text-to-text de AI generativă. Există o mulțime de oameni care folosesc ChatGPT, împreună cu mulți alții care folosesc diverse aplicații similare AI generative text-to-text.

Știu acele persoane care folosesc aplicații AI generative că se bazează potențial pe plagiat sau pe încălcarea drepturilor de autor?

Pare îndoielnic că o fac.

Aș îndrăzni să spun că ipoteza predominantă este că, dacă aplicația AI generativă este disponibilă pentru utilizare, producătorul AI sau compania care a lansat AI trebuie să știe sau să fie încrezătoare că nu este nimic nefavorabil în ceea ce privește produsele pe care le oferă pentru utilizare. Dacă îl puteți folosi, trebuie să fie deasupra bordului.

Să revedem comentariul meu anterior despre cum vom încerca să dovedim că o anumită IA generativă funcționează pe o bază greșită în ceea ce privește instruirea datelor.

Aș putea adăuga, de asemenea, că, dacă putem surprinde un AI generativ făcând acest lucru, șansele de a le prinde pe ceilalți sunt probabil sporite. Nu spun că toate aplicațiile AI generative ar fi în aceeași barcă. Dar se vor găsi în mări destul de aspre odată ce unul dintre ei este prins de perete.

De aceea, va fi extrem de util să fii cu ochii pe procesele existente. Prima care câștigă în ceea ce privește încălcarea pretinsă, dacă se întâmplă acest lucru, va provoca, eventual, tristețe și tristețe pentru celelalte aplicații AI generative, cu excepția cazului în care o anumită îngustime scapă de problemele mai ample la îndemână. Cei care pierd în ceea ce privește încălcarea reclamată nu înseamnă neapărat că aplicațiile AI generative pot suna și sărbători. S-ar putea ca pierderea să fie atribuită altor factori care nu sunt la fel de relevanți pentru celelalte aplicații AI generative și așa mai departe.

Menționam că dacă luăm un eseu de 100 de cuvinte și încercăm să găsim acele cuvinte exact în aceeași secvență pe Internet, s-ar putea să avem un caz relativ solid pentru plagiat sau încălcarea drepturilor de autor, toate celelalte fiind egale. Dar dacă numărul de cuvinte care se potrivesc este scăzut, am părea că suntem pe gheață subțire.

Aș dori să aprofundez în asta.

Un aspect evident al facerii unei comparații constă în exact aceleași cuvinte în exact aceeași secvență. Acest lucru se poate întâmpla pentru pasaje întregi. Acest lucru ar fi convenabil de observat, aproape ca și cum ar fi fost înmânat nouă pe un platou de argint.

De asemenea, am putea fi suspicioși dacă doar un fragment de cuvinte se potrivește. Ideea ar fi să vedem dacă sunt cuvinte cruciale sau poate cuvinte de completare pe care le putem elimina sau ignora cu ușurință. De asemenea, nu vrem să fim păcăliți de utilizarea cuvintelor la timpul lor trecut sau viitor, sau de altă prostie. Trebuie luate în considerare și acele variații ale cuvintelor.

Un alt nivel de comparație ar fi atunci când cuvintele nu sunt în mod deosebit aceleași cuvinte într-o mare măsură, totuși cuvintele, chiar și într-o stare variată, par să facă în continuare aceleași puncte. De exemplu, un rezumat va folosi adesea cuvinte destul de similare ca sursă originală, dar putem discerne că rezumatul pare bazat pe sursa originală.

Cel mai greu nivel de comparație ar fi bazat pe concepte sau idei. Să presupunem că vedem un eseu care nu are aceleași cuvinte sau cuvinte similare ca bază de comparație, dar esența sau ideile sunt aceleași. Desigur, ajungem într-un teritoriu accidentat. Dacă am spune cu ușurință că ideile sunt protejate îndeaproape, am pune un capac asupra aproape tuturor formelor de cunoaștere și de extindere a cunoștințelor.

Ne putem referi din nou la o explicație utilă de la Universitatea Duke:

  • „Dreptul de autor nu protejează ideile, ci doar expresia specifică a unei idei. De exemplu, o instanță a decis că Dan Brown nu a încălcat drepturile de autor ale unei cărți anterioare atunci când a scris Codul lui Da Vinci pentru că tot ceea ce a împrumutat din lucrarea anterioară au fost ideile de bază, nu specificul complotului sau dialogului. Deoarece drepturile de autor sunt menite să încurajeze producția creativă, utilizarea ideilor altcuiva pentru a crea o lucrare nouă și originală susține scopul dreptului de autor, nu îl încalcă. Numai dacă unul copiază expresia altuia fără permisiune, dreptul de autor poate fi încălcat.”
  • „Pentru a evita plagiatul, pe de altă parte, trebuie să recunoaștem sursa chiar și a ideilor care sunt împrumutate de la altcineva, indiferent dacă expresia acelor idei este împrumutată cu ele. Astfel, o parafrază necesită citare, chiar dacă rareori ridică vreo problemă de drepturi de autor.”

Vă rugăm să rețineți, așa cum a fost identificat mai devreme, diferențele dintre fațetele duble de probleme.

Acum, punerea în practică a abordărilor de comparație este ceva care are loc de mulți ani. Gândește-te așa. Elevii care scriu eseuri pentru tema școlii ar putea fi tentați să ia conținut de pe Internet și să pretindă că sunt autorii cuvintelor câștigătoare a premiului Pulitzer de clasa A.

Profesorii folosesc programe de verificare a plagiatului de mult timp pentru a face față acestui lucru. Un profesor ia eseul unui elev și îl introduce în verificatorul de plagiat. În unele cazuri, o întreagă școală va autoriza utilizarea unui program de verificare a plagiatului. Ori de câte ori studenții predau un eseu, trebuie mai întâi să trimită eseul la programul de verificare a plagiatului. Profesorul este informat cu privire la ceea ce raportează programul.

Din păcate, trebuie să fii extrem de precaut cu privire la ceea ce au de spus aceste programe de verificare a plagiatului. Este important să evaluăm cu atenție dacă indicațiile raportate sunt valide. După cum sa menționat deja, capacitatea de a stabili dacă o lucrare a fost copiată poate fi neclară. Dacă acceptați fără gânduri rezultatul programului de verificare, puteți acuza în mod fals un student că a copiat atunci când nu a făcut acest lucru. Acest lucru poate fi zdrobitor de suflet.

Mergând mai departe, putem încerca să folosim programe de verificare a plagiatului în domeniul testării rezultatelor AI generative. Tratați eseurile rezultate dintr-o aplicație AI generativă ca și cum ar fi fost scrise de un student. Apoi evaluăm ce spune verificatorul de plagiat. Acest lucru se face cu un bob de sare.

Există un studiu recent de cercetare care a încercat să operaționalizeze aceste tipuri de comparații în contextul IA generativă chiar în acest mod. Aș dori să trec cu tine peste câteva descoperiri interesante.

În primul rând, este necesar un fundal adăugat. AI generativă este uneori denumită LLM (modele de limbaj mari) sau pur și simplu LM (modele de limbaj). În al doilea rând, ChatGPT se bazează pe o versiune a unui alt pachet AI generativ OpenAI numit GPT-3.5. Înainte de GPT-3.5, a existat GPT-3, iar înainte de aceasta a fost GPT-2. În zilele noastre, GPT-2 este considerat destul de primitiv în comparație cu seria ulterioară și cu toții așteptăm cu nerăbdare dezvăluirea viitoare a GPT-4, vezi discuția mea la linkul aici.

Studiul de cercetare pe care vreau să-l explorez pe scurt a constat în examinarea GPT-2. Este important de realizat, deoarece acum suntem mai mult dincolo de capacitățile GPT-2. Nu faceți concluzii neplăcute cu privire la rezultatele acestei analize a GPT-2. Cu toate acestea, putem învăța multe din evaluarea GPT-2. Studiul se intitulează „Modelele lingvistice plagiază?” de Jooyoung Lee, Thai Le, Jinghui Chen și Dongwon Lee, care apar în ACM WWW '23, 1-5 mai 2023, Austin, TX, SUA.

Aceasta este întrebarea lor principală de cercetare:

  • „În ce măsură (fără a se limita la memorare) LM exploatează fraze sau propoziții din mostrele lor de antrenament?”

Ei au folosit aceste trei niveluri sau categorii de potențial plagiat:

  • „Plagiat textual: copii exacte ale cuvintelor sau expresiilor fără transformare.”
  • „Plagiatul parafrazării: înlocuirea sinonimelor, reordonarea cuvintelor și/sau traducerea inversă.”
  • „Plagiatul ideilor: reprezentarea conținutului de bază într-o formă alungită.”

GPT-2 a fost într-adevăr instruit pe date de pe Internet și, prin urmare, un candidat potrivit pentru acest tip de analiză:

  • „GPT-2 este pre-antrenat pe WebText, care conține peste 8 milioane de documente preluate de la 45 de milioane de link-uri Reddit. Deoarece OpenAI nu a lansat public WebText, folosim OpenWebText, care este o recreare open-source a corpus WebText. A fost folosit în mod fiabil de literatura anterioară.”

Constatările cheie selective, extrase din studiu constau în:

  • „Am descoperit că familiile GPT-2 pre-instruite plagiază din OpenWebText.”
  • „Descoperirile noastre arată că reglarea fină reduce semnificativ cazurile de plagiat verbal din OpenWebText.”
  • „În concordanță cu Carlini și colab. și Carlini și colab., constatăm că modelele GPT-2 mai mari (mari și xl) generează în general secvențe plagiate mai frecvent decât cele mai mici.”
  • „Cu toate acestea, diferite LM-uri pot demonstra diferite modele de plagiat și, prin urmare, rezultatele noastre s-ar putea să nu se generalizeze direct la alte LM-uri, inclusiv LM-uri mai recente, cum ar fi GPT-3 sau BLOOM.”
  • „În plus, se știe că detectoarele automate de plagiat au multe moduri de defecțiune (atât în ​​fals negative, cât și fals pozitive).
  • „Având în vedere că majoritatea datelor de instruire ale LM sunt îndepărtate de pe Web fără a informa proprietarii de conținut, reiterarea lor a cuvintelor, frazelor și chiar ideilor de bază din seturile de instruire în textele generate are implicații etice.”

Cu siguranță avem nevoie de mult mai multe studii de acest gen.

Dacă sunteți curios despre cum se compară GPT-2 cu GPT-3 în ceea ce privește antrenamentul de date, există un contrast destul de marcat.

Conform indicațiilor raportate, antrenamentul de date pentru GPT-3 a fost mult mai extins:

  • „Modelul a fost antrenat folosind baze de date text de pe internet. Aceasta a inclus 570 GB de date obținute din cărți, texte web, Wikipedia, articole și alte articole scrise de pe internet. Pentru a fi și mai exact, 300 de miliarde de cuvinte au fost introduse în sistem” (BBC Science Focus revista, „ChatGPT: Tot ce trebuie să știți despre instrumentul GPT-3 al OpenAI” de Alex Hughes, februarie 2023).

Pentru cei dintre voi interesați de descrieri mai aprofundate ale antrenamentului de date pentru GPT-3, iată un extras din cardul oficial de model GPT-3 postat pe GitHub (ultima dată de actualizare listată ca septembrie 2020):

  • „Setul de date de antrenament GPT-3 este compus din text postat pe internet sau din text încărcat pe internet (de exemplu, cărți). Datele de internet pe care a fost instruit și cu care a fost evaluat până în prezent includ: (1) o versiune a setului de date CommonCrawl, filtrată pe baza similarității cu corpuri de referință de înaltă calitate, (2) o versiune extinsă a setului de date Webtext, (3) ) două corpuri de cărți bazate pe internet și (4) Wikipedia în limba engleză.”
  • „Având în vedere datele sale de antrenament, rezultatele și performanța lui GPT-3 sunt mai reprezentative pentru populațiile conectate la internet decât cele cufundate în cultura verbală, non-digitală. Populația conectată la internet este mai reprezentativă pentru țările dezvoltate, opiniile bogate, mai tinere și masculine și este în mare parte centrată pe SUA. Națiunile și populațiile mai bogate din țările dezvoltate prezintă o penetrare mai mare a internetului. Decalajul digital de gen arată, de asemenea, că mai puține femei sunt reprezentate online în întreaga lume. În plus, deoarece diferite părți ale lumii au niveluri diferite de penetrare și acces la internet, setul de date reprezintă subreprezintă comunități mai puțin conectate.”

O concluzie din indicația de mai sus despre GPT-3 este că o regulă generală printre cele care fac IA generativă este că, cu cât poți scana mai multe date de pe Internet, șansele de a îmbunătăți sau de a avansa IA generativă cresc.

Puteți privi acest lucru în oricare dintre două moduri.

  • 1) AI îmbunătățit. Vom avea IA generativă care se târăște pe cât mai mult posibil pe internet. Rezultatul interesant este că IA generativă va fi mai bună decât este deja. Este ceva de așteptat cu nerăbdare.
  • 2) Copierea potențialului din belșug. Această extindere a scanării Internetului face ca problema plagiatului și încălcării drepturilor de autor să fie din ce în ce mai mare. În timp ce înainte nu erau atât de mulți creatori de conținut afectați, dimensiunea va înflori. Dacă sunteți avocat de partea creatorilor de conținut, acest lucru vă aduce lacrimi în ochi (poate lacrimi de consternare sau lacrimi de bucurie la ce perspective aduce acest lucru în ceea ce privește procesele).

Paharul este pe jumătate plin sau pe jumătate gol?

Tu decizi.

Așteaptă mine legale

O întrebare la care ați putea să vă gândiți este dacă conținutul dvs. de internet postat este considerat un joc corect pentru a fi scanat. Dacă conținutul dvs. se află în spatele unui paywall, probabil că nu este o țintă pentru a fi scanat, deoarece nu poate fi atins cu ușurință, în funcție de puterea paywall-ului.

Bănuiesc că majoritatea oamenilor obișnuiți nu au conținutul ascuns în spatele unui paywall. Ei doresc ca conținutul lor să fie disponibil public. Ei presupun că oamenii vor arunca o privire la asta.

A avea conținutul tău disponibil public înseamnă, de asemenea, din punct de vedere axiomatic că aprobi ca acesta să fie scanat pentru a fi utilizat de AI generativ care este instruit pentru date?

Poate ca da poate ca nu.

Este una dintre acele chestiuni legale cu ochii în roti.

Revenind la cele citate mai devreme Legea Bloomberg articol, autorii menționează importanța Termenilor și condițiilor (T&C) asociate cu multe site-uri web:

  • „Mina legală – ignorată în mare măsură de companiile de inteligență artificială care operează roboți online pentru colectarea datelor – este ascunsă în Termenii și condițiile disponibile în mod obișnuit pe site-urile web publice de toate tipurile. Spre deosebire de legea IP nesoluționată în prezent și dilema încălcării drepturilor de autor, Termenii și condițiile unui site web sunt susținute de o lege contractuală bine stabilită și, de obicei, pot fi aplicate în instanță bazându-se pe un număr suficient de precedente.”

Acestea indică faptul că, presupunând că site-ul dvs. are o pagină legată de licență, sunt șanse ca dacă ați folosit un șablon modern standardizat, acesta ar putea conține o clauză crucială:

  • „În consecință, majoritatea Termenilor și condițiilor standard pentru site-uri web – disponibile din abundență în acces gratuit – conțin o clauză care interzice eliminarea automată a datelor. În mod ironic, astfel de șabloane disponibile gratuit au fost posibil folosite pentru instruirea ChatGPT. Prin urmare, proprietarii de conținut ar putea dori să-și revizuiască Termenii și condițiile și să introducă o clauză separată care interzice categoric orice utilizare a oricărui conținut de pe site-uri web pentru instruire AI sau în orice scop conexe, indiferent dacă este colectat manual sau automat, fără permisiunea prealabilă scrisă a proprietarului site-ului. .”

Un kicker adăugat este inclus în analiza lor a potențialelor acțiuni pe care creatorii de conținut le pot întreprinde cu privire la site-urile lor web:

  • „Prin urmare, inserarea unei prevederi executorii de despăgubire lichidată pentru fiecare încălcare a clauzei de interzicere a răzuirii, îmbunătățită cu o prevedere de interdicție fără obligații, poate fi o soluție sustenabilă pentru acei autori de conținut creativ care nu sunt dornici să ofere roadele lor. muncă intelectuală în scopuri de instruire AI fără a fi plătită pentru aceasta sau, cel puțin, să li se acorde un credit corespunzător pentru munca lor.”

Poate doriți să vă consultați avocatul în acest sens.

Unii spun că acesta este o modalitate esențială de a încerca și de a le spune producătorilor de inteligență artificială că creatorii de conținut sunt foarte serioși în a-și proteja conținutul. Asigurându-vă că licențele dvs. au formularea corectă, ar părea să îi anunțați pe producătorii AI.

Alții însă sunt puțin dezamăgiți. Ei spun cu deznădejde că puteți continua să puneți pe site-ul dvs. cel mai dur și mai letal limbaj juridic, dar, în cele din urmă, producătorii AI îl vor scana. Nu vei ști că au făcut asta. Veți avea un diavol de timp să demonstreze că au făcut-o. Este puțin probabil să descoperi că rezultatele lor reflectă conținutul tău. Este o bătălie dificilă pe care nu o vei câștiga.

Contraargumentul este că predați bătălia înainte ca aceasta să fie purtată. Dacă nu aveți cel puțin un limbaj legal suficient și dacă îi prindeți vreodată, ei se vor zgudui și se vor îndrepta spre a scăpa de orice responsabilitate. Totul pentru că nu ai postat limbajul juridic potrivit.

Între timp, o altă abordare care încearcă să câștige tracțiune ar consta în marcare site-ul dvs. cu ceva care spune că site-ul nu trebuie scanat de AI generativă. Ideea este că ar fi conceput un marker standardizat. Site-urile web ar putea să adauge marcatorul pe site-ul lor. Creatorilor de AI li se va spune că ar trebui să-și modifice scanarea datelor pentru a trece peste site-urile web marcate.

Poate o abordare cu markeri să aibă succes? Preocupările includ costurile pentru obținerea și afișarea markerilor. Împreună cu dacă producătorii AI vor respecta marcatorii și se vor asigura că evită scanarea site-urilor marcate. O altă perspectivă este că, chiar dacă producătorii AI nu sunt de acord cu marcajele, acest lucru oferă un alt indiciu revelator pentru a merge în instanță și a susține că creatorul de conținut a parcurs ultima milă pentru a încerca să avertizeze despre scanarea AI.

Da, totul îți face capul să se învârtă.

Concluzie

Câteva observații finale pe acest subiect spinos.

Ești pregătit pentru o perspectivă atrăgătoare asupra întregii AI ca dilemă de plagiator și de încălcare a drepturilor de autor?

O mare parte din ipoteza despre „prinderea” IA generativă în actul de plagiat sau încălcarea drepturilor de autor depinde de descoperirea rezultatelor care seamănă foarte mult lucrări anterioare, cum ar fi conținutul de pe Internet care a fost potențial scanat în timpul instruirii datelor.

Să presupunem totuși că aici se joacă un stratagem împărțiți și cuceriți.

Iată ce vreau să spun.

Dacă inteligența artificială generativă împrumută puțin de aici și puțin de acolo, amestecându-le în cele din urmă împreună pentru a produce orice rezultat anume, șansele de a putea avea un moment de captură sunt extrem de reduse. Orice ieșire nu se va ridica aparent la un prag suficient pentru a putea spune cu siguranță că a fost preluată de la un anumit element sursă. Eseul rezultat sau alte moduri de ieșire vor fi potrivite doar fracțional. Și prin abordarea obișnuită de a încerca să argumentați că a avut loc plagiat sau încălcarea drepturilor de autor, de obicei trebuie să prezentați mai mult decât este în joc o mică parte, mai ales dacă bucata nu este remarcabilă și poate fi găsită pe scară largă pe Internet (subcotare orice sarcină adecvată a dovezii privind însuşirea ilegală).

Mai poți declara în mod convingător că antrenamentul de date prin IA generativă a furat site-uri web și creatorii de conținut, chiar dacă dovada sugerată este o proporție aparent imaterială?

Gandeste-te la asta.

Dacă ne confruntăm cu un potențial plagiat la scară și cu încălcarea drepturilor de autor la scară, ar putea fi necesar să ne modificăm abordarea de a defini ceea ce constituie plagiat și/sau încălcarea drepturilor de autor. Poate că există un caz pentru plagiat sau încălcarea drepturilor de autor în general sau în general. Un mozaic format din mii sau milioane de fragmente minuscule ar putea fi interpretat ca comiterea unor astfel de încălcări. Problema aparentă este însă că acest lucru poate face ca tot felul de conținut să intre brusc sub o umbrelă de încălcări. Aceasta ar putea fi o pantă alunecoasă.

Gânduri grele.

Vorbind despre gânduri puternice, Lev Tolstoi, scriitorul legendar, a declarat celebru: „Singurul sens al vieții este acela de a sluji omenirea”.

Dacă site-ul tău web și site-urile altora sunt scanate pentru îmbunătățirea AI și, deși nu primești nici măcar un ban pentru asta, s-ar putea să ai o consolare solemnă în credința arzătoare că contribui la viitorul umanității? Pare un preț mic de plătit.

Ei bine, cu excepția cazului în care AI se dovedește a fi riscul existențial de temut care șterge toți oamenii din existență. Nu ar trebui să-ți iei credit pentru asta. Presupun că la fel de curând nu ai contribui la acel rezultat groaznic. Lăsând deoparte această predicție dezastruoasă, s-ar putea să vă gândiți că, dacă producătorii de AI câștigă bani din AI lor generativă și par să savureze profitul, ar trebui să luați și voi o bucată din plăcintă. Părţi egale. Producătorii AI ar trebui să ceară permisiunea de a scana orice site web și apoi să negocieze și un preț care trebuie plătit pentru că i s-a permis să efectueze scanarea.

Acordați credit acolo unde este datorat.

Să-i dăm lui Sir Walter Scott ultimul cuvânt deocamdată: „O, ce pânză încâlcită țesem. Când ne exersăm prima dată să înșelăm.”

Poate că acest lucru se aplică dacă credeți că înșelăciunea este în curs, sau poate că nu se aplică dacă credeți că totul este bine și perfect direct și legitim. Vă rog, acordați-vă cu generozitate meritul pentru că v-ați gândit la asta. O meriți.

Sursa: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- si-ai-lege/