Apple ha comprato dati per addestrare sua AI da una fonte controversa

Apple ha acquistato alcuni dei dati utilizzati per addestrare Apple Intelligence, ma un'azienda da cui ha acquistato quei grandi set di dati è accusata di aver rubato in modo discutibile dati dai video di YouTube (senza il consenso dei creatori).

Tutta l'AI generativa funziona accumulando enormi quantità di set di dati per creare Large Language Models (LLM). Le fonti utilizzate per addestrare l'AI sono spesso controverse (ne sa qualcosa Adobe, accusata di aver addestrato la sua AI sui contenuti degli utenti) e Apple ha preferito affidarsi a fonti etiche, pagando milioni di dollari agli editori per accedere legalmente a libri e articoli vari, ma anche per ottenere licenze per immagini da aziende specializzate nella vendita di librerie fotografiche.

Secondo Wired, una delle aziende da cui Apple ha acquistato dati da utilizzare per la sua IA non è stata così accurata come Apple con le sue fonti. L'azienda che ha venduto i dati ad Apple si chiama EleutherAI; quest'ultimo ha creato set di dati che chiama Batterie e che verrebbe utilizzato da Apple per formare i suoi LLM.

Tra i dataset Pile ci sono anche Sottotitoli video di YouTubeottenuti dopo aver scaricato i video dalla piattaforma in questione, senza il permesso dei creatori. Questo modo di agire comporterebbe apparentemente anche una violazione dei Termini di servizio di YouTube, pizttzforma che non consente di scaricare, vendere e concedere in licenza contenuti senza previa autorizzazione scritta (in verità, non c'è molta chiarezza su quest'ultimo aspetto).

Apple ha acquistato dati per addestrare la sua intelligenza artificiale da una fonte controversaApple ha acquistato dati per addestrare la sua intelligenza artificiale da una fonte controversa

Oltre ad Apple, tra le aziende che hanno utilizzato i dataset Pile, c'è anche Antropico (azienda nota per Claudioun concorrente diretto di ChatGpt di OpenAI); un portavoce di quest'ultimo ha sottolineato che c'è una differenza tra l'uso di video e sottotitoli di YouTube. “Pile include un sottoinsieme molto limitato di sottotitoli di YouTube”, ha spiegato Jennifer Martinez. “I Termini di YouTube sono per l'uso diretto della piattaforma, che è distinta dai set di dati di Pile”, aggiungendo che la questione dovrà essere chiarita con gli autori di Pile.

Anche Forza vendita ha confermato di aver utilizzato i set di dati Pile per costruire i suoi modelli di intelligenza artificiale per “scopi accademici e di ricerca”, notando che i dati sono disponibili al pubblico. Gli sviluppatori che lavorano per Salesforce segnalano anche che i set di dati Pile includono parolacce, “pregiudizi di genere e alcuni gruppi religiosi”.

Al momento solo Forza vendita E Antropico hanno commentato la questione dell'utilizzo dei set di dati Pile. Mela, Nvidia, Bloomberg E Mattoni di datitutti coloro che hanno sfruttato questi dati per la loro intelligenza artificiale, non hanno ancora rilasciato alcun commento.

Tutti gli articoli che parlano di Intelligenza Artificiale nella sezione dedicata di macitynet.

Prev Post

La leggenda del Manchester United Dwight Yorke si è schierato per un ruolo di gestione internazionale a sorpresa dopo le dimissioni del precedente capo

Next Post

La Juventus prepara la mossa per Albert Gudmundsson del Genoa