L’intelligenza artificiale di ChatGPT è stata addestrata su una vasta quantità di testo proveniente da diverse fonti. L’addestramento di modelli di intelligenza artificiale su larga scala richiede solitamente un team di ricercatori, ingegneri e specialisti del machine learning che collaborano per progettare e sviluppare l’architettura del modello, raccogliere e preparare i dati di addestramento e ottimizzare il processo di apprendimento.
OpenAI, l’organizzazione dietro ChatGPT, ha utilizzato una combinazione di risorse hardware potenti e algoritmi di apprendimento avanzati per addestrare i modelli GPT. L’addestramento di modelli di grandi dimensioni può richiedere settimane o anche mesi, a seconda della complessità del modello, delle dimensioni del set di dati e delle risorse di calcolo disponibili. Tuttavia, senza dati specifici sull’addestramento di ChatGPT, non posso fornire una stima precisa delle persone coinvolte o delle ore impiegate.
Alexej Savreux, un trentaquattrenne di Kansas City, dice di aver svolto vari tipi di lavoro nel corso degli anni. Ha preparato panini in un fast-food, è stato custode e trasportatore di rottami. Ha anche lavorato nel campo dell’audio tecnico per il teatro dal vivo.
Tuttavia, oggigiorno il suo lavoro è meno pratico: è un addestratore di intelligenza artificiale.
Savreux fa parte di un’armata nascosta di lavoratori autonomi che si occupano del lavoro dietro le quinte nell’insegnamento dei sistemi di intelligenza artificiale su come analizzare i dati in modo da generare tipi di testo e immagini che hanno stupito le persone che utilizzano prodotti recentemente popolari come ChatGPT. Per migliorare l’accuratezza dell’IA, ha etichettato foto e ha fatto previsioni su quale testo le app dovrebbero generare successivamente.
La paga è di $15 all’ora o più, senza benefici. Fuori dal clamore dei riflettori, Savreux e altri appaltatori hanno passato innumerevoli ore negli ultimi anni ad insegnare ai sistemi di OpenAI a dare risposte migliori in ChatGPT. Il loro feedback soddisfa un bisogno urgente e infinito dell’azienda e dei suoi concorrenti di intelligenza artificiale: fornire flussi di frasi, etichette e altre informazioni che fungono da dati di formazione.
“Siamo lavoratori subalterni, ma non ci sarebbero sistemi di linguaggio di intelligenza artificiale senza di noi”, ha detto Savreux, che ha lavorato per startup tecnologiche tra cui OpenAI, l’azienda di San Francisco che ha lanciato ChatGPT a novembre e ha suscitato un’ondata di hype intorno all’intelligenza artificiale generativa. “Puoi progettare tutte le reti neurali che vuoi, puoi coinvolgere tutti i ricercatori che vuoi, ma senza etichettatori, non hai ChatGPT. Non hai nulla”, ha detto Savreux.
Non è un lavoro che darà a Savreux fama o ricchezza, ma è essenziale e spesso trascurato nel campo dell’intelligenza artificiale, dove la presunta magia di una nuova frontiera tecnologica può oscurare il lavoro dei lavoratori a contratto.
“Molto del discorso sull’intelligenza artificiale è molto congratulatorio”, ha detto Sonam Jindal, responsabile del programma per l’intelligenza artificiale, il lavoro e l’economia presso il Partnership on AI, un’organizzazione no profit con sede a San Francisco che promuove la ricerca e l’istruzione sull’intelligenza artificiale. “Ma ci stiamo perdendo una grande parte della storia: che questo campo dipende ancora in gran parte da una vasta forza lavoro umana”, ha detto.
OpenAI, l’azienda dietro il chatbot ChatGPT, ha intensificato le assunzioni in tutto il mondo, assumendo circa 1.000 appaltatori remoti negli ultimi sei mesi in regioni come l’America Latina e l’Europa orientale, secondo fonti informate sulla questione. Circa il 60% degli appaltatori è stato assunto per fare ciò che viene chiamato “etichettatura dei dati”: creare enormi insiemi di immagini, registrazioni audio e altre informazioni che possono poi essere utilizzate per addestrare strumenti di intelligenza artificiale o veicoli autonomi.
Il restante 40% sono programmatori informatici che stanno creando dati per i modelli di OpenAI al fine di apprendere compiti di ingegneria del software. Il prodotto esistente di OpenAI, chiamato Codex e lanciato nell’agosto 2021, è progettato per tradurre il linguaggio naturale in codice.
“Una società ben consolidata, determinata a fornire tecnologie AI di classe mondiale per rendere il mondo un luogo migliore ed efficiente, sta cercando uno sviluppatore Python”, si legge in un annuncio di lavoro di OpenAI in spagnolo, pubblicato da un’agenzia di outsourcing.
In precedenza, OpenAI addestrava i suoi modelli su codice prelevato da GitHub, un sito di repository di proprietà del suo maggior investitore, Microsoft, che la scorsa settimana ha confermato miliardi di dollari di nuovi finanziamenti segnalati per la prima volta da Semafor. Ma in questo caso, OpenAI sembra stia costruendo un insieme di dati che include non solo righe di codice, ma anche le spiegazioni umane dietro di esse scritte in linguaggio naturale.