Intelligenza Artificiale, rischiamo di restare senza dati?

The business lady standing between blue monitors in the dark office

Mentre le aziende di intelligenza artificiale continuano a costruire modelli sempre più grandi e migliori, si stanno confrontando con un problema condiviso: prima o poi, Internet non sarà abbastanza grande per fornire tutti i dati di cui hanno bisogno.

Come riporta il Wall Street Journal, alcune aziende stanno cercando fonti alternative di dati per l’addestramento ora che Internet sta diventando troppo limitato, considerando opzioni come trascrizioni video disponibili pubblicamente e persino “dati sintetici” generati dall’IA.

Sebbene ci siano alcune aziende, come Dataology, fondata dall’ex ricercatore di Meta e Google DeepMind Ari Morcos, che stanno cercando modi per addestrare modelli più grandi e intelligenti con meno dati e risorse, la maggior parte delle grandi aziende sta esplorando mezzi di addestramento dei dati innovativi — e controversi.

Ad esempio, OpenAI ha discusso, secondo le fonti del WSJ, di addestrare GPT-5 su trascrizioni di video pubblici di YouTube — anche mentre il proprio direttore tecnico, Mira Murati, lotta per rispondere alle domande su se il suo generatore di video Sora sia stato addestrato utilizzando dati di YouTube.

La soluzione dei dati sintetici

Nel frattempo, i dati sintetici sono stati oggetto di ampio dibattito negli ultimi mesi dopo che i ricercatori hanno scoperto lo scorso anno che addestrare un modello di intelligenza artificiale su dati generati dall’IA sarebbe una forma digitale di “incesto genetico” che alla fine porterebbe a “collasso del modello” o “IA degli Asburgo”.

Alcune aziende, come OpenAI e Anthropic, fondata da OpenAI nel 2021 nel tentativo di costruire un’IA più sicura ed etica rispetto a quelle del loro ex datore di lavoro, stanno cercando di evitarlo creando dati sintetici presumibilmente di qualità superiore — anche se naturalmente, nessuna di esse rivela quali sarebbero esattamente gli ingredienti segreti di questa soluzione.

Infatti, Anthropic ha ammesso quando ha annunciato il suo Claude 3 LLM che il modello è stato addestrato su “dati che generiamo internamente”, e in un’intervista al WSJ, il capo scienziato dell’azienda, Jared Kaplan, ha detto che pensa che ci siano anche buoni casi d’uso per i dati sintetici.

Anche se le preoccupazioni sull’IA che esaurisce i dati sembrano spaventare i ricercatori da tempo, il ricercatore Pablo Villalobos ha detto al giornale che sebbene la sua azienda, Epoch, abbia stimato che l’IA esaurirà dati di addestramento utilizzabili nei prossimi anni, non c’è motivo di panico.

“La più grande incertezza”, ha detto Villalobos, “è quale saranno le scoperte”.

D’altro canto, c’è anche un’altra soluzione ovvia a questo problema creato artificialmente: le aziende di intelligenza artificiale potrebbero semplicemente smettere di cercare di creare modelli sempre più grandi e migliori, dato che oltre alla scarsità di dati di addestramento, utilizzano anche tonnellate di elettricità e costosi chip informatici che richiedono l’estrazione di minerali delle terre rare.