indietro

10/02/2020 BIG DATA - L'elaborazione dei Big Data

Il documento è riservato agli abbonati

Per qualsiasi informazione inerente i prezzi o le modalità di effettuazione del servizio, contatta l'agente di zona oppure scrivi a info@entionline.it
o telefona allo 030/2531939.

La filiera dei Big Data - L’elaborazione dei Big Data

Come riconosciuto dagli esperti sentiti nelle audizioni svolte nell’ambito della presente indagine,i dati isolatamente considerati hanno poco valore, ma lo acquisiscono quando sono organizzati. Per tale ragione riveste un ruolo centrale nell’intera filiera dei Big Data la fase della elaborazione, che comporta l’organizzazione dei dati grezzi non strutturati in informazioni suscettibili di essere utilizzate per finalità economiche. L’attività di analisi, infatti, consente di estrarre velocemente conoscenza da grandi moli di dati non strutturati così da ottenere informazioni possibilmente in un formato compatto e facilmente interpretabile.

Dopo una iniziale fase di estrazione -durante la quale i dati vengono reperiti dalle diverse fonti disponibili, selezionati e caricati nella memoria del sistema di elaborazione- ed una successiva integrazione di tutte le informazioni che si riferiscono agli stessi elementi o domini applicativi, interviene la vera e propria analisi dei dati, che avviene per il tramite di tecniche di analisi e strumenti capaci di far emergere dai dati grezzi non strutturati informazioni suscettibili di interpretazione e utilizzo pratico.

In linea generale, le tecniche di analisi consistono per lo più in algoritmi tra i quali si distinguono quelli di interrogazione e quelli di apprendimento. Mentre i primi mirano a rispondere a delle richieste precise da parte degli utenti poste in forma di interrogazioni, i secondi invece mirano ad estrarre nuova conoscenza, nuove tesi e si avvalgono di tecniche avanzate di Intelligenza Artificiale come il machine learning.

La caratteristica di questi algoritmi, il cui funzionamento evolve in base all’esperienza acquisita, è di essere variabili nel tempo, anche con elevata velocità. Inoltre la tendenza ad ottimizzare i modelli computati sulla base dei dati analizzati, li rende sempre più precisi ed accurati. Tali peculiarità rendono gli algoritmi di machine learning dotati di una certa“autonomia” di comportamento. Ad esempio, a livello teorico è stato dimostrato come gli algoritmi di pricing dinamico basati sull’intelligenza artificiale e sui Big Data possono portare a fenomeni di collusione tacita, proprio grazie all’apprendimento iterato che ne ottimizza il funzionamento e il modello di pricing adottato.

Benché generalmente gli algoritmi di analisi dei Big Data siano pubblicamente disponibili, quelli effettivamente utilizzati dai singoli operatori finiscono per essere individualizzati e restano sconosciuti ai terzi, se non a grandi linee, giacché ciascun operatore può rilasciare versioni proprietarie attraverso un processo di reingegnerizzazione dei metodi esistenti, così da personalizzare le implementazioni degli algoritmi esistenti e nascondere i dettagli del loro funzionamento agli utilizzatori.

L’implementazione degli algoritmi a sua volta richiede modelli informatici di calcolo che coinvolgono risorse hardwaree al softwareche nel sempre più diffuso modello del cloud computing36sono disponibili in data center remotie vengono rilasciate rapidamente e in modo dinamico agli utenti, che le condividono.

Proprio l’“intelligenza” delle tecniche di analisi, unitamente alla voluminosità e varietà dei dati, sta facendo emergere una importante innovazione nel processo di estrazione della conoscenza. Nel nuovo paradigma analitico, cosiddetto data driven, i dati concorrono non solo a verificare ipotesi teoriche con tecniche statistiche, ma anche a esplorare nuovi scenari e ricavare nuove teorie, nonché, più in generale, a scoprire nuova conoscenza attraverso gli algoritmi di intelligenza artificiale. Si tratta di un approccio all’acquisizione delle informazioni e alla generazione di conoscenza del tutto innovativo dal punto di vista metodologico, che riconosce ai dati il ruolo di guida e agli algoritmi il compito di trovare modelli che la metodologia tradizionale forse solo a fatica potrebbe individuare (salvo doverli poi sottoporre a successiva verifica). La portata innovativa è tale che alcuni studiosi parlano di vera e propria rivoluzione scientifica rispetto all’approccio classico “ipotesi, modello, esperimento”.

Nell’ambito di questo nuovo paradigma analitico, i dati appaiono rivestire rilevanza centrale. Infatti –come è stato evidenziato in audizione dai rappresentanti di KDD Lab –“i programmi di intelligenza artificiale [...] apprendono grazie alla disponibilità di un elevatissimo numero di esempi”. Pertanto, il dato, in quanto sorgente di informazione sul fenomeno che si intende studiare, rappresenta l’origine stessa dell’evoluzione degli algoritmi, cosicché è la disponibilità di nuove fonti di dati che consente il miglioramento degli algoritmi impiegati e/o lo sviluppo di nuovi algoritmi.

D’altra parte, anche quando gli algoritmi non mutano nel tempo, il progresso della conoscenza dipende dai dati. Ad esempio, in diversi ambiti (quali le previsioni metereologiche o la traduzione online) i miglioramenti registrati negli ultimi anni sono riconducibili non tanto agli algoritmi, che sostanzialmente non sono mutati rispetto al passato, quanto alla disponibilità di immensi quantitativi di dati, oltre che alla capacità computazionale alquanto più potente.

Infine, va considerato che alcune attività tipiche del contesto digitale hanno senso sotto il profilo economico solo se si basano su una grande quantità e varietà di dati (ad esempio, recommendation system sulla cd. Longtail delle piattaforme di vendita online).

Al riguardo le società dell’ICT sentite in audizione hanno per un verso sottolineato che la valenza dei dati è inversamente proporzionale alla loro genericità, dal momento che, generalmente, il vantaggio nello sviluppo di soluzioni intelligenti ai problemi di un particolare utente deriva proprio dall’analisi dei dati prodotti al suo interno: “[..] i dataset più rilevanti per un’impresa sono quelli che l’impresa crea per sé stessa in quanto essa conosce il contesto nel quale sono stati creati e le finalità per le quali erano creati; le principali innovazioni possono derivare proprio dai dataset costruiti da un’impresa per uso interno, non destinati fin dall’inizio a terzi o al mercato”41. Per altro verso, gli stessi operatori hanno osservato come “la precisione degli algoritmi aumenta con la diversità delle fonti di dati cosicché una fonte di dati debolmente correlata ad un fenomeno può avere un impatto maggiore in termini di miglioramento dell’algoritmo di una fonte più precisa e raffinata strettamente connessa al medesimo fenomeno”.

In ogni caso, i colossi dell’economia digitale (quali Google, Apple, Facebook, Amazon, Microsoft) appaiono godere di un vantaggio rispetto alle imprese dei settori tradizionali dal momento che, oltre a disporre di enormi quantità di dati, si distinguono per cultura e propensione all’investimento, e dunque sono stati i primi a sviluppare gli algoritmi capaci di analizzare grandi volumi di dati e tuttora “innovano e migliorano costantemente la loro capacità di data analytics cercando e acquistando soluzioni computazionali efficienti, risorse umane di eccellenza nonché intere start up innovative”.

Infine, per quanto riguarda le soluzioni per la memorizzazione e l’elaborazione,indispensabili per adottare l’approccio data driven, sembra doversi escludere che i soggetti che non ne dispongono al proprio interno versino in una condizione di svantaggio competitivo, considerata la possibilità di acquisire in outsourcing i servizi di cloud computing, che rende i costi per l’acquisto della capacità di stoccaggio e delle infrastrutture di calcolo sostanzialmente lineari rispetto alle dimensioni dell’attività svolta. Nondimeno occorre considerare che, anche alla luce di quanto emerso nel corso delle audizioni, i soggetti dai quali è allo stato i suddetti servizi sono proprio i grandi operatori dell’ICT, quali Google, Amazon, Microsoft e IBM.

Fonte: Rapporto 2020 AGCOM, AGCM E GARANTE sui Big Data

Categorie

Categorie di trattamenti - forme ordinarie di elaborazione

Big data e Open data

Parole chiave

Filiera

elaborazione

Big Data