In questo libro imparerai le basi e le tecniche di analisi relative al text mining, ossia l'analisi dei testi, tramite il linguaggio di programmazione per l'analisi dati R. Il text mining è una delle tecniche di analisi dati che ha tratto più benefici dal progredire delle tecniche per la raccolta di dati online e dallo sviluppo del web. Infatti, i dati in forma di testo sono estremamente importanti per tutta una serie di analisi, dalla ricerca ed estrazione d'informazione, alla classificazione automatica di un testo, all'estrazione di concetti, alle traduzioni automatiche
Partiremo quindi da un veloce ripasso dei concetti di base di R, ripassando le strutture e la creazione di funzioni, per poi passare a una panoramica generale sulle tecniche di text mining e le fasi del processo di analisi
Vedremo quali sono le fasi per preprocessare, normalizzare i testi e preparare un testo per l'analisi con R, per poi passare all'utilizzo di pacchetti specifici, come tm
Imparerai poi a classificare un corpus di testi tramite il machine learning, grazie a metodi supervisionati, come la regressione logistica, il Naïve Bayes, il k-nn, il Support Vector Machine, gli alberi di decisione e i network neurali
Passeremo poi ai metodi non supervisionati come il clustering, per poi vedere alcuni esempi di topic models e allocazione latente di Dirichlet, e vedremo come creare un account su Twitter, ed estrarre e analizzare i tweet
Imparerai poi a utilizzare funzioni e pacchetti specifici per la gestione delle stringhe, per la manipolazione, sostituzione ed eliminazione di elementi all'interno dei corpus testuali, e per la creazione di grafici
Infine ci occuperemo della sentiment analysis, uno dei metodi che ci permette di scoprire a analizzare in maniera automatica se un testo è positivo o negativo, e vedremo qualche veloce nozione di analisi qualitativa tramite il metodo CAQDAS e il pacchetto per R RQDA
Anonimo -