Site is under maintenance mode. Please wait few min!
Saltar al contenido

Cómo hacer una copia de seguridad de las bases de datos MySQL en un VPS de Ubuntu

marzo 4, 2020

 

Introducción

la comunicación basada en texto se ha convertido en una de las formas más comunes de expresión. Enviamos por correo electrónico, mensaje de texto, pío, y al día a nuestros estados sobre una base diaria. Como resultado, los datos de texto no estructurado se ha vuelto muy común, y el análisis de grandes cantidades de datos de texto ahora es una forma clave para entender lo que la gente está pensando.

Tweets en Twitter ayudarnos a encontrar temas de tendencias de noticias en el mundo. Comentarios acerca ayudan a los usuarios de Amazon compran los productos mejor valorados. Estos ejemplos de organización y estructuración del conocimiento representan procesamiento del lenguaje natural (NLP) tareas.

PNL es un campo de la informática que se centra en la interacción entre computadoras y seres humanos. técnicas de PNL se utilizan para analizar el texto, proporcionando un camino para las computadoras para comprender el lenguaje humano. Algunos ejemplos de aplicaciones de PNL incluyen el resumen automático, la segmentación del tema y análisis de los sentimientos.

Este tutorial proporcionará una introducción al uso del lenguaje natural Toolkit (NLTK): una herramienta de NLP para Python.

Requisitos previos

Para este tutorial, debe tener instalado Python 3, así como un entorno de programación local configurada en su ordenador. Si este no es el caso, usted puede configurar siguiendo la instalación apropiada y configurar guía para su sistema operativo.

Para aprovechar al máximo el uso de este tutorial, debe tener cierta familiaridad con el lenguaje de programación Python.

Paso 1 – Importación de NLTK

Antes de comenzar a trabajar en Python, vamos a asegurarnos de que el módulo está instalado NLTK. En la línea de comandos, la verificación de NLTK ejecutando el siguiente comando:

python -c "import nltk"

  • python -c «NLTK importación»

Si se instala NLTK , este comando se completará con ningún error. Ahora, vamos a asegurarnos de que tiene la última versión instalada:

python -c "import nltk; print(nltk.__version__)"

  • python -c «NLTK importación; impresión (NLTK .__ version__)»

Usted debe tener instalada la versión 3.2.1, ya que vamos a utilizar el paquete de Twitter NLTK que requiere esta versión.

Si NLTK no está instalado , recibirá un mensaje de error:

OutputTraceback (most recent call last): File "", line 1, in ImportError: No module named 'nltk'

  • Rastreo (llamada más reciente pasado): El archivo ««, línea 1, en ImportError: Sin módulo denominado ‘NLTK ‘

el mensaje de error indica que NLTK no está instalado, por lo que descargar la biblioteca utilizando pip:

pip install nltk

  • PIP instalar NLTK

a continuación, vamos a descargar los datos y herramientas NLTK vamos a trabajar con el en este tutorial.

Paso 2 – Datos y Tagger

de Descarga de NLTK En este tutorial, vamos a utilizar un corpus de Twitter que podemos descargar a través NLTK. En concreto, vamos a trabajar con twitter_samples corpus de NLTK. Vamos descarga del corpus a través de la línea de comandos, así:

python -m nltk.downloader twitter_samples

  • python -m nltk.downloader twitter_samples

Si el comando se ha ejecutado correctamente, debe recibir la siguiente salida:

Output[nltk_data] Downloading package twitter_samples to
[nltk_data] /Users/sammy
ltk_data...
[nltk_data] Unzipping corporawitter_samples.zip.

A continuación, descargar la parte-de- discurso (POS) etiquetador. POS tagging es el proceso de etiquetado de una palabra en un texto como correspondiente a una etiqueta de POS en particular: nombres, verbos, adjetivos, adverbios, etc. En este tutorial, vamos a utilizar específicamente averaged_perceptron_tagger de NLTK. El etiquetador promedio perceptrón usa el algoritmo de perceptrón para predecir qué etiqueta POS es más probable dada la palabra. Vamos a descargar el etiquetador, así:

python -m nltk.downloader averaged_perceptron_tagger

  • python -m nltk.downloader averaged_perceptron_tagger

Si el comando se ha ejecutado correctamente, debe recibir el siguiente resultado: Asegúrate de

Output[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data] /Users/sammy
ltk_data...
[nltk_data] Unzipping taggers/averaged_perceptron_tagger.zip.

Let que el corpus descargado correctamente. En su terminal, abrir el pitón entorno interactivo: entorno interactivo de

python

  • pitón

En Python, importe el twitter_samples corpus:

from nltk.corpus import twitter_samples

  • de importación nltk.corpus twitter_samples corpus Twitter de

NLTK actualmente contiene una muestra de 20.000 tuits recuperados de la API de Twitter streaming. ecotweets completos se almacenan como JSON línea separada. Podemos ver cuántos JSON existen archivos en el corpus utilizando los twitter_samples.fileids () Método:

twitter_samples.fileids()
twitter_samples.fileids

  • ()

Nuestra producción se verá así:

Output[u'negative_tweets.json', u'positive_tweets.json', u'tweets.20150430-223406.json']

El uso de esos identificadores de archivo que luego pueden volver las cadenas pío: twitter_samples.strings

twitter_samples.strings('tweets.20150430-223406.json')

  • ( ‘tweets.20150430-223406.json’)

la ejecución de esta volverán mucha salida. Será generalmente el siguiente aspecto:

Output[u'RT @KirkKus: Indirect cost of the UK being in the EU is estimated to be costing Britain xa3170 billion per year! #BetterOffOut #UKIP'...]

Ahora sabemos nuestro corpus se descargó successefully. Así que vamos a salir del entorno interactivo de Python con el atajo Ctrl + D.

Ahora que tenemos acceso al corpus twitter_samples, podemos empezar a escribir un guión a los tweets de proceso.

El objetivo de nuestro script será la de contar cuántos adjetivos y sustantivos aparecen en el subgrupo positivo del corpus twitter_samples:

  • un sustantivo, en su definición más básica, se define generalmente como una persona, lugar o cosa. Por ejemplo, una película, un libro, y una hamburguesa son todos los sustantivos. Contando los nombres puede ayudar a determinar la cantidad de diferentes temas se están discutiendo.
  • Un adjetivo es una palabra que modifica un sustantivo (o pronombre), por ejemplo: una película horrible, un libro divertido, o una deliciosa hamburguesa. Contando adjetivos pueden determinar lo que se está utilizando el tipo de lenguaje, es decir, las opiniones tienden a incluir más adjetivos que los hechos.

Un sustantivo , en su definición más básica, se define generalmente como una persona, lugar o cosa. Por ejemplo, una película , un libro , y una hamburguesa son todos sustantivo s. Contando sustantivo s ayuda puede determinar la cantidad de diferentes temas se están discutiendo.

Un adjetivo es una palabra que modifica un sustantivo (o pronombre), por ejemplo: una película horrible, , un libro divertido , o una hamburguesa deliciosa . Contando adjetivo s puede determinar lo que se está utilizando el tipo de lenguaje, es decir, las opiniones tienden a incluir más adjetivo s que los hechos.

Se podría extender más adelante este script para contar adjetivos positivos ( gran , impresionante , feliz , etc.) frente a los adjetivos negativos ( aburrido , cojo , triste , etc.), lo que podría ser utilizado para analizar el sentimiento de twitter o comentarios acerca de un producto o una película, por ejemplo. Este script proporciona datos que pueden a su vez informar a las decisiones relacionadas con ese producto o película.

Comenzaremos nuestro script en el siguiente paso.

Paso 3 – Sentencias tokenizing

En primer lugar, en el editor de texto de su elección, a crear la secuencia de comandos que vamos a trabajar con y lo llaman nlp.py.

En nuestro archivo, vamos a la primera importación del corpus. A continuación, vamos a crear una variable de tweets y asignarle la lista de cadenas pío del archivo positive_tweets.json.

from nltk.corpus import twitter_samples

tweets = twitter_samples.strings('positive_tweets.json')

La primera vez que cargamos nuestra lista de tweets, cada tweet es representado como una cadena. Antes de que podamos determinar qué palabras nuestros tweets son adjetivos o sustantivos, primero tenemos que tokenize nuestros tweets.

Tokenization es el acto de dividir una secuencia de cadenas en piezas tales como las palabras, palabras clave, frases, símbolos y otros elementos, que son llamados tokens . Vamos a crear una nueva variable llamada tweets_ fichas , al que se le asignará la lista de tweets con token:

from nltk.corpus import twitter_samples

tweets = twitter_samples.strings('positive_tweets.json')
tweets_tokens = twitter_samples.tokenized('positive_tweets.json')

Esta nueva variable, tweets_tokens, es una lista donde cada elemento de la lista es una lista de fichas. Ahora que tenemos las fichas de cada tweet podemos etiquetar las fichas con las etiquetas POS apropiadas.

Paso 4 – Etiquetado de Sentencias

Con el fin de etiquetador de acceso NLTK, tendremos que importarlo. Todas las declaraciones de importación deben ir al principio de la secuencia de comandos. Vamos a ponerlo de esta nueva importación en virtud de nuestra otra declaración de importación.

from nltk.corpus import twitter_samples
from nltk.tag import pos_tag_sents

tweets = twitter_samples.strings('positive_tweets.json')
tweets_tokens = twitter_samples.tokenized('positive_tweets.json')

Ahora, podemos etiquetar cada una de nuestras fichas. NLTK nos permite hacer todo de una vez usando: pos_tag_sents (). Vamos a crear una nueva variable tweets_tagged, que vamos a utilizar para guardar las listas etiquetadas. Esta nueva línea se puede poner directamente en el extremo de nuestro script actual:

tweets_tagged = pos_tag_sents(tweets_tokens)

Para tener una idea de lo que fueron etiquetados como fichas parecen, aquí es lo que el primer elemento en la lista tweets_tagged se parece a:

[(u'#FollowFriday', 'JJ'), (u'@France_Inte', 'NNP'), (u'@PKuchly57', 'NNP'), (u'@Milipol_Paris', 'NNP'), (u'for', 'IN'), (u'being', 'VBG'), (u'top', 'JJ'), (u'engaged', 'VBN'), (u'members', 'NNS'), (u'in', 'IN'), (u'my', 'PRP$'), (u'community', 'NN'), (u'this', 'DT'), (u'week', 'NN'), (u':)', 'NN')]

Podemos ver que nuestro tweet es representado como una lista y por cada ficha que tiene información acerca de su etiqueta de punto de venta. Cada par / tag token se guarda como una tupla.

En NLTK, la abreviatura de adjetivo es JJ.

El NLTK marcas etiquetador sustantivos singulares (NN) con diferentes etiquetas que plural los sustantivos (NNS). Para simplificar, sólo se contará sustantivos singulares por hacer el seguimiento de la etiqueta NN.

En el siguiente paso vamos a contar cuántas veces JJ y NN aparecer a lo largo de nuestro corpus.

Paso 5 – Recuento POS Etiquetas

Vamos a llevar la cuenta de cuántas veces JJ y NN aparecen usando una variable acumulador (recuento), que vamos a añadir continuamente para cada vez que nos encontramos con una etiqueta. En primer lugar vamos a crear nuestra cuenta en la parte inferior de nuestro script, que primero se pone a cero.

from nltk.corpus import twitter_samples
from nltk.tag import pos_tag_sents

tweets = twitter_samples.strings('positive_tweets.json')
tweets_tokens = twitter_samples.tokenized('positive_tweets.json')

JJ_count = 0
NN_count = 0

Después creamos las variables, vamos a crear dos bucles. El primer bucle será iterar a través de cada tweet en la lista. El segundo bucle será iterar a través de cada par / tag token en cada tweet. Para cada par, vamos a buscar la etiqueta utilizando el índice de tupla correspondiente.

Vamos a continuación, comprobar para ver si los partidos de la etiqueta, ya sea la cadena ‘JJ’ o ‘NN’ mediante el uso de instrucciones condicionales. Si la etiqueta es un partido vamos a añadir (+ = 1) al acumulador adecuada.

from nltk.corpus import twitter_samples
from nltk.tag import pos_tag_sents

tweets = twitter_samples.strings('positive_tweets.json')
tweets_tokens = twitter_samples.tokenized('positive_tweets.json')

JJ_count = 0
NN_count = 0

for tweet in tweets_tagged:
for pair in tweet:
tag = pair[1]
if tag == 'JJ':
JJ_count += 1
elif tag == 'NN':
NN_count += 1

Después de los dos bucles son completos, debemos tener el recuento total de los adjetivos y sustantivos en nuestro corpus. Para ver cómo muchos adjetivos y sustantivos nuestro script se ha encontrado, vamos a añadir declaraciones de impresión hasta el final de la secuencia de comandos.

...

for tweet in tweets_tagged:
for pair in tweet:
tag = pair[1]
if tag == 'JJ':
JJ_count += 1
elif tag == 'NN':
NN_count += 1

print('Total number of adjectives = ', JJ_count)
print('Total number of nouns = ', NN_count)

En este punto, nuestro programa será capaz de dar salida a la cantidad de adjetivos y sustantivos que fueron encontrados en el corpus.

Paso 6 – Ejecución de la PNL Guión

guardar el archivo nlp.py y ejecutarlo para ver cuántos adjetivos y sustantivos encontramos:

python nlp.py

  • pitón nlp.py

Sea paciente, puede tardar unos segundos para la ejecución de scripts. Si todo iba bien, cuando nos encontramos nuestro script, deberíamos obtener el siguiente resultado:

OutputTotal number of adjectives = 6094
Total number of nouns = 13180

Si la salida tiene el mismo aspecto, significa que ha completado con éxito este tutorial. ¡Felicidades!

Terminado Código

Para nuestro código de acabado, hay que añadir algunos comentarios para que sea más fácil para los demás y nuestro propio futuro a seguir. Nuestras miradas script como el siguiente:

# Import data and tagger
from nltk.corpus import twitter_samples
from nltk.tag import pos_tag_sents

# Load tokenized tweets
tweets_tokens = twitter_samples.tokenized('positive_tweets.json')

# Tag tagged tweets
tweets_tagged = pos_tag_sents(tweets_tokens)

# Set accumulators
JJ_count = 0
NN_count = 0

# Loop through list of tweets
for tweet in tweets_tagged:
for pair in tweet:
tag = pair[1]
if tag == 'JJ':
JJ_count += 1
elif tag == 'NN':
NN_count += 1

# Print total numbers for each adjectives and nouns
print('Total number of adjectives = ', JJ_count)
print('Total number of nouns = ', NN_count)

Hemos utilizado el corpus Twitter descargará a través NLTK en este tutorial, pero se puede leer en sus propios datos. Para familiarizarse con la lectura de archivos en Python, echa un vistazo a nuestra guía sobre “Cómo manejar texto sin formato de archivos en Python 3″ .

Usted también puede estar interesado en trabajar con datos reales de Twitter. Se puede obtener más información sobre cómo acceder a la API de Twitter por leer “Cómo crear una aplicación de Twitter.” A continuación, echar un vistazo a nuestra guía sobre “Cómo crear un Twitterbot con Python 3 y la Biblioteca Tweepy”, que muestra cómo utilizar la biblioteca Tweepy Python a los tweets de cobro que incluyen una determinada etiqueta de hash. Los datos que se recogen a continuación, se pueden analizar con NLTK.

a partir de aquí, se puede extender el código de contar plural y sustantivos singulares, hacer análisis de los sentimientos de los adjetivos, o visualizar sus datos con Python y matplotlib.

Conclusión

En este tutorial, aprendió algo del Lenguaje Natural el procesamiento de las técnicas para analizar el texto usando la biblioteca NLTK en Python. Ahora se puede descargar corpus, tokenize, etiqueta, y contar las etiquetas de punto de venta en Python. puede utilizar este tutorial para facilitar el proceso de trabajar con sus propios datos de texto en Python.