Tutorial paso a paso para extraer datos de páginas web utilizando Python

¡Bienvenido a este tutorial web scraping Python! Si eres un desarrollador principiante o intermedio y quieres aprender a extraer datos web usando Python, estás en el lugar correcto. Aquí te guiaré paso a paso para que comprendas cómo utilizar las librerías Requests y Beautiful Soup para hacer scraping, manejar paginación y guardar la información extraída en formatos como CSV o JSON.

Índice

¿Qué es el web scraping?
Instalación y configuración de librerías
Cómo enviar solicitudes HTTP con Requests
Análisis y extracción de datos usando Beautiful Soup
Manejo de paginación en scraping
Guardar datos extraídos en CSV y JSON
Conclusión y buenas prácticas

¿Qué es el web scraping?

El web scraping es una técnica usada para extraer información de sitios web. Muchas veces, la información está en formato HTML y no disponible para descarga directa, por lo que el scraping permite obtenerla automáticamente.

Usando Python, y librerías como Requests para acceder a la web y Beautiful Soup para analizar HTML, podemos extraer textos, enlaces, imágenes, tablas, y mucho más.

Instalación y configuración de librerías

Primero, asegúrate de tener Python instalado (preferiblemente Python 3). Para instalar las librerías principales para este tutorial, abre tu terminal o consola y ejecuta:

pip install requests beautifulsoup4

1 2	pip install requests beautifulsoup4

Esto instalará:

Requests: para hacer solicitudes HTTP a sitios web.
Beautiful Soup 4: para procesar y analizar el contenido HTML descargado.

Cómo enviar solicitudes HTTP con Requests

El primer paso para obtener datos de una web es solicitar la página. Requests hace esto muy sencillo.

Paso 1: Importar Requests y obtener la página

import requests

url = 'https://example.com'
response = requests.get(url)

# Verificar que la solicitud fue exitosa
if response.status_code == 200:
    print('Página descargada correctamente')
else:
    print(f'Error al descargar la página: {response.status_code}')

import requests

url = 'https://example.com'

response = requests.get(url)

# Verificar que la solicitud fue exitosa

if response.status_code == 200:

print('Página descargada correctamente')

else:

print(f'Error al descargar la página: {response.status_code}')

Explicación:

requests.get(url): envía una solicitud GET a la URL.
response.status_code: código HTTP, 200 indica éxito.

También puedes enviar parámetros, encabezados o manejar errores con código adicional.

Análisis y extracción de datos usando Beautiful Soup

Una vez descargada la página, analizamos el contenido HTML.

Paso 2: Crear el objeto Beautiful Soup

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')

Paso 3: Buscar y extraer información relevante

Supongamos que queremos extraer todos los títulos de artículos que están en etiquetas <h2 class="title">.

titles = soup.find_all('h2', class_='title')

for title in titles:
    print(title.text.strip())

titles = soup.find_all('h2', class_='title')

for title in titles:

print(title.text.strip())

Explicación:

soup.find_all(): busca todas las etiquetas que coincidan.
.text: obtiene el contenido textual dentro de la etiqueta.
.strip(): elimina espacios al inicio y final.

Puedes usar selectores CSS con soup.select() para consultas más complejas.

Manejo de paginación en scraping

Muchas páginas dividen contenido en varias páginas (paginación). Para extraer datos de todas las páginas, debes iterar sobre cada URL correspondiente.

Paso 4: Construir un bucle para la paginación

Supongamos que las páginas tienen URLs con el formato https://example.com/page/1, https://example.com/page/2, etc.

for page in range(1, 6):  # páginas 1 a 5
    url = f'https://example.com/page/{page}'
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        titles = soup.find_all('h2', class_='title')
        for title in titles:
            print(title.text.strip())
    else:
        print(f'No se pudo acceder a la página {page}')

for page in range(1, 6): # páginas 1 a 5

url = f'https://example.com/page/{page}'

response = requests.get(url)

if response.status_code == 200:

soup = BeautifulSoup(response.text, 'html.parser')

titles = soup.find_all('h2', class_='title')

for title in titles:

print(title.text.strip())

else:

print(f'No se pudo acceder a la página {page}')

Consejos:

Ajusta el rango según la cantidad de páginas.
Respeta los términos y condiciones para no sobrecargar el servidor.

Guardar datos extraídos en CSV y JSON

Guardar la información te permite usarla después en análisis o bases de datos.

Paso 5: Guardar en CSV

import csv

# Ejemplo de datos extraídos
data = []

for page in range(1, 3):
    url = f'https://example.com/page/{page}'
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        titles = soup.find_all('h2', class_='title')
        for title in titles:
            data.append({'title': title.text.strip()})

# Guardar en CSV
with open('titles.csv', 'w', newline='', encoding='utf-8') as file:
    writer = csv.DictWriter(file, fieldnames=['title'])
    writer.writeheader()
    writer.writerows(data)

print('Datos guardados en titles.csv')

import csv

# Ejemplo de datos extraídos

data = []

for page in range(1, 3):

url = f'https://example.com/page/{page}'

response = requests.get(url)

if response.status_code == 200:

soup = BeautifulSoup(response.text, 'html.parser')

titles = soup.find_all('h2', class_='title')

for title in titles:

data.append({'title': title.text.strip()})

# Guardar en CSV

with open('titles.csv', 'w', newline='', encoding='utf-8') as file:

writer = csv.DictWriter(file, fieldnames=['title'])

writer.writeheader()

writer.writerows(data)

print('Datos guardados en titles.csv')

Paso 6: Guardar en JSON

import json

# Guardar en JSON
with open('titles.json', 'w', encoding='utf-8') as file:
    json.dump(data, file, ensure_ascii=False, indent=4)

print('Datos guardados en titles.json')

import json

# Guardar en JSON

with open('titles.json', 'w', encoding='utf-8') as file:

json.dump(data, file, ensure_ascii=False, indent=4)

print('Datos guardados en titles.json')

Conclusión y buenas prácticas

En este tutorial web scraping Python hemos aprendido:

Instalar y configurar Requests y Beautiful Soup
Enviar solicitudes HTTP para obtener páginas web
Analizar HTML y extraer datos relevantes
Manejar paginación para extraer datos de múltiples páginas
Guardar datos en formatos CSV y JSON para futuros usos

Buenas prácticas para web scraping

Respeta el archivo robots.txt del sitio web.
No hagas muchas solicitudes en poco tiempo para evitar ser bloqueado.
Usa encabezados HTTP que identifiquen tu script amigablemente.
Verifica y maneja errores y excepciones en el código.
Asegúrate de cumplir con las políticas legales y de uso del sitio.

Ahora que sabes cómo extraer datos web con Python, ¡prueba tus propios proyectos y experimenta! El scraping es una poderosa herramienta para automatizar la recolección de información.

¿Quieres aprender más? Suscríbete y sigue nuestro blog para recibir tutoriales avanzados y consejos de desarrollo web con Python y otras tecnologías!