Fecha de propuesta:
21/10/2024
(Aceptada)
Descripción:
Detección de nuevas grandes empresas, crecimiento superlativo y cambio de sede de empresas mediante webscrapping y modelos de lenguaje.
Propuesta del Observatorio HP Curso 2024-2025.
Aunque muchas empresas lo publican en la parte de información no financiera de sus memorias anuales, no es fácil saber el número exacto de empleados de una compañía, si esta ha experimentado un crecimiento rápido o si ha decidido cambiar su sede social y/o sus oficinas principales.
Por razones estratégicas (ventas, operaciones, etc) se desea poder obtener un informe, para un determinado periodo de tiempo, sobre empresas de nueva creación con más de un número determinado de empleados (sugerido, 400), que hayan experimentado un crecimiento también de un número específico (por ejemplo, 300) o también que hayan cambiado su sede o sus oficinas principales de lugar (ciudad, país, etc).
Objetivos funcionales:
Se desea construir por lo tanto un sistema que, en base a información obtenida de redes sociales y sitios de noticias, sea capaz de detectar estos tres tipos de eventos. Para ello el proyecto se compondrá de tres módulos diferentes:
- Un módulo de agregación/webscrapping que se encargará de recopilar la información necesaria para el funcionamiento del sistema. Este módulo será configurable con diferentes fuentes y abierto a su ampliación futura.
- Un sistema de inteligencia artificial, basado en modelos de lenguaje (LLMs, SLMs) y/o segmentadores de campos (RPA) para extraer la información relevante.
- Un gestor de informes y alertas que avisará cuando se produzcan los eventos indicados y también emitirá un informe (PDF) sobre todas las empresas que han sufrido alguno de dichos cambios en el periodo de tiempo deseado.
El sistema deberá de ser capaz de funcionar de forma desatendida/automática, explorando periódicamente las fuentes de información a tomar en consideración y emitiendo los informes y alertas correspondientes. Se sugiere desarrollar adicionalmente una pequeña aplicación web (backend/frontend) para poder gestionar la configuración del sistema (valores límite de empleados, periodos de tiempo, suscripciones, etc).
Entornos de desarrollo y explotación:
Python, Beautiful Soup, Scrapy, Requests, React
|