🛠️ Herramientas Open Source para el Proyecto

Este documento presenta un resumen de herramientas de código abierto seleccionadas para automatizar flujos de trabajo y procesar documentos científicos. Para cada herramienta, se evaluará su aplicabilidad en el sistema propuesto, considerando sus ventajas, desventajas y casos de uso específicos. Además, se analizará su compatibilidad con Docker, disponibilidad de APIs y capacidad de integración en flujos de automatización. El objetivo es proporcionar una base sólida para la implementación de un sistema eficiente y escalable.

Tabla de herramientas

Herramienta	Rol principal	Aplicabilidad en el sistema
n8n	Automatización	Orquestación de flujos de trabajo
GROBID	Extracción de metadatos	Procesamiento de PDFs científicos
Qdrant	Almacenamiento vectorial	Sistema RAG y búsqueda semántica
VosViewer	Análisis bibliométrico	Visualización de redes de colaboración
Ollama	Modelos de lenguaje	Generación y procesamiento de texto

🧠 1. n8n

Función: Automatización de flujos de trabajo (workflow automation).
Aplicabilidad: Ideal para orquestar procesos como descarga de documentos, extracción de metadatos, IA, carga en base vectorial, notificaciones, etc.
Ventajas: Interfaz visual, altamente extensible, soporte para HTTP, Webhooks, Google Drive, Python y más.
Desventajas: Curva de aprendizaje inicial, puede requerir recursos significativos para workflows complejos.
Docker: ✅ Compatible con Docker, imagen oficial disponible.
APIs: ✅ API REST disponible para integración programática.

📄 2. GROBID

Función: Extracción estructurada de información de documentos científicos en PDF.
Aplicabilidad: Extrae título, autores, referencias, secciones, keywords y más en formato XML.
Ventajas: Alta precisión en papers académicos, fácil de dockerizar e integrar con Python o n8n.
Desventajas: Rendimiento variable según la calidad del PDF, requiere configuración específica para diferentes formatos de documentos.
Docker: ✅ Compatible con Docker, imagen oficial disponible.
APIs: ✅ API REST disponible para procesamiento de documentos.

🔍 3. VosViewer

Función: Análisis bibliométrico y visualización de mapas de ciencia.
Aplicabilidad: concurrencia de autores.
Ventajas: interfaz gráfica simple.
Desventajas: Limitado en personalización, requiere datos preprocesados en formatos específicos.
Docker: ❌ No compatible con Docker, aplicación de escritorio. (trataremos de hacer una adaptación para que sea compatible)
APIs: ❌ No dispone de API oficial.

🗃️ 4. Qdrant

Función: Base de datos vectorial.
Aplicabilidad: Almacena los embeddings generados desde los textos científicos para el sistema RAG.
Ventajas: Rápido, soporte para metadata.
Desventajas: Consumo de memoria significativo con grandes volúmenes de datos, requiere optimización para producción.
Docker: ✅ Compatible con Docker, imagen oficial disponible.
APIs: ✅ API REST y gRPC disponibles para operaciones vectoriales.

📄 5. Ollama

Función: Modelos de lenguaje.
Aplicabilidad: Generación y procesamiento de texto.
Ventajas: Fácil de usar, soporte para múltiples modelos de lenguaje, ejecución local sin necesidad de conexión a internet.
Desventajas: Limitado por recursos locales, modelos pueden ser menos potentes que versiones en la nube, requiere gestión de memoria cuidadosa.
Docker: ✅ Compatible con Docker, imagen oficial disponible.
APIs: ✅ API REST disponible para interacción con modelos.

🔗 Referencias Oficiales

n8n : Sitio oficial | GitHub

GROBID : Sitio oficial | GitHub

VosViewer : Sitio oficial | GitHub (versión open source utilizada)

Qdrant : Sitio oficial | GitHub

Ollama : Sitio oficial | GitHub