Hackathon Somos NLP 2024: #Somos600M

Vamos a crear un corpus que nos represente a los 600M de personas hispanohablantes y a estandarizar cómo evaluar nuestros LLMs.


Somos 600M de personas hispanohablantes, vamos a darle a nuestro idioma tan extendido y rico una representación justa en el ámbito del PLN. Participa en el Hackathon Somos NLP, una competición internacional online cuyo objetivo principal escrear recursos abiertos de PLN en español y lenguas cooficiales.

¿Lo mejor? ¡TODO EL MUNDO puede aportar!

Después de dos ediciones en las que contamos en total con más de 1000 participantes de 30 países distintos, superamos las 20.000 visualizaciones de nuestros eventos, aprendimos de 20 ponentes, finalizamos 50 proyectos y publicamos 3 papers… ¡Volvemos a por eso y mucho más! 💪

En la edición demarzo de 2024, el hackathon se centrará en generar bases de datos de calidad y diversas (países, temáticas, registros, …) para el entrenamiento y evaluación de LLMs que se expresen con propiedad en nuestro idioma.

¡Únete a la tercera edición del mayor hackathon open-source de Procesamiento del Lenguaje Natural en español! 🚀

¿Cómo puedes aportar?

Cartel del Hackathon 2024


🚀 Nuestros objetivos

La democratización del PLN en español es nuestro objetivo principal en Somos NLP y creemos que una de las mejores maneras de avanzar hacia este objetivo es impulsando la creación de recursos abiertos de PLN en nuestro idioma.

En las ediciones pasadas nos enfocamos en proyectos relacionados con los Objetivos de Desarrollo Sostenibles de la ONU, demostrando el potencial del PLN para abordar desafíos sociales.

En esta tercera edición nos sumamos a la revolución de los LLMs y continuamos fijando objetivos de alto impacto:

  1. 🌎 Crear uncorpus de instrucciones de calidad que represente las variedades del español de los 600M de personas hispanohablantes.
  2. ✅ Crear unaleaderboard pública de LLMs en españolque permita estandarizar cómo evaluar y comparar los diferentes modelos en español y lenguas cooficiales.

¡Veamos cómo puedes aportar!


📚 Tengo bases de datos

Como sabes, la clave de la IA reside en los datos. Como has visto, la iniciativa #Somos600M está centrada principalmente en la creación y recolección de bases de datos. Así que tanto si tienes un maravilloso corpus como si tienes un montón de documentos, ¡seguro que puedes colaborar!

Será un placer contar con tus datos si:

  • No sabes lo que es un “corpus” pero tienes grandes cantidades de documentos que te gustaría donar para que los modelos de lenguaje se expresen mejor en tu idioma (y que funcionen mejor para tus tareas del día a día)
  • Tienes grandes cantidades de documentos que te gustaría utilizar para automatizar tus tareas diarias, apúntate al hackathon
  • Tienes un corpus de entrenamiento que te gustaría donar para que la siguiente generación de LLMs en español y lenguas cooficiales funcionen mejor para tu caso de uso
  • Tienes un corpus de evaluación creado por especialistas y quieres participar en la creación de la primera leaderboard pública de LLMs en español, ¡dona tu corpus!

En cualquier caso, mándanos un correo ainfo@somosnlp.orgo contáctanos por Discord, ¡te estamos esperando!


📣 Me gustaría compartir mi conocimiento

¡Será un placer!


💡 Quiero aprender de especialistas

Durante los martes del mes de marzo tendrán lugar diversas keynotes impartidas por profesionales del mundo del Procesamiento del Lenguaje Natural. Estos eventos son gratuitos y están abiertos a todas las personas, independientemente de si participan en el hackathon.

¿Y hasta que llegue marzo?¡Están disponibles las grabaciones del 2023!

Para estar al día de los eventos:


💻 Me interesa participar en el hackathon

Lee las basesaquí.

¿Por qué debería participar?

Al unirte a este hackathon tendrás la oportunidad de:

  • ✅ Comprender cómo funcionan los grandes modelos del lenguaje (LLMs) y descubrir los retos de cada etapa de su desarrollo: creación del corpus, entrenamiento y evaluación
  • ✅ Participar en la creación de un corpus de calidad y diverso que incluya las distintas variedades del español y lenguas cooficiales (top como experiencia y top para el CV)
  • ✅ Resolver todas tus dudas sobre PLN durante sesiones de mentoría “Ask My Anything”
  • ✅ Recibir apoyo para presentar tu trabajo en un paper
  • ✅ Ganar premios maravillosos y conseguir un certificado
  • ✅ Unirte a la mayor comunidad de hispanohablantes que estudian, trabajan e investigan en PLN

¿Cuál es el nivel necesario?

Desde el equipo de Somos NLP queremos animarte a participar independientemente de tus conocimientos actuales. En ediciones anteriores hemos contado con grupos de institutos de investigación y grupos de estudiantes de grado, ¡todos los proyectos suman!

  • 📖 Durante los primeros días del hackathon daremos una serie detalleres prácticosmostrándote cómo desarrollar un proyecto para que tengas un ejemplo de referencia. Para calentar puedes visualizar los de la edición anterior:

  • ❓ OrganizaremosAMAs(del inglés, Ask Me Anything) con expertas y mentores para que puedan solucionar tus dudas.


👏 Patrocinios

Muchísimas gracias por vuestro tiempo y por apoyarnos para que nuestra iniciativa llegue más lejos. ¡Vamos a democratizar el PLN en español!

Toda la ayuda es bienvenida, descubre cómo puedes apoyar. ¡Contamos contigo!