Recursos y Herramientas disponibles

CORPORA

La organización del Hackathon proporcionará documentos de texto procesados automáticamente de colecciones públicas. Por ejemplo:

- europarl
- news
- patents

Todos los textos procesados están en formato NAF. La librería Kaflib permite crear, editar y leer de forma eficiente este formato.

A continuación se detallan algunas características de cada una de las colecciones.

EUROPARL

- Descripción: Colección compuesta por documentos extraidos de las actas del Parlamento Europeo.

- Idiomas: inglés (en) y español (es).

- Alineación del corpus: Esta colección es un corpus paralelo, ya que todas las sentencias están alineadas en los 2 idiomas (mismo número de sentencia y fichero).

- Procesamiento lingüístico automático:
  . tokenización (en, es)
  . etiquetado gramatical (PoS tagger) y lematización (en, es)
  . reconocimiento y clasificación de entidades nombradas (en, es)
  . desambiguación de entidades nombradas (en, es)
  . desambiguación del significado de las palabras (en, es)
  . resolución de coreferencia (en, es)
  . analizador de dependencias (en, es)
  . analizador de constituyentes (en, es)
  . etiquetado de roles semánticos (en, es)
  . wikificación (en, es)

- Tamaño:

  . inglés: 54.407.887 tokens
  . español: 57.053.435 tokens

- Licencia: CC BY-SA 4.0

- Enlace: http://ixa2.si.ehu.es/hackaton-pln/europarl.tar (10GB).

 

NEWS

- Descripción: Colección compuesta por documentos utilizados en las ediciones de 2012 y 2013 de la conferencia Statistical Machine Translation (WMT). Estos documentos son del dominio de noticias.

- Idiomas (separados en subdirectorios): inglés (en), español (es) y euskera (eu). Los documentos de euskera han sido traducidos por traductores profesionales dentro del proyecto QTLeap, dado que éstos no fueron ofrecidos en la conferencia.

- Alineación del corpus: Esta colección es un corpus paralelo, ya que todas las sentencias están alineadas en los 3 lenguajes (mismo número de sentencia y fichero).

- Procesamiento lingüístico automático:

  . tokenización (en, es, eu)
  . etiquetado gramatical (PoS tagger) y lematización (en, es, eu)
  . reconocimiento y clasificación de entidades nombradas (en, es, eu)
  . desambiguación de entidades nombradas (en, es, eu)
  . desambiguación del significado de las palabras (en, es, eu)
  . resolución de coreferencia (en, es, eu)
  . analizador de dependencias (en, es, eu)
  . analizador de constituyentes (en, es)
  . etiquetado de roles semánticos (en, es)
  . wikificación (en, es)

- Tamaño:
  . inglés: 25.432 tokens
  . español: 28.781 tokens
  . euskera: 20.869 tokens

- Licencia: CC BY-SA 4.0

- Enlace: http://ixa2.si.ehu.es/hackaton-pln/news.tar (6,2MB).

 

PATENTS

- Descripción: Colección compuesta por documentos que contienen textos ya extraídos de las patentes americanas (USPTO - United States Patent and Trademark Office) de los años 2005 y 2006.

- Idiomas: inglés

- Procesamiento lingüístico automático:
  . tokenización
  . etiquetado gramatical (PoS tagger) y lematización
  . wikificación

- Tamaño:
  . inglés: 897.943.412 tokens

- Fuente: United States Patent and Trademark Office, upso.gov

- Enlace: http://ixa2.si.ehu.es/hackaton-pln/patents.tar (14GB)

 

OTROS CORPORA

Los participantes podrán desarrollar sus prototipos sobre los corpus preprocesados y corpus paralelo facilitados en esta página, o bien sobre otros distintos. Por ejemplo, para sistemas de Traducción Automática se pueden utilizar los corpus disponibles en http://opus.lingfil.uu.se).

A título informativo se incluyen a continuación algunos portales de datos abiertos:

datos.gob.es

data.europa.eu

opendata.euskadi.eus

 

HERRAMIENTAS DISPONIBLES

Los participantes podrán desarrollar sus prototipos usando sus propias herramientas u otras disponibles de PLN, TA, etc. A título informativo se incluyen a continuación algunos portales a herramientas de PLN:

ixa2.si.ehu.es/ixaKat

nlp.cs.upc.edu

newsreader-project.eu

ixa2.si.ehu.es/ixa-pipes

polyglot.readthedocs.io

nlp.stanford.edu