Filed under: Language Resources

La Fundación CTIC (Centro Tecnológico de la Información y de la comunicación) ha desarrollado T-incluye, una herramienta web que permite analizar el lenguaje incluido en las páginas web detectando posibles expresiones sexistas y oferciendo alternativas inclusivas.
La herramienta accede al código HTML de la página objeto de análisis descartando todos los elementos no textuales, extrae el texto de la página y lo agrupa en parrafos gramaticales analizandolos para detectar los términos y expresiones susceptibles de incurrir en usos sexistas del lenguaje. El análisis se basa en analogías, tecnología similar a la traducción automática, utilizando un corpus lingüístico compuesto por una serie de textos que recogen buenas practicas en el uso de términos susceptibles de ser utilizados de forma sexista. La herramienta permite ampliar este corpus incluso por los usuarios, lo que garantiza su extensibilidad en el tiempo incrementando el número de entradas y la calidad de las mismas.

La web T-incluye patrocina el “Premio T-incluye“, galardonando a las páginas web más inclusivas en el uso del lenguaje, los candidatos se divicen encuatro categorías: Web Publica, Empresarial, Entidades sin Ánimo de Lucro y Personal.
Filed under: Language Resources
Enfrascada en la busqueda de recursos lingüísticos, corpus, corpora, diccionarios electrónicos , gramáticas, traductores, he topado en la web con uno que me ha parecido bastante interesante,por audaz, desarrollado por Connotative intelligente Corporation, compañía formada en 1998 con el fin de desarrollar lo que denominan Connotative Intelligence™ technology.
Su investigación se basa en la carencia, por parte de los recursos lingúisticos tradicionales, dicionariosy thesaurus, de lo que denominan significado conotativo de las palabras. Distinguen entre el significado intelectual o denotativo y el significado emocional o connotativo. Ambos son componentes fundamentales para la interpretación del significado de las palabras u oraciones, y reflejan la dualidad intellectual-emocional de la mente humana.

Según ellos mismos su tecnología se basa la creación de bases de datos de respuestas emocionales codificadas que permiten acceder al significado emocional de las palabras, imagenes, canciones, todo aquello que produce una respuesta emocional en los humanos. La corporación distribuye varios productos en formato software:
- Emotional Dictionary: diccionario que provee con la definición denotativa y la emocional de cada palabra o frase.
- Emotional Thesaurus: provee de palabras sinónimas por su relación emocional, producen las mismas emociones.
- He meant/She meant: muestra las diferentes respuestas emocionales entre hombres y mujeres.
- Person Namer: muestra el poder emotivo de los nombres personales
- Emotional product/bussiness namer: es un software que permite analizar el impacto de un nombre o marca comercial
- Emotion Checker: analizador del contenido emocional de textos.
- Connotative Translator: herramienta que compara el significado connotativo con los diferentes significados denotativos entre distintas lenguas para mejorar la precisión en la traducción
- Other Products: bases de datos connotativas de imagenes,sonidos, webs, busqueda del regalo perfecto, ect.
El sitio web ofrece todo tipo de imformación sobre la corporación, tecnología, historia, preguntas frecuentes y productos que comercializa, pero no permite utilizarlos, ni tampoco analizar y pobrar su funcionamiento y eficacia. Si teneis algún tipo de información por favor añadir un comentario. Gracias.
Filed under: Language Resources
Se denomina Traducción Automática-TA- a los sistemas informáticos que permiten traducciones de una lengua a otra de textos o documentos o habla sin la intervención humana. Según esta definición los traductores automáticos harian la misma función que los traductores humanos y deberían respetar los principios básicos de la traducción:
- Decir todo lo que dice el original.
-No decir nada que el original no diga
-Decir todo con la corrección y la naturalidad que permite la lengua a la que se traduce
Los sistemas de TA se pueden clasificar atendiendo a muy diferentes criterios, entre otros, se pueden destacar:
- En relación al número de lenguas: bilingúes o multilingúes, si el sitema utiliza un único par de lenguas o si el si utiliza pares de lenguas permitiendo así la traduccion en varios idiomas.
- En relación a la dirección se clasifican en unidireccionales, sólo permiten la traducción de una lengua a otra, y bidireccionales, de una lengua a otra y viceversa.
-En relación al diseño del sistema de traducción se pueden clasificar como sistemas directos, de palabra a palabra la información sintactica es mínima, a pesar de su rapidez ,la traducción es excesivamente simple, sistemas de transferencia que además de grandes lexicos incluyen información sintactica-semántica que permite análisis morfosintactico y se obtiene una estructura de constituyentes para cada frase, a partir de este proceso se efectua la transferencia o traducción teniendo en cuenta el contexto morfológico, sintáctico y semántico, y los sistemas interlingua o mediante una lengua intermedia que utilizan una lengua intermedia abstracta e independiente a las dos lenguas objeto para después traducir a la lengua destino.
Ejemplos de algunos traductores automaticos:
LOST IN TRANSLATION. Para pasar un rato divertido.
Referencias:
*”Traducción automática.” Wikipedia, La enciclopedia libre. 27 may 2009, 04:45 UTC. 20 jun 2009, 12:29 <http://es.wikipedia.org/w/index.php?title=Traducci%C3%B3n_autom%C3%A1tica&oldid=26692806>.
*”Traducción automática mediante lengua intermedia.” Wikipedia, La enciclopedia libre. 22 may 2009, 22:19 UTC. 20 jun 2009, 12:43 <http://es.wikipedia.org/w/index.php?title=Traducci%C3%B3n_autom%C3%A1tica_mediante_lengua_intermedia&oldid=26568972>.
*Victoria Lopez. “Posibilidades y realidades de la Traducción Automática” La Linterna del Traductor. Número 3 Septiembre 2002. 20 jun 2009. http://traduccion.rediris.es/3/tr_au.htm
Filed under: Language Resources
La Oficina del Español en la Sociedad de la Información, OESI, es un centro de información y documentación espacializado en actividades de difusión y promoción de las Tecnologías Lingüísticas del Español. El OESI pertenece al Area Academica del Instituto Cervantes.
El objetivo principal de la OESI es promocionar el sector de las Tecnologías Lingüísticas del Español mediante la labor científica y empresarial, y publicitar los beneficios, usos y funciones de las herramientas desarrolladas estas tecnologías. Con este fin, la función primordial del OESI es estimular el desarrollo de la investigación en la ingeniería lingüística entre empresas, grupos de investigación y universidades. Difundir la información del sector y facilitar la cooperación entre los diferentes grupos que participan en la actividad.
Desde el portal de la OESI se puede acceder a todos los servicios que ofrece la oficina: DILE, noticias, agenda e infoteca; obtener información sobre los proyectos en los que participa: Eagles, Rile, TLs para todos, entre otros; y, mediante una solicitud de información disponer de los recursos útiles.
Filed under: Language Resources
Un corpus lingüístico es un conjunto de textos, o fragmentos de texto, recopilados en formato electrónico para realizar analisis linguisticos. Los corpus lingúísticos se conforman así, como herramientas fundamentales y de referencia en la investigación de cualquier aspecto del lenguaje y las lenguas
En general, los corpus pueden clasificarse según los objetivos para los que fueron creados, variando así su tamaño y especializacion según los textos recopilados, incluyendo también como ”texto” aquellos corpus recopilatorios del lenguaje oral y transcritos para su posterior estudio. Según John Sinclair, en Corpus and Text: Basic Principles, el contenido de un corpus no debe ser seleccionado teniendo en cuenta el lenguaje que contiene, sino por la función comunicativa que realizan en la comunidad en la que se produjeron.
Los corpus se pueden clasificar según el tipo de textos que lo compongan: textos escritos y orales (transcritos), de una lengua o de varias, procentes de una unica fuente, como la prensa escrita, o de varias y muy diferentes fuentes, estos últimos suelen ser los llamados corpus generales:
Corpus de Referencia del Español Actual- CREA
Corpus of Contemporary American English
Referencias:
Sinclair, J. 2005. “Corpus and Text – Basic Principles” in Developing Linguistic Corpora: a Guide to Good Practice, ed. M. Wynne. Oxford: Oxbow Books: 1-16. Available online from http://ahds.ac.uk/linguistic-corpora/ [Accessed 2009-06-15].
Filed under: Language Resources
La lingúistica Computacional, LC,es un campo multidisciplinar que se ubica entre la lingüística y la informática, o dicho de otra forma, es la parte de la lingüística que se sirve de la informática para el estudio del lenguaje humano y el procesamiento del lenguaje natural. La finalidad de la LC es la elaboración de modelos computacionales que reproduzcan diferentes aspectos del lenguaje humano.
Las áreas de estudio de la LC son, entre otras, los corpus lingúisticos, diseños de analizadores sintácticos o “parser” para las lenguas naturales, diseño de etiquetadores o lematizadores o “tagger”, definición de logicas especializadas que sirven como fuentes para el procesamiento de lenguajes naturales, estudio de la relación entre lenguajes formales y naturales y los traductores automáticos
Uno de los mayores problemas con que se ha enfrentado esta disciplina es la dificultad en desarrollar sistemas artificiales de producción del lenguaje con capacidad para poder reproducir la “infinitud” caracteristica al lenguaje humano. En definitiva, el objetivo del procesamiento del lenguaje natural será conseguir que los ordenadores generen producción lingüística infinita y aceptable por los hablantes.
Actualmente uno de los campos más interesantes de la LC es el desarrollo de programas de reconocimiento de habla para la conversión automática de voz texto, interacción espontánea persona-ordenador de forma oral, mejora de los programas de generación del lenguaje oral en aspectos tan importantes como la entonación, para conseguir que no suene artificial o “robotizada” y por último, el estudio y procesamiento del aspecto gestual del lenguaje natural.

Referencias:
*”Lenguaje natural.” Wikipedia, La enciclopedia libre. 22 sep 2008, 11:46 UTC. 15 jun 2009, 18:11 <http://es.wikipedia.org/w/index.php?title=Lenguaje_natural&oldid=20355209>.
*”Lingüística computacional.” Wikipedia, La enciclopedia libre. 3 jun 2009, 16:53 UTC. 15 jun 2009, 18:13 <http://es.wikipedia.org/w/index.php?title=Ling%C3%BC%C3%ADstica_computacional&oldid=26917839>.
*”Analizador sintáctico.” Wikipedia, La enciclopedia libre. 5 jun 2009, 12:57 UTC. 15 jun 2009, 18:22 <http://es.wikipedia.org/w/index.php?title=Analizador_sint%C3%A1ctico&oldid=26974312>.
*”Lematizadores”. Procesamiento del Lenguaje Natural. 23/03/07/. Ultima actualización 25/03/2007. 15 jun 2009
<http://procesamientolenguajenatural.50webs.com/lematizadores.htm>
*Javier G.mez Guinovart: “Perspectivas de lingúística Computacional”. Novatica /may.-jun. 2000. Especial 25 aniversario. Edición Digital. Acceso 14 jun 2009. < http://www.ati.es/novatica/2000/145/javgom-145.pdf>
Filed under: rdf0809
Según la Wikipedia, se entiende por taxonomía, en general la ciencia de la clasificación. Otros diccionarios incluyen adjetivos como sistemática y jerárquica para definir esta clasificacion.
Si entendemos taxonomia como a la clasificación jerárquica con respecto a algún tipo de parentesco, podemos establecer, como ejemplo más o menos afortunado, a la clasificación de las familias de las lenguas como un tipo de taxonomía.

Folksonomía, otra vez según la Wikipedia, es una forma de clasificación colaborativa por medio de etiquetas. Los usuarios del software social clasifican la información de forma intuitiva, de acuerdo o no al acervo común. No jeraquiza, solo agrupa o asocia.
Bibliografia
Taxonomía. (2009, 4) de febrero. Wikipedia, La enciclopedia libre. Fecha de consulta: 20:45, febrero 12, 2009 from http://es.wikipedia.org/w/index.php?title=Taxonom%C3%ADa&oldid=23813399.
Folcsonomía. (2008, 8) de noviembre. Wikipedia, La enciclopedia libre. Fecha de consulta: 20:46, febrero 12, 2009 from http://es.wikipedia.org/w/index.php?title=Folcsonom%C3%ADa&oldid=21591972.
En la década de los 90, como soporte a la Ley 7/1990 para su desarrollo, se creo Irargi, Centro del Patrimonio Documental de Euskadi, desde aquí se diseña la política de Archivos y Patrimonio documental del Gobierno Vasco.
Una de las iniciativas que puso en marcha Irargi fué el proyecto Badator en 1991. He tenido la oportunidad de pedir una valoracion de este proyecto a Fernando Martinez Rueda, Profesor Titular de Historia Comtemporanea de la Universidad del Pais Vasco, una voz mucho más autorizaba que la mía y que muy amablemente me contesto en un mail que transcribo literalmente.
“Una de las dificultades con las que se encuentra el investigador de la
historia del País Vasco es la dispersión de las fuentes documentales.
Hay archivos históricos de gran importancia para reconstruir nuestra
historia dispersos por la geografía española: el Archivo de Simancas,
el de Real Chancillería de Valladolid (con su destacada Sala de
Vizcaya), el Archivo de la Guerra Civil de Salamanca, el Archivo
Histórico Nacional de Madrid, el Archivo General de la Administración,
sito en Alcalá de Henares, son sólo algunos ejemplos. A ello hay que
añadir, ya en el País Vasco, los fondos documentales municipales,
eclesiásticos, provinciales, familiares, el Archivo del Nacionalismo,
etc., custodiados por instituciones diversas. Ante esa situación de
dispersión es necesaria una labor de coordinación e información que
facilite al historiador la búsqueda y localización de la documentación
histórica necesaria para cada investigación. Es precisamente en este
campo en el que Irargi – Centro de Patrimonio Documental de Euskadi
viene desarrollando su labor desde hace ya varias décadas. Utilizando
las nuevas tecnologías ha puesto al alcance del investigador
instrumentos como la base de datos Badator que permiten localizar la
documentación que el historiador necesita en diversos y dispersos
archivos. Mi experiencia como investigador me indica que todo ello
facilita notablemente nuestro trabajo.”
En la actualidad la Consejeria de Cultura del Gobierno Vasco esta desarrollando nuevos proyectos sobre el Patrimonio Cultural de Euskadi, entre otros, la apertura del Archivo Histórico Nacional de Euskadi este mismo año.
Blibiografia:
http://http://www.snae.org/default.es.php. Irargi (10 de Enero 2009)
http://http://www.snae.org/badator.es.php. Badator (Visitada 10 deEnero 2009)
http://http://www.ehu.es/biografiaparlamentarios/pagpralfernando.html. (Visitada 10 Enero 2009)

Por fin se inauguró la nueva Biblioteca de la Universidad de Deusto. Ya el pasado mes de diciembre abrió sus puertas a profesores y alumnos que durante este último cuatrimestre estuvimos trabajando en precario,
sin posibilidad de acceder a cualquier volumen anterior al 2000. Gracias a la labor del personal de la biblioteca- que han sufrido lo suyo, y sino, preguntadles- la nueva CRAI está a disposición de todos.
Se entiende por CRAI, Centro de Recursos para el Aprendizaje y la Investigación, a un espacio donde se aúnan todos los recursos universitarios dando soporte a tareas asociadas al ámbito de la universidad, el aprendizaje, la investigación y la docencia. Estos nuevos espacios son el último paso en la evolución de las bibliotecas concebidas hasta ahora como conservadoras y recopiladoras de documentos –gráficos o audiovisuales- para poder ser consultados.
La primera CRAI del estado la puso en marcha la Universitat Pompeu Fabra de Barcelona. Ahora le ha tocado el turno a la Universidad de Deusto, pero hay varios proyectos para la implementación de este servicio en otras universidades del estado. Ahora, el nuevo reto será saber utilizar y aprovechar esta gran herramienta que en forma de edificio- diseñado por Moneo – ha aparecido en Abandoibarra.
Bibliografia:
http://www.biblioteca.deusto.es
http://bibliotecnica.upc.es/Rebiun/nova/estrategico/Documentos/CRAI
Filed under: aelejabe
El pasado otoño la biblioteca de la Diputación Foral de Vizcaya ha exhibido al público los incunables pertenecientes a sus fondos. La muestra abarcó 40 ejemplares impresos en la segunda mitad del siglo XV procedentes de diferentes países europeos. Aunque la mayoría de ellos, de temática religiosa, están escritos en latín, también hay algún ejemplar en castellano e italiano.
Según la RAE llamamos “incunable” (del latín incunabula, pañales) a toda edición hecha desde la invención de la imprenta hasta principios de s XVI. Así los primeros incunables debían semejarse lo más posible a sus antecesores los manuscritos. La técnica de impresión utilizada eran los llamados “tipos móviles” piezas hechas artesanalmente de madera o metal que se

Tipo movil
correspondían a los caracteres de la escritura. Estos tipos se unían para formar líneas de texto. La aparición de la imprenta supuso una verdadera revolución técnica en la paulatina e imparable difusión de la cultura.
El incunable, en semejanza al manuscrito medieval, toma forma de códice o cuaderno, y, aunque hay ejemplares en otros soportes como la vitela o el pergamino, se generalizó la utilización del papel. El formato utilizado es el folio o los sucesivos pliegues del mismo que eran los que determinaban el tamaño del libro: folio, cuarto, octavo y así sucesivamente. De esta manera se creó la necesidad de empezar a paginar o foliar los libros para que los encuadernadores no cometieran errores. Aunque hay muchos ejemplos distintos, por lo general, en los incunables se distribuía el texto en una o dos columnas dejando amplios márgenes para las anotaciones, glosas, etc. Estos comentarios suelen ser también impresos pero utilizando tipos más pequeños.

El tipo de letra o grafía más utilizada en los inicios es la
llamada letra gótica y sus variantes, dando paso posteriormente a la redonda de estilo clásico que se pondrá de moda durante el renacimiento. Fue habitual también, dejar espacios libres en la composición de los textos a fin de ser iluminados, incluir letras capitales, títulos, etc., que en un
principio serán acabados manualmente por los ilustradores pero que paulatinamente se pasó a utilizar xilografías. A semejanza del manuscrito estos primeros ejemplares carecen de portada, es en el colofón donde aparece la marca del editor o marca de agua.
El incunable más antiguo de la muestra, numero 31, se imprimió en Colonia, c1472, autor Johannes Gerson, título: De simonia; de probatione Spirituum; De eruditione confessorum; De remediis contra recidivum peccandi.
A resaltar el número 35 de la muestra, que corresponde a un incunable vasco Missale Tirasonensis impreso en Pamplona en 1500 por Arnaldo Guillen de Brocar.
