<?xml version="1.0" encoding="UTF-8"?>
<TEI.2 id="paper_97_santana_suarez" rend="es">
   <teiHeader>
      <fileDesc>
         <titleStmt>
            <title>Una Herramienta de Recuperación Morfoléxica Aplicada a Microsoft Word</title>
            <author>
               <name reg="Santana Suárez, Octavio">Octavio Santana Suárez</name>
            </author>
            <author>
               <name reg="Hernández Figueroa, Zenón">Zenón Hernández Figueroa</name>
            </author>
            <author>
               <name reg="Rodríguez Rodríguez, Gustavo">Gustavo Rodríguez Rodríguez</name>
            </author>
            <author>
               <name reg="Losada García, Luis">Luis Losada García</name>
            </author>
            <respStmt>
               <resp>Marked up by </resp>
               <name reg="Holmes, Martin">Martin Holmes</name>
               <lb/>
               <name reg="Baer, Patricia">Patricia Baer</name>
            </respStmt>
         </titleStmt>
         <publicationStmt>
            <p>Marked up to be included in the ACH/ALLC 2005 Conference Abstracts book.</p>
         </publicationStmt>
         <sourceDesc>
            <p>None</p>
         </sourceDesc>
      </fileDesc>
      <profileDesc>
         <textClass>
            <classCode>paper</classCode>
            <keywords>
               <list>
                  <item>recuperación morfoléxica</item>
                  <item>morfología computacional</item>
                  <item>lingüística</item>
               </list>
            </keywords>
         </textClass>
      </profileDesc>
      <revisionDesc>
         <list>
            <item>MDH: Created from John Bradley's XML <date value="2005-02">February 2005</date>
            </item>
            <item>MDH: Author's revisions merged in <date value="2005-03-01">1 March 2005</date>
            </item>
         </list>
      </revisionDesc>
   </teiHeader>
   <text>
      <front>
         <docTitle n="Una Herramienta de Recuperación Morfoléxica Aplicada a Microsoft Word">
            <titlePart>Una Herramienta de Recuperación Morfoléxica Aplicada a <title level="m">Microsoft Word</title>
            </titlePart>
         </docTitle>
         <docAuthor>
            <name reg="Santana Suárez, Octavio">Octavio Santana Suárez</name>
            <address>
               <addrLine>osantana@dis.ulpgc.es</addrLine>
            </address>
         </docAuthor>
         <titlePart type="affil">Universidad de Las Palmas de Gran Canaria</titlePart>
         <docAuthor>
            <name reg="Hernández Figueroa, Zenón">Zenón Hernández Figueroa</name>
            <address>
               <addrLine>zhernandez@dis.ulpgc.es</addrLine>
            </address>
         </docAuthor>
         <titlePart type="affil">Universidad de Las Palmas de Gran Canaria</titlePart>
         <docAuthor>
            <name reg="Rodríguez Rodríguez, Gustavo">Gustavo Rodríguez Rodríguez</name>
            <address>
               <addrLine>grodriguez@dis.ulpgc.es</addrLine>
            </address>
         </docAuthor>
         <titlePart type="affil">Universidad de Las Palmas de Gran Canaria</titlePart>
         <docAuthor>
            <name reg="Losada García, Luis">Luis Losada García</name>
            <address>
               <addrLine>llosada@dis.ulpgc.es</addrLine>
            </address>
         </docAuthor>
         <titlePart type="affil">Universidad de Las Palmas de Gran Canaria</titlePart>
      </front>
      <body>
         <div0>
            <head>1. Introducción</head>
            <p>Uno de los aspectos de la investigación en lingüística es el estudio del uso de la lengua en documentos escritos; se trata de identificar y analizar la aparición de determinadas construcciones, lo que, en gran medida, puede entenderse como una clase particular de lo que en informática se conoce como recuperación de información. En el ámbito de la recuperación de información se ha tenido desde siempre conciencia de la insuficiencia de las búsquedas exacta y parcial de las palabras de un texto, y también de la necesidad de incorporar información lingüística para una recuperación más completa. Las ya antiguas búsquedas con truncamiento parten de la hipótesis de que las distintas formas de una palabra se componen de una raíz fija acompañada de un sufijo o un prefijo variables; tal hipótesis suele ser bastante acertada para lenguas poco flexivas, pero resulta muy pobre con lenguas muy flexivas y con altas tasas de irregularidad. Las búsquedas con máscara, por similitud o en base a expresiones regulares no incorporan la adecuada información sobre la naturaleza morfológica de las palabras.</p>
         </div0>
         <div0>
            <head>2. Antecedentes</head>
            <p>El <title level="m">Grupo de Estructuras de Datos y Lingüística Computacional</title> (<title level="m">GEDLC</title>, <xptr to="http://www.gedlc.ulpgc.es"/>) del <title level="m">Departamento de Informática y Sistemas de la Universidad de las Palmas de Gran Canaria lleva</title> algún tiempo desarrollando trabajos en morfología computacional, sintaxis automatizada, análisis de textos y lexicografía que incluyen lematizadores y flexionadores del español, así como el estudio de relaciones morfoléxicas entre las palabras.</p>
            <p>El bagaje de conocimientos acumulado y la experiencia en el desarrollo de herramientas en el campo se ponen en este trabajo al servicio del desarrollo de sistemas de localización de fenómenos morfológicos del español dentro de un texto. Se ha realizado una aplicación de búsqueda lingüística aplicada a un procesador de textos popular —<title level="m">Microsoft Word</title>.</p>
            <p>El hecho de que el diálogo "Buscar y reemplazar" de <title level="m">MS-Word XP</title> ofrezca una opción llamada <cit>
                  <q>Todas las formas de la palabra</q>
               </cit> que según la ayuda de la aplicación sirve para <cit>
                  <q>Buscar o reemplazar sustantivos, adjetivos o tiempos verbales</q>
               </cit> demuestra el interés de este tipo de búsquedas en el contexto de un procesador de textos. Pero la propia ayuda de la aplicación hace dudar del alcance de tales búsquedas al poner ejemplos como: <cit>
                  <q>reemplace 'manzana' por 'naranja' y, al mismo tiempo, reemplazará 'manzanas' por 'naranjas'</q>
               </cit> o <cit>
                  <q>reemplace 'peor' por 'mejor' y, al mismo tiempo, reemplazará 'el peor' por 'el mejor'</q>
               </cit>; ambos casos corresponden a simples sustituciones de cadenas de caracteres que no requieren ningún conocimiento lingüístico especial y que, de hecho, se pueden realizar sin seleccionar la opción <cit>
                  <q>Todas las formas de la palabra</q>
               </cit>; más prometedor parece el ejemplo de los verbos: <cit>
                  <q>reemplace 'dormir' por 'salir' y, al mis mismo tiempo, reemplazará 'dormido' por 'salido'</q>
               </cit>, pero el <title level="m">GEDLC</title> no ha logrado verlo funcionar.</p>
         </div0>
         <div0>
            <head>3. La herramienta desarrollada</head>
            <p>Se ha desarrollado una herramienta de búsqueda textual para <title level="m">MS-Word</title> que incorpora los aspectos flexivos, derivativos y prefijales entre otros mecanismos de formación de palabras del español, lo que aporta una gran potencia de búsqueda. </p>
            <p>A la hora de diseñar una aplicación que permita especificar patrones de búsqueda que tengan en cuenta aspectos flexivos y derivativos de la lengua hay que observar una cuestión fundamental: la gran cantidad de detalles que son susceptibles de configuración —la flexión verbal admite 116 configuraciones diferentes.</p>
            <div1>
               <head>3.1 Organización</head>
               <p>La aplicación se ha diseñado para presentar distintos niveles de detalle. El nivel básico muestra: una caja de entrada de texto, en la que el usuario debe introducir la palabra a buscar, un botón para iniciar la búsqueda, otro para usar la palabra como parte de una coocurrencia, y un par de flechas que dan acceso a mayores detalles.</p>
               <figure rend="ImageLink">
                  <head>Figure 1</head>
                  <p>
                     <xref>paper_97_santana_suarez_1.jpg</xref>
                  </p>
                  <figDesc>Figure 1</figDesc>
               </figure>
               <p>El usuario sólo tiene que escribir una palabra y pulsar el botón Buscar. El patrón de búsqueda que se aplicará será el que esté configurado —por defecto corresponde a "cualquier palabra del texto que tenga una forma canónica que coincida con alguna de las formas canónicas de la palabra de búsqueda y que, para esa forma canónica, tenga la misma flexión".</p>
               <p>En el siguiente nivel de detalle se pueden elegir los grados de derivación y de flexión; se usan tres escalas independientes: una para la derivación y otras dos para la flexión de las formas verbales y de las no verbales. </p>
               <p>Si el usuario requiere una recuperación más precisa accederá al último nivel de detalle de la flexión —las relaciones morfoléxicas continúan en un nivel paralelo—, donde se podrá modificar el patrón de búsqueda, ampliando o recortando elecciones de flexión. Existe la posibilidad de añadir o quitar del patrón de búsqueda prefijos y, en el caso de los verbos, pronombres enclíticos.</p>
               <p>Cabe tener en cuenta las formas canónicas que correspondan a la palabra de búsqueda o ignorarlas: por ejemplo, buscar palabras que sean "primera persona del singular del presente de indicativo de un verbo introducido" o, ignorando la forma canónica, "primera persona del singular del presente de indicativo de cualquier verbo".</p>
               <p>Eligiendo una forma canónica se accede a la interfaz de configuración de las relaciones morfoléxicas en donde se puede indicar qué formas relacionadas se desea incluir en la búsqueda.</p>
               <p>Si el usuario escribe un asterisco en lugar de una palabra, se abre la posibilidad de configurar un patrón de búsqueda por características morfogramaticales, sin determinación léxica; por ejemplo, localizar todas las palabras que sean "sustantivos femeninos plurales" o "formas verbales del presente de indicativo", independientemente de cualquier forma canónica.</p>
               <p>Además de la búsqueda de palabras individuales, es posible la localización de coocurrencias, tanto con determinación léxica, como por características morfogramaticales —lo que permite afinar la búsqueda hasta el punto de poder situar fenómenos lingüísticos específicos, tales como: perífrasis verbales, regímenes preposicionales y colocaciones léxicas. </p>
            </div1>
         </div0>
         <div0>
            <head>4. Conclusiones</head>
            <p>Se ha elegido <title level="m">MS-Word</title> por ser, seguramente, el procesador de textos más extendido bajo el entorno <title level="m">MS-Windows</title> y disponer de interfaz COM (Component Object Model) que facilita la interoperabilidad con otras aplicaciones. La concepción de la herramienta en si es tal que podría interactuar con otras aplicaciones que ofrezcan interfaces COM.</p>
            <p>De hecho, el objetivo principal consistió en cómo configurar una interfaz que aprovechara lo motores de lematización desarrollados por el <title level="m">GEDLC</title> para realizar búsquedas que incorporen conocimiento lingüístico de forma potente, usable y efectiva. La decisión de que la herramienta desarrollada se aplicase a un procesador de textos pretendió evitar las distracciones derivadas de problemas particulares de otros ámbitos, tales como los de la navegación, si la herramienta se aplicaba a realizar búsquedas en la red, por ejemplo. El siguiente paso será adaptar la interfaz desarrollada para aplicarla a entornos más complejos que un procesador de textos, tales como: el análisis de corpus, el estudio del uso de la lengua en Internet, herramientas de apoyo a la enseñanza, etc. Es un proceso abordable dada la experiencia que también posee el <title level="m">GEDLC</title> en ese campo, como se refleja en trabajos previamente publicados sobre analizadores de páginas Web. Análogamente, la herramienta desarrollada podría aplicarse a la recuperación de información en bases de datos textuales.</p>
         </div0>
      </body>
      <back>
         <div type="Bibliography">
            <head>Bibliografía</head>
            <listBibl>
               <biblStruct>
                  <analytic>
                     <author>
                        <name reg="Santana, O.">O. Santana</name>
                     </author>
                     <author>
                        <name reg="Pérez, J.">J. Pérez</name>
                     </author>
                     <author>
                        <name reg="Hernández, Z.">Z. Hernández</name>
                     </author>
                     <author>
                        <name reg="Carreras, F.">F. Carreras</name>
                     </author>
                     <author>
                        <name reg="Rodríguez, G.">G. Rodríguez</name>
                     </author>
                     <title level="a">FLAVER: Flexionador y lematizador automático de formas verbales</title>
                  </analytic>
                  <monogr>
                     <title level="j">Lingüística Española Actual</title>
                     <imprint>
                        <biblScope type="vol">XIX.2</biblScope>
                        <biblScope type="pages">229-282</biblScope>
                        <date value="1997">1997</date>
                     </imprint>
                  </monogr>
               </biblStruct>
               <biblStruct>
                  <analytic>
                     <author>
                        <name reg="Santana, O.">O. Santana</name>
                     </author>
                     <author>
                        <name reg="Pérez, J.">J. Pérez</name>
                     </author>
                     <author>
                        <name reg="Carreras, F.">F. Carreras</name>
                     </author>
                     <author>
                        <name reg="Hernández, Z.">Z. Hernández</name>
                     </author>
                     <author>
                        <name reg="Duque, J.">J. Duque</name>
                     </author>
                     <author>
                        <name reg="Rodríguez, G.">G. Rodríguez</name>
                     </author>
                     <title level="a">FLANOM: Flexionador y lematizador automático de formas nominales</title>
                  </analytic>
                  <monogr>
                     <title level="j">Lingüística Española Actual</title>
                     <imprint>
                        <biblScope type="vol">XXI.2</biblScope>
                        <biblScope type="pages">253-297</biblScope>
                        <date value="1999">1999</date>
                     </imprint>
                  </monogr>
               </biblStruct>
               <biblStruct>
                  <analytic>
                     <author>
                        <name reg="Figuerola, Carlos G.">Carlos G. Figuerola</name>
                     </author>
                     <author>
                        <name reg="Gómez, Raquel">Raquel Gómez</name>
                     </author>
                     <author>
                        <name reg="Rodríguez, Angel F. Zazo">Angel F. Zazo Rodríguez</name>
                     </author>
                     <author>
                        <name reg="Berrocal, José Luis Alonso">José Luis Alonso Berrocal</name>
                     </author>
                     <title level="a">Stemming in Spanish: A first approach to its impact on information retrieval</title>
                  </analytic>
                  <monogr>
                     <editor>
                        <name reg="Peters, Carol">Carol Peters</name>
                     </editor>
                     <title level="m">Results of the Cross-Language System Evaluation Campaign CLEF 2001, Darmstadt, Germany</title>
                     <imprint>
                        <date value="09-2001">September 2001</date>
                        <biblScope type="pages">197-202</biblScope>
                     </imprint>
                  </monogr>
               </biblStruct>
               <biblStruct>
                  <analytic>
                     <author>
                        <name reg="Figuerola, Carlos G.">Carlos G. Figuerola</name>
                     </author>
                     <author>
                        <name reg="Gómez Diaz, Raquel">Raquel Gómez Diaz</name>
                     </author>
                     <author>
                        <name reg="Rodríguez, Angel F. Zazo">Angel F. Zazo Rodríguez</name>
                     </author>
                     <author>
                        <name reg="Berrocal, José Luis Alonso">José Luis Alonso Berrocal</name>
                     </author>
                     <title level="a">Spanish monolingual track: the impact of stemming on retrieval</title>
                  </analytic>
                  <monogr>
                     <editor>
                        <name reg="Peters, Carol">Carol Peters</name>
                     </editor>
                     <editor>
                        <name reg="Braschler, Martin">Martin Braschler</name>
                     </editor>
                     <editor>
                        <name reg="Gonzalo, Julio">Julio Gonzalo</name>
                     </editor>
                     <editor>
                        <name reg="Kluck, Michael">Michael Kluck</name>
                     </editor>
                     <title level="j">Evaluation of Cross-Language Information Retrieval Systems. Second Workshop of the Cross-Language Evaluation Forum, CLEF 2001. Darmstadt, Germany, September 2001; Revised papers, volume LNCS 2406 of Lecture Notes in Computer Science</title>
                     <imprint>
                        <pubPlace>Berlin</pubPlace>
                        <publisher>Springer-Verlag</publisher>
                        <date value="2002">2002</date>
                        <biblScope type="pages">253-261</biblScope>
                     </imprint>
                  </monogr>
               </biblStruct>
               <biblStruct>
                  <analytic>
                     <author>
                        <name reg="Santana, O.">O. Santana</name>
                     </author>
                     <author>
                        <name reg="Carreras, F.">F. Carreras</name>
                     </author>
                     <author>
                        <name reg="Pérez, J.">J. Pérez</name>
                     </author>
                     <author>
                        <name reg="Rodríguez, G.">G. Rodríguez</name>
                     </author>
                     <title level="a">Relaciones morfoléxicas sufijales en español</title>
                  </analytic>
                  <monogr>
                     <title level="j">Procesamiento de Lenguaje Natural</title>
                     <imprint>
                        <biblScope type="vol">30</biblScope>
                        <biblScope type="pages">1-73</biblScope>
                        <date value="2003-03">Marzo, 2003</date>
                     </imprint>
                  </monogr>
               </biblStruct>
               <biblStruct>
                  <analytic>
                     <author>
                        <name reg="Santana, O.">O. Santana</name>
                     </author>
                     <author>
                        <name reg="Carreras, F.">F. Carreras</name>
                     </author>
                     <author>
                        <name reg="Pérez, J.">J. Pérez</name>
                     </author>
                     <author>
                        <name reg="Rodríguez, G.">G. Rodríguez</name>
                     </author>
                     <title level="a">Relaciones morfoléxicas prefijales del español</title>
                  </analytic>
                  <monogr>
                     <title level="j">Procesamiento de Lenguaje Natural</title>
                     <imprint>
                        <biblScope type="vol">32</biblScope>
                        <biblScope type="pages">9-36</biblScope>
                        <date value="2004">2004</date>
                     </imprint>
                  </monogr>
               </biblStruct>
            </listBibl>
         </div>
      </back>
   </text>
</TEI.2>