DESARROLLO E IMPLEMENTACI�N DE UNA HERRAMIENTA COMPUTACIONAL PARA LA DETECCI�N DE COPIAS EN DOCUMENT OS DIGITALES EN LA EDUCACI�N: DOCUMENT COPY DETECTOR (DOCODE)

Proyecto D08I1015

DESARROLLO E IMPLEMENTACI�N DE UNA HERRAMIENTA COMPUTACIONAL PARA LA DETECCI�N DE COPIAS EN DOCUMENT OS DIGITALES EN LA EDUCACI�N: DOCUMENT COPY DETECTOR (DOCODE)

Proyecto Número:
D08I1015
Año:2008

Concurso: XVI Concurso Nacional de proyectos FONDEF

Tipo de Proyecto:
INVESTIGACION Y DESARROLLO PRECOMPETITIVO Area Prioritaria:
TECNOLOG�A DE LA INFORMACI�N Y COMUNICAC

Duración:
24 (meses) Monto Fondef Asignado: 238
(en millones de pesos del año de adjudicación)

Sitio Web: http://

AREAS SECUNDARIAS

SIN INFORMACION

DISCIPLINAS ASOCIADAS

SIN INFORMACION

DIRECTOR GENERAL

Nombre: JUAN DOMINGO VELASQUEZ SILVA
Dirección: AV. REP�BLICA 701, OF. 301
SANTIAGO

Teléfono: 9784834

INSTITUCION PRINCIPAL

Nombre: UNIVERSIDAD DE CHILE
Dirección: ALAMEDA 1058
SANTIAGO

Teléfono: 9782000

OTRAS INSTITUCIONES

Instituciones Ejecutoras NO CONSIDERA

Otras Contrapartes INSTITUTO PROFESIONAL CIISA
INSTITUTO ESTUDIOS G. SUBERCASEAUX
FUNDACION PARA LA TRANSFERENCIA
COLEGIO CALASANZ
SOCIEDAD DEL COLEGIO ALEMAN DE SANTIAGO

RESUMEN

La Web puede ser considerada una gran base de datos desde donde es posible adquirir cualquier tipo de información sobre un determinado tema. Este acceso universal al conocimiento, indudablemente trae consigo enormes beneficios sociales, pero no está exento de ciertos vicios, como lo es la copia textual para propósitos particulares. En efecto, cada vez es más difundido el fenómeno de �copy and paste� en documentos diseminados en la Web, para cumplir con la redacción de algún trabajo.

Analicemos una situación muy simple para entender el fenómeno. El profesor de un curso, acaba de asignar una tarea a sus alumnos, la cual consiste en redactar un informe sobre la cultura Maya. Lo primero que hacen los alumnos es usar un motor de búsqueda en la Web (Google, Altavista, etc.) para hacer su trabajo. Hasta ahí todo bien, por cuanto es deseable que el alumno aprenda a buscar información. El problema comienza cuando encuentra el contenido de su informe ya casi listo, y con un mínimo esfuerzo, lo copia y pega en un nuevo documento que llevará su nombre como autor del trabajo. Numerosos son los sitios web que se dedican a preparar material para �facilitar� el estudio de los alumnos, por ejemplo �el rincón del vago� (http://www.rincondelvago.com/), donde se pueden descargar apuntes, diapositivas, resúmenes de libros, etc. (sólo hay que cambiar el nombre y ajustar el formato). Sin poner en tela de juicio las buenas intenciones de los creadores del sitio, y más allá de cualquier implicancia ética que tiene la práctica de la copia, el resultado será que el alumno no aprenderá nada y el profesor nunca sabrá que el trabajo que revisará es una copia y aunque lo sospeche, la sola demostración buscando coincidencias en la Web, es una tarea que en forma manual consumiría mucho tiempo, por lo que el docente no estaría dispuesta a hacerla.

Cifras internacionales muestran que el fenómeno del copy/paste alcanza tasas del orden del 52% en instituciones de educación superior y enseñanza media. Dado que no existen estudios para el caso Chileno, los investigadores del presente proyecto Fondef realizaron una encuesta en 16 instituciones de educación (institutos profesionales, universidades y colegios de enseñanza media) pertenecientes a las regiones V, VI, VII y Metropolitana. En total fueron encuestados 3200 alumnos y 300 profesores. El resultado, aunque grueso, muestra que la copia textual bordearía un 45% para el desarrollo de trabajos de investigación.

La detección de copia de documentos digitales, ha sido abordada a través del desarrollo de herramientas informáticas puntuales fundamentalmente para el idioma inglés. Aunque es posible la adaptación de parte de estas herramientas al idioma español, la complejidad inherente del lenguaje hace de este proyecto algo poco atractivo y de dudoso éxito, por lo que se requiere del desarrollo de algoritmos y métodos específicos para el español, en particular el hablado en Chile. En tal sentido, utilizando técnicas de minería de datos, específicamente minería de textos (text mining) en distintos formatos y minería de datos originados en la Web (web mining), se desarrollará un sistema detector de copias (DOCODE) que dado un documento, realice una búsqueda en la Web y en trabajos anteriores que el usuario indique, para generar un listado de posibles fuentes de copia, lo que permitirá realizar un análisis más profundo para determinar cuáles documentos fueron creados a partir de las copias textuales de partes o la totalidad de otros escritos y cuáles son un trabajo original de su autor.

El proyecto va más allá de sola comparación textual entre documentos, por cuanto es posible que el plagiador altere parcialmente el texto copiado, cambiando algunas palabras (sinónimos) para que no se detecte la copia. En este sentido, DOCODE incorporará algoritmos de análisis semántico (web semantic content mining) que permitan comparar las frases y párrafos de un documento, entregando un antecedente adicional para la detección de la copia.

Para la búsqueda de documentos en la Web, DOCODE tendrá una función doble: meta-buscador que interactúa con otros motores de búsqueda como Yahoo!, Google, etc. y como analizador de comunidades de copia en la Web, por ejemplo, a partir de un sitio como �el rincón del vago� se pueden detectar otros sitios relacionados e identificar la comunidad (aplicación del web structure mining) con lo cual la detección de la copia se podrá hacer en forma más rápida y expedita (sólo se busca en un sector de la Web)

DOCODE será desarrollado en su totalidad en tecnología Web y estará en modalidad ASP (Application Service Provider), en la cual el sistema se instalará en un sitio web, donde usuarios humanos y artificiales, como puede ser una herramienta B2B (Business to Business), por ejemplo U-Cursos (www.u-cursos.cl), podrán efectuar sus consultas. En esta modalidad, la empresa que comercialice el producto se hace cargo de su actualización y mantención.

El mercado del sistema podría ser definido como �todos aquellos que requieren chequear si un documento es original� lo cual es muy amplio. Sin embargo, un nicho muy importante son las instituciones educacionales, quienes aprovecharían las características de DOCODE para frenar una práctica que va en aumento. En algunos casos, el problema se ha agudizado a extremos tales que se les ha exigido a los alumnos entregar trabajos escritos manualmente, lo cual es una involución respecto de los beneficios que se pretende lograr al conectar una institución educacional a la Web. En este sentido, se espera que el sistema disminuya drásticamente la copia de documentos digitales, lográndose de esta forma crear conciencia ética del problema en quienes incurren en dicha práctica y mejorando la efectividad de su aprendizaje.