UF2 - DIGITALIZACIÓN DE TEXTOS NÚCLEO FORMATIVO 1
Los alfabetos del mundo - TIPOLOGÍA
-La comunicación según Berelson:
La transmisión de información, ideas, emociones, habilidades,etc, través de símbolos, palabras, imágenes, figuras, gráficos, etc.
Comunicación: dar a conocer a otros.
Mis emociones, sentimientos, formas de pensar, situación en la que me encuentro, etc.
A través de símbolos, signos y palabras que permiten darme a entender con las demás personas.
-Principios: comunicación gestual, gestos o símbolos con el mismo cuerpo.
Después, sonidos (simples), sonidos (complejos), +info, +conocimiento.
Plasmación de señales, símbolos, signos usados en la comunicación oral en paredes o piedras.
¿Por qué? NECESIDAD, dar a entender a los demás lo que quiere una persona.
Cómo se hace: recursos gráficos a manos:
Un palo, una piedra, los dedos, uñas, hueso del último animal cazado.
Refinamiento (evolución) de las demandas y necesidades: el mundo esta explicado por la "MAGIA"
ARTE RUPESTRE
Primeros signos de escritura: Forma de darle un signo o símbolo al lenguaje hablado.
Palabras: Emiten sonidos de la naturaleza, expresiones de esta.
Lenguajes: A partir de los sonidos que acompañan a los gestos hechos para comunicarse.
Códigos establecidos para comunicarse:
emisor - canal - código - mensaje - receptor
canal - código: medio físico (lenguaje)
Alfabeto: agrupación de símbolos con una orden determinada utilizada en el lenguaje escrito que sirve como sistema de comunicación.
Deriva del nombre de las los letras griegas "alfa" y "beta".
ALFABETOS DEL MUNDO
1. Escritura conceptual.
2. Escritura lingüística.
ESCRITURA CONCEPTUAL: A través de iconos o representaciones gráficas expresa ideas o palabras.
-Pictograma: Representación icónica que puede ser realista o una idealización.
Ej: jeroglífico egipcio, jeroglífico hitita.
jeroglíficos egipcios
j. hitita
pictograma moderno
-Escr. cuneiforme: Deforma progresivamente los pictogramas iniciales con un punzón. (en latín cuneus).
Ej: sumerio.
sumerio
-Ideograma: Elemento gráfico que representa palabras.
Ej: escritura china, ideogramas modernos (señales de tráfico).
ideograma moderno
ESCRITURA LINGÜÍSTICA: A través de signos expresa sonidos.
-Escr. silábica: Cada signo representa un grupo fonético (sílaba).
Ej: lineal B (griego micénico), silabario hitita, silabario chipriota, japonés actual.
-Escr. alfabética: Cada signo representa un fonema.
Ej: fenicio, griego, latin, alfabético fonético internacional (AFI).
No son escrituras perfectas, por ejemplo el catalán (la ss, sc, ç se representa /s/ la h no suena la Q representa xk/ o / kw/ .
ORIGEN DE LA ESCRITURA
-La escritura nace independientemente a diversas civilizaciones, a partir de pictogramas.
Tiene como primer uso la contabilidad.
Los testimoniajes más antiguos son las tablas mesopotámicas (Uruk 3300 ae).
Hay investigaciones que defienden la influencia mesopotámica sobre la escritura egipcia y china.
MESOPOTAMIA: ESCRITURA SUMERIA
A partir del 3300 ae, a Sumer se escriben tabletas de argila con un sistema semipictográfico 20.000 ideoagramas, que en el 2500 ae viene de la escritura cuneiforme.
La lengua sumeria, poco conocida es de tipo aglutinante (ni indoeuropea ni semítica)
Orientación de la escritura: por columnas de izq. a derecha y de arriba abajo.
ORIENTE MEDIO Y ASIA MENOR
-Adaptaron la técnica cuneiforme los pueblos de Oriente medio y Asia menor; acadios, elamitas, asirios, babilonios, hurritas, hititas.
En el 500 ae, los persas emprenden un nuevo sistema cuneiforme de tipo silábico.
EGIPTO SISTEMA JEROGLÍFICO
Desde el 3000 ae hasta el 400 de, en Egipto se utiliza el sistema jeroglífico, 6000 pictogramas a partir del cual evolucionaran dos escrituras cursivas: la demótica y la hierática.
-La DEMÓTICA o corriente: usos administrativos y económicos. Silabario de 24 signos monoconsonánticos y 80 biconsonánticos.
-HIERÁTICA o sagrada: antigua, para la religión.
Orientación de la escr. derecha/izq. izq./derecha Bustrofedón.
CHINA ESCRITURA LOGOGRÁFICA
Los primeros caracteres de la escritura china (4500 signos), ya aparecen en la Dinastía Shang (1400 ae). Desde la reforma de la dinastía Qin (S.III ae) hasta el S.XX, cuando hubo una simplificación y se introduce el alfabeto latín (en el 1950), los caracteres chinos aumentan hasta 50.000, y 1500 se aprenden en la escuela.
El origen pictográfico de algunos signos es evidente, pero a escritura china fue devenido sobretodo SEMANTICOFONETICA (logorama).
gan - chi'eh 62 signos a comienzos del S.XX.
JAPÓN
-A partir de los hanzi o carácteres chinos, los japoneses comienzan a adaptar (S.V de), poco sistematicamente y con valor fonético sus kanj, 5000 signos, se usan 1800 en las escuelas.
Hasta el S.IX no se desarrolla los dos silabarios principales:
-Lengua oficial: Katakana o kana, 47 signos derivado del k'ai-shu o escritura china.
-Para la escritura corriente, el hidagrama, más de 300 signos derivados del ts'aoshu o cursiva china.
ESCRITURA MIXTA: hidagrama ---> literatura, prensa, calle.
Romanji ---> alfabeto latín.
AMÉRICA CENTRAL
-Los sistemas de escritura más completos de América precolombina (nusos).
·Azteca - Méjico central
·Maya - Méjico meridional, Guatemala, Honduras, El Salvador
Todos los sistemas combinan elementos fonográficos y logográficos, después del desciframiento de los signos mayas .
Los primeros testimoniales de escritura centroamericana son del 600 ae.
CRETA---> Escritura silábica y jeroglífica. 1900-1700. Dos cursivas.
-Lineal A: Hasta 1450 ae, 80 signos, no descifrada, lengua minoica (no indoeuropea).
-Lineal B: Hasta 1200, 88 signos, deriva de la lineal A. Lengua griega.
Ambas son silábicas, utilizan logogramas, se escribe sobre tablas de argila y. su uso principal es la contabilidad.
ESCRITURAS ALFABÉTICAS
-Lenguas semíticas, evolucionan a partir de los jeroglíficos egipcios:
·Inscripciones protosinaíticas 31 signos
·Protopalestinas a partir del 1500 ae.
O evolucionan de la escritura cuneiforme, como los 30 signos del alfabeto Urgarit: Siria 1500-1200 ae.
ALFABETO FENICIO
Lengua SEMÍTICA
-Inscripciones más antiguas 1200 ae, 22 signos consonánticos, orientados de derecha a izquierda. 1000 a e a Biblos.
-Origen: vínculos culturales y comerciales de Fenicia con Egipto, como la estructura semítica común de sus lenguas. Permitirán que el alfabeto fenicio fuese adaptado probablemente de la escritura egipcia.
DERIVACIONES DEL ALFABETO FENICIO
Se difundió por el Mediterráneo, por el oriente próximo y medio y llegó hasta la Índia.
-Subdivisiones:
-Rama fenicia, rama palestina, rama aramea, árabe meridional (escritura etiópica 500 ae).
ALFABETO GRIEGO
Origen semítico, indudable.
Evolución:
-Griego arcaico: El nombre de letras es variable y la orientación tiene forma de bustofedrón.
-Griego clásico: Alfabeto oriental de milet o jónico con 24 letras y una orientación de izq. a derecha.
INNOVACIONES propias del griego
-Vocales irregulares y esporádicas a las lenguas semíticas.
-Añadir consonantes inexistentes en las lenguas semíticas.
1. Primeras vocales: Alfa (a) , epsilón (e), iota (i) , omicrón (o) , ypsilón (u).
2. Período clásico: Las letras Digamma, San Qoppa, Sampi, desaparecen y no están sus minúsculas.
DERIVACIONES del alfabeto griego
En la época antigua:
-Lenguas no Helenicas de Asia menor, casi, lici, lidi.
-Escrituras itálicas, etrusco.
-El copte, egipcio y nubi.
En la época medieval: El gótico, el eslavo (cirílico) ---> rusia
ALFABETO LATÍN
El latín es una de las más nombrosas escrituras locales que los etruscos y los itálicos toman más o menos de alfabetos griegos occidentales.
En Roma se trata de una adaptación etrusca de la escritura de Euseba. Primeros testimonios latinos S.VI ae.
El alfabeto clásico S.I ae ---> 23 letras con orientación inicial bustrofédica y después s.VI - IV ae de izq. a derecha.
Lengua de las más universales.
Capital > semiunicial + unicial > carolina > humanístico.
21 letras al principio.
G, J, N, O, I añadidas a nuestros alfabetos, nuevos sonidos, nuevas combinaciones: CH, PH, RH, TH.
ALFABETO ARAMEO
-Pueblo semítico de Siria de donde provienen los mercenarios y comerciantes.
La escritura aramea adoptada de la fenicia S.X ae, fue oficial durante más de un milenio y a varios imperios (babilónico tardà, asirio, persa).
Lengua bíblica, manuscritas del mar muerto. 22 consonantes de derecha a izq.
ALFABETO HEBREO (2 formas diferentes)
-Más antigua, deriva de la escritura fenicia S.IX ae, ha quedado reducida al uso religioso.
-Más moderna, alfabeto arameo S.III ae, se llama Hebreo cuadrado y se usa acutalmente a Israel.
22 consonantes y signos complementarios para vocales, de derecha a izq.
ALFABETO ÁRABE
S.IX - VII ae, no tienen reino hasta el S.I ae, Nabateus.
Deriva del alfabeto arameo-nabateu 500 ae que evolucionará a los 2 tipos principales del período islámico S.VIII.
Cúfic (monumental) Nashki (cursiva).
Tiene 28 consonantes, signos vocales, derecha a izq.
Adoptado a Asia, África y Europa por pueblos no semíticos, persa , afgano , malasio, bantús.
-No transcripción vocales cortas.
-No mayúsculas.
-No permite división a final de línea.
-Consonantes dobles (tashdiid)
-Caligrafía árabe (no permiten figuras animadas).
ÍNDIA
-Escritura protoíndica, 2500 ae, corresponde a la civilización de Harappa y Mohenjo daro (Vall de Indo). 250 signos SIN DESCIFRAR, podría registrar una lengua dravídica.
-Las escrituras modernas derivan del alfabeto arameo.
·La Kharotoshi, 250 ae S.V de.
·Brahmi, anterior al S.III 32 signos consonánticos y 4 vocálicos de derecha a izq.
Devangari (sánscrito, indi). India, Asia central, Tibet.
ALFABETO ESLAVO
El primer alfabeto eslavo fue una creación original del cirilio S.IX.
40 signos glagolíticos. Más reciente es el alfabeto cirílico S.X a Ciril.
Tiene 43 signos que derivan de las letras griegas. 24 glagolíticas y otros signos.
A partir del 1050, separación de la iglesia romana y ortodoxa. El pueblo Eslavo ha de elegir:
Alfabeto cirílico o alf. latín.
Antes de llegar a los 30 signos actuales, el alfabeto ruso simplificó 2 veces el alfabeto cirílico.
ESCRITURA GERMÁNICA
-El futhark o alfabeto rúnico, creación propia de los pueblos germánicos con aportaciones del alfabeto latín. Entre 16 y 24 signos con forma lineal. Derecha a izq, girados (orientación variable)
Etapa más rica de las runas escandinavas S.VIII a XI.
CARACTERÍSTICAS RÚNICAS:
-Asociados a cuestiones mágicas y místicas.
-Mensaje secreto.
-Cada signo tiene su calidad.
-Los ''maestros de las runas'' tienen prestigio.
ALFABETO IBÉRICO
-Fenicio, griego jónico, escritura tantesso-ibérica: sistema mixto; silábico y alfabético de 27 signos.
Orientación dual, derecha/izq, al sur.
Al noreste izq./derecha.
Pequeñas variaciones fonéticas, diferencias entre oclusivas sordas y sonoras al noreste.
Las inscripciones ibéricas no se puede leer, no se conocen todo el significado de la lengua ibérica.
NUEVOS ALFABETOS
-Taquigrafía: S.XVIII 300 símbolos Pepys. Pitman XIX 65 letras.
-Telégrafo: Morse, 1832 código; 1838.
-Escritura para ciegos: Braile 1809 - 1852.
-IPA o alfabeto fonético internacional: Passy 1886
(S.O.S = salven a nuestras almas)
El lenguaje de concordancia mundial. El Esperanto, lengua auxiliar planificada, Zamenhof 1887.
-El código de signos para sordos.
-Señales de tránsito.
-Imprenta ----> china VIII / Gutenberg 1440
-Procesador electrónico de textos, 1940
TRATAMIENTO DE TEXTOS: FASES DEL PROCESO
Idea, redactor, transcripción papel o digital, corrección, corrección de texto, fotocomposición, pdf baja resolución, corrección ortografía, corrección de maquetación, pdf alta resolución, filmación (fotolito/plancha), impresión.
1. Composición manual.
2. Metal fundido.
3. Fotocomposición.
4. Tipografía digital/autoedición.
ORIGINALES DE TEXTO
-Manuscritos, hablados, analógicos (mecanografía), impresos, digitales. (OCR)
MANUSCRITOS
- Escritos a mano.
-No muy usuales en la actualidad. Dificultades y costes en el cambio de formato.
HABLADOS/AUDIO
-Pueden ser rechazados por su recepción.
MECANOGRAFIADO
-En desuso.
-Hay autores que aún escriben así (máquina de escribir).
-Pérdida de tiempo.
IMPRESOS
-No se dispone de una copia digital (periódico).
DIGITALES
-Equipo informático.
-Ventajas, ahorros.
-Problemas de los archivos de fuentes utilizadas y formatos.
-Buenas especificaciones en la recepción de este tipo de originales.
Grado diferente de acabado:
-Originales digitalizados sin componer.
-Originales digitalizados medio compuestos.
-Originales digitalizados compuestos.
ORIGINALES DIGITALIZADOS SIN COMPONER
-El autor se limita a picar el texto (sin cursiva,etc).
-Las ideas fluyen libremente.
ORIGINALES MEDIO COMPUESTOS
-El autor entrega una propuesta de composición pero no la final.
-Ideas expuestas por el autor con la tecnología informática.
ORIGINALES DIGITALIZADOS COMPUESTOS
-Tratado por el autor,impreso. Conocimientos de composición, contenido y forma.
Ahorra trabajo en la fase pre-impresión.
PREPARACIÓN DE ORIGINALES
ESPECIFICACIONES DE ENTREGA ORIGINALES NO DIGITALIZADOS
-Las especificaciones son un conjunto de normas básicas que sirven de guía para que el autor entregue su trabajo.
El uso ha propiciado una unificación de estas normas comunes para las empresas.
Importante tener una copia del trabajo original, se entrega la copia y el autor de queda el original.
ESPECIFICACIONES DE ENTREGA DE ORIGINALES MANUSCRITOS
-Presentarlos escritos por una sola cara. Escritura limpia, sin rayas, margen, separación para facilitar el trabajo.
Formatos de papel normalizados. DIN A4 (recomendado). Papel blanco, págs numeradas, si el autor quiere hacer alguna correción debe usar otro color.
ESPECIFICACIONES DE ORIGINALES NO DIGITALIZADOS
ENTREGA DE ORIGINALES HABLADOS
-Presentados en cina K7, digital, mp3, flv... Dicción clara y entendible.
ESPECIFICACIONES DE ENTREGA MECANOGRAFIADOS
-Por una sola cara, DIN A4 (21cm x 29,7cm).
El blanco del margen a de ser amplio (2 cm) y han de ser más grandes de cabeza a pie.
Interlineal (doble espacio)
Número de páginas en el encabezado y a la derecha.
Se debe aplicar una sangría de un tabulador (espacio) a la primera línea de cada párrafo.
El texto se presentará sin justificar, marginado a la izquierda.
El autor no ha de incluir correcciones en el original. OCR (reconocimiento óptico de carácter).
El original ha de presentarse sin rayas y con el grafismo bien contrastado, para facilitar la digitalización.
ORIGINAL DE IMPRESOS
-Buen contraste entre color del texto y el fondo, sin traspaso de tinta ni transparencias que entorpezcan la digitalización.
Algunas fuentes dan problemas, hacer una prueba previa. Se comprueba que el original se adapte al escáner, que el libro se abra completamente y que el formato sea más pequeño que el área de escaneado.
ESPECIFICACIONES DE ENTREGA DE ORIGINALES DIGITALIZADOS
-Las especificaciones son un conjunto de normas básicas que sirven de guía al autor para entregar su trabajo, la empresa tratará el trabajo posteriormente.
El uso ha propiciado una unificación de estas normas, de tal manera que muchos de ellas son comunes para todas las empresas implicadas.
(Si los textos tienen sangrado, negrita, cursiva...)
1. ESPECIFICACIONES RELATIVAS A APLICACIONES Y FORMATOS
Entregar una copia impresa por una sola cara con:
-Número de páginas de la última versión entregada.
-Listado de archivos con la extensión correspondiente.
-Aplicación con que se ha creado.
-Su versión.
-Entorno operativo.
Las aplicaciones más comunes aceptadas:
-Editor de textos (TextEdit)
-Editor de textos profesional, Word, WordPerfect.
-Para la manipulación Quarkxpress, Pagemaker.
, Ventura Publisher, Indesign. El autor ha de consultar previamente con el pre-impresor.
Es recomendable que se guarde el trabajo como archivo independiente.
Ha de tenerse en cuenta el orden del trabajo/archivos. Enumerarlos (ceros y decenas).
2. ESPECIFICACIONES RELATIVAS AL TEXTO
DIN A4, espacio, margen, interlineal... .
Blanco del margen 2cm , más grandes los márgenes de cabeza a pie.
Doble espacio (interlineal).
Núm. de pág al pie y a la derecha.
FORMATOS DE PAPEL CM:
DIN A1 = 84 x 59,4
DIN A2 = 59,4 x 42
DIN A3 = 42 x 29,7
DIN A4 = 29,7 x 21
DIN A5 = 21 x 14,8
DIN A6 = 14,8 x 10,5
DIN A7 = 10,5 x 7,4
Son preferibles originales sin componer, a no ser que el autor quiera componerlo.
El texto se presentará alineado a la izquierda, sin justificar y sin partición de palabras.
NO forzar el cambio de línea ni de página.
Usar un solo tipo de letra, la más estándar, un solo cuerpo y un solo estilo.
Las notas se han de incluir en el lugar que irán ubicadas, separadas del texto general por guiones largos.
Cuadros y tablas, se tienen que componer en un documento a parte y adjuntarlas como archivos independientes.
Se tiene que aplicar sangrado del tabulador en la 1ª línea de cada párrafo.
Los párrafos NO se han de separar entre si por líneas en blanco.
EQUIPOS Y APLICACIONES INFORMÁTICAS EMPLEADAS EN EL PROCESO
Periféricos de entrada:
-Escáner, disponer de OCR (reconocimiento óptico de caracteres), que permita la digitalización de los originales impresos pero del que se dispone de un archivo digital.
Conexión externa e interna. Un fax complementa el envío de los originales a través de redes telemáticas .
Equipos de audio si el trabajo es hablado.
ORDENADORES IBM (PC) MACINTOSH (MAC)
Compatibles
FUENTES
Todos los ordenadores incorporan una selección por defecto de las principales fuentes y que se puedan adquirir o alquilar externamente.
APLICACIONES ID InDesign
Prepara originales digitales y los formatos en que permiten guardar los documentos más comunes.
WordPad (PC WINDOWS)
TextEdit (MAC)
MicrosoftWord
Súper Índice = exponente
FORMATOS DIGITALES DE ARCHIVOS DE TEXTOS
FORMATOS ABIERTOS:
-ASCII: No contiene información de tipografía o diseño. (American Standard Code for Information Interchange)
-RTF: Contiene información de tipografía o diseño muy básica. (Rich Text Format)
FORMATOS ESPECÍFICOS:
Procesador de textos (InDesign). Contiene toda la información de tipografía o diseño. Permiten exportar en EPS PostScript.
TIPOGRAFÍA
PostScript: 2 archivos. 1ª para la tipografía y 2º para imprimir.
TrueType: 1 archivo.
OpenType: Tipografía abierta.
--------------------------------------------------------------------------------------------------------------------------
NÚCLEO FORMATIVO 2 DIGITALIZACIÓN DE LOS ORIGINALES
-Se recibe el original, se comprueba que es adecuado, copia del trabajo, recoger trabajo.
Se procede a la digitalización de la copia del original ajustando el formato o formato específico y en el tiempo previsto.
PROCEDIMIENTO GENERAL
-Instalados y operativas las aplicaciones.
-Entorno de trabajo adecuado.
-Se pone la copia del original en un atril.
-En el caso de los originales de audio se necesita un equipo de reproducción correspondiente.
-Se abre la aplicación.
-Se genera un documento de trabajo, nombre adecuado... .
ORIGINALES NO DIGITALES MANUSCRITOS
-Lectura atenta para evitar una mala interpretación. Es importante que el teclista tenga contacto directo con el autor por si tiene que aclarar dudas. Sería mejor que el autor lea el texto y el teclista teclee.
HABLADOS
Igual que los manuscritos.
1º se pica el texto sin realizar la interpretación del original para no distraerse.
ORIGINALES EN FORMA DIGITAL
Formato compatible y si se requiere hacer la conversión de formato.
Copia del nuevo texto si se hace la conversión.
Original digital medio compuesto
Se aprovecha el formato.
ESTABLECIMIENTO DE LOS PARÁMETROS TIPOGRÁFICOS
-Consiste en determinar y marcar sobre la copia de trabajo o mejor en una ficha de especificaciones tipográficas (forma de letra, tablas...)
Se realiza una vez que se ha digitalizado el texto original y se tienen copias impresas sin compaginar.
Después de hacer la corrección de galeradas, donde se introducen las modificaciones que se estimen oportunas en relación con el contenido, los estilos y los errores gramaticales y ortográficos.
Esto se hace con el autor al lado de los correctores correspondiente.
Estas especificaciones han de aparecer en un lugar lógico y visible.
1ª pág. de la copia en el encabezado y un anexo del trabajo unido a ello.
TEXTO GENERAL
Es lo que predomina en el texto, expone las ideas principales y por tanto es el cuerpo de la obra.
Su característica es la legibilidad.
Ha de facilitar la lectura para que al lector le sea inteligible.
Se marcará en la 1ª pág. o en la hoja de especificaciones.
TEXTOS INDICATIVOS
Aparecen en la pág. y asociados o no al texto general y que tienen una función informativa.
Categoría: título, subtítulo y hojas. Se trata de proporcionar información evitando distracciones del lector.
TEXTOS SECUNDARIOS
No es el texto general.
Notas, citas, índice, pies de ilustraciones, cuadros y tablas.
Prólogo, introducciones, epílogos, textos similares.
Se marcará en la hoja de especificaciones tipográficas y su ubicación concreta.
CALIBRADO DEL ORIGINAL
Calcula el número de carácteres de un original.
Este dato más las especificaciones del diseño de la obra (caja de composición, disposición de los bancos, págs en blanco.
Calculará el nº de pág que tendrá la obra.
Cualquier editor de textos facilita el trabajo.
-Procedimientos de calibrado convencional
Original mecanografiado:
Hacer copias
Uso de tipómetro o lineómetro, o en su defecto una regla y un lápiz.
Original impreso:
Compuesto con carácteres de espacio proporcional y los bancos entre carácteres, entre letras y palabras.
Presentan tablas, cuadros e ilustraciones, todo integrado en la caja de composición, es necesario descontar bancos entre columnas, textos secundarios, citas integradas.
Descuentos: las dimensiones de un grabado o cuadro, se han de calcular las líneas.
OCR (Reconocimiento óptico de carácter)
Aplicación del escáner, cómo hacer para enseñar a leer el ordenador.
Es un programa que lee estas imágenes digitales y busca conjuntos de puntos que se parezcan a letras y carácteres.
Depende de la complejidad de según que tipo de letras, escritura manual, texto original o aplicar reglas gramaticales (rehacer una frase mal construida).
Para que el programa distinga la diferentes carácteres como por ejemplo la t y el 1, ha de cumplir unas características:
-Gran resolución, a 600ppp o 300ppp, si la letra es pequeña o de poca calidad como periódicos.
El blanco y el negro es suficiente (1 bit de color) o en escala de grises (8 bits).
Escáner de rodillo.
Al escanear se escanea los puntos que forman las imágenes o texto.
OPTIMIZACIÓN DE LOS RECURSOS
Continuamente se genera grandes cantidades de información escritas, tipográfica o manuscrita en todo tipo de soporte.
La automatización estalvia tiempo y se mejora la calidad de los servicios.
El OCR reconoce automáticamente símbolos o carácteres que pertenecen a un determinado alfabeto.
Sigue unos patrones o plantillas.
El dispositivo que obtiene la imagen puede introducir niveles de grises que en realidad no pertenecen a la imagen original afectando a los píxeles que han de ser procesados.
La resolución de este dispositivo puede introducir ruido a la imagen.
La separación de carácteres, como no existe un espacio fijo, se producen errores en la hora del reconocimiento.
La conexión de dos o más carácteres para pixeles comunes también producen errores.
ESQUEMA BÁSICO DE LOS ALGORITMOS
1. BINARIZACIÓN:
La mayor parte de algoritmos de OCR parten como base de una imagen binaria (dos colores). Por lo tanto es conveniente convertir una imagen de escala de grises, o una de color, en una imagen en blanco y negro, de tal forma que se preserven las propiedades esenciales de la imagen. Una forma de hacerlo es mediante el histograma de la imagen, donde se muestra el número de píxeles para cada nivel de grises que aparece a la imagen. Para binarizarla tenemos que escoger un umbral adecuado, a partir del cual todos los píxeles que no lo superen se convertirán en negro y el resto en blanco.
Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados los contornos de los caracteres y símbolos que contiene la imagen. A partir de aquí podemos aislar las partes de la imagen que contienen texto (más transiciones entre blanco y negro).
2. FRAGMENTACIÓN
Proceso más costoso pero necesario para el posterior reconocimiento de carácteres.
La segmentación de una imagen implica la detección mediante procesamientos de etiquetado determinista o estocástico (no hay orden determinado) de los contornos o regiones de la imagen basándose en la información de intensidad o información espacial.
Permite la descomposición de un texto en diferentes entidades lógicas que han de ser invariables para ser independientes del escritorio y significativas por su reconocimiento.
No existe un método genérico para llevar a cabo esta segmentación de la imagen que sea eficaz.
Proyecciones lineales ---> técnicas más utilizadas.
Clusters: técnica más clásica y simple para imágenes de grises.
A partir del histograma, permite una clasificación o espacio de los pixeles en regiones homogéneas.
3. SIMPLIFICACIÓN DE LOS COMPONENTES
Una vez aislados los componentes conexos de la imagen, tiene que aplicar un proceso de simplificación.
Borra sucesivamente los puntos de los contornos de cada componente de forma que se preserve su tipología.
La eliminación de los puntos ha de seguir un esquema de barridos sucesivos. El barrido se hace en paralelo, señala los pixeles borrables para eliminarlos todos a la vez.
Clasificación y reconocimiento.
4. COMPARACIONES DE PATRONES
Se comparan los carácteres obtenidos con patrones almacenados en una base de datos.
Métodos: método de proyección vertical y horizontal.
Otros métodos: geométricos o estadísticos, estructurales, neuro-miméticos, markovians.
OCR - APLICACIONES
RECONOCIMIENTO DE TEXTOS MANUSCRITOS
Es difícil el reconocimiento de un texto manuscrito.
La mayoría de algoritmos OCR no consigue buenos resultados ya que la segmentación del texto continuo es un procedimiento complejo.
Implica una operación de los niveles morfológicos, léxico, y sintáctico que se consigue mediante el reconocimiento de habla contínua.
Para esto se utilizan algoritmos robustos que no utilizan segmentación previa ya que se obtiene automáticamente con la descodificación.
RECONOCIMIENTO DE MATRÍCULA
Utilizando los radares, la localizan con iluminación, perspectiva y entornos variables.
Buscan texturas similares a la de la matrícula y se aísla el área rectangular que la forma.
Se aplica un proceso de clasificación múltiple sobre el conjunto de píxeles que pertenecen a la matrícula, si aperece un error se corrige.
INDEXACIÓN EN BASE DE DATOS
Uno de estos contenidos son las imágenes.
Una de las formas más corrientes de buscar imágenes es a partir de los metadatos introducidas manualmente por el usuario.
Cercadores de imágenes mediante el texto como el DIRS (Document Image Retrieval System) mediante un algoritmo de OCR.


































