pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word Tema Solucionado

Todo lo referente a la informatica, hardware, software... no necesariamente relacionado con Windows
Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 82
Registrado: 02 Feb 2022, 14:41

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por Atenea »

Hola,

El pdf te lo puedo dar. Me dijo que lo había descargado de internet asique es algo público. También podría intentar conseguir la url donde lo descargó.

Cuándo recibí el archivo en cuestión intenté traducirlo como documento y salía algo ilegible similar a lo que mostré. Luego probé copiar un trozo y pegarlo como texto en el traductor y se pegó algo completamente distinto a lo que había señalado, que es lo que conté.

No hice nada más, por lo que si el escaneo reconocía texto fue como vino. Pero el tema es que por más que haya podido señalar texto, vimos que era imagen y por se pegaba algo diferente a lo que había señalado. Lo que no entiendo, es que si reconoce texto ¿entonces por qué no lo pega según el texto que señalé?

El editor de pdf de abobe no está incluido en la versión gratuita, el simple lector, asique ni equivocándome lo podría haber hecho.

Tal vez el escaneo haya sido OCR y que no hubiera salido bien y de ahí que señale trozos pero luego sea imagen. ¿Es posible algo así? Como dije, si te parece puedo enviarte el pdf. Pesa menos de 1 MB.

Un saludo

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 2120
Registrado: 08 Jun 2018, 19:40

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por pako »

Hola,

Pásamelo a ver que me hace a mi y ya te comento algo.

Si tienes el link directo ponlo.

Si no lo tienes, súbelo a tu espacio en la nuble para compartirlo y pones el link.

Si tampoco tienes, comprime el pdf y ponle una contraseña.
Lo subes a:
[Enlace externo eliminado para invitados]
Y te pondrá un link para descargarlo.
Ahora aquí en el foro, me mandas un mensaje privado con la contraseña.

Saludos

PD: No te registres en wetransfer, deja hacerlo sin registros
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 82
Registrado: 02 Feb 2022, 14:41

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por Atenea »

Hola,

Esta es la url de descarga: [Enlace externo eliminado para invitados]

Es el pdf como lo recibí y sin restricciones.

Quedo a la espera de tu opinión a ver si logro entender lo que sucede. Un saludo!

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 2120
Registrado: 08 Jun 2018, 19:40

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por pako »

Hola,

Me pasa lo mismo que a ti y no doy con la solución, creo que se donde esta el problema, pero me llevaría mucho tiempo buscar la solución y no merece la pena.

Intento explicarme...

Los archivos con texto suelen usar fuentes de texto "comunes", para que asi cuando abras el archivo en un Windows, Mac, Linux, etc. puede verse en cualquier plataforma, ya que los S.O. vienen con las fuentes mas utilizadas instaladas.

Para usar otras fuentes mas chulas que no sean comunes lo que se hace es "incrustar" la fuente en el propio archivo, así se puede ver sin problemas en cualquier S.O. aunque el S.O. no tenga esa fuente.
El problema de hacer esto, es que aumenta el tamaño del PDF, ya que ahora ademas del texto tiene que agregar todas las fuentes que se usen.

Supongo que con eso ya sabes por donde van lo tiros...

La fuente incrustada del PDF que compartiste no esta en Windows, al menos en dos Windows que probé no existe.
Cuando abro el PDF desde el programa de Adobe si leo el texto bien, porque esta usando la fuente incrustada que usa el PDF, pero si copias el texto y lo pegas en Windows sale el texto mal, porque en Windows no tienes instalada esa fuente.

Si abres el programa de Adobe y vas a:
Menú > Propiedades del documento > Fuentes

Veras que tienes la fuente en primer lugar:
SourceSansPro-Regular
Y debajo de ella, un montón de subconjunto más...

Me baje de internet la fuente SourceSansPro-Regular de un par de webs, la instale en Windows y sigue dándome el mismo el problema que cambia los textos fuera del PDF.

He probado algunas webs que te extraen las fuentes del PDF y casi todas no reconocen la fuente de texto, esto creo que es porque el PDF esta optimizado con la web pdf-tools.com y habrá eliminado muchos metadatos para ocupar menos espacio y por eso es, puedes verlo en:
Menú > Propiedades del documento > Descripción

Al final encontré una web que si que fue capaz de reconocer las fuentes incrustadas del pdf:
[Enlace externo eliminado para invitados]

Encontró más fuentes dentro del PDF que la que yo baje de internet en el primer paso (SourceSansPro-Regular).
Pues las instale en Windows y me sigue dando el mismo problema, así que debe haber alguna fuente mas que usa el PDF que me falta.

Lo mismo si se instala el programa con el que se optimizo el archivo PDF (pdf-tools.com) muestra las fuentes incrustadas mejor, pero mire rápido por encima y no deja hacer online y creo que es de pago, no se si tendrá versión gratuita.

Y otra cosilla más que apunta a que es lo de las fuentes del PDF, si abres el PDF con el "LibreOffice Writer", parece que no es capaz de abrir las fuentes incrustadas que lleva el archivo PDF, entonces ves todo el documento con el texto con caracteres extraños como decías, ese es el texto real que estas copiando cuando hace copy/paste.

Si quieres seguir indagando sobre el tema, yo intentaría abrir el pdf con el programa que se optimizo (pdf-tools.com) y desde el... una vez que lo hayas abierto, exportarlo pero sin optimizar.

Ah y lo que comentamos sobre protecciones, tiene dos pero no influyen para copiar textos:

Menú > Propiedades del documento > Seguridad

Saludos
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 82
Registrado: 02 Feb 2022, 14:41

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por Atenea »

Hola,

Vaya tema. Asique el problema es la fuente usada y las tantas otras incrustadas en ese pdf que al no estar estas en el Word hace que se pegue cualquier cosa. Pero es extraño también que al instalarlas en tu Windows siga copiándose lo mismo que si no la tuvieras.

Ahora que dices eso recuerdo que alguna vez me ha pasado de copiar un texto y al pegarlo en el Word notaba que era otra fuente pero lo escrito no variaba. Se leía lo mismo pero con otra tipografía por lo que no afectaba lo que buscaba pero acá el cambio de fuente desvirtúa el texto copiado. Ya tela.

Descargué el programa de herramientas pdf de esa web que dices porque tiene prueba gratuita y quiero ver si descubro algo. Ahora estoy intrigada en esto que me parece tan raro como novedoso. Ni bien haya probado algo te lo comento.

¿Cómo descubres que tiene esas 2 protecciones? ¿Algún programa para eso?

Nada más por ahora. Muchas gracias!! Un saludo

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 2120
Registrado: 08 Jun 2018, 19:40

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por pako »

Hola,
Vaya tema. Así que el problema es la fuente usada y las tantas otras incrustadas en ese pdf que al no estar estas en el Word hace que se pegue cualquier cosa. Pero es extraño también que al instalarlas en tu Windows siga copiándose lo mismo que si no la tuvieras.
Más que al no estar en Word, es al no estar instaladas en Windows.
Cuando yo las instale en Windows, instale las fuentes que detecto la página que te puse, si esa página no me detecto todas pues no las instale, ese es el problema, que la mayoría de páginas y programas no detecta las fuentes que usa ese archivo concreto.
Ahora que dices eso recuerdo que alguna vez me ha pasado de copiar un texto y al pegarlo en el Word notaba que era otra fuente pero lo escrito no variaba. Se leía lo mismo pero con otra tipografía por lo que no afectaba lo que buscaba pero acá el cambio de fuente desvirtúa el texto copiado. Ya tela.
Es que por lo visto hay como categorías, entonces las Sans Serif que creo que significaba sin pies, son las que no llevan remates en los extremos de las letras, pues si no tienes el tipo de letra indicado en ese archivo, usa otro tipo de letra que tengas en Windows pero que también sea del tipo Sans Serif, así te lo pone lo más similar posible.
Haciendo esto, no te varia el significado del texto como dices, pero si notas la diferencia del diseño de unas letras a las otras.
Descargué el programa de herramientas pdf de esa web que dices porque tiene prueba gratuita y quiero ver si descubro algo. Ahora estoy intrigada en esto que me parece tan raro como novedoso. Ni bien haya probado algo te lo comento.
Lo de incrustar "cosas" para que se vea tal y como quiera que se vea el creador es bastante común en muchas cosas de informática.
Por ejemplo, habrás visto que unos MP3 al reproducirlos se ve la caratula del disco y en otro no, esto es por el archivo MP3 lleva incrustada la foto de disco, pues lo mismo ocurre con las fuentes.

Ya contaras que tal con el programa ese.
¿Cómo descubres que tiene esas 2 protecciones? ¿Algún programa para eso?
Yo creo que eso cualquier programa que sea para PDFs te lo dirá.
Todo lo que te puse era del de Adobe en su versión gratuita que es la que dijiste que usabas.
A mi me sale donde te dije:

Menú > Propiedades del documento > Seguridad

Tras pulsar arriba a la izquierda en el botón "Menú" y después en "Propiedades del documento", te sale una ventana, pulsas en la pestaña "Seguridad" y abajo te pone una sección "Resumen de restricciones del documento" y ahí lo ví.

Saludos
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 82
Registrado: 02 Feb 2022, 14:41

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por Atenea »

Hola,
Me trabé con la instalación del pdf-tools porque es un .zip que al descomprimirlo no hay ningún ejecutable. Hay carpetas para 64 y 32 bits y archivos dll y lib y no sé cómo instalarlo. A ver si me puedes ayudar. Gracias. Un saludo

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 2120
Registrado: 08 Jun 2018, 19:40

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por pako »

Hola,

Por lo que estoy viendo es un SDK para usarlo en proyectos cuando programas en Java o C, supongo que es lo que bajarías y por eso no ves el ejecutable, tienen la versión sin implementación para no tener que programar, es el que te pone en la página principal "See Smallpdf", es una versión gratuita de 7 días, no probé a descargarlo porque te obligan a registrarte para poder descargarlo.

Saludos
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!

Atenea
Usuario topedesquiciao
Usuario topedesquiciao
Mensajes: 82
Registrado: 02 Feb 2022, 14:41

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por Atenea »

Hola,

Sí, es SDK. Entonces dejamos aquí las pruebas que eran solo para entender mejor lo que sucede cuándo se pega algo tan distinto a lo que se copia.

Nos quedamos con que es debido a las fuentes incrustadas en el pdf que no son reconocidas por el Windows y de ahí que se pegue un texto tan distinto a lo que leemos en el pdf.

Vale. Terminamos entonces. Muchas gracias por descubrir cómo era el asunto. Hasta la próxima!

Avatar de Usuario
pako
Usuario Bill Gates
Usuario Bill Gates
Mensajes: 2120
Registrado: 08 Jun 2018, 19:40

Re: pdf se traduce en caracteres extraños. Lo mismo si lo convierto a Word

Mensaje por pako »

Hola,

He indagado un poco más y parece que la información de las fuentes incrustadas se guarda en dos tablas, la primera donde están los patrones a dibujar y la otra tabla dice que carácter usa esas formas.
La primera tabla es la que se usa para visualizarlo, por eso se ve bien, la segunda tabla es la que dice lo que pone el texto, que es la que se usaría para copiar y pegar por ejemplo.
Por lo visto si esa segunda tabla esta corrupta o si la han modificado intencionadamente ya no deja hacer el copy/paste de manera correcta y salen otros caracteres distintos.

Aquí lo tienes explicado:

[Enlace externo eliminado para invitados]

Íbamos bien con que no reconoce las fuentes incrustadas, lo que no sabíamos que es porque esta corrupta esa segunda tabla o que esta modificada adrede para que no se pueda hacer copy/paste.

Saludos y hasta la próxima!
Si has encontrado aquí la ayuda que esperabas (o incluso si no ha sido así ;) ), ayúdanos a mantener el foro con un pequeño donativo.
¡Muchas gracias!