Misleading PDF: visual content differs from extracted text
czterycztery.pl·4h·
Discuss: Hacker News
Flag this post

wersja polska

Wyobraź sobie, że mam font, w którym litera “Z” ma kształt litery “L”, a litera “L” ma kształt litery “Z”. Jeśli używając tego fonta stworzę PDF ze słowem “LUPA”, to będzie ono wyglądało jak “ZUPA”. Człowiek czytający PDF zobaczy słowo “ZUPA”, ale kiedy skopiuje ten tekst i gdzieś wklei, albo użyje jakiegoś narzędzia, które przerabia ten PDF na tekst bez użycia OCR, dostanie słowo LUPA. To ciekawe - dzięki temu można mieć dokument, który na oko wygląda dobrze, ale w treści ma subtelne nieprawdy. Jeśli robić taki PDF z dłuższym tekstem, wygodnie jest przygotować sobie serię fontów: font, w którym każdy znak wygląda jak A; font, w którym każdy znak wygląda jak B i tak dalej - wtedy można wyświetlić dowolną t…

Similar Posts

Loading similar posts...