Veliko hvala Branimire na odgovoru.
Ali pošto sam takav kakav sam a to je da sam radoznao i znatiželjan neki crv mi nije dao mira.
Pa eto da podelim sa svima vama informaciju možda nekome i zatreba ko zna a znanje treba da se deli zar ne.
Rešenje postoji i prevashodno se odnosi na erečnike koji su u pdf-u ali pošto je brže pretraživanje u ovom drugom formatu chm - u tome je i cela bit datog problema i bila.
Da kada se traži zadana reč i fraza da se samo ona i dobije jer kod pdf to nije moguče jeste ali nije to to.
Evo rešenja.
Nglib je jednostavna aplikacija za pretraživanje kolekcije e-knjiga.
nglib je jednostavna aplikacija koja PDF i CHM datoteke stavlja u hijerarhiju direktorija u bazu podataka SQLite radi bržeg pretraživanja. Prvotno je plan bio iz ovih datoteka izvući metapodatke poput naslova i autora, no ispostavilo se da to nije bilo lako kao što se očekivalo. Dakle, za sada se koriste samo imena datoteka. Naslovi se generiraju iz imena datoteka uklanjanjem ekstenzije datoteke i zamjenom “.” s razmacima.
Obavezno instalirajte python veze za biblioteku STFL (python-stfl na Debian / Ubuntu).
Pri prvom pokretanju program će vas pitati za direktorij u kojem pohranjujete svoju PDF i CHM kolekciju. Datoteka za konfiguriranje bit će zapisana na ~ / .nglib / nglibrc.
Nadam se da sam nekom pomogao.
https://code.google.com/archive/p/nglib/
http://www.clifford.at/stfl/