klargøring af tekst fra dokumentfiler vha ifilters

En stor del af infrastrukturen for at opstille en søgemaskine er at kunne hente tekst fra de dokumenter man ønsker at kunne søge i.

Microsoft stiller flere værktøjer til rådighed ifbm søgning – heraf kan flg. nævnes:

  • Windows Desktop Search
  • Indexing Server
  • Sharepoint Portal

Disse værktøjer benytter alle teknologien “ifilter” ( http://www.ifilter.org ) der opstiller et centralt interface der benyttes til udtrække tekst og information fra forskellige dokumenttyper , der implementerer dette interface. Hvis du kigger på http://www.ifilter.org så kan du finde en liste af understøttede dokumenttyper.

Ifilter teknologien er central for at kunne klargøre tekst fra dokumentfiler på windows-platformen og er tilgængelig fra Windows sdk’et ( se mere her : http://en.wikipedia.org/wiki/Microsoft_Windows_SDK )

SDK’et stiller applikationerne \bin\filtdump.exe og \bin\filtreg.exe til rådighed.

filreg.exe giver dig en oversigt over hvilke ifilters der er registreret på dit system. Hvis du kører denne applikation fra kommandolinjen , kan du få en oversigt over registrerede filtre. På mit system er .pdf filer understøttet vha “Adobe Acrobat Reader 8.0″ .

filtdump.exe kan udtrække tekst fra et dokument der har et registreret ifilter. Jeg kan eksempelvis køre

filtdump.exe -b blei03a.pdf

og få teksten fra pdf-filen

Der er et eksempel på hvordan du kan kode dit eget ifilter i \Samples\WinBase\Indexing\IFilter .

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>