Фильтры документов
Для индексирования текстовой информации необходимо уметь извлекать текст из документов различного формата.
В операционной системе Windows для этого существует штатный интерфейс IFilter, через который извлекаются данные из файлов в формате .txt, .htm, Microsoft Office (.doc, .docx, .xls, .xlsx, .ppt, .pptx), .pdf и других. Для извлечения текста из формата .pdf нужно устанавливать соответствующий фильтр от Adobe.
Для использования платформы MultiView в операционной системе Linux был создан независимый от Microsoft и Adobe фильтр по основным типам документов. Для этого была проведена работа по адаптации существующих версий open source фильтров под .NET - конкретно были отобраны необходимые программы, проведена коррекция ошибок, добавлены модули недостающих форматов.
Кроме того, несколько ранее в рамках модернизации программы автоматизации работы издательской системы, используемой редакцией Вестника Московского Университета серия физическая, был портирован на .NET фильтр для файлов в формате .tex.
В результате сейчас имеется универсальный вариант фильтра для извлечения текста из документов наиболее распространенных форматов, работающий в Windows, Linux. При этом в Windows можно продолжать пользоваться штатным IFilter или использовать наш универсальный фильтр. Универсальный фильтр может быть удобен и при использовании внешнего Windows-хостинга, если у провайдера отсутствует, например, фильтр для .pdf файлов.