Построение и использование фасетов при поиске

в АБИС ИРБИС64

Navigation:  ИРБИС64+ >

Построение и использование фасетов при поиске

в АБИС ИРБИС64

Previous pageReturn to chapter overviewNext page

Фасетом будем называть поисковый инверсный термин – один из верхних элементов списка, отсортированного по числу вхождений данного типа терминов в результат поиска.

Тип фасета, таким образом, совпадает с типом инверсного термина и задается в ИРБИС64 префиксом, например для авторов A=. Каждому результату поиска соответствует свой набор фасетов, указывающих на наиболее часто встречающиеся термины (в соответствии с их типом) в найденных документах.

Таким образом, фасеты помогают пользователю автоматизированной поисковой системы сделать предварительную оценку результатов поиска по различным возможным смысловым срезам и особенно эффективны при значительной выдаче. Фасеты являются инструментом сжатия найденной информации по нескольким типам поисковых терминов. Как форма сжатия фасеты, конечно, несовершенны и максимально полезны при поиске в больших текстовых массивах, когда поисковая задача нечетко определена. В этом случае тип фасета – это слова из текстов. При поиске по библиографии, которая хорошо структуирована заранее, фасеты могут дать пользователю подсказки, которые в неявном виде содержаться в ЭК. В этом случае фасеты служат инструментом извлечения знаний. В связи с тем, что библиографические записи в ЭК слабо связаны друг с другом, такая информация полезна скорее исследователю, чем простому пользователю.

Построение инверсных файлов, необходимых для получения фасетов по результатам поиска происходит при загрузке словаря БД ЭК.

Параметр CREATE_CELLS_ON_IF_REORGANIZATION=1 (умолчание 0) в ини файле АРМ Администратор ИРБИС64 (irbisa.ini) позволяет построить фасеты в режиме перезагрузким словаря БД ЭК.

Параметр MAX_POSTINGS_NUMBER_IN_CELL (умолчание 5) устанавливает минимальное необходимое количество ссылок для термина для его вхождения в список фасетов.

Параметр MAX_LENGTH_CELL_TERM (умолчание 2) устанавливает минимальную длину фасета (термина словаря без префикса).

Типы фасетов перечислены в  текстовом файле dbname.cells в виде префиксов. Для каждого типа фасетов при загрузке словаря строится бинарный инверсный файл dbname.cellN, где N – порядковый номер фасета в списке dbname.cells, начиная с единицы. Файл dbname.cellN имеет жесткую структуру: MFN INDEX, где MFN – номер записи в БД ЭК, INDEX – индекс фасета – порядковый номер фасета (термина) в списке терминов данного типа. Одному MFN могут соответствовать несколько INDEX.

По окончании загрузки строится файл дополнительных терминов словаря, которые используются для расшифровки индекса фасета данного типа в конкретный термин словаря.

Вид дополнительного термина: =Префикс=INDEX=Термин. Например для автора SHORT: =A=3203=SHORT

 

Пример:

Пример поиска по ЭК ГПНТБ.

 

Запрос: U=5$. Найдено: 164910 записей. Время поиска 100 ms, время расчета фасетов 150 ms.

 

БРЮНО, А. Д. (93)

BEILSTEIN, F. K. (77)

ПЕРЕЛЬМАН, Я. И. (74)

ТРОФИМОВА, Т. И. (74)

СТРЕЛЬЦОВ, В. Н. (74)

1990 (9435)

1991 (8636)

2006 (7130)

2007 (6785)

2008 (6737)

НАУКА(М.) (1993)

URSS(М.) (1096)

ФИЗМАТЛИТ(М.) (1013)

SPRINGER(BERLIN ; HEIDELBERG ) (971)

SPRINGER(BERLIN; HEIDELBERG) (853)

 


См. также:

Поиск в системе ИРБИС64+