Шерепа Т.А. Предметно-орієнтовані зібрання бібліотеки: формування та використання / Т.А. Шерепа // Документознавство. Бібліотекознавство. Інформаційна діяльність: Проблеми науки, освіти, практики: Зб. матеріалів IV Міжнар. наук.-практ. конф., Київ, 19-21 травня 2009 р. — К., 2009. — С. 122-123.
Предметно-орієнтовані зібрання бібліотеки:
формування та використанняШерепа Тетяна Анатоліївна
Національна бібліотека України імені В. І. Вернадського, КиївОстанніми роками в Інтернет з'являється все більше зібрань наукових публікацій, доступ до яких безкоштовний для кінцевих користувачів. Звичайне Web-середовище не може забезпечити надійної ідентифікації метаданих та організації пошуку за ними, тому що не є придатним для довготривалого збереження і гарантії незмінності документів. Архівація наукових публікацій у відкритих тематичних архівах забезпечує їхнє впорядкування, виділення метаданих та ефективний пошук.
Оскільки Національна бібліотека України імені В. І. Вернадського є головним центром збереження та надання до загального доступу електронних копій періодичних друкованих наукових фахових видань, постає особливо необхідним функціонування нової системи документорозповсюдження, що базується на автоматичному формуванні предметно-орієнтованих зібрань на основі критерію семантичної близькості документів, основними задачами якої є проведення багатокритеріального пошуку, а також тиражування та поширення електронних зібрань на комп'ютерних носіях інформації.
Передавання електронних копій періодичних друкованих наукових фахових видань їх засновниками до Національної бібліотеки України імені В. І. Вернадського започатковано з метою забезпечення збереження видань та надання до загального доступу в режимі on-line. Затвердження порядку передавання та прийняття закону України "Про Основні засади розвитку інформаційного суспільства в Україні на 2007-2015 роки" (вiд 09.01.2007 N 537-V) призводить до необхідності надання користувачам бібліотеки якісного і глибокого доступу до цієї інформації, чому в значній мірі сприяє автоматична класифікація та індексування наданих видань, а також поширення на комп'ютерних носіях інформації.
Акумуляція, обробка, автоматичне формування впорядкованих зібрань електронних публікацій та їх наступне поширення, потребує автоматичних інтелектуальних програмних засобів опису семантики та смислових аспектів кожного документа колекції як окремо, так і в складі тематичних зібрань. Дані про семантичну близькість документів та значимих ключових слів, що містять ці документи, можуть бути застосовані для покращення обробки та використання окремого документа на протязі всього циклу звернень до нього.
Бібліотечно-бібліографічна класифікація є розподілом документів за галузями знань у відповідності зі змістом цих документів. Хоча бібліотечно-бібліографічні класифікації максимально наближуються до класифікації наук, вони не можуть з нею співпадати, тому що мають своє специфічне призначення, яке відрізняється від класифікації наук. Всі ієрархічні бібліотечно-бібліографічні класифікації на відміну від класифікації наук однолінійні. Саме тому ієрархічні бібліотечно-бібліографічні класифікації недостатньо точно відображають різноманітність взаємозв'язків наук та багатоаспектний характер знання, що обумовлює умовність бібліотечно-бібліографічних класифікацій. Семантико-лінгвістичне дослідження, як найбільш важлива умова побудови достатньо ефективних інформаційно-пошукових мов, набуває все більшого значення.
Специфічні особливості систем, що реалізують інформаційно-пошукові мови, які базуються на поняттях "класифікації" і "предметизації" відповідають реально існуючим потребам, а їхня комбінація створює оптимальні умови для задовольняння запитів споживачів інформації. Практичне застосування методів тематичної класифікації та підходів поєднання та гармонізації використання ієрархічної та предметної класифікацій у електронних бібліотеках, може підвищити якість проведення рубрикації на стадії аналітико-синтетичної обробки, удосконалити задовольняння запитів користувачів інформаційно-пошукових систем, а також сприяти формуванню тематичних серій колекцій документів згідно з потребами користувачів.
Вирішення завдання формування тематичних серій семантично споріднених документів шляхом знаходження семантично подібних документів, формалізується в задачу класифікації Text Mining. Задача класифікації - це визначення ймовірності належності документів ( які не входять до навчальної вибірки) до відповідної категорії. Більшість методів класифікації базуються на використанні класичної векторної моделі представлення документів. Електронна колекція документів представляється у вигляді матриці терм-документ, що містить у собі коефіцієнти значимості термінів (ключових слів) в кожному з документів колекції. Для опису тематики, як і для опису документів, використовуються списки термінів (або словоформ) з вказаними ваговими коефіцієнтами, які визначаються зі статистичної інформації про наявність термів в цьому і, можливо, інших документах. На підставі семантичної інформації про документ, класифікатор відносить його до одного з класів відповідно до певного розбиття простору документів.
Таким чином, автоматизоване формування впорядкованих предметно-орієнтованих зібрань із залученням знань бібліотечних спеціалістів є дуже важливим для більш ефективного використання електронних видань, побудови опису предметних галузей, а також створення моделі опису предметної галузі на базі основних концептів документів предметно-орієнтованих зібрань.
© Шерепа Тетяна Анатоліївна, 2009
Національна бібліотека України імені В. І. Вернадського
www.nbuv.gov.ua