Menu

Нові алгоритми допомагають оцінити й упорядкувати наукову літературу в автоматичному режимі

Новые алгоритмы помогают оценить и упорядочить научную литературу в автоматическом режиме


Залишатися на "вістрі" сучасної науки, бути в курсі останніх її досягнень є на сьогоднішній день дуже складним завданням навіть якоїсь вузькоспеціалізованої області. Щодня у різних виданнях публікуються сотні тисяч наукових статей, результатів досліджень і праць, прочитати які, а тим більше засвоїти міститься в них, не може жодна людина на світі, наскільки би розумним він не був. Для вирішення вищезазначеної проблеми, пов'язаної з величезною кількістю інформації, дослідники з Університету Північної Кароліни розробили комп'ютерну програму, яка в автоматичному режимі може оцінити, упорядкувати і відсортувати всю наукову літературу та публікації, надавши людям посилання тільки на найбільш значущі та достовірні джерела інформації.

Використовуючи алгоритми глибокого аналізу тексту програма розкладає по пріоритетів для подальшого ознайомлення всі науково-дослідні роботи, що потрапляють в її полі зору. Відібрані роботи поміщаються в спеціалізовані тематичні бази даних, такі як база Comparative Toxicogenomics Database (CTD), база даних з відкритим доступом, в якій міститься інформація про вплив різних хімічних препаратів на геном людського організму, що позначається на здоров'я нинішнього і відіб'ється на здоров'я майбутніх поколінь людей.

"По одній тематиці впливу на здоров'я токсичних важких металів з 1926 року було опубліковано понад 33 тисяч наукових робіт", - пояснює доктор Аллан Пітер Девіс (Dr. Allan Peter Davis), один з керівників проекту CTD, - "Навіть доклавши максимум зусиль ми не зможемо прочитати весь обсяг цих робіт і вибрати з них тільки саму важливу інформацію. На щастя, тепер з цим успішно можуть впоратися наші нові алгоритми".

Як вже говорилося вище, для вибору найбільш значущих публікацій використовуються алгоритми глибокого аналізу тексту. Програма порівнює тексти відразу багатьох тисяч статей, визначає збіги і факти, що виражається в цифровому показнику наукового "ваги" кожного документу на підставі якого приймається рішення про включення його в загальну базу. "Алгоритм не працює з одній окремо взятій статті, він ефективно може працювати з великими наборами статей, але в цьому випадку він дуже надійно відокремлює зерна від плевел, якщо можна так висловитися", - розповідає Томас Виджерс (Thomas Wiegers), один з дослідників в області біоінформатики.

Для перевірки працездатності створених алгоритмів дослідники відібрали 15 тисяч статей і відправили з команді кваліфікованих рецензентів, які вичитавши їх повинні були вибрати найбільш важливі документи. "Результати виявилися значні" - розповідає доктор Девіс, - "Рецензенти зробили вибір, який співпав на 85 відсотків з вибором, зробленим комп'ютером. Тільки комп'ютер зробив свій вибір набагато швидше людей".

Використання алгоритмів оцінки наукових статей дозволить вченим заощадити час і підвищити ефективність своєї праці мінімум на 30 відсотків. "Це технологія дозволить заощадити величезну кількість дорогоцінного часу", - пояснює доктор Девіс, - "Завдяки нашій технології ми можемо набагато ефективніше використовувати ресурси цілих наукових команд, надавши вченим можливість працювати тільки з документами, що містять максимально можливу кількість релевантної інформації".

Природно, як і в роботі будь-якого алгоритму, в роботі алгоритмів оцінки наукової літератури бувають аномалії, коли високий показник призначається статті, яку людина-рецензент відхиляє як не важливе. Дослідники провели ретельний аналіз текстів "аномальних" статей і визначили причини, за якими програма приймала хибні рішення. "Тепер ми можемо внести корекції в наші алгоритми, після чого система почне працювати максимально точно".

"Нам ще далеко до тієї стадії, коли комп'ютер сам зможе прочитати літературу, публікації та роботи, самостійно витягуючи тільки всі важливі дані і надаючи їх у зручному для сприйняття вигляді" - розповідає Девіс, - "Але реалізований нами глибокий аналіз тексту є великим кроком вперед в цьому напрямку".

|