Новое поколение метрик цитирования. Построение IF-scoring rules Московкин В.М¹., Голиков Н.А². ¹Белгородский государственный национальный исследовательский.

Презентация:



Advertisements
Похожие презентации
1 Индикаторы оценки научной деятельности Обзор основных показателей для анализа публикационной активности и цитируемости авторов научных публикаций и научно-
Advertisements

Индекс научного цитирования. «Большинству авторов важно видеть, что их работы принимают» (Ю. Гарфилд «Индексы цитирования в науке»)
Построение наукометрического индекса, устойчивого к спаму Докладчик : Александр Пироженко.
«Публикуйся или погибнешь» Друченко Марина НТБ НТУУ КПИ 2012.
Мировая практика применения индекса цитирования при проведении и оценке научных исследований часть 1 Экономический факультет СПбГУ 24 марта 2010.
12 февраля 2014 года, ИНЦ РАН. * Публикационная активность * Число публикаций работников научной организации в Российском индексе научного цитирования.
ИСПОЛЬЗОВАНИЕ ИНДЕКСА НАУЧНОГО ЦИТИРОВАНИЯ В КАЧЕСТВЕ ХАРАКТЕРИСТИКИ НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ ДЕЯТЕЛЬНОСТИ УЧЕНЫХ Science Citation Index (SCI) база данных.
Электронные ресурсы для проведения библиометрических и наукометрических исследований Библиотекарь Центра цифровых технологий и сервисов НБ им. Н.И. Лобачевского.
Федеральное государственное автономное образовательное учреждение высшего профессионального образования «СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» Институт фундаментальной.
Электронные ресурсы в российских университетах. Эпизод второй: Госнаказ РГПУ им. Герцена 16 марта 2010 года.
Определение рейтинга научного учреждения на основе анализа цитируемости.
TITLE OF PRESENTATION | Presented By Date Знакомство с Scopus Первые шаги и основные функции
ИНДЕКС ЦИТИРОВАНИЯ КАК МЕТОД ОЦЕНКИ ДЕЯТЕЛЬНОСТИ УЧЕНЫХ: ПРОБЛЕМЫ И КОММЕНТАРИИ (на примере Тихоокеанского государственного университета) Якуба Т. Ю. –
Российский индекс научного цитирования Российский индекс научного цитирования (РИНЦ) - это национальная информационно-аналитическая система, аккумулирующая.
Эволюция индексов научного цитирования: от библиографических баз данных к информационно-аналитическим системам Еременко Г.О. Научная электронная библиотека.
Web of Science: информационная инфраструктура современной науки Валентин Богоров Интеллектуальная собственность и научные исследования Thomson Reuters.
ОСНОВНЫЕ ПОКАЗАТЕЛИ РАЗВИТИЯ НАУКИ В РЕСПУБЛИКЕ КАЗАХСТАН Директор Департамента научных исследований и интеллектуальной собственности по России и СНГ Thomson.
© Обухова О.Л., Заикин М.Ю., Соловьев И.В. Институт проблем информатики РАН. Москва Технология создания.
SCIENCE ONLINE Электронные информационные ресурсы для науки и образования ПРНД или особенности оценки национальной науки Г.О. Еременко Научная электронная.
Панель управления знаниями Knowledge Dashboards Сотрудничество THOMSON REUTERS и COLLEXIS Наталья Слащева Москва МГУДекабрь 2009.
Транксрипт:

Новое поколение метрик цитирования. Построение IF-scoring rules Московкин В.М¹., Голиков Н.А². ¹Белгородский государственный национальный исследовательский университет, Белгород, Россия, ²Независимый исследователь, Харьков, Украина The new generation of citation metrics. Construction of IF-scoring rules Moskovkin V. M¹., Golikov N. A². ¹ NRU Belgorod State University, Belgorod, Russia, ² Independent researcher, Kharkov, Ukraine Международная конференция Проблемы наукометрии: состояние и перспективы развития октября 2013 г. Москва, ИПРАН РАН

Бум по созданию Хирше-подобных метрик цитирования Как показано в работе L.Waltman & N.E.van Eck (2012) в 2010 и 2011 гг. почти каждая четвертая работа, опубликованная в журналах Scientometrics и Journal of Informetrics, цитировала классическую статью J.E.Hirsch (2005). После публикации последней работы возник бум по созданию Хирше-подобных метрик цитирования: m,g,e,w,hg,q и др.

Ущербность h-index и ему подобных метрик цитирования Ущербность h-index на фундаментальном уровне показана в работе L.Waltman & N.J.van Eck (2012). Он не удовлетворяет следующим постулатам: Если два ученых достигают одного и того же относительного (то же для абсолютного) улучшения их научной результативности, то их ранжирование друг относительно друга должно оставаться неизменным; Если ученый X1 имеет ранг выше, чем у ученого Y1, а ученый X2 имеет ранг выше, чем у ученого Y2, тогда исследовательская группа, состоящая из ученых X1 и X2 должна иметь совокупный ранг выше, чем у исследовательской группы, состоящей из ученых Y1 иY2. То же самое имеет место для всех Хирше-подобных метрик цитирования (Marchant, 2009)

Построение улучшенных метрик цитирования Задача построения улучшенной метрики цитирования на основе scoring rules (summation-based rankings) предполагает несколько этапов: 1. Построение (вывод) самой расчётной формулы (формул) предположительно соответсвующей неким интересующим нас критериям.

Построение улучшенных метрик цитирования Примеры таковых критериев: учёт импакт- фактора источника публикации, способность справиться с предельными случаями (у автора одна статья очень высокоцитируемая, остальные почти не цитируються, все статьи данного исследователя написаны в соавторстве, статей очень много но все малоцитируемы, и т.д.).

Построение улучшенных метрик цитирования 2. Получение данных для апробирования метрик. В текущей ситуации коммерциализации доступа к любым данным, эта задача является достаточно нетривиальной.

Построение улучшенных метрик цитирования. 3. Апробирование метрики на полученных массивах данных, проверка её на соответствие критериям упомянутым в пункте 1.

Формула расчёта метрики В дальнейшем будут использоваться следующие обозначения: Вектор перечня (списка) статей: Вектор перечня (списка) журналов приуроченных к вектору : Вектор статей ссылающихся на статью :

Формула расчёта метрики Вектор перечня (списка) журналов приуроченных к вектору : Вектор импакт-факторов исходного перечня журналов: Вектора импакт-факторов журналов приуроченных к вектору :

Формула расчёта метрики Если, то, если то

Формула расчёта метрики Cited publication Cited publication journal Quoted publication 1 Quoted publication 2 Quoted publication 3 Quoted publication 1 journal Quoted publication 2 journal Quoted publication 3 journal Impact factor Impact factor Impact factor Impact factor

Формула расчёта метрики PiPi JiJi P i1 P i2 P i3 J i1 J i2 J i3 IF i2 IF i1 IF i3 IF i

Получение данных Для апробирования предлагаемой метрики цитирования необходим достаточно большой объём данных по каждому научному сотруднику для которого производится расчёт.

Получение данных А именно: список публикаций, источник (журнал) в котором была осуществлена публикация, каким-либо образом рассчитанный импакт-фактор журнала, список публикаций цитирующих данную, и импакт-факторы журналов в которых были опубликованы статьи цитирующие данную.

Получение данных Такого рода данные, могут быть получены либо из коммерческих источников (Scopus, Web of Science) либо из открытых источников (Google Scholar). Авторами данного исследования был выбран 2-ой вариант.

Получение данных Оба подхода предполагают создание программного обеспечения, позволяющего автоматизировать сбор и обработку соответствующей информации. В ходе проведения данного исследования были написаны программы, позволяющие автоматизировать получение информации от Google Scholar и её обработку.

Получение данных Программа Scrapper, получающая информацию от Google Scholar, действует следующим образом: 1. Считывает информацию из профиля исследователя на Google Scholar. Считывается следующая информация: название статьи, год публикации, журнал в котором была опубликована статья и др. Сохраняет полученную информацию в базу данных.

Получение данных 2. Следует по ссылкам на каждую отдельную публикацию (опция by cited). По каждой такой ссылке мы получаем результаты поиска Google Scholar - публикации цитирующие данную.

Получение данных 3. Далее scrapper обрабатывает все страницы поисковой выдачи Google Scholar, содержащие описание публикаций цитирующих данную, сохраняет полученную информацию в базу данных. Следует учесть, что Scholar очень часто даёт в выдаче только фрагменты названия журнала.

Получение данных 4. С сайта Scimago берётся находящийся в открытом доступе список «скопусовских» научных журналов с их импакт-факторами.

Получение данных Так как Google Scholar защищается от попыток автоматизировать работу с ним и не предоставляет API для такой автоматизации, потребовалось предпринять довольно нетривиальные меры по преодолению данной защиты

Получение данных Одна из основных мер по преодолению защиты уменьшение частоты запросов к Google Scholar, что соответственно весьма сильно сказывается на скорости сбора данных, разумеется в отрицательную сторону. По этой же причине пока достаточное количество данных не получено.

Предварительная обработка полученных данных 1. Идентифицируются названия журналов, путём сопоставления полученного от Scholar названия журнала либо фрагментов названия с названиями журналов из списка Scimago. При этом названия приводятся к единому, «нормализованному», виду: одному и тому же регистру символов, составляется вариант названия без вспомогательных слов (артиклей и т.д).

Предварительная обработка полученных данных 2. Далее идут сравнения в следующем порядке: сравниваются необработанные названия, сравниваются названия приведённые к единому регистру, сравниваются названия без вспомогательных слов.

Предварительная обработка полученных данных 2. Если однозначного сопоставления не произошло и получено более одного совпадения, то требуются дополнительные действия для идентификации журнала (иного источника). В этом случае, если в поисковой выдаче Scholar есть гиперссылка на источник опубликовавший данную статью, то исследуется то, что находится по ссылке в качестве источника.

Предварительная обработка полученных данных А именно, если по гиперссылке отдаётся html, т. е. фактически plain text, то производится сопоставление каждого из совпавших названий из списка Scimago с текстом по гиперссылке. Если есть однозначное совпадение, то журнал идентифицирован.

Предварительная обработка полученных данных 3. Если на шаге 1 или на шаге 2 алгоритма (описаны на 2-х предыдущих слайдах), совпадений не обнаружено, то данная публикация помечается как опубликованная в неизвестном источнике и в дальнейших расчётах не участвует, либо ей присваивается некий минимальный импакт- фактор.

Предварительная обработка полученных данных Примечание: в общем виде задача идентификации источника публикации весьма сложна и в настоящее время не решена.

Предварительная обработка полученных данных Выше было упомянуто, что пока достаточного количества данных для апробирования предлагаемых метрик не получено так что здесь можно изложить только предварительные результаты:

Предварительные результаты Расчёты выполненные для сотрудника БГУ Рустама Кайбышева на основе данных из его профиля Google Scholar ( =jls0BsYAAAAJ&view_op=list_works&pagesize =100) – взяты 69 наиболее цитируемых публикаций для которых были идентифицированы названия журналов, дали значение метрики цитирования 5239http://scholar.google.com/citations?hl=en&user =jls0BsYAAAAJ&view_op=list_works&pagesize =100

Предварительные результаты Расчёты выполненные для сотрудника БГУ Андрея Белякова на основе данных из его профиля Google Scholar ( =eA9- 8zsAAAAJ&view_op=list_works&pagesize=100) – взяты 40 наиболее цитируемых публикаций для которых были идентифицированы названия журналов, дали значение метрики цитирования 2257

Альтернативные подходы к оценке результативности Альтернативные методики предполагают широкое использование machine learning. Возможно использование методов unsupervised learning для кластеризации научных работ и исследователей по неизвестным нам признакам которые и будут выявлены в ходе исследования.

Альтернативные подходы к оценке результативности Так же возможно имея проставленные внешними экспертами оценки результативности исследователей и тексты их статей можно применить методики supervised learning для построения системы, способной определять (predication) с той или иной достоверностью возможную импактность ещё неопубликованной статьи.