Математики перевірили на міцність закон Ципфа

23 лютого 2016, 01:58
Для того, щоб визначити правильність закону Ципфа, дослідники вирішили використовувати його стосовно проекту "Гутенберг"

Іспанські математики перевірили на міцність закон Ципфа, згідно з яким при спробі впорядкувати всі слова мови або текст спаданням частоти їх використання, то частота n-го слова в такому списку опиниться приблизно обернено пропорційною його порядковому номеру n. Про результати дослідження розповідається у свіжому випуску журналу PLOS ONE.

Для того, щоб визначити правильність закону Ципфа, дослідники вирішили використовувати його стосовно проекту "Гутенберг" – ініціативи зі створення і розповсюдження електронної універсальної бібліотеки, яка включає 31075 книг англійською мовою. Колишні спроби застосувати закон Ципфа обмежувалися десятками текстів, а тепер дослідники працювали з цим масивом даних.

Реклама

Вчені поставили перед собою завдання визначити, чи вписуються тексти в закономірність, згідно з якою друге за використовуванням слово зустрічається приблизно в два рази рідше, ніж перше, третє – в три рази рідше, ніж перше, і так далі. Таким чином, ними була обрана сама найпростіша формулювання закону Ципфа.

Згідно з підсумками дослідження, за умови, що опущені найбільш рідкісні і архаїчні форми слів, близько 55 відсотків текстів вписуються в закон Ципфа. Якщо враховувати ці слова, то відповідність закономірності знижується до 40 відсотків.

Лінгвіст Джордж Кінгслі Зіпф досліджував частотність слів: одних в тексті попадається більше, інших менше, і за цим принципом все слова розбиваються на групи. Вчений запропонував дати цим групам порядкові номери (ранги): найбільш частотні слова отримують номер 1, з частотністю нижче – 2, ще на рівень нижче – 3, і так далі.

Реклама

Після цього обчислюється ймовірність зустріти слово Ікс в тексті: кількість слів Ікс в тексті ділиться на число всіх слів. Зіпф виявив, що якщо ймовірність для слова Ікс помножити на порядковий номер рангу, в якому воно опинилося, то кожен раз буде виходити приблизно одна і та ж величина. Так, для англійської мови ця константа дорівнює приблизно 0,1, а для російського – 0,06-0,07.