Книги на літо

Степан у Каннах

Секс vs сльози

Басейни у Києві

Тиждень моди

Брежнєва та фури

Математики перевірили на міцність закон Ципфа

Для того, щоб визначити правильність закону Ципфа, дослідники вирішили використовувати його стосовно проекту "Гутенберг"

Іспанські математики перевірили на міцність закон Ципфа, згідно з яким при спробі впорядкувати всі слова мови або текст спаданням частоти їх використання, то частота n-го слова в такому списку опиниться приблизно обернено пропорційною його порядковому номеру n. Про результати дослідження розповідається у свіжому випуску журналу PLOS ONE.

Для того, щоб визначити правильність закону Ципфа, дослідники вирішили використовувати його стосовно проекту "Гутенберг" – ініціативи зі створення і розповсюдження електронної універсальної бібліотеки, яка включає 31075 книг англійською мовою. Колишні спроби застосувати закон Ципфа обмежувалися десятками текстів, а тепер дослідники працювали з цим масивом даних.

Реклама

Вчені поставили перед собою завдання визначити, чи вписуються тексти в закономірність, згідно з якою друге за використовуванням слово зустрічається приблизно в два рази рідше, ніж перше, третє – в три рази рідше, ніж перше, і так далі. Таким чином, ними була обрана сама найпростіша формулювання закону Ципфа.

Згідно з підсумками дослідження, за умови, що опущені найбільш рідкісні і архаїчні форми слів, близько 55 відсотків текстів вписуються в закон Ципфа. Якщо враховувати ці слова, то відповідність закономірності знижується до 40 відсотків.

Лінгвіст Джордж Кінгслі Зіпф досліджував частотність слів: одних в тексті попадається більше, інших менше, і за цим принципом все слова розбиваються на групи. Вчений запропонував дати цим групам порядкові номери (ранги): найбільш частотні слова отримують номер 1, з частотністю нижче – 2, ще на рівень нижче – 3, і так далі.

Реклама

Після цього обчислюється ймовірність зустріти слово Ікс в тексті: кількість слів Ікс в тексті ділиться на число всіх слів. Зіпф виявив, що якщо ймовірність для слова Ікс помножити на порядковий номер рангу, в якому воно опинилося, то кожен раз буде виходити приблизно одна і та ж величина. Так, для англійської мови ця константа дорівнює приблизно 0,1, а для російського – 0,06-0,07.

Реклама на segodnya.ua Реклама
Всі новини Показати ще
Реклама на segodnya.ua Реклама
Новини шоу-бізнеса
Читати ще
Лайфхаки для життя
Більше хаків
Модно
Ідеї нейл-дизайну
Манікюр на літо 2022
Манікюр на літо 2022
Манікюр на літо 2022
Манікюр на літо 2022
Манікюр на літо 2022
Манікюр на літо 2022
Манікюр на літо 2022
Манікюр на літо 2022
Манікюр на літо 2022
Манікюр на літо 2022
1 /2
Більше варіантів
Цитата дня

Після чотирьох місяців війни ніхто з нас не в порядку

Цитата на segodnya.ua
Олена Зеленська Перша леді України
Читати інтерв'ю
Instagram тижня
Акаунт про супергероїв сучасності — ЗСУ
Підписатися
Дивитися фото
Зберегти у закладинки
Haute Couture
Розклад Fashion Weeks

Париж. Франція

3 – 7 липня

Париж. Франція

Маямі. США

14 – 21 липня

Маямі. США

Нью-Йорк. США

9 – 14 вересня

Нью-Йорк. США

Лондон. Англія

16 – 20 вересня

Лондон. Англія

Мілан. Італія

20 – 26 вересня

Мілан. Італія
Подробиці з модних показів

Натискаючи на кнопку «Прийняти» або продовжуючи користуватися сайтом, ви погоджуєтеся з правилами використання файлів cookie.

Прийняти