Интересная статистика и данные из разных областей

Повторяемость слов в текстах поп-песен

Коллин Моррис задался вопросом: как много повторяемых слов в поп-песнях? Для этого он проанализировал тексты 15 тысяч синглов из рейтинга Billboard Hot 100 с 1958 по 2017 год.

Моррис использовал один из алгоритмов Лампеля—Зива (Lempel-Ziv), используемых в архиваторах файлов. В данном случае алгоритм ищет повторяющиеся проходы, слова и выражения. Затем алгоритм удаляет такие обороты, уменьшая общий объем песни. В конечном результате средняя песня из Billboard Hot 100 сократилась на 50%.

Исполнители, с самыми повторяющимися словами в песнях:

  1. Rihanna — 65% (все песни исполнителя можно сократить почти на 65%);
  2. Beyonce и Britney Spears — 60%;
  3. One Direction — 59%;
  4. Madonna — 58%;
  5. Michael Jackson и Mariah Carey — 57%.

Исполнители, в чьих песнях повторений меньше всего:

  1. Frank Sinatra — 35%;
  2. Elvis Presley — 36%;
  3. Billy Joel и Brad Paisley — 38%;
  4. Ray Charles, Connie Francis, John Denver — 39%;
  5. George Strait — 40%.

Самые повторяемые песни:

  1. Around The World — Daft Punk, 1997 — 98%;
  2. The Rockafeller Skank — Fatboy Slim, 1998 — 95%;
  3. Chain Of Fools (Part 1) — Jimmy Smith, 1968 — 92%.

2014 год стал самым «повторяемым» годом. Средняя песня из этого года на 22% более повторяема, чем песни 1960 года.

Статья Морриса с подробностями и интерактивной визуализацией: Pudding