Вероятность

Денис Парфенов    | 2021.08.09

У меня нет отличного учебника для этого. Некоторые материалы есть в Lovasz & Vesztergombi на стр. 51-54 и Aspnes 224-. Однако после страницы 235 математика становится довольно сложной.

Большая вероятность тесно связана с наборами. У нас есть набор всех исходов с вероятностью 1.0. Различные подмножества имеют свои собственные вероятности. Если A и B - непересекающиеся множества, то P (A∪B) = P (A) + P (B). В общем случае P (A∪B) = P (A) + P (B) - P (A∩B).

Часто, если существует несколько исходов, разумно предположить, что все исходы одинаково вероятны (хотя это определенно не всегда так). Например, при подбрасывании монеты, если мы предположим, что P (решка) = P (решка), то каждое будет 1/2. Для одиночной шестигранной матрицы P (1) = P (2) =. = P (6) = 1/6. Для вытягивания игральной карты из хорошо перетасованной колоды у любой данной карты есть вероятность выпадения 1/52.

В этих заметках я изложу некоторые основные факты о вероятности, которые часто используются в информатике.

Сфера статистики - это, грубо говоря, анализ данных для определения вероятности того, что данный результат может быть отнесен к случайности. Чем ниже эта вероятность, тем больше мы поверим результату.

Покер

Каждая карта имеет ранг 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K, A и масть. Для простоты я предполагаю, что туз всегда высок; то есть (A, 2,3,4,5) не стрит.

Мы рассчитаем некоторые вероятности пятикарточной покерной руки. Всего (52 выбирают 5) = 2 598 960 рук.

Сколько способов получить стрит-флеш(5 карт подряд, одна масть)? Есть 9 вариантов ранга самой младшей карты [от 2 до 10], умноженных на 4 возможных масти, что дает 9 * 4 = 36 рук. (Здесь мы явно используем гипотезу, что (A, 2, 3, 4, 5) не является прямым.)

Сколько способов получить четверки? 13 рангов для четверки, умноженные на 12x4 возможностей для пятой карты, составляют 624.

Сколько способов получить фулл-хаус(три одинаковых плюс два другого вида)? Для трех карт одного достоинства у нас есть 13 возможных рангов * 4 варианта нечетной масти (масть не входит в тройку) = 52. Для двойки у нас теперь есть 12 возможных рангов * (4 выбирают 2) варианта масти (выбирают 2 масти из 4) = 72. Это всего 3744.

Сколько способов вы можете взять флеш(5 карт одной масти): (13 выберите 5) для одной масти, умножьте на 4 масти, = 1287 * 4 = 5148.

Сколько способов вы можете нарисовать прямую? 5 карт подряд? 9 вариантов ранга самой младшей карты, умноженное на 4 5 вариантов мастей из 5 карт, составляет 9 * 1024 = 9216.

Тройка? четыре варианта нечетной масти, умноженные на 13 значений. Теперь есть еще две карты, которые должны иметь разные ранги. Количество комбинаций двух рангов составляет (12 выбирают 2), а их масти - 4 * 4. Итак, это 4 * 13 * (12 выберите 2) * 16 = 54912.

Две пары? Есть (13 выберите 2) способов выбрать два ранга. Для каждого ранга мы можем выбрать костюмы (4 выбора 2) способами. Теперь для пятой карты есть 11 * 4 возможности, 78 * 6 * 6 * 44 = 123 552 варианта.

Множество вариантов

Давайте посмотрим на распределение вероятностей результата броска двух игральных костей. Результаты будут представлены в виде упорядоченной пары, например (3,5). Обратите внимание, что мы предполагаем, что две кости различны; то есть мы можем рассматривать бросок как бросание первого, а затем второго кубика. Это реально: есть только один способ бросить две двойки, но есть два способа бросить 2 и 3, так что набор действительно вдвое выше, чем получение двух двойок.

Теперь посмотрим на суммудвух кубиков. Всего 36 исходов. Сколько результатов дают в сумме 2? Просто (1,1). Сколько результатов дает 3? (1,2) и (2,1). Для 4 есть три исхода: (1,3), (2,2), (3,1). В общем, для суммы N 7 количество исходов такое же, как для 12 - N.

Таким образом, вероятностьполучить 4 составляет 3/36. Вот таблица всех вероятностей.

Номер 2 3 4 5 6 7 8 9 10 11 12
Вероятность 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Как насчет вероятности бросить два кубика и получить 4 хотя бы на одном кубике ? Опять же, важен порядок игры в кости. Чтобы получить 4 на первом кубике, мы можем выбросить один из шести исходов (4,1), (4,2), (4,3), (4,4), (4,5) или (4, 6). Чтобы получить 4 на втором кубике, но не на первом (который мы уже подсчитали), мы можем выбросить (1,4), (2,4), (3,4), (5,4), (6 , 4),. Обратите внимание, что мы считаем (4,4) только один раз. Есть 11 исходов с вероятностью 11/36.

Если у меня двое детей, и один из них мальчик, какова вероятность, что другой мальчик?

Настоящий вопрос здесь в том, что означает вероятность. Мы говорим о моих детях? Этот результат фиксирован (кстати, один мальчик и одна девочка). Мы говорим о частотномподходе? То есть мы отбираем 4000 человек, у которых есть двое детей, и отбрасываем данные из

1000, у которых две девочки. Это «нормальный» подход к вероятности. Или мы говорим о байесовскомподходе, в котором вероятность отражает силу вашего убеждения? Этот подход может применяться к человеку с двумя детьми, о котором вы просто не знаете полных данных.

Если я подбрасываю две монеты, и хотя бы одна из них оказывается головой, какова вероятность, что другая тоже голова?

Вот частотный анализ. Есть четыре исхода: (H, H), (H, T), (T, H), (T, T). Зная, что есть хотя бы одна голова, исключает (T, T). Остальные три равновероятны, поэтому есть 1 шанс из 3, что у нас две решки (H, H).

Как насчет вероятности того, что если я брошу два кубика и один из них будет 4, другой также будет 4? Здесь у нас есть 11 способов бросить два кубика и получить хотя бы одну 4. Есть только один результат, который представляет две четверки. Так что вероятность 1/11.

Проблема Монти Холла.

Вы находитесь на игровом шоу, и есть три двери: A, B и C. Ровно за одной из дверей находится приз; за остальными ничего нет. Вы должны угадать дверь. Вероятность того, что приз окажется за вашей дверью, составляет 1/3.

В этот момент ведущий (кто знает, что где) открывает одну из оставшихся дверей, не обнаруживая приза. Хозяин всегда может это сделать, потому что только за одной дверью есть приз; всегда есть две "бесполезные" двери. Ваш выбор: переключить дверь на оставшуюся закрытую дверь?

Несколько удивительно, но ответ - да. Если вы выбрали дверь A, и ведущий открывает дверь B, то вероятность того, что сокровище находится за дверью A, остается равной 1/3. Таким образом, вероятность, что он находится за дверью C, теперь составляет 2/3.

Обычный аргумент против этого состоит в том, что ведущий всегда может выбрать пустую дверь, чтобы не было никакой существенной информации. Но аргументы "разоблачения информации" в корне неточны. Другой способ взглянуть на это заключается в том, что открытие двери не раскрывает никакой информации, и поэтому вероятность того, что приз окажется за дверью, выбранной вами первым, должна оставаться неизменной.

Монти Холл против двух голов

В разделе «Множественный выбор» знание того, что две монеты не приводят к TT, означает, что P (HH) теперь составляет 1/3. То есть частичная информация изменила вероятность HH. Однако в разделе «Монти Холл» частичная информация, полученная при открытии Монти двери 2 или двери 3, не повлияла на вероятность P (приз находится за дверью 1).

В чем разница?

Чтобы лучше сравнить их, давайте предложим пару более близких сценариев. Предположим, что у нас есть 3-сторонняя матрица (или 6-гранная матрица с 1 на двух гранях, 2 на двух гранях и 3 на двух гранях). Кто-то другой бросает кубик, и приз помещается за дверью с соответствующим номером. Мы хотим знать вероятность того, что приз находится за дверью 1, P (door1). На данный момент это 1/3.

Сценарий 1(несколько вариантов): Монти теперь открывает дверь 3 и показывает, есть ли там приз.

Сценарий 2(Монти Холл): Монти, зная, где находится приз, выбирает одну из дверей 2 или 3, чтобы открыть, не обнаруживая приза. Для определенности предположим, что если приз находится за дверью 3, Монти выбирает дверь 2, и если приз находится за дверью 2, Монти выбирает дверь 3, а если приз находится за дверью 1, Монти выбирает дверь 2 с вероятностью 50%. (и, следовательно, то же самое для двери 3).

Пусть A обозначает событие, в котором приз находится за дверью 1. Действия Монти можно рассматривать как пару событий. В сценарии 1 результат таков: находится ли приз за дверью 3. Возможны два события: M1 = E (приз неза дверью 3) и M2 = E (приз за дверью 3). В сценарии 2 неизбежно произойдет отсутствие приза; событие действительно состоит в том, откроет ли Монти дверь 2 или дверь 3. У нас есть M3 = E (Монти открывает дверь 2) и M4 = E (Монти открывает дверь 3).

В сценарии 1, после информации Монти, если за дверью 3 нет приза, то вероятность того, что приз находится за дверью 1, теперь равна 1/2. Но в сценарии 2 вероятность того, что приз теперь находится за дверью 1, остается равной 1/3, и, следовательно, вероятность того, что приз находится за другой неоткрытой дверью, теперь составляет 2/3.

Один из способов понять это - использовать частотныйподход. Предположим, мы запускаем сценарий 1300 раз. Ожидается, что M1 произойдет 200 раз, а M2 - 100 раз. Из тех 200 раз, когда выпадало M1, приз оказывается за дверью 1 половину времени, то есть 100 раз. Учитывая M1, вероятность того, что приз находится за дверью 1, становится 100/200 = 1/2. Дано M2, P (дверь 1) = 0; одно из больших различий между двумя сценариями состоит в том, что в сценарии 1 мы игнорируем M2, а в сценарии 2 рассматриваются оба события Monty. Вот табличный анализ, который включает M2:

Приз за дверью 1 Приз за дверью 2 Приз за дверью 3
M1 M2 M1 M2 M1 M2
100 раз 0 раз 100 раз 0 раз 0 раз 100 раз

Если мы просто посмотрим на записи в последней строке, которые не включают M2, мы получим 100/200.

Для сравнения, в 300 прогонах сценария 2каждая из M3 и M4 встречается примерно 150 раз, и в каждом из этих 150 раз выигрыш находится за дверью 1 примерно 50 раз. Таким образом, P (дверь 1) остается на 1/3. Вот это в табличной форме:

Приз за дверью 1 Приз за дверью 2 Приз за дверью 3
M3 M4 M3 M4 M3 M4
50 раз 50 раз 0 раз 100 раз 100 раз 0 раз

Итак, всего 100 раз из 300, что приз находится за дверью 1. На этот раз не имеет значения, игнорируем ли мы M3 или M4: если мы посмотрим только на записи в нижнем ряду для M3, мы получим 50/150 = 1/3, и аналогично для M4.

Другой способ визуализировать разницу состоит в том, что в сценарии 1 мы игнорируем результат M2. Если мы добавим это, то мы сможем рассуждать следующим образом: M1 встречается в 2/3 случаев, а M2 встречается в 1/3 случаев. Если встречается M1, P (A) = 1/2. Если происходит M2, P (A) = 0. Итак, взяв средневзвешенное значение,

P (A) = 1/2 * 2/3 + 0 * 1/3 = 1/3,

где эта вероятность не зависит от результата Монти.

Последний способ увидеть разницу - это условная вероятность. Напомним, что условная вероятность A для данного B, или P (A | B), определяется как P (A∩B) / P (B).

В свете этого, P (A | M1) = 1/2, просто (используя таблицы, если необходимо). Аналогично P (A | M2) = 0.

Однако для сценария 2 P (A | M3) = P (A | M4) = 1/3.

Если P (A) = P (A | B), мы говорим, что A и B независимы. Итак, интуитивно понятно, что в сценарии 1 A не зависит от открытия двери Монти, и поэтому условная вероятность A изменяется. В сценарии 2, напротив, A не зависит от открытия двери Монти. По замыслу, открытие двери сценария 2 Монти не передает никакой информации об А. (обратите внимание, что, как следствие, открытие двери сценария 2 Монти действительно передает информацию о вероятности того, что приз находится за неоткрытой дверью 2 или 3; теперь увеличивается до 2/3.)

Дни рождения

Какова вероятность того, что в группе из N человек у двух человек будет один день рождения?

Давайте посмотрим на вероятность того, что у всех N людей разные дни рождения. Есть 365 вариантов для первого, умноженного на 364 для второго и так далее до 365-N + 1 для последнего. Умножая, получаем 365! / (365-N) !. Как вероятность, разделите это на 365 Н:

Вот таблица вероятностей того, что у всех разный день рождения, от N = 1 до N = 25. Чтобы получить вероятность того, что у двух человек день рождения одинаковый, вычтите из 1.

1 1.000
2 0,997
3 0,992
4 0,984
5 0,973
6 0,960
7 0,944
8 0,926
9 0,905
10 0,883
11 0,859
12 0,833
13 0,806
14 0,777
15 0,747
16 0,716
17 0,685
18 0,653
19 0,621
20 0,589
21 год 0,556
22 0,524
23 0,493
24 0,462
25 0,431

В какой момент вероятность отсутствия общих дней рождения меньше 50%?

Как насчет другой проблемы: у нас есть 1 000 000 возможных сетевых адресов. Каждой сетевой карте назначается адрес случайным образом.

Вопрос 1. Сколько адресов мы можем выделить случайным образом, прежде чем вероятность конфликта адресов превысит 50%?

Ответ: Для N карт вероятность отсутствияконфликта равна

Для N small это близко к 100%, потому что все коэффициенты близки к 1,0. Давайте использовать следующее приближение, хорошее, когда a и b маленькие:

Точный ответ 1 - (a + b) + ab, но когда a и b маленькие, скажем

Используя это приближение со второй формой выше, это становится

Точное значение суммы (1 + 2 +. + (N-1) равно (N-1) N / 2. Это примерно N 2/2. Подставляя это в формулу выше, наша оценка вероятности нетконфликта 1 - N 2 / 2M. Опять же, для малых N это почти 100%. Для M = 365 и N = 23 эта формула дает 0,337, что определенно немного меньше, чем у нас раньше. Но это хорошее начало. Хорошо работает, когда N 2 намного меньше, чем M. Здесь N 2 примерно такое же, как M.

Если 1 - N 2 / 2M - это вероятность отсутствия конфликта, то вероятность столкновения(или конфликта) равна N 2 / 2M. Если мы выберем N настолько большим, что это даст число больше 1.0, то мы определенно выйдем за пределы полезного диапазона приближения.

Для проблемы сетевых адресов, пытаясь решить N 2 / 2M = 0,5, мы получаем N = sqrt (M), что будет означать 1000 адресов. Точная вероятность столкновения в 1000 адресов равна

39,3%; мы получаем изменение на 50% примерно по 1177 адресам.

Вероятность выхода из строя сети 50% кажется громоздкой. Это подводит нас к

Вопрос 2. Сколько адресов нам нужно выбрать, чтобы вероятность конфликта адресов превысила 0,001?

Используя ту же формулу, мы решаем N 2 / 2M = 1/1000, или N 2 = 2000, или N 45. Не очень большая сеть. Здесь для N = 45 адресов вероятность столкновения чуть меньше 0,001, а для N = 46 чуть больше. Так что приближение работает довольно хорошо. Это потому, что N 2 намного меньше M.

Биномиальное распределение

Давайте подбросим монету N = 100 раз и посмотрим, сколько орлов у нас получится. В среднем мы получим 50, но насколько широк диапазон?

Демонстрация на Python с использованием binomial.py. Начните с 20.

Сколько способов получить k голов, k размера k. Итак, это (20 выберите k). Вероятность этого исхода (20 выбирают к) / 2 20. Вероятность выпадения 10 орлов (и 10 решек) равна (20 выбирают 10) / 2 20 = 184 756/1048 576 = 17,62%.

Попробуйте также для N = 1000?

Теперь давайте сделаем то же самое, но на этот раз с «несправедливой монетой», у которой орел с фиксированной вероятностью p, 0

Демо для p = 0,2, p = 0,1

Связь с биномиальными коэффициентами: теперь P (count = k) = (n choose k) * pk (1-p) Nk. Это коэффициент в разложении (p + (1-p)) N.

Мы можем вычислить среднее значение: Np. Мы также можем найти стандартное отклонение(которое я здесь не определяю, но которое отражает ширину кривой вероятности); оказывается sqrt (Np (1-p))

Для монет с N = 100 среднее значение равно 50, а стандартное отклонение - sqrt (25) = 5. Для p = 0,2, stdev = 4. Для p = 0,1 это 3.

Распределение Пуассона

Распределение Пуассона основано на двух правилах подсчета событий:

  • События должны происходить с постоянной средней скоростью, λ>0 (эта скорость может быть за время или за пространственный интервал).
  • События независимы, поэтому появление одного события в интервале не влияет на вероятность каких-либо других событий.

Основной вопрос Пуассона: какова вероятность получить k событий на интервале длиной 1? Если X представляет счет, оказывается, что P (X = k) = λ ke -λ / k !.

Среднее значение этих подсчетов - это просто λ, средняя скорость (как и ожидалось!). Стандартное отклонение - sqrt (λ).

Другой способ взглянуть на коэффициент Пуассона λ состоит в том, что лежащие в основе события разбросаны вдоль оси, и вы подсчитываете число в пространственном интервале длиной 1.

Примеры (включая некоторые, которые являются технически приблизительными)

  • 911 звонков в час
  • альфа-частицы распадаются в час
  • землетрясения в год
  • Если функция rand () возвращает случайное значение в диапазоне от 0 до N-1, и мы вызываем его K раз, в среднем каждое значение встречается K / N раз (верно для K N). Это распределение Пуассона с λ = K / N.
  • Выбор N равномерно распределенных случайных точек в интервале 0≤x≤1, а затем их сортировка и построение графика. При просмотре в порядке возрастания точки распределены по Пуассону с λ = N, с оговоркой условной вероятности, что мы только что получили N баллов (P (X = N)).

Второе правило состоит в том, что подсчитываемые события полностью независимы. В частности, возникновение одного события не влияет на возникновение другого. Если частота составляет λ событий на единицу временного интервала, среднее время между событиями составляет 1 / λ. Это означает, что в любой момент среднее время до следующего события составляет 1 / λ, и это должно быть правдой, даже если событие только что произошло. Каждое пуассоновское событие «бесконечно мало» вероятно, но происходит «бесконечно часто» с конечной скоростью λ в единицу времени (или единицу пространства).

Подбрасывание монет похоже на Пуассона. Предположим, мы подбрасываем монеты с фиксированнойскоростью 100 раз в минуту, а события - орлом. Среднее количество голов - 50 в минуту. Это не совсем Пуассон, потому что больше 100 голов получить невозможно. Если выпадает 100 голов, вероятность другого равна нулю.

Гораздо более близкое биномиальное приближение к распределению Пуассона - это если вероятность выпадения головы мала. Например, предположим, что вероятность выпадения орла равна 0,1, и мы подбрасываем монету 500 раз в минуту. Среднее количество голов в минуту, λ, по-прежнему равно 50. В общем, приближение Пуассона к биномиальному распределению становится очень хорошим, если p мало, 20 ). Если мы считаем орла после N = 100 флипов, мы берем λ = 50 = (1/2) * 100. В общем, для биномиального распределения с вероятностью p и N попыток λ = pN

Обратите внимание, что события в этом биномиальном подходе к распределению Пуассона - это орлы от несправедливых монет с очень малым процентом выпадений. Однако скорость переворачивания, соответственно, намного выше, так что средняя скорость голов в минуту, λ, остается приемлемым значением. Процесс Пуассона иногда описывается как биномиальное распределение, в котором вероятность выпадения p бесконечно мала, но число N бесконечно, так что коэффициент λ = pN остается фиксированным на обычном значении.

Почему сумма λ ke -λ / k! составляет 1.0. Это из-за формулы степенного ряда для e λ: это Σ λ k / k !, где сумма идет от k = 0 до ∞. Умножение на e -λ дает 1 = Σ λ ke -λ / k!

Для биномиального распределения среднее значение равно pN, а стандартное отклонение - sqrt (Np (1-p)). Для распределения Пуассона λ = pN - среднее значение, такое же, как и для биномиального распределения. Стандартное отклонение Пуассона составляет sqrt (λ) = sqrt (pN). Разница в стандартном отклонении составляет sqrt (1-p), что мало для p, близкого к 0. Например, если p = 0,1, то sqrt (1-p) = 0,949, что равно

На 5% меньше 1. Но для p = 1/2 sqrt (1-p) 70%, а кривая Пуассона слишком широка примерно на 30-40%.

День рождения Пуассона

С 23 людьми давайте считать события датами рождения. Среднее количество λ дней рождения в данную дату составляет 23/365. Но они, скорее всего, будут распределены по Пуассону. Таким образом, ожидаемое количество дат с k = 2 днями рождения должно быть около 365 * λ 2 e -λ / 2 !, что составляет 0,68. Это не совсем дает вероятность столкновения, но если ожидаемое количество столкновений составляет 0,68, это означает, что по крайней мере одно столкновение разумно вероятно.

Нормальное распределение

Конечным приближением здесь является нормальное распределение (y = e -x²), классическая «колоколообразная кривая» вероятности. Я не собираюсь его рассматривать, но скажу, что он полностью характеризуется средним значением (центральная точка пика) и стандартным отклонением: насколько широк этот пик. В частности, вероятность нахождения в пределах ± 1,0 стандартного отклонения от среднего составляет 0,68268949213. (Это значение - erf (1 / sqrt (2)), которое определяется как интеграл, включающий y = e -x².)

Хеширование

Предположим, вы уменьшаете каждое значение данных до целого числа h в диапазоне 0..N-1, используя некоторый «псевдослучайный» процесс, а затем помещаете это значение данных в слот A [h] массива размера N. Какова вероятность никаких "коллизий"?

Например, у нас есть K = 100 строк, которые мы хотим сохранить в массиве размером N = 200. Каждая строка s преобразуется в псевдослучайное целое число

Мы можем проанализировать это, используя описанную выше технику «День рождения»; здесь у нас есть

50% вероятность столкновения, если количество значений данных примерно равно sqrt (N). Итак, либо вероятны коллизии, либо массив A не очень заполнен. В случае выше с K = 100 и N = 200 вероятность столкновений довольно высока.

Мы также можем использовать распределение Пуассона (как приближение, но хорошее). Если имеется K значений данных, то каждый слот массива имеет в среднем λ = K / N пользователей. Следовательно, применяя распределение Пуассона (на самом деле биномиальное распределение, но с малым p, равным 1 / N), мы получаем вероятность того, что k людей в ячейке будет λ ke -λ / k !. Тогда из N ячеек ожидаемое количество ячеек с k жителями будет Nλ ke -λ / k!

Количество пустых ячеек массива: e -λ, равно 200 * 0,6065 = 121,306 ≃ 121

Количество ячеек массива с одним значением: Nλe -λ, что для N = 200 и λ = 0,5 составляет примерно 61

Количество ячеек массива с двумя значениями: Nλ 2 e -λ / 2 !. Получается около 15. Мы можем хранить две строки в одном и том же месте, сделав наш массив размером 200 массивом списков (часто так называемых «связанных списков»), поэтому сами по себе коллизии не являются проблемой. Однако обратите внимание, что это означает, что для

30 строк (15 слотов, умножить на 2 строки в каждом слоте), у нас есть список для поиска

Количество ячеек массива с тремя значениями: Nλ 3 e -λ / 3! ≃ 2.5.

На данный момент мы насчитали 199,5 из 200 слотов для массивов; наличие более трех строк, хешируемых в один и тот же слот, маловероятно.

После того, как мы подсчитаем количество k = 0 (пустых) ячеек, мы сможем получить последующие, умножив на λ / k:

k ожидаемый счет
0 121,306
1 121,306 * 0,5 / 1 = 60,65
2 60,65 * 0,5 / 2 = 15,16
3 15,16 * 0,5 / 3 = 2,53

Коэффициент λ перемещает числитель от λ k-1 к λ k; k в знаменателе заменяет 1 / (k-1)! до 1 / к!

Формула Байеса

Предположим, что A и B - события. Обозначение P (A | B) - это вероятность A при условии, что мы знаем B. Формально P (A | B) определяется как P (A∩B) / P (B). Дело в том, что взаимосвязь А и Б важна. Если P (A | B) = P (A), то A и B называются независимыми : знание B не влияет на вероятность A. Другой способ описать это - P (A) * P (B) = P (A∩B) (это следует из определения P (A | B) и определения независимости).

Вот формула Байеса:

Одно из классических приложений находится в стадии тестирования. Предположим, у вас есть медицинское обследование. Уровень ложноположительных результатов составляет 1%, а уровень ложноотрицательных результатов - 1%. Звучит хорошо, правда?

Но предположим, что основное заболевание встречается с частотой 1 из 1000. Пусть A будет вероятностью того, что у кого-то есть заболевание, а B - вероятностью того, что тест показал положительный результат для этого человека. Мы хотим , чтобы P (A | B): если кто - то положительный результат теста, насколько вероятно, что они на самом деле являются положительными?

Мы знаем, что P (A) = 0,001.

Кроме того, P (B | A) = 0,99, вероятность положительного результата теста при условии, что кто-то болен. Это всего лишь 1,0 минус количество ложноотрицательных результатов.

Чтобы получить P (B), вероятность положительного результата теста, нужно немного подумать. Если кто-то не болен, вероятность положительного результата теста составляет 0,01, а вероятность не заболеть - 0,999. Их умножение дает 0,00999, что является вероятностью положительного результата теста при условии, что кто-то здоров.

Мы могли бы округлить это значение до 0,01 и остановиться на этом, но нам действительно следует рассмотреть результат для тех, кто болен. Для тех, вероятность положительного теста 0,99, а вероятность быть больным составляет 0,001. Таким образом, вероятность положительного результата теста с учетом того, что кто-то болен, составляет 0,99 * 0,001 = 0,00099. Точное значение P (B) представляет собой сумму P (положительный тест | не болен) и P (положительный тест | болен), что составляет 0,01 * 0,999 + 0,99 * 0,001 = 0,01098.

Возможно, лучший способ сделать это - составить таблицу на основе 100000 человек, из которых 100 больны.

больной не болен итоги строк
положительный тест 99 999 1098
отрицательный тест 1 98901 98902
100 99 900 100 000

Опять же, мы получаем P (B) = 1,098 / 100,000.

Все это приводит к

P (A | B) = 0,99 * 0,001 / 0,01098 = 0,09016, или 9%.

Так что, если мы тестируем кучу людей, и получить 100 , которые положительный тест, только 9 из них будет на самом деле быть положительным.

Это имеет серьезные последствия для тестирования редких заболеваний. Широко распространено мнение, что нам всем было бы лучше, если бы широко использовали ранний скрининговый тест на рак. Но большинство видов рака встречаются редко, и ложноположительные результаты большинства тестов намного превышают 1%. Таким образом, подавляющее большинство людей, которые будут лечиться, фактически не болеют раком! А поскольку лечение рака, как правило, имеет очень серьезные побочные эффекты, возможно, что людям в среднем будет хуже при более широкомасштабном тестировании .

(Это, вероятно, не относится к тестированию на SARS-CoV-2, потому что P (A) в подверженных воздействию популяциях часто намного выше.)

Денис Парфенов Автор статей

Постоянный автор и редактор новостных статей, посвященных гемблингу и спорту, фанат казино и карточных игр, независимый обозреватель спортивых мероприятий.