공부하기

책에서 이거라 하면 그냥 그러려니 넘겨야 고생 안 합니다. (이항분포)

biocat 2020. 4. 1. 10:05

이제 조금 있으면 처음으로 수업을 시작하는데요, 미생물 수업부터 시작합니다.

이것저것 준비하다가 미생물 죽이는 공정에 대한 자료를 준비 중입니다. 대강만 알고 있어서 체계적으로 준비하기 위해서 공부 합니다.

책은 Marcel Dekker사에서 2003년에 출간한 ‘Pharmaceutical Process Validation’ 3판으로 합니다. 편집자는 Robert A. Nash 등입니다.

 

깨끗이 자리를 정리하고 Sterilizaiton Validation 부분을 폅니다.

Introduction 구글 번역기를 놓고 읽고 있는데, 평균 오염율이 0.1% 공정에서 1000 제품 20 Sample 취할 경우 오염된 Sample 포함될 확률이 0.02랍니다.

?

 

얼핏 보기에 어렵지 않은 같은데 도저히 모르겠습니다. 미생물 공부에서 확률 공부로 전환합니다. 

다른 분야도 마찬가지지만 의약품 분야 쪽에서 확률 공부는 굉장히 중요하고 쓰임새도 많습니다. 교육생들과 확률도 같이 공부하기로 마음 정합니다. 이렇게 과목이 하나 늘어나네요. 

 

 이런 경우는 성공률이 p 게임에서 N 시행 X 성공할 확률을 구하는 것과 마찬가지지요.

 쉽게 말하면 4지선다형 5문제 아무거나 찍었을 2 맞출 확률을 구하는 것과 마찬가지인데요, 모르겠습니다. 그래서 차근차근 이항분포에 대해 하나씩 공부해 나갑니다.

 

우선 순열, 영어로는 Permuation이라고 하고요, 순서대로 배열하는 가지 수를 계산하게 됩니다.

예를 들어

서로 색이 다른 구슬 4개를 순서대로 배열하는 가지의 수는 몇가지일까요? 이 경우는 일단은 구슬이 놓일 자리를 상상하고, 첫번째 자리에 올수 있는 구슬은 4가지 모두이고, 두번째 자리는 첫번째 자리에 있는 구슬을 3가지 구슬이 있고…. 이렇게 생각하면

$4\times3\times4\times1=24$ 가지이고 4! (Factorial) 표기합니다.

 그러면 4 중 2개만을 골라 순서대로 배열하는 가지 수는 몇일까요? 경우는

$4\times3=12$ 가지이고 $_{4}P_{2}$ 로 표기합니다.

이것을 일반화 화면

$_{n}P_{r}=(n)(n-1)(n-2)...(n-r+1)=\frac{(n)(n-1)...(2)(1)}{(n-r)(n-r-1)(n-r-2)...(2)(1)}=\frac{n!}{(n-1)!}$이 됩니다. 이게 순열입니다.

 

순서대로 배열하지 않고 순서를 무시하고 배열하는 경우는 어떻게 될까요? 경우는 순열에서 골라 놓은 2개만 이용해서 배열할 있는 경우의 수로 나누면 됩니다.

5 3개를 순서대로 배열할 있는 경우의 수는 $_{5}P_{3}=\frac{5!}{2!}=60$ 가지인데요, 이중 선택된 3개를 순서대로 배열할 있는 경우의 수는 3! = 6가지가 됩니다.

그러면 문제의 답은 60/3 = 10가지가 됩니다.

 이런 경우를 조합(Combination)이라고 하고

$_{n}C_{r}=\left(\begin{array}{c}n\\ r\end{array}\right)=\frac{_{n}P_{r}}{r!}=\frac{n!}{(n-r)!r!}$

이 되겠죠?

그러면 이쯤 4지선다형 5문제 찍었을 2 맞출 확률을 구해봅니다.

5문제 2문제를 맞출 있는 가지의 수는 $_{5}C_{2}=\frac{5!}{3!\times2!}=10$ 가지입니다.

그리고 한가지 확률은, 예를 들면 1, 2 문제를 맞추고 다른 문제는 틀릴 확률은

$\frac{1}{4}^{2}\times\frac{3}{4}^{3}$ 이 됩니다. 이런 경우가 10가지가 있으니까 정답은 $10\times\frac{1}{4}^{2}\times\frac{3}{4}^{3}=0.264$ 가 됩니다.

그럼 여기서 이항 분포 (Binormial Distribution)를 정리하면

1 성공확률이 p 도전을 N 시행 X 성공할 확률은

$P(X;N,p)=_{N}C_{X}\times p^{X}\times(1-p)^{(N-X)}$ 입니다.

 

위의 문제로 돌아가서

오염률 0.1%에서 채취한 20 샘플 오염된 샘플이 1개가 포함될 확률은

$P(1;20,0.001)=_{20}C_{1}\times0.001^{1}\times(1-0.001)^{(20-1)}=0.0196$ 입니다. 약 0.02, 2%입니다.

 

책에 나온 내용이 맞네요. 휴후~

읽으면서, 책에서 그렇다 하면 그냥 그런 알고 그냥 넘어가는 것이 정신건강에는 좋을 듯 싶습니다.

 

이번 글을 쓰면서 이항 분포보다는 블로그에 수식 입력하는 방법을 배우는 데 더 오래 걸렸습니다.

즐거운 경험이었습니다.

 

PS. 핸드폰으로 이 글 보시면 수식이 이상하게 보입니다. 사진 참고하시기 바랍니다.