본문 바로가기

데이터 사이언티스트 되기!/데이터 분석

데이터 분석 - 이것은 상관관계인가? 인과관계인가? 구분하는 꿀팁!!


데이터를 볼 때 두 그래프의 관계가 상관관계인지, 인과관계인지 구분하는 것은 너~~~~~무 헷갈린다.

이 두 관계들은 제대로 이해하지 못한 상태에서 데이터 분석을 하면 상관관계를 인과관계로 생각하여 잘못된 결론을 도출하거나, 인과관계를 상관관계로 치부해 중요한 인사이트를 놓칠 수 있다.

먼저 정의를 보자

상관관계(correlation)
1. 두 가지 가운데 한쪽이 변화하면 다른 한쪽도 따라서 변화하는 관계.
2. (수학) 한쪽이 증가하면 다른 한쪽도 증가하거나 반대로 감소하는 경향을 인정하는 두 변량(變量) 사이의 통계적 관계.

인과관계 (cause-and-effect relationship)
1. (법률) 어떤 행위와 그 후에 발생한 사실과의 사이에 원인과 결과의 관계가 있는 일. 민법, 형법에서 행위자에게 책임을 지우는 근거가 된다.
2. (철학) 한 현상은 다른 현상

의 원인이 되고, 그 다른 현상은 먼저의 현상의 결과가 되는 관계.



으윽! 머리가 매우 아프다ㅠ

그래도 헷갈리고 모르겠으니 내가 꿀팁을 가져왔다!
그렇다면 대체 어떻게 구분하는가!!!!


두 사건 사이의 관계가 상관관계인지 인과관계인지 모르겠다면 아래의 4가지 조건에 하나라도 부합하면 상관관계, 모두 아니라면 인과관계이다.

사건 A가 B와 관련이 있어 보일 때,

1. B가 A의 원인일지도 모른다. => 상관 관계
2. 미지의 제3의 요인 C가 있어, 실제로는 A도 B도 C가 원인일지도 모른다. => 상관관계
3. 그 '관계'는 단순한 우연이거나, 사실상 우연이라 말해도 좋을 정도로 복잡하며 우원한 물건일지도 모른다. 즉, 2개의 사상은 동시에 발생했지만, 직접적인 관계는 없고 단지 동시에 일어난 것 뿐이다. => 상관관계
4. B가 A의 원인인 것과 동시에, A가 B의 원인이다. 양성 피드백 시스템의 동작은 이것에 해당된다. => 상관관계

다 아니라면 A는 B의 원인이다. => 인과관계

출처(위키백과): https://naver.me/xL1E3HOZ

텍스트는 머리가 아프니,

이걸 Flowchart로 간단히 정리 해 보았다.

***** 주의사항 ****

위의 네 가지 이외에도 과거의 값이 현재에 영향을 계속 미치는 '자기상관성'이라던가, 누락된 변수에 대한 '편향성', 그리고 날씨 처럼 어떻게 할 수 없는 '외생 변수'의 영향도 있다고 하니 유의하기를 바란다.

(출처: 데이터 분석가의 숫자유감 중, 권정민 지음, 주형만화, 골든래빗)

 

 

그렇다면 한 번 연습을 해볼까?

 

 

1. 미국 고등학교 졸업과 피자 소비 사이의 관계

출처: https://www.statology.org/correlation-does-not-imply-causation-examples/

고등학교 졸업을 하면서 졸업 파티에 피자를 많이 시켜서 그런 것일까?

글쎄... 그럴듯 하게 들리지만!

이 그래프를 본다면 생각이 좀 달라질지도!!

출처: https://ko.tradingeconomics.com/united-states/population

미국의 전체 인구수 그래프를 보자. 계속 증가하고 있다.

하여, 미국의 전체 인구수가 증가해서 피자 소비량이 늘어난 것이 더 설득력이 있고, 

또 미국의 전체 인구수가 증가함으로써 고등학교 졸업생 수도 늘어난 것으로 볼 수 있다.

 

=> 다시 말해서 미국 인구수가 증가해서 고등학교 졸업생 수도 늘어나고 피자 소비량이 늘어난 것이다.

 

 

2. 비영리 기관의 우주선 발사 횟수 vs 사회학 박사 수료 횟수

출처: https://www.tylervigen.com/spurious-correlations

그래프가 꽤 꼬불꼬불 한데도 거의 비슷한 추세를 보이는데....

그러면 NASA 에서 로켓을 우주에 많이 쏘면, 사회학 박사들이 동기부여 받아서 박사학위를 많이 받게 된다는 말인가?

 

이것은 솔직하게 명백하게 우연의 일치일 가능성이 높지... 

아무 관련이 없습니다. 

 

그리고 명백하게 왼쪽의 y축과 오른쪽의 y축을 보면 둘다 단위가 다르지 않습니까?

하나는 최대값이 60이고, 다른 하나는 700 이 최대인데.

억지가 심하시네요.

 

 

3. 풍차가 돌아가는 속도와 바람의 세기

출처: https://sitn.hms.harvard.edu/flash/2021/when-correlation-does-not-imply-causation-why-your-gut-microbes-may-not-yet-be-a-silver-bullet-to-all-your-problems/

풍차가 세게 돌아갈 때, 바람이 센 것을 관측했다고 하자.

그럼 풍차가 속도가 높아졌기 때문에 바람이 세게 나오는 것일까?

 

놉!

바람이 세게 불기 때문에 풍차가 세게 돌아가는 것 뿐이다. 

 

그래도 풍차가 돌면서 바람이 나오긴 나온다고 할 수도 있는데,

만약 풍차가 세게 돌아가서 바람이 세게 나온다면, 외부에서 불어오는 바람이 없을 때 풍차가 돌아가겠냐구요. 

 

 

 

4. 넷플릭스 시청시간과 선호하는 컨텐츠 (알이 먼저냐 달걀이 먼저냐)

 

넷플릭스의 '길복순' 이라는 컨텐츠의 시청시간이 길었고, 좋아요 숫자가 많은 것이 관측되었다.

 

1) A -> B: 사람들은 그 컨텐츠를 좋아해서 계속 본 것 일수도 있지만

2) B -> A: (도입부가 노잼이라 싫어요를 눌렀을뻔 했으나) 꾹 참고 보다보니 컨텐츠가 좋아진 것일 수도 있다.

출처: https://codingwithmax.com/correlation-vs-causation-examples/

 

 

덧붙이자면,

인과관계는 원인과 결과가 절대 같을 수 없으므로

방정식으로 표시되는 것들은 상관관계라고 볼 수 있다.

 

예) 이상기체 방정식 PV=nRT는 압력을 높게 하면 온도가 오르고, 온도를 높게 하면 압력이 오른다. 직접적인 비례관계라고 한다.

출처: https://ko.wikipedia.org/wiki/%EC%83%81%EA%B4%80%EA%B4%80%EA%B3%84%EC%99%80_%EC%9D%B8%EA%B3%BC%EA%B4%80%EA%B3%84

 

 

 

이제 오래도록 기억할 수 있겠쥐?