데이터분석

9. 캐글 시작

장수우 2023. 11. 30. 17:54
학습주제
  • 캐글 시작하기
  • 실습 - 캐글을 활용한 타이타닉 실습 점수 내보기
  • 실습 - 와인 종류 맞추기
주요 메모 사항 소개
 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

  • 회원가입을 진행해 줍니다.

이후 Competitins에 들어갑니다.
Gtting Statrted 버튼을 누르면 여러가지 주제들이 나옵니다.

  • 이후 Titanic - Machine Learning from Diaster 를 검색하셔서 들어갑니다.

이후 Data 칸에 들어가시면
우측 하단에 Download AII을 누르시고 압축을 해제하시면 됩니다.
그러면 3가지의 파일이 나옵니다.

  • 여기서 gender-submissoin은 제출할 파일이기 때문에 확장자나 파일형태를 바꾸시면 안됩니다.
  • test는 자신만의 데이터 분석 이론을 가지고 결과를 내어 값만 복사하여 gender-submission에 넣습니다.
  • train은 test 와는 다른 데이터 값으로 자신만의 이론을 도출하고 연습하는데 사용할 수 있습니다.
  • 인터넷 서칭이나 본인만의 기준으로 시작해봅시다!

  • 저는 따로 제공해준 와인 고르기 파일로 작업해 봤습니다.

1열에 주어진 값들이 있습니다.

  • 인터넷 서칭을 통해 chlorides는 떪은 맛을 낸다
  • sulphates는 화이트와인의 색방지를 위해 많이 사용한다
  • 화이트와인은 잔당감이 높은 편이다(상대적)
  • 당도가 높으면 밀도가 높다.
  • 레드와인은 껍질이 함유되어 타닌이 높다
  • 발효시간이 길어지면 황함유량이 올라간다
  • PH가 낮을 수록 sulfur dioxide가 많아진다
  • 이정도를 찾아본 것 같습니다. 이후

중앙값과 표준편차, 밀도기준으로 최소, 최대값, 평균을 구했습니다.

  • 이후 값을 보면서 화이트와인을 찾는 IF문을 작성하기로 생각했습니다.
  • 제가 생각한 조건들 입니다.
    • volatile acidty < 0.37, sulphates < 0.6, chlorides < 0.07, total sulfur > 90, resudaul sugar > 3, density != 0.99
  • 그 다음 엑셀식을 작성했습니다. =IF(AND(C2<0.3, K2<0.6, F2<0.07, H2>70, E2<=3, I2<>0.99), 1, 0) 

우측 상단에 제출 버튼이 있습니다

  • 엑셀식으로 나온 값을 .scv 파일에 담아 제출했고 결과는 약 79% 정도가 나왔습니다

 

공부하면서 어려웠던 내용
  • 생각보다 조건을 찾아서 내가 수를 지정하는게 어려웠다. 통계적 지식이 좀더 있었더라면 좋은 자료를 만들어 참고 할 수 있었을 텐데 아쉬웠다. 
반응형

'데이터분석' 카테고리의 다른 글

11. SQL 과 RDB  (1) 2023.12.04
10. 결측치란?  (0) 2023.12.01
8. 엑셀(구글 시트) 기본 수식 사용  (0) 2023.11.29
7. 효율적인 GPT 사용  (1) 2023.11.28
6. 공공데이터 포털 소개  (0) 2023.11.27