ASAC 빅데이터 분석가 7기/ASAC 일일 기록

ASAC 빅데이터 분석가 과정 3일차 - 1 (24.12.06)

junslee 2024. 12. 6. 10:30

취업 -> 개인별로 다 취업의 방향이 다르다

//미리 준비를 해야 한다.

5월 말 끝남과 동시에 취업을 세팅이 완료되어야 한다

(3월 대기업들이 공고 ///4월 초중 서류)

(4월 5월 면접) : 본인의 특징!!! 수만장의 서류 중 내가 보여야 하니까!!!

+++ 중견 / 스타트업 : 수시 채용 + 계속 모니터링!!

--> plan A B ~~~ Z까지 생각하기

+++ 보이는 스펙 & 정량적인 기준(영어, 가산점)

+++ 코테 & 실무형 과제형

* 코테는 꾸준히!!!! 요즘의 트렌드!!!!

==> gpt를 사용하는게 효율성이 좋음!!

현업에서 일 하실 때 다연히 쓸 수 있으면 쓰는게 낫다!!

==> 초심의 학습자의 입장 : gpt로만 하면,, 디버깅(에러 & 수정)을 못한다.

코드를 해석할 수 있으면 사용해도 된다

코드해석이 안되고, 정확하게 파악이 안되는 상태에서는 학습하는 과정에서 독이 된다.

*** 이거 코드 어떻게 해결했어요???

---> gpt가 알려줘서 했는데,, 되는데요?

같이 일을 할까요?? NO!!

// 영어 준비 추가, 공모전 수상(능력 증명)

////

코테는 꾸준히 준비!!! ==> 비전공자분들 익숙해지시는데 시간 !!!!

+++ 꼼꼼하게 문제를 분석하고, 코드화!!!

연습!!!

단,, 코테용의 코드와 프로젝트용의 코드!!

===> 코테 : 기본 파이썬 잡다한 문법 + 기본 알고리즘!!!(cs) : 기본적인 것 중심!! 활용!!

+++ 상황이 좀 복잡해요... 케이스가 여러가지 고려!!! 꼼꼼하게./// 문제상황을 분석&이해!!

+++ 코딩 속도 & 스킬적인 부분!!**

===> 기본적인 공통사항 + 회사별 특이사항!!

(정규식 : 문자열의 규칙!!!) : 카카오///

큰 회사 : 플랫폼!!

작은 회사 : 실무진 앞에서 손으로 코딩/ 말로 코딩!!

===> gpt의존하면,,, 통과하기가 쉽지가 않음!!

주도하에 사용을 해야 함!!

+++ 중요한 부분/ 기출들을 달달달 암기!!!

(여러번 안 보고, 반복해서 연습!!)

 

// 파이썬 : 이런 것들을 중심으로 진행!!

+++ 파이썬 5일 : 기분 문법 + 코테 유형 ( 대표적 )

 

++++ sql 4일 : gpt에 아주 잘 됨!!! 기본적인/

==> 기본적인 쿼리 중심으로 !!! 데이터를 가지고 오는 것들 중심!! ( 코테 녹여있는 경우)

------------ ------------ ------------ ------------ ------------ ------------

데이터를 다루는 일!!!

데이터부서 : 메인 부서가 아님!! => 경영진을 위한 백부서!! 의사결정에 도움!!

---> 데이터를 핸들링!!! (수집/ 가공 )

---> 시각적 EDA ( 파이썬 패키지, BI : 테블로 ) : 데이터를 효과적으로 전달!!

// 테블로 공부로 시각적 EDA 능력 기르기

테블로가 자격증!! 다른 자격증보다 도움이 될 것

// 테블로 자격증 취득하자

개인별로 데이터 분석 프로젝트!! (따라하기 보다 본인의 관심사로 직접 데이터 수집해서...!!!)

1달(12월 말 ~ 1월 초)


개인 프로젝트 소개1

신용카드 피킹률 체크를 통한 활용도 분석

데이터를 추출하고 분석하고 방향성 기획

개인 데이터를 사용함 //일반화가 필요없는 주제를 사용하는 것도 능력

숫자는 H.M(핸드메이드)가 가능하다.

분석에 있어 깊게 파게 되면 수학 통계 능력이 필요하다. 

어떻게 정량화를 할 것인가

데이터 분석은 주관적인 부분이 들어간다. --> 논리성이 중요***

EDA, 통계분석 등등은 기본적인 것이다.

피킹률 기준 1,3% <-- 왜 수치를 1,3%로 했는지 말할 수 있어야 한다.

// 목적성이 명확해야한다.


개인 프로젝트 소개2

상장폐지 기업과 KOSDAQ150 기업의 재무적 특성 비교 분석 및 예측

데이터 수집 -> 상장폐지기업 리스트 데이터 수집

재무제표 데이터 수집

T-test를 활용한 상장폐지기업과 KOSDAQ150 기업의 유의성 검증

*목적 : 일반 상폐 데이터!! 

--> 최대한 상폐 이유 & 재무 : 직접!!!

--> ++ 본인의 특이한 점 !!( 2년 재무 데이터!!)

--> 특이한 변수 발견 EDA + 변수에 대한 검증!!

--> 예측!! 모델!!

///

전통적인 주제 : 경영쪽 재무 !!

---> 경영쪽 재무 논문 / 검증 : 전통적인 회귀분석!!

관심있는 본인 학교에 교수님을 찾아봐!!

--> 경영대 : 본인이 이렇게 한 결과!!!

--> ok : 논문으로 맞춰야 하기에... 데이터 세팅,, 방법론도 + 전통적인 회귀모형!!

논문으로 작성!! paper(시간이 좀 걸렸어요.. 6개월)

///

학교는 서울에 있는 그냥 학교의 경영대!!

능률협회 데이터 쪽...

면접 : 학부생이 왜 이런 논문 썼어요>??

---> 내용 : 논문 질문///


** 본인이 하고자 하는 주제!!

본인이 관심있는 주제!!!

==> 완결성은 없음!!

목적을 어떻게 끌고 갈 것인가,, 데이터/ 방법론/ 논리

==> 꾸준히 관심을 가지고 찾아봐야 함!!

 

*주제 vs 데이터!!! (외부에 있는 입장이기 때문) //데이터가 없을 수가 있음

회사에 입사하시면,, 이런 고민 이 없음!

==> 할 일이 정해져 있음!!


개인 프로젝트 소개3

KBO 로봇심판 도입 필요성 분석

데이터 수집 - 크롤링, 변수 설정

데이터 분석 

결론

 

***스포츠 팀에서 야구에서

데이터 분석 팀!!! (NC, 키움 ...)

==> NC 면접에 감!!

+++ 기회는 get!!

+++ 면접에서 다른 부분에서 디테일한 부분에서 어버버를 했다고 함.. -> 떨어짐

==> 스포츠 데이터를 전공한 친구들이 유리했음

** 본인 관심 중심으로 주제를!!!

==> 본인이 포폴로 사용가능!!

진짜 저 관심있어서 제가 했어요!!

니가 진짜 ㅏ관심있어서 했구나!! 스킬XX

 

기회들을 잡을 수 있고,,

본인을 어필할 수 있음!!

 

==> 최대한 본인 데이터/ 관심으로 하시라고!!

kaggle 있는 것으로 할래요 : 정 하고 싶으시면 하세요!!

단, 면접관의 입장은... 따라한 느낌입니다!! 알고 하세요!!

인터넷에 있는거 따라 했네!!

==> 앞에 서술할 부분이 많아요

전단지 다 보세요? 확 눈에 띄는 뭔가 있어야 볼까 말까..

 

여러분들의 포폴/ 자소서!! 전단지!!

==> 컨텐츠!! 

==> 앞에 보이는 포장//꾸밈!!

 

주제 / 했던 플젝 : 어.. 재미있네,,

이런 것도 했네..

또 이거야? <-- 주의!!


개인 프로젝트 소개3

바쁜 현대인들을 위한 HIIT 유튜브 기획

실제 만들어 보세요!!

시간 관계상 거기까지는 안함

끌고가는 방법이나/ 발표의 흐름을 잘 했던 친구

**발표도 잘해야 한다.

(본인이 정말 관심있고, 잘 알고, 술술~~~ : 이야기 해준다!!)

논리적인 흐름!!

++진짜 만들어보세요!!


개인 프로젝트 소개4

나홀로 분석 프로젝트 - 메이플스토리 신규 컨텐츠 방향 제안

게임!!

==> 게임으로 뭐를 하기에 상당히 애매함!!

데이터가 제한적!!

일반적인 이야기!!

특정한 주제!!

++ 통계 데이터!! (깔끔함!!)

들여다 볼수가 없음!!

( 년도별 데이터!! )

디테일하게 볼 수 없음!! ---> 피상적인 이야기!!

누구나 다 아는 이야기들 정도에서 끝남!!

어.. 굳이 그것을 하기 위해서 했나요??

 

주제를 명확히 하셔야 한다!!

--> 데이터// 구체적인 데이터를 중심으로!!


개인 프로젝트 소개5

영화 포스터와 메타 데이터를 통한 머신러닝 기반 영화 흥행 예측

포스터 이미지를 통해 데이터를 정형화


개인 EDA 관련 프로젝트 : 데이터 수집 / 전처리/ 시각화

+++ 특이한 사항들 발견!!

==> 도메인 지식!!!

이리저리 ... 막 뒤져야 함!! 시간이 많이 걸림

채용자의 입장에서 : 도메인 지식!!! 중심으로 본다

데이터 분석 포지션 : 경력직!!

===> 큰 회사의 포지션은 지금은 경력직!!

작은 회사/// 기획팀의 분석,, 인사팀의 분석///

 

비정형데이터/// 모델링! 예측!! + 생성쪽!

==> ML / DL

생성쪽의 DL은 거의 너도 처음이고 나도 처음이다.

==> 해본 사람 누구나!! ( 스타트업 중심!! )

    1-1) 대기업/ 완전 전문 it 알고리즘 : 석사/박사

     ==> 논문으로 학회로 발표!!

#         새로운 지식 이해

           우리 회사에 데이터로 해보면,, 적용!!

    ===> 검증이나 자격을 타이트하게 보려고 함!!

             학위는 그냥...

             본인 실적!!! 유명 학회 발표 경험!!!

                                 학회 발표 해본 경험!!!

                                  [ 공식적인 증명 ]

              +++ 니가 한 것이 뭐야!! 실질적인 플젝 중심!!

               ===> it / 스타트업 주심 / 중견

                        : 좀 괜찮은 회사 : 돈 많이 줍니다!! (3~4천)

                                                                               (5~7천)

                                                                                  +++

                        : 대기업 신입 (4~5천)

                성과 검증/ 실력 어필 타이트하게 함!!

**개인적인 노력 상당히 많이 필요!!

===> 계속 계속 공부하셔야 함!! 더 많이 해야 함!!


DL쪽 : 이미지/영상, llm계열의 언어모델링쪽

====> 중심으로

 

ML : 기능 중심으로 변경!!  + 단, 도메인 지식 변수!!

==> 나머지들은 다 루틴한 작업!!

==> 기본적인 코드 중심!! 이론 가볍!! 전통 알고리즘 중심!

(기간 줄임) //오래 되기도 하고 정형화 되어 있음

+++ 전통적인 정형 데이터 + 비정형 데이터(수치화!!)

: DL + GPT 기반으로 약간의 흐림!!

==> 전통적인 정형데이터로 한 주제들을 비정형을 어떻게 적용해서 ML를 통해서 예측!! + 중요한 변수!!

ML : 예측!!!!

(조별: 주제 발견!!! 상당히 고민!!)

 

DL : 비정형 데이터!!  잘 되더라!!!

--> 인공신경망모델!! + 이미지 분류 // 요즘은 약간 식상

--> 생성쪽!!!

프로젝트 : 생성으로 하시는거 같음!!

( 뭐가 될지 정리가 안 되어 있어요!)

github / 논문에 있는데,, 안돌아요!!

시행착오!! ==> 코드 돌리는 삽질!!

+ 최근에 //  개인 : 코드 에러가 꽤 있어요

이상한 코드/// 잘 못 짠 코드들///

+++++++시행착오 - 시간이 많이 듦

너도 처음/ 나도 처음 ===> 성과물 만들기가 아주 용이함

!!

했던 조별 플젝에서 띠어 감!! 학회용 발표.. 주제를 튜닝!!

(하실 분만!! 할 껀지가 있는 주제!!)

: 이렇게 하면 될거 같은 주제!! 본인의 노력/ 관심//


수민씨 : 플젝 중심으로

개인 프로젝트 소개6

Openpose 데이터 기반 StableVITON 모델 학습 시간 개선 연구


개인EDA : 파이썬/sql/데이터 수집/핸들링/간단한 시각화 (개인 논문/학회)

ML : 기본적인 부분 + 실제 주로 쓰이는 패턴 : 조별 주제!(학회 발표)

DL : 최신의 것!! 기획/ 주제 --> 하다보면,, 뭔가 (학회 발표)

기본적인 부분도 + 최신것도 ( 조별로 선택하는 주제)

====> 여러분들의 선택과 투자라고 생각함

+++ 3달

 

지금은 아무런 포폴이 없음!!

1월 초 : 개인 프로젝트

2월     : ML 플젝

3월     : DL 플젝 포폴!!

===> 어필할 재료!!

4~6월 : 좀 더 큰 주제  //선택과 집중!!!

-----

개인적으로 이것을 취업할 때 어떻게 쓸 것인가!!!!

개인적으로 다 스스로 하셔야 함!!!

 

*코테 : 나 코드 처음이고 어려우면 --> 꼭 하세요!! 꾸준히!!

*테블로 : 시각화쪽

*클라우드 : 서버/클라우드 ---> DL 클라우드 /// 서버////

기본적인 자격증 정도

(빅데이터 분석사, sqld 그냥//)

 

* 데이터분석 --> 정말로 길이 다양하고, 포지션도 다양!!

: 세부적으로 들어갈 수 있고, 혼재되어 있기도 함!!

====> 개인적으로 모니터링과 정리를!!!!

 

// 대기업은 경력을 많이 보니 방향성이 같은 회사로 가서 경력을 쌓자

// 기업 분석과 함께 자격조건을 보며 도메인을 선정하자

// 지원하는 기업에 지원 요건에 따라 프로젝트의 중요도 달라짐

// 데분 직군 별로 검색해보며 기업 분석하기

// 클라우드 서비스와 테블로를 사용한 개인 프로젝트가 가능할까?

 

//팀 프로젝트 역할 분담 : 기획, 자료수집, 자료분석, 발표자료, 발표

 

시간을 잘 쓰셔야 한다!!

그냥 하면 안되고

본인의 목적을 잘 생각해서

효율적으로/ 가시적으로 성과물들을 잘 만들어 가면서!!

==> 본인이 어떻게 끌고 갈지!!

( 취업 공고들을 보면서 정리를 하세요!! )

+ 나는 어떤 것들을 준비할 수 있고, 어필할 수 있는지..

+ 성과물이나 진행을 어떻게 이 기간동안 채울지!!

==> 나 원하는 곳에 취업을 어떻게 할지!!

 

전혀 의미가 없음!!

지식적인 부분은 다 널려 있음!!

유튜브 + 유명한 학교 강의 + 논문 + 코드 + ...

==> 수업은 전반적인 내용 정리 & 기본적인 스킬!!

(궁금한 것들 처리가 빠르지 않을까요..)

==> 수업은 꼭 잘 들으세요!!

아시면 가볍게 본인이 필요한 것들 하셔도 됨!!

+++ 개인 플젝/ 자격증 무너가를 하는데 사용!!

(시간을 효율적으로 사용!!)

*** 모르거나,, 잘 안되면 ,,, 많이 연습하셔야 함!!

==> 중간에 놓치면.. 어~~ 못따라감..

그냥 gg

딥러닝!! 쫙 갈림!! 기본/// 최신 모델 산수// 엇///

이거는 내가 아닌데,,,

취업을 하려고 하면,, 포지션은 DL많아요... 스타트업

 

딥러닝 좀 열심히 할껄요...

 

*** 모르는 것을 꽁 하고 있다가,,, 

갑자기 훅 던지시면,, 제가 커버를 못 함!!

==> 중간 중간에 못 따라가거나,, 모르면 잘 질문을 해야함!!

(스스로 해야 함!!!)

==> 그게 저의 롤!! 코칭!! (포폴//프로젝트.. 성과물!!)

 

 

파이썬.....

===> 파이썬을 아주 딥하게는 안함!!

(기본 기능 중심 + 코테 중심으로 보면서 + 꼼꼼!!)

스스로 스터디 하실 때 방향이나 기본을 한다!!

==================기본만 해도

 

기본 코드 + 반복문 / 제어문 + 함수!! : 코테!!!

기본 연습을 주로 진행하겠습니다!!!

 

DL을 아주 심도있게 하면,,, 클래서 + 다른 영역!!

 

점심 시간 : 12시가 끼인 시간

12시 30분

**** ==> 12시 30분~~ 13시45분에 시작