지금 회사 입사 전에 나는 연봉 삼천을 받기 위해 정황 상 혼자 중국 공장 지대 장기 출장을 가야하는 상황에 놓여 있었다. 내가 좋아서 택한 분석가의 길이었고 너무 그동안 기회가 주어지지 않아 포기할 뻔 했던 상황에서 간신히 주어졌던 기회였다. 그런데 여자 혼자 을의 입장에서 타지로 가서 일하는 게 맞는 지 고민이 있었다. 마침 그때 링크드인으로 연락이 와서 현재 회사에 연결되어 지금까지 다니고 있다. 정말 신기하게도.

 

현재까지도 정리 중인 고민들

[ 커리어 및 직장 ]

데이터 분석하는 일련의 과정들이 너무 좋아서 통계학 학사인 상태는 불리함에도 버티고 스타트업이든 들어가서 경력을 쌓으려고 하고 모르는 게 많아서 직장인 스터디 및 커뮤니티로 인맥 늘리고 많이 배웠다. 스스로 공부하는 법도 터득하고 가르치는 법도 배웠다. 그러다보니 여러 군데 직장이 연결되어서 속상한 일도 있었고, 성장했다. 아주 작고 소중한 월급으로 회사 근처에서 자취도 해보고 책 사서 보고 공부하고 일했다. 운이 따라줘서 내가 꿈꾸던 대기업으로 올 수 있었고, 원하는 직무로 근무도 했다. 인간관계 처세술이 미숙해서 하는 일에 비해 인정을 받지는 못했던 것 같다. 그래도 맡은 일은 열심히 했다. 내가 스스로 생각하기에도 한 점 부끄럼 없을 정도로. 대기업의 생리와 중소기업의 생리가 너무도 달라 적응이 힘들었지만 그럭저럭 버텨내고 회사 집 회사 집 하면서 너무 힘들면 운동해서 체력 키우고 스트레스도 풀고 그렇게 지냈다.

모두 다 너무 이기적이어서 치가 떨리고 너무 힘든 날은 주변 사람들에게 하소연하고 고민을 풀어냈다. 그러면서 하루 하루 세면서 다녔다. 처음엔 6개월만 다니자 하고 정신 차려보면 8개월이 지나있어서 그럼 1년만 채우자 하고 정신없이 보내다보면 1년보다 더 훌쩍 가있었는데, 업무에서 내가 어떤 부분이 부족한지 깨닫게 됐다. 분석만 하다보니 개발쪽 업무를 전혀 이해하지 못 했고 분석 쪽 업무에 한계가 올 것 같았다. 개발을 배워야겠다고 생각했을 때 AI 플랫폼팀 이동 제안이 왔고 이동하게 됐다. 상세히 조언해주시고 마이크로 매니징해주시는 리더 분을 만나서 1년이 안 되는 시간동안 많은 것을 배웠다. 코딩하는 방법이나 기획하는 방법, 성과 정리하는 방법 등을. 그 리더 분이 퍼블릭 클라우드 쪽으로 이직하시고 다른 팀으로 강제 이동 되었다. 다시 분석 쪽으로 돌아갈 의향이 있느냐고 HR에서 몇 번이고 물어왔지만 거절했다. 새로운 팀은 사내 프로그램을 제공하는 파트와 사내 클라우드 운영 파트가 있었는데 일손이 부족한 클라우드 파트로 배정되었다. 팀 이동 직전에 하던 게 Prometheus, Grafana 쪽이었어서 모니터링 체계 운영을 맡게 되었다. K8S를 잘 아는 사람이 별로 없다보니 지금 생각해보면 모든지 다 미숙했다. 그런데 그 미숙한 것조차 모르고 좀만 할 줄 알면 떠받드는 시절이었다. 현재 떠있는 리소스가 어떤 경로로 설치됐는지, 어떤 조건으로 되어 있는지조차 확인이 안 됐고 연관된 사람들은 다 나간 상태였다. 게다가 설계 오류로 틈만 나면 Prometheus가 자동으로 재기동을 해댔다. 알고 보니 Prometheus rule이 계속 늘어나면 configmap 중 rulefile이 하나씩 늘어나는데 그럴 때마다 재기동이 된 것. 프로젝트를 생성할 때마다 네임스페이스가 생성되면서 수십 개의 Prometheus rule이 자동 생성되었다. 공통 Rule화 하고 그런 현상은 해결되었다. 자사 직원들이 사내 클라우드를 독자적으로 운영하기엔 알고 있는 지식이 미약해서 외주 인력을 수십명 규모로 끌어다 썼는데 문제는 이 분야 지식을 알고 있는 사람이 많지 않고 거의 모든 산업의 모든 회사가 이런 인력을 못 구해서 난리였다. 그래서 여기서 SI 수행하던 인력들이 연봉도 더 높아지고 시장에서 원하는 곳이 많으니 자체 서비스를 하는 회사로 쉽게 갈 수 있었다. 인력은 허구헌날 바뀌고 히스토리도 없는 상태에서 맡게 된 담당자가 남아있는 문서나 소스코드를 보고 유추할 수 밖에 없었다. 이 팀에 와서 안정화 작업만 하는 것 같다.

- Metric 조회가 안 돼요. Prometheus 문제일까? Grafana 문제일까? Prometheus에서 느리지만 결과 나오는 걸 보니 Grafana 문제일까? Grafana 설정을 보면 업그레이드가 답이다. 그런데 얘는 K8S에 안 떠있고 docker로 떠있다. 그리고 근본적인 이유는 메트릭 조회하는 쿼리가 너무 복잡하거나 메트릭을 저장하는 프로메테우스에 너무 많이 저장되어서 불러올 때 시간이 오래 걸려서 타임아웃 뜬다. 그러면 쿠버네티스 클러스터가 현재 너무 많으니까 쪼개든가 해야지. 당장 그게 힘들면 PromQL을 시간 덜 걸리게 최적화하거나 grafana 업그레이드 테스트해보거나.

- Alert이 안 와요. 왜 안 오는지 모르니까 일단 spring boot으로 구성된 소스코드를 분석한다. 나는 python 밖에 할 줄 모르는데 대충 봐도 모르니까 다른 팀원한테 도움을 요청해서 해석해달라고 한다. 운영 중인 외주 인력한테 물어보니 자기도 모른다고 한다. 그래서 소스 코드 위치 알려주고 좀 파악해달라고 한다. Alert이 안 오는데 로그 찍히는 것 좀 봐달라고 해서 백엔드 로직 수정으로 어찌저찌 해결한다.

대충 에러나는 것들 해결하고 났더니 형상관리가 전혀 안 되고 있으니까 git으로 관리하자고 Helm으로 설치할 수 있게 만들라고 해서 공식 사이트 참고해서 온갖 옵션 고려해서 수정했다. 그러고 나니까 Argocd로 자동 배포될 수 있도록 하래서 그 방법을 배워서 배포하고 해외 법인 클러스터에도 쉽게 배포한다. K8S 버전 올린다고 해서 그거랑 연관된 kube-state-metrics version을 올려야 해서 다른 exporter 버전도 올리고 prometheus, exporter, operator, grafana 버전 검토해서 argocd 통해서 배포될 수 있게 했다. 

올해 새롭게 도입한 기술들이 여럿 있는데 그 모든 부분에 대해 죽었는지 살았는지에 대해 확인할 수 있도록 Alert을 만들라는 지시를 받았다. 먼저 exporter 설치할 수 있는 것들은 하고 각 메트릭을 살펴보고 Alert 산식을 만들어야 한다. 이번에 추가된 요소가 많아서 아직 정리하지 못했다. Alert과 Metric Monitoring을 새롭게 고려해야하는 측면은 AI/ML을 수행할 수 있는 Workflow 내부 컴포넌트 운영 담당자, 사내 클라우드 운영 담당자, Managed DB 운영 담당자, AI/ML 모델링을 수행하는 역할, 애플리케이션 개발자, GPU나 CPU, Mem 자원을 관리하는 입장, 보고를 수행하는 입장 등등이 있다. 기존에는 모든 게 섞여 있어서 솔직히 엉망진창이었다. 그 모든 걸 한꺼번에 뒤집으려니 머리가 많이 아팠는데 천천히 가기로 했다. 스트레스만 받으니 일이 잘 진행이 안 되었다.

분석 클러스터에 A100 도입되면서 기존 GPU 서버들과 K8S node label에 차이가 생기고 수집되는 메트릭 이름도 달라졌다. 그것을 위한 대시보드를 기획 중인데 여러 일들이 겹쳐 있어서 생각이 잘 안 났다. 그리고 약간 번아웃 비슷하게 오면서 무기력증이 찾아왔다. 그 와중에 성과 정리를 해야 하니 더 멘붕이 왔다.

멘붕이 오기 전에 사내에서 AI/ML 플랫폼이라고 광 팔면서 외부 업체 솔루션 사서 영업 열심히 하는 쪽이 있었는데 실제적인 운영은 다 외주에 맡겨버리고 담당자들은 잘 몰랐던 프로젝트가 있었다. 그걸 우리 파트가 하게 되었는데, 등록된 워크플로우는 천 개가 넘는데 소스코드 까서 확인해보니 잘 안 돌아가는 게 대다수였다. 잘 안 돌아가는 걸 되게 만들고 자체 워크플로우 개발하고 워크플로우 이관하는 데에 잠깐 껴서 하나만 도와주기로 했다. 돌아가게 해놨더니 갑자기 알고리즘 하나 말고 여러 개를 병렬로 돌려서 결과를 볼 수 있게 해달라고 현업에서 요청이 들어왔다. 이걸 하는 게 맞나 싶었는데 팀장님이 해주라고 하셔서 해줬다. 워크플로우 플랫폼이 개발 중인 상태여서 이관하는 데에 공수가 많이 들었다. 뭐는 되고 뭐는 안 되는 그런 상황이어서.

ELK로 수집되는 메트릭이나 로그 기반 Alert은 Spring boot로 개발되어 있는데 나는 그 언어를 잘 모른다. 공부해서 짤 정도는 만들어놔야 한다. 외주 인력도 자꾸 나가서 잘 안 뽑히고 인력 부족에 시달려서 어쩔 수 없이 내재화 중이다.  

계속 업무를 하면서 부족함을 느끼고 있다. 무서운 속도로 뭔가를 채워나가며 성장하고 있다는 건 알겠는데 좀 한계가 다가온 것 같다.

ELK는 로그 검색 용이고, Loki는 실시간 로그 조회용인데 이번에 오브젝트 스토리지 장애 나서 좀 치명적이었다. 시험적으로 도입한 Thanos도ㅠ. MinIO를 도입해서 자체 관리하자는 분위기가 형성되고 있는 것 같다. 퍼블릭 클라우드는 능력자들 수천 명이 모여서 만드는 걸텐데, 그래도 운영하는 입장에서 에러 엄청 많이 나고 운영이 너무 힘들다고 한다. 우리 클라우드 파트는 퍼블릭 클라우드 만큼 당연히 할 수 없지만 겨우 십수 명이 근근히 버티는 느낌이다. 그래도 다들 열심히 하려고 하고 말은 하기 싫다고 하면서 성실하게 다들 하고 있다. 제한된 환경 속에서 어떻게든 해내려고 발악 중이다.

나는 내 업무가 참 그런 게, 잘 해내면 장애를 잘 잡고 잘 처리해서 무난하게 잘 흘러가서 눈에 안 띄고, 장애가 시원하게 나버리면 엄청 까일 것이다. 잘해내면 다행이고, 아니면 엄청 깨질 그런 업무.

언제까지 이 일을 하게 될지는 모르지만, 할 수 있을 때까지는 그냥 해본다. go도 공부해야 하고, Spring boot도 해야하고, docker file도 생성하고, k8s도 잘 알아야 하고, 사내 분석가들이 짠 코드 받아서 워크플로우 올려달란 요청 받으면 그 코드 쪼개주고 변수화도 좀 해주고 에러도 잡아주고 도커 파일 말아서 쿠버네티스 환경에 띄워준다. 내가 하고 싶은 일은 언제 할 수 있게 될까? PostgreSQL도 공부해야 하고, Redis도, MongoDB도, Oracle DB도, Kafka, Elasticsearch, Loki, Harbor, ArgoCD, ArgoWF, MinIO, VM도 공부해서 쓰는 방법, 상태체크하는 방법, 메트릭 화면도 만들어줘야 할텐데 일부 밖에 못 했다. 언젠가는 내가 다 해서 좀 편안해질 날이 오려나 그런 날이 오길 소망해본다. 주변에 똑똑한 사람들이 많은데 그 사람들 도움도 받고 하다보면 다 하고 나서 장애 처리도 자동화될 날이 올까?

자리에 앉아서 최대한 열심히 하고 잘 하려고 애쓰는데 매일 슬프다. 매일 자괴감에 자책하며 성장한다는 위안을 삼지만 그래도 지친 마음과 몸을 달래기엔 너무 부족하다. 주말이나 휴가 때 사내 메신저를 보는 건 언제나 슬픈 일이다.

[ 결혼 및 가정 ]

나는 회사원, 신랑은 자영업이라 서로를 이해하기에 부족한 점이 많다. 사랑으로 이해하는 시기라 서로 존중해서 아직 괜찮다. 내쪽 부모님도 그렇지만 신랑쪽 부모님이 유난스러운 면이 있다. 자기 자식한테는 기대 안 하지만 나한테는 기대하는 그런 게 있다. 그쪽 딸(시누이)가 있지만 해외에 있어서 안타깝고 그리운 자식이고 가까이 없어서 별 관심이 없는 것 같다. 들어보니 시누이가 능력이 좋아서 다 알법한 글로벌 기업들을 다니고 젊은 나이에 팀장 달았는데 건강이 좋지 않다. 그런데도 시부모님이 무관심한(?) 그런 게 있다. 워낙 개인주의 성향이 강한 집안이라 서로의 말을 전혀 듣지 않아서 처음엔 당황스러웠는데 그러려니 하는 중. 신랑을 처음 만나 깊게 알고 싶어질 때부터 상당히 외로워한다는 느낌을 받았는데, 시댁 식구들 각자가 다 그럼. 좀만 마음을 알아주면 금방 속마음을 훌훌 턴다. 그게 좋은 건지 아닌 건지 잘 모르겠는데 일단 내 남편은 안쓰러우니까 감싸준다는 마인드로 산다. 또 상대적으로 내 부모님은 자주 보고 싶어하고 요구가 많다. 사랑이 넘치지만 그만큼 요구도 넘친다. 남편이 그걸 다행히 받아줘서 미안하고 고맙고 중간에서 내가 자를 때도 있다. 거절을 잘 못 했는데 조금씩 거절하는 법을 배워가는 것 같기도 하고. 올해랑 내년 숙제는 거절 잘 하는 법 배우기이다. 그리고 우리 부부 사이가 아닌 가족의 사이가 안 좋을 때 아직 어떻게 해야하는지 잘 모르겠다. 이건 살아가면서 배우도록 하자.

인공 수정 한 번 시도해봤는데 잘 안 되었다. 그 여파로 몸이 약해져서 코로나 걸리고 격리 풀리고 난 후에도 몸이 회복이 잘 안 된다. 둘 다 정밀 검사를 해본 결과 이상이 없다고 하는데 무엇이 문제인걸까? 너무 살쪄서 그런가. 둘 다 스트레스를 너무 많이 받고 있어서 그런가? 운동을 다시 열심히 해보기로 마음 먹었다.

[ 내 멘탈과 몸 ]

많이 무너져 있었는데 조금씩 회복하고 있다. 하나씩 놓아 버리니까 조금씩 회복이 된다. 승진도, 임신하려고 애쓰는 것도, 일 잘하려고 애쓰는 것도, 운동하려고 애쓰는 것도, 좋은 사람으로 보이려고 애쓰는 것 등등 부둥켜 안고 있던 것들 놓아주는 중이다. 마음 편하게 최소 이 분야 5년 최대 10년이라고 마음 먹었다. 건강하게 오래 남편과 좋은 추억 만들면서 좋은 가정 꾸리며 살자. 내 인생은 일만 하다 끝날 그런 인생이 아니라 이것 저것 다 누려보고 살 인생이니까 힘들면 쉬어가기로 했다. 그런데 지금 사는 삶이 내가 원하던 삶이 맞나? 나는 잘하고 있는 걸까? 더 배우고 싶고 더 성장하고 싶다. 그런데 이번엔 좀 너무 과했던 게 아닌가 생각이 든다. 내게 맞는 속도를 찾아서 가야지. 욕심은 좀 덜 부리기로 했다. 그리고 언젠가는 공부를 이렇게 숨가쁘게 하지 않아도 회의의 모든 내용을 이해할 날도 오겠지. 미친듯이 회의 내용을 적지 않아도 되는 날이 오긴 하겠지.

[ 인간 관계 ]

부드럽게, 최대한 기분 덜 상하게 거절하는 법을 배우자. 그리고 실천하자. 인간 관계는 회사든, 가정이든 다 어렵다. 거절을 잘하는 사람은 사실 그만큼의 Risk를 안고 가는 것이고 사실 그만큼의 기회를 잃는 것이다. 멘탈은 덜 괴롭지만 제한된 기회를 얻는다. 거절을 잘 못 하는 사람은 거절을 못 함으로써 기회는 얻지만 그걸 정말 실현할 수 있는지 가능성을 따지고 안 되는 걸 알아도 하기 때문에 신뢰성을 잃기 쉬운 Risk를 갖지만 부탁을 잘 들어준다는 평판을 얻는다. 더 기회를 얻을 가능성이 커진다. 멘탈은 바사삭 부서질 수도 있지만. 너무도 당연한 말이지만 모든 면엔 장단점이 있다. 정답은 없지만 좀 더 지혜를 가지고 현명한 선택을 할 수 있게 되었으면 좋겠다.


WRITTEN BY
호두만듀
생활형 블로그 심심할 땐 끼적끼적 바쁠 때도 끼적끼적 자나 깨나 끼적끼적

,