본문 바로가기
반응형

분류 전체보기256

데이터 크롤링과 BeautifulSoup 웹 크롤링과 웹 스크래핑은 웹 상에서 데이터를 추출하기 위한 방법은 대표적인 방법이다. 웹에서의 데이터 추출이란 웹 페이지의 HTML 구조를 파싱하고 원하는 정보를 추출하는 과정을 말한다. 이러한 데이터 추출을 위해서는 반드시 정보 수집 과정이 필요하므로 웹 크롤링과 웹 스크래핑에 대한 개념 이해가 필요하다. * 파싱(Parsing) : 웹 페이지에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보로 가공하는 것. 웹 크롤링(Web Crawling) 이란? 웹 크롤링은 웹 상의 다양한 웹 페이지를 자동으로 탐색하고 수집하는 과정을 의미하며, 크롤러 혹은 스파이더라고 불리는 프로그램을 사용하여 여러 웹 페이지를 순회하며 링크를 추적하거나 사이트의 내용을 수집한다. 일반적으로 큰 규모의 데이터 수집.. 2023. 12. 1.
chap_05-3. 함수 고급 파이썬은 함수를 조금 더 편리하게 사용할 수 있도록 튜플(tuple)과 람다(lambda)를 제공해준다. 튜플 : 함수와 함께 많이 사용되는 리스트와 비슷한 자료형으로, 리스트와 다른 점은 한번 결정된 요소는 바꿀 수 없다는 것이다. 람다 : 매개변수로 함수를 전달하기 위해 함수 구문을 작성하는것이 번거롭고 코드 공간낭비라고 생각이 들 때 함수를 간단하게 선언하는 방법이다. 1회용 함수를 사용할 때 많이 사용한다. 튜플 튜플은 리스트와 비슷한 자료형이지만, 한번 결정된 요소를 바꿀수 없다는 차이가 있다. (데이터, 데이터, 데이터 ... ) 튜플은 위와 같이 () 괄호 안에 데이터를 나열하고 [인덱스]를 입력하여 요소를 가져올 수 있다. 아래 예제를 살펴보면 리스트와 크게 다르지 않게 동작하는 것을 확인.. 2023. 11. 13.
chap_05-2. 함수의 활용 코드에 이름 붙이기 프로그래밍을 할 때 가독성은 굉장히 중요한 요소이다. 가독성이 좋은 코드를 작성하는 방법은 다양하지만, 대표로 주석과 함수의 활용이 있다. # 숫자 입력을 받습니다. number_input_a = input("숫자입력>") radius = float(number_input_a) # 원의 둘레와 넓이를 출력합니다. print(2*3.14*radius) print(3.14*radius*radius) 코드를 작성할 때 주석을 활용하면 코드의 내용을 분석하지않더라도 어떤 내용인지 쉽게 이해할 수 있어 주석을 잘 사용할 수록 다른 사람과 함께 프로그램을 작성할 때 가독성을 향상시킬 수 있다. 더 좋은 형태는 아래와 같이 함수를 만들어 사용하는 것이다. 함수를 만들면 코드에 이름을 붙일 수 있기.. 2023. 11. 13.
chapter_05-1. 함수 만들기 함수의 기본 함수를 사용하는 것 : "함수를 호출한다" 함수를 호출할 때 괄호내부에 넣는 자료 : "매개변수" 함수를 호출해서 최종적으로 나오는 결과 : "리턴 값" 함수는 '코드의 집합'을 의미하며 함수를 생성하는 기본 형태는 아래와 같다. def 함수이름(): 문장 함수에 매개변수 만들기 함수를 작성할 때 괄호안에 입력하는 것을 모두 매개변수라고 부른다. 매개변수는 다음과 같이 함수를 생성할 때 괄호내부에 식별자를 입력해서 만든다. def 함수이름(매개변수, 매개변수, ... ): 문장 매개변수를 이용해 원하는 문장을 n번 출력하는 함수를 생성해보자. def print_n_times(value,n): for i in range(n): print(value) print_n_times("안녕하세요", 5.. 2023. 10. 27.
chap_04-4. 문자열, 리스트, 딕셔너리와 관련된 기본 함수 리스트에 적용할 수 있는 기본 함수 함수 설명 min() 리스트 내부에서 최솟값을 찾는다. max() 리스트 내부에서 최댓값을 찾는다. sum() 리스트 내부에서 값을 모두 더한다. reversed() 함수로 리스트 뒤집기 리스트에서 요소의 순서를 뒤집고 싶을 때는 reversed() 함수를 사용한다. list_a = [1,2,3,4,5] list_b = reversed(list_a) print(list_b) print(list(list_b)) 위의 list_b를 출력한 값을 보면 가 출력된 것을 확인할 수 있다. 이는 reversed() 함수의 리턴 값이 'reverseiterator', 즉 이터레이터이기 때문이다. * 이터레이터 (Iterator) for 반복자 in 반복할 수 있는 것 반복문은 위와.. 2023. 10. 26.
chap_04-3. 범위 자료형과 while 반복문 범위(Range) 리스트, 딕셔너리 외에 for 반복문과 함께 많이 사용되는 범위(range) 자료형의 사용법에 대해 알아보자. 매개 변수에 숫자 한개를 넣는 방법 range(A) # A는 숫자 0부터 A-1까지의 정수로 범위를 지정한다. 매개변수에 숫자 두개를 넣는 방법 range(A,B) # A,B는 숫자 A부터 B-1까지의 정수로 범위를 지정한다. 매개변수에 숫자 세개를 넣는 방법 range(A,B,C) #A,B,C는 숫자 A부터 B-1까지 정수로 범위를 지정하되, 앞 뒤의 숫자가 C만큼 차이가 발생된다. 이 때 range()하뭇의 매개변수로는 반드시 '정수'를 입력해야한다. 만약 다른 데이터 타입이 매개변수로 입력되면 TypeError가 발생됨에 유의하자. for 반복문:범위와 함께 사용하기 fo.. 2023. 10. 13.
Spring Boot SpringBoot란? Spring framework 기반 프로젝트를 복잡한 설정없이 쉽고 빠르게 만들어주는 라이브러리. Spring Boot의 AutoConfigure(자동구성)기능을 통해 많은설정들이 자동화 되기 시작했다. SpringBoot의 장점 1. 라이브러리 관리 자동화 : SpringBoot Starter 라이브러리를 등록해서 라이브러리 의존성을 간단히 관리할 수 있다. 2. 라이브러리 버전 자동관리 : 기존 Spring 라이브러리는 버전을 직접 입력해야 했지만, SpringBoot는 pom.xml에 스프링 부트 버전을 입력해놓으면 Spring 라이브러리 뿐만 아니라 third party라이브러리들도 호환되는 버전으로 알아서 다운로드 및 관리를 제공한다. 3. 설정 자동화 : 스프링 부트는 .. 2023. 9. 20.
chap_04. 반복문 리스트와 반복문 파이썬에서 리스트의 의미는 여러가지 자료를 저장할 수 있는 자료이다. 지금까지 숫자, 문자, 수식 등 개별적이고 독립적인 '자료'를 다루었다면, 리스트는 이러한 자료들을 모아서 사용할 수 있게 해주는 특별한 형태의 자료이다. 리스트를 선언하고 요소에 접근하기 파이썬에서 리스트를 생성하는 방법은 대괄호[]에 자료를 쉼표로 구분해서 입력하는 것이다. 대괄호 [] 내부에 넣는 자료를 요소라고 하고, 영어로는 element 라고 부른다. 리스트는 한가지 자료형만으로 구성할 수도 있고, 여러 종류의 자료형을 구성할 수도 있다. list_a=[273,32,103,"문자열",True,False] 위와 같이 리스트를 선언하고, 해당 리스트 안에 있는 요소들을 각각 사용하려면 리스트 이름 바로 뒤에 대괄.. 2023. 9. 14.
chap_03. 조건문 프로그래밍 언어에는 기본적인 자료형으로 참과 거짓을 나타내는 불(boolean) 값이 있다. Boolean은 불린 또는 불리언이라고 부르며 프로그래밍에서는 Bool이라고 쓰이기도 한다. Bool은 오직 True(참)과 False(거짓)값만 가질 수 있다. Bool 연산하기 : 비교 연산자 연산자 == != > = 0: print("양수입니다.") #음수 조건 if number < 0: print("음수입니다.") #0 조건 if number == 0: print("0입니다.") import datetime #날짜/시간과 관련된 기능을 가져옵니다. #현재 날짜와 시간을 구합니다. now = datetime.datetime.now() print(now.year,"년") print(now.month,"월") .. 2023. 8. 31.
chap_02. 숫자와 문자열의 다양한 기능 문자열의 format() 함수 format() 함수는 문자열이 가지고 있는 함수로, 중괄호{}를 포함한 문자열 뒤에 .format() 함수를 사용한다. 이 때 중괄호의 개수와 format 함수 괄호 안의 매개변수 개수는 반드시 같아야한다. "{}".format(10) "{}{}{}{}{}".format(101,202,303,404,505) string_a="{}".format(10) print(string_a) # 10 출력 print(type(string_a)) # 문자열 자료형 출력 format_b = "파이썬 열공해 연봉 {}만원 만들기".format(5000) # {} 기호 앞뒤로 다양한 문자열 추가가 가능하다. 위와 같이 함수를 사용하면 문자열의 {} 기호가 format() 함수 괄호 안의 매개.. 2023. 7. 31.
반응형