湯どうふと申します。
本チャンネルでは、化学に関する動画を配信しています。
音声:湯どうふ
キーワード:
python、プログラミング、ウェブスクレイピング、Google scholar、論文、文献、表、excel
#python#プログラミング#ウェブスクレイピング
【コード例】
from bs4 import BeautifulSoup
import requests
import pandas as pd
import re
def get_search_results(keyword, number):
columns = [“order”, “title”, “writer”, “year”, “citations”, “url”]
table = pd.DataFrame(columns=columns) #表の作成
html = requests.get(“https://scholar.google.co.jp/scholar?hl=ja&as_sdt=0%2C5&num=” + str(number) + “&q=” + keyword).text
soup = BeautifulSoup(html, “html.parser”)
tags1 = soup.find_all(“h3”, “class”: “gs_rt”) # title, url
tags2 = soup.find_all(“div”, “class”: “gs_a”) # writer, year
tags3 = soup.find_all(text=re.compile(“引用元”)) # citation
order = 1
for tag1, tag2, tag3 in zip(tags1, tags2, tags3):
title = tag1.text
url = tag1.select(“a”)[0].get(“href”)
writer = tag2.text
writer = re.sub(r’d’, ”, writer)
year = tag2.text
year = re.sub(r’D’, ”, year)
citations = tag3.replace(“引用元”,””)
se = pd.Series([order, title, writer, year, citations, url], columns)
table = table.append(se, columns)
order += 1
return table
keyword = “density functional theory”
number = 10
search_results = get_search_results(keyword, number)
filename = keyword + “.xlsx”
search_results.to_excel(filename, encoding=’utf-8′)
【過去のpython関連の動画】
PythonプログラムによるExcelファイルの入出力
Cythonプログラムの動かし方と速度: pythonの高速化に向けて
pythonプログラムでyoutube-dlを使ってyoutube動画をダウンロードする方法
pythonで画像中の文字認識をする方法(tesseract-OCR、pyocr)
Pythonプログラムによるプロットアニメーション
Pythonプログラムによるwordファイルの入出力とGoogle翻訳自動化作業
Pythonプログラムで3次元グラフを作成し保存する手順
Pythonプログラムでグラフを作成し保存する手順
Pythonによるwebスクレイピングの初歩
https://youtu.be/afqFp9KSvaA




