コンテンツへスキップ

pythonによるウェブスクレイピング:Google Scholarから論文検索の結果を取得して表にする【プログラミング】

湯どうふと申します。
本チャンネルでは、化学に関する動画を配信しています。

音声:湯どうふ

キーワード:
python、プログラミング、ウェブスクレイピング、Google scholar、論文、文献、表、excel

#python#プログラミング#ウェブスクレイピング

【コード例】
from bs4 import BeautifulSoup
import requests
import pandas as pd
import re

def get_search_results(keyword, number):
columns = [“order”, “title”, “writer”, “year”, “citations”, “url”]
table = pd.DataFrame(columns=columns) #表の作成
html = requests.get(“https://scholar.google.co.jp/scholar?hl=ja&as_sdt=0%2C5&num=” + str(number) + “&q=” + keyword).text
soup = BeautifulSoup(html, “html.parser”)
tags1 = soup.find_all(“h3”, “class”: “gs_rt”) # title, url
tags2 = soup.find_all(“div”, “class”: “gs_a”) # writer, year
tags3 = soup.find_all(text=re.compile(“引用元”)) # citation
order = 1
for tag1, tag2, tag3 in zip(tags1, tags2, tags3):
title = tag1.text
url = tag1.select(“a”)[0].get(“href”)
writer = tag2.text
writer = re.sub(r’d’, ”, writer)
year = tag2.text
year = re.sub(r’D’, ”, year)
citations = tag3.replace(“引用元”,””)
se = pd.Series([order, title, writer, year, citations, url], columns)
table = table.append(se, columns)
order += 1
return table

keyword = “density functional theory”
number = 10
search_results = get_search_results(keyword, number)
filename = keyword + “.xlsx”
search_results.to_excel(filename, encoding=’utf-8′)

【過去のpython関連の動画】
PythonプログラムによるExcelファイルの入出力

Cythonプログラムの動かし方と速度: pythonの高速化に向けて

pythonプログラムでyoutube-dlを使ってyoutube動画をダウンロードする方法

pythonで画像中の文字認識をする方法(tesseract-OCR、pyocr)

Pythonプログラムによるプロットアニメーション

Pythonプログラムによるwordファイルの入出力とGoogle翻訳自動化作業

Pythonプログラムで3次元グラフを作成し保存する手順

Pythonプログラムでグラフを作成し保存する手順

Pythonによるwebスクレイピングの初歩
https://youtu.be/afqFp9KSvaA

Facebooktwittermail

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA