Вот моя домашняя работа:
В этом задании вы напишете программу Python, похожую на http://www.py4e.com/code3/urllink2.py. Программа будет использовать urllib для чтения HTML-кода из файлов данных ниже, анализа данных, извлечения чисел и вычисления суммы чисел в файле.
Мы предоставляем два файла для этого задания. Один - это образец файла, в котором мы даем вам сумму для вашего тестирования, а другой - фактические данные, которые вам нужно обработать для выполнения задания.
Примеры данных: http://py4e-data.dr-chuck.net/comments_42.html (сумма = 2553)
Фактические данные: http://py4e-data.dr-chuck.net/comments_228869.html (сумма заканчивается на 10)
Вам не нужно сохранять эти файлы в своей папке, поскольку ваша программа будет считывать данные прямо с URL-адреса. Примечание. У каждого учащегося будет отдельный URL-адрес данных для задания, поэтому для анализа используйте только свой собственный URL-адрес.
Я хочу исправить свой код, поскольку это то, что я изучил до сих пор. Я получаю ошибку как имя
urlib не определен
.. если играю с импортом то у меня проблема с сокетами.
import urllib
import re
from bs4 import BeautifulSoup
url = input('Enter - ')
html = urlib.request(url, context=ctx).read()
soup = BeautifulSoup(html, "html.parser")
sum=0
# Retrieve all of the anchor tags
tags = soup('span')
for tag in tags:
# Look at the parts of a tag
y=str(tag)
x= re.findall("[0-9]+",y)
for i in x:
i=int(i)
sum=sum+i
print(sum)