HTML結構分析 作者: 道格資源 • 2022-12-11 • 圖片素材模板推薦 • 瀏覽量 918 yper text markup language(超文本標記語言)的縮寫,是一種用於創建網頁結構的標記語言。 HTML使用標記來描述網頁中的各個元素,如標題、段落、鏈接等。 Web瀏覽器可以讀取HTML文件,並根據其中的標記來渲染和顯示網頁內容。 HTML的工作原理如下:1. HTML文件由一系列標籤(tag)組成,每個標籤由尖括號包圍,例如``。 2. 標籤通常成對出現,包括一個開始標籤和一個結束標籤,例如`...`。 3. 開始標籤和結束標籤之 < section data-tool='mdnice編輯器' data-website='https://www.mdnice.com' >如果想學會爬蟲,熟悉HTML代碼是必須的,如果不會HTML代碼我們就沒有辦法分析頁面結構,也就沒有辦法更好的做解析了。 一、HTML工作原理原理html是hypertext markup lanaguage縮寫超文本標記語言,是一種解釋性語言,不需要編譯,由瀏覽器解釋執行html組成html 負責數據展示 css 負責美化頁面js 頁面的動態效果< span >二、認識標籤marquee標籤的引入,學習標籤應該: section>記住功能 標籤寫法< section >可分為:單標籤和對標籤 < span ><!--單標籤 --> <標籤名 屬性1='屬性值' 屬性2='屬性值' 屬性3=屬性值> <!--對標籤 --> <標籤名 屬性1='屬性值' 屬性2='屬性值' 屬性3=屬性值< /span>>內容</標籤名>注意事項:標籤不能創造 書寫標籤的時候應該用英文半角屬性值可以單引號、雙引號引起來,也可以不寫引號,推薦使用單引號括起來屬性必須寫在開始標籤裡標籤可以嵌套,一個標籤要完全嵌套到另外一個標籤裡三、全局架構標籤(重點) <!doctype html> 文檔類型,html表名是html5的文檔<html>根標籤<head> 頭部 <meta charset='UTF-8'> 告訴瀏覽器用utf-8編碼格式解釋文檔 <title> Document</title> 文檔標題</head><body> </body></html> pre>3.1 title標籤 <title>Document</ title>設置文檔標題,顯示窗口的標題欄3.2 設置字符集<meta charset= 'UTF-8'> 字符集是告訴瀏覽器用那種編碼格式解讀html文檔,注意html文檔本身有一個編碼格式,這兩個編碼格式必須一致,不一致就亂碼3.3 body(了解)內容顯示區,有些常用屬性:topmargin 上外邊距< section >leftmargin 左外邊距text 文字顏色bgcolor 背景顏色background 背景圖片,和bgcolor衝突,設置了背景圖片,背景顏色就是不顯示 3.4 全局屬性 每一個標籤都有的屬性,常用的有id、class、name、style四、html常用標籤html文件顯示特點:多個空格、換行、tab鍵用一個空格代替;如果英文字符間沒有空格,會看成一個單詞,不會自動折行4.1 常用標籤h1~h6 標題,一般一個頁面只設置一個h1標題 hr (單標籤) 水平分割線width 可以使用絕對值,300,不帶單位,也可以使用百分比50%align 對齊方式:left center(默認) right p 段落標籤,有段前間距和段後間距br (單標籤) 換行nobr (雙標籤) 不換行,所修飾內容無論多長,不會自動換行,顯示不下,會有滾動條pre 保持原來的樣式,無論空格還是換行都會正常顯示 b(strong) 加粗i(cite,em) 斜體u 下劃線sub/sup 下標/上標,看圈在那邊,在下邊就是下標font (face/color/size) 字體< /li>face 字體名稱,到window目錄下font子目錄下查看< li >color 字體顏色size 值取1~7,7最大< /li>blockquote 引用,會從正常的文本中分離,留有左右邊距4.2 註釋和實體引用 註釋 <!--我是註釋 --> <!-- 我是註釋 --> 註釋的作用: 1 提高代碼的可讀性,主要給其他團隊成員看的,方便維護 2 方便調試實體引用 空格 < < > >< br> & & ' " ' '五、列表5.1 有序列表(ol/li)type: 數字,a ,A,I ,istart 開始標號,默認從1開始5.2 無序列表(ul/li)type 項目符號:disc 默認實心圓圈square 實心方塊 li>circle 空心圓圈5.3自定義列表(dl/dt/dd) 六、超級連接(重點)超鏈接的寫法 < a href='http://www.baidu.com/'>百度</a>url 統一資源定位符 https://baike.baidu.com:80/item/%E6%9D%A8%E5%B9%82/149851?fr=aladdin#4 第一部分: 協議 http https ftp news magnet(磁力鏈接) 第二部分:主機,服務器地址 可以是域名或ip地址 第三部分:冒號後面的數字,端口 http 80(默認) https :443 ftp:21 mysql:3306 端口編號從0~65535 其中0~1023歸操作系統使用 第四部分:從端口後的斜線到? ,中間這部分叫路徑,請求文件的路徑 第五部分:從?到#中間這部分,是請求參數,query string ;寫法: 鍵=值&鍵2=值 第六部分:錨點 也就是同一個頁面內的跳轉,必須用#開頭href 所請求的url,注意url必須寫協議title 鼠標放到超鏈接上時顯示的提示target_blank 新窗口打開_self 當前窗口打開,默認 七、img標籤(單標籤)< span >img是單標籤,<img src='' title='' alt='' border='' width='' height=''> 絕對路徑和相對路徑 本機絕對路徑:file:///C:/python/web/1/ym.jpg 網絡絕對路徑:https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/c0%3Dbaike80%2C5%2C5%2C80%2C26/sign=32ceb0ef04d79123f4ed9c26cc5d32e7/7c1ed21b0ef41bd55520081359da81cb38db3de2.jpg 網站絕對路徑(了解): /代表網站根目錄 相對路徑:相對於html文檔所在目錄 ../上級目錄./當前目錄 ./3/index.html ../1.html< ul data-tool='mdnice編輯器' class='list-paddingleft-2'>src 圖片來源,可以是相對路徑也可以是絕對路徑title 圖片提示文字alt 圖片不顯示的時候的提示文字border 圖片邊框大小,一般默認為0width/height 一般只設置一個,另外一個等比例縮放八、表格 table 表border 表格線 span>cellspacing:單元格的間距cellpadding:單元格到內容距離align:水平對齊left、center、rightheight可以不用設置,自動撐開tr 行 align :水平對齊left center rightvalign:垂直對齊top middle bottom注意:如果沒有給該表格設置高度,那麼設置valign無效,在以後佈局頁面的時候,一般不使用valign,只有一種情況使用到,就是圖片和文字並排排放的時候,需要設置圖片的valign為middletd 單元格 colspan 跨列向右合併rowspan 跨行向下合併 width/heightth 就是表格的表頭,內容會加粗,和td用法相同 li>caption 表格標題,跟隨表格移動 <table border=1 width=100> <tr align='left'> <td>A</ td> <td>A</td> <td>A</td> </tr> <tr align='left' span>> <td>B</td> <td>B</td> <td>B</td> </tr> </table>< strong >九、表單(重要)用途:收集用戶信息,提交給服務器基本使用:不是所有的標籤都可以提交,能夠向服務器提交信息的表單項,只有表單項:input、select、textarea才可以向服務器提交信息表單項必須放到form標籤中才可以提交信息action:提交地址,一般是服務器的頁面method:提交方式,最重要的兩種為get方式和post方式,默認是get提交get和post的區別: 1.get用於向服務器請求數據,post一般用於向服務器提交數據 2. get請求通過url傳遞數據,數據會暴露在瀏覽器地址欄裡,不安全; post請求數據在請求體中,不會在瀏覽器地址欄裡出現,相對安全 3. get傳參,數據大小受url限制,一般幾k大小 post傳參理論上無限制enctype:用於文件上傳,值為:multipart/form-data,現在了解input框type:textplaceholder:佔位符,一般用於提示用戶,當用戶輸入時,會自動消失maxlength:最大字符數type 類型:單行文本框(text)、密碼框(password)、複選框(checkbox)、單選框(radio)、文件上傳( file)、按鈕(button)、重置按鈕(reset)、提交(submit)name:名稱,要提交,必須設置name value 默認值readonly 只讀 span>disabled 不可用size section>公有屬性:type、name、value、readonly、disabled、size單行文本框 <input type='text' value='重置' />提交按鈕type:submitvalue:提交按鈕的標題 <input type='submit' value='提交' />重置按鈕清空用戶輸入type:reset <input type='reset' value='重置' />密碼框type:password ul> <input type='password' name='password' /> code>單選框一般用於多選一,name相同是一組,一組中只能選一個type:radiochecked:是否選中value:一般用0或1表示,必須設置,否則服務器無法區別選中是哪一個 <input type='radio' name=' ball1' checked value ='basketball'/> 籃球< section >複選框一般name值相同type:checkboxvalue:必須設置checked: 是否選中 <input type='checkbox' name=' ball1' checked/> 籃球 <input type='checkbox' name='ball2' checked/ > 足球文件上傳type:file ul> <input type='file' name='upload' enctype=''< /span>/>隱藏按鈕一般用於提交無需用戶輸入的數據type:hiddenname和value值必須設置 <input type='hidden' name=' a' value='123'/> button 一般配合js代碼使用 <button>按鈕</button> pre>下拉框(select)selected:是否選中value 需要設置,否則值就是option中間的文字name 必須設置size:顯示的行數,如果設置這個屬性,下拉框會變成列錶框 multiple:是否可以選擇多行下拉框選項(option) <select name=''> <option>1</option> <option>2</option> <option>3</option> </select>< p >多行文本(textarea)cols:列數rows:行數注意textarea標籤的內容不能有任何值,否則便會顯示 <textarea cols=10 rows=6> </textarea>label標籤配合radio、checkbox使用,方便用戶選中 <input type='radio' name='sex' value= '男' checked id='man'> <label for='man'>男</label>十、開發者工具的使用當然一個標準的網頁中CSS和JavaScript也是必不可少的。我們如何分析一個網頁呢?以chrome為例我們訪問:https://movie.douban.com/每一個頁面的元素定位都是按照如下的步驟完成的。 下面我們再來看看Network的使用。 此時的Network是空白的,我們需要再次刷新一下頁面。 接下來查看請求和相應內容通過這些的查看可以設置爬蟲的請求頭等信息。 系列文章第1天:收藏!一文掌握數據分析在企業的實際流程第2天:Jupyter Notebook介紹、安裝及使用教程第3天:如果不懂Numpy,請別說自己是Python程序員第4天:能是全網最清晰易懂的Numpy教程< /section>第5天:Numpy數組中的運算與拼接,看這篇就夠了...第6天:收藏! Numpy中常用的方法和屬性匯總第7天:菜鳥用Python操作MongoDB,看這一篇就夠了第8天:redis在爬蟲中的應用-END-Python 專欄 關於Python 都在這裡 文章為用戶上傳,僅供非商業瀏覽。發布者:Lomu,轉轉請註明出處: https://www.daogebangong.com/zh-Hant/articles/detail/HTML%20structure%20analysis.html 贊 (810) 打賞 支付宝扫一扫 平安顺 專欄作者 48 196 生成海报 相關推薦 【實用技巧】圖解靜電紡絲流程:PPT科學研究繪圖入門指南(016) 【實用技巧】圖解靜電紡絲流程:PPT科學研究繪圖入門指南(016) yarodong 2017年11月23日 20.0K 86 18 313 史上最全PPT科研作圖教程及素材(第二版) 史上最全PPT科研作圖教程及素材(第二版) yarodong 2017年11月23日 20.0K 86 18 313 “科學研究PPT插畫製作指南” “科學研究PPT插畫製作指南” yarodong 2017年11月23日 20.0K 86 18 313 【導航】PPT科研插圖繪製教程列表 【導航】PPT科研插圖繪製教程列表 yarodong 2017年11月23日 20.0K 86 18 313 《實用指南:PPT簡報中的科學研究圖形繪製技巧(008期)—繪製光路原理圖》 《實用指南:PPT簡報中的科學研究圖形繪製技巧(008期)—繪製光路原理圖》 yarodong 2017年11月23日 20.0K 86 18 313 发表回复 请登录后评论... 登录后才能评论 提交 评论列表(196条) 禹涵 2023年6月28日 17:05 测试 回复 上一页 1 … 4 5 6
评论列表(196条)
测试