Vizualizace informací v textových dokumentech v hodinách informatiky. Vizualizace informací v textových dokumentech plán výuky informatiky a ICT (7. ročník) na dané téma

Domov / Instalace zařízení

OPAKOVÁNÍ Č. 1. Určete, do které skupiny operací (úpravy nebo formátování) patří následující akce: formátování Nahrazení jednoho znaku jiným; Vložit chybějící slovo; Změna písma; Smazání části textu; Zarovnat text na šířku; Automatická kontrola pravopisu; Změna řádkování; Změna velikosti okrajů stránky; Odstranění chybného znaku; Hledat a nahradit; Přesouvání fragmentů textu.

OPAKOVÁNÍ č. 2. Určete, do které skupiny (vlastnosti znaků nebo vlastnosti č. 2 odstavců) patří následující vlastnosti: odstavce Zarovnání písma Mezery za odsazením prvního řádku Styl Barva Řádkování Levé odsazení Před odsazením Velikost písma (bod) Pravé odsazení

RECENZE #3: Která z následujících vět #3 má správně mezery mezi slovy a interpunkční znaménka? Kde se děly chyby? 1) 2) 3) 4) Ze své rodné země - zemři, neodcházej. Vést řeč neznamená plést lýkové boty. Kde se narodil, tam zapadl. Mluvit je legrační, schovávat se je hříšné.

OPAKOVÁNÍ Č. 4. Vyberte možnosti, které chcete nastavit při nastavování Vzhled stránky č. 4: Styl orientace Velikost písma Velikost papíru Čísla stránek Okraje Řádkování Odsazení Styl zarovnání odstavce

Vizualizace – prezentace informací vizuální formou. Textové informace jsou prezentovány ve formě seznamů, tabulek, diagramů a opatřeny ilustracemi (fotografie, diagramy, výkresy). Informační vizualizace Seznam Tabulka Diagram Ilustrace Seznam předmětů 8. ročník 1. Algebra 2. anglický jazyk 3. ročník. Biologie 4. Student. Geografie Matematika Informatika 5. Geometrie 6. Informatika a ICT Ivanov 7. Dějepis 5 Sasha 4 8. Literatura 9. Životní bezpečnost Orlova Katya 4 5 10. Společenské vědy 11. Rus Petrov 12. Fyzika Vitya 5 5 13. Chemie 14. Kreslení Barevný Diagram

SEZNAMY Všechny druhy seznamů v dokumentech jsou sestavovány pomocí seznamů. Položky seznamu jsou považovány za odstavce formátované podle jednoho vzoru. Struktura seznamu S odrážkami 1. 2. 3. 4. 5. 6. Ruský jazyk Algebra Životní bezpečnost Společenská studia Biologie Technologie Rozvrh hodin - příklad číslovaného seznamu Číslovaný ruský jazyk Literatura Algebra Geometrie Fyzika Seznam předmětů studovaných v 7. ročníku - příklad a seznam s odrážkami

Struktura rozlišuje mezi jednoúrovňovými a víceúrovňovými seznamy. Seznam, jehož prvkem je sám seznam, se nazývá víceúrovňový Příklad: Kapitola 1. Informační a informační procesy § 1. 1. Informace a jejich vlastnosti 1. 1. 1. Informace a signál 1. 1. 2. Druhy informací 1 1. 3 Vlastnosti informací § 1. 2. Informační procesy 1. 2. 1. Pojem informačního procesu 1. 2. 2. Sběr informací

NÁSTROJE PRO TVORBU SEZNAMŮ Seznamy se značkami a číslováním můžete rychle vytvářet pomocí tlačítek na panelu nástrojů:

ZMĚNA SEZNAMŮ ODRÁŽEK: Chcete-li změnit typ odrážky, můžete použít tlačítko Změnit. Zobrazí se okno Upravit seznam odrážek obsahující další poznámky. Po klepnutí na tlačítko Značka se zobrazí dialogové okno Symbol, ve kterém můžete vybrat libovolný ze symbolů jako značku seznamu.

ZMĚNA ČÍSLOVANÝCH SEZNAMŮ: Chcete-li vytvořit svůj vlastní číslovaný seznam, klikněte na tlačítko Upravit. Zobrazí se okno Upravit číslovaný seznam. Pole Formát čísla určuje například text před a za číslem položky seznamu). V poli Číslování - styl číslování. Pole Start with... určuje číslo (nebo písmeno), kterým má seznam začínat. Chcete-li změnit písmo čísel položek seznamu, použijte tlačítko Písmo.

PŘEDSTAVME SI SEZNAM POČÍTAČOVÝCH ZAŘÍZENÍ FORMOU VÍCEÚROVŇOVÉHO SEZNAMU SE ČTYŘMI ÚROVNĚMI HNÍZENÍ. Zařízení moderní počítač Procesor Paměť RAM Dlouhodobá paměť Jednotka pevného disku Disketa Paměť Flash Optické disky Vstupní zařízení CD DVD Klávesnice Myš Skener Grafický tablet Digitální fotoaparát Mikrofon Joystick Výstupní zařízení Monitor LCD monitor CRT monitor Tiskárna Jehličková tiskárna Inkoustová tiskárna Laserová tiskárna

Prvnímu řádku dejme styl formátování, například Nadpis 1. Zařízení moderního počítače Procesor Paměť RAM Dlouhodobá paměť Pevný magnetický disk Disketa Flash paměť Optické disky CD DVD Vstupní zařízení Klávesnice Myš Skener Grafický tablet

Převedeme zbývající řádky na víceúrovňový seznam § §. Chcete-li to provést, musíte: vybrat všechny zbývající řádky; zadejte příkaz Format-List. V dialogovém okně Seznam přejděte na kartu Víceúrovňové a vyberte seznam typu:

Seznam bude mít následující podobu: Zařízení moderního počítače 1. Procesor 2. Paměť 3. RAM 4. Dlouhodobá paměť 5. Pevný magnetický disk 6. Disketa 7. Flash paměť 8. Optické disky 9. CD 10. DVD 11. Vstupní zařízení 12 Klávesnice 13. Myš 14. Skener 15. Grafický tablet 16. Digitální fotoaparát 17. Mikrofon 18. Joystick 19. Výstupní zařízení 20. Monitor 21. LCD monitor 22. CRT monitor 23. Tiskárna 24. Jehličková tiskárna 25. Inkoustová tiskárna 26. Laserová tiskárna

Zvýrazněme body 3 – 10 a snižme jejich úroveň. K tomu slouží tlačítko Zvětšit odsazení Zařízení moderního počítače 1. Procesor 2. Paměť 3. RAM 4. Dlouhodobá paměť 5. Pevný magnetický disk 6. Disketa 7. Flash paměť 8. Optické disky 9. CD 10 . DVD 11. Vstupní zařízení 12. Klávesnice 13. Myš 14. Skener 15. Grafický tablet 16. Digitální fotoaparát 17. Mikrofon 18. Joystick

Seznam bude mít následující podobu: Zařízení moderního počítače 1. Procesor 2. Paměť 2. 1. RAM 2. 2. Dlouhodobá paměť 2. 3. Pevný magnetický disk 2. 4. Disketa 2. 5. Flash paměť 2. 6. Optické disky 2. 7. CD 2. 8. DVD 3. Vstupní zařízení 4. Klávesnice 5. Myš 6. Skener 7. Grafický tablet 8. Digitální fotoaparát 9. Mikrofon 10. Joystick

Zvýrazněme body 2.3 – 2.8 a snižme jejich úroveň. K tomu slouží tlačítko Zvětšit odsazení Zařízení moderního počítače 1. Procesor 2. Paměť 2. 1. RAM 2. 2. Dlouhodobá paměť 2. 3. Pevný magnetický disk 2. 4. Disketa 2. 5. Flash paměť 2. 6. Optické disky 2. 7. CD 2. 8. DVD 3. Vstupní zařízení 4. Klávesnice 5. Myš 6. Skener 7. Grafický tablet 8. Digitální fotoaparát 9. Mikrofon 10. Joystick

Seznam bude mít následující podobu: Zařízení moderního počítače 1. Procesor 2. Paměť 2. 1. RAM 2. 2. Dlouhodobá paměť 2. 2. 1. Pevný magnetický disk 2. 2. 2. Disketa 2 2. 3. Flash paměť 2. 2. 4. Optické disky 2. 2. 5. CD 2. 2. 6. DVD 3. Vstupní zařízení 4. Klávesnice 5. Myš 6. Skener 7. Grafický tablet 8. Digitální fotoaparát 9. Mikrofon 10. Joystick

Vyberte body 2. 2. 5 – 2. 2. 6 a snižte jejich úroveň. Zařízení moderního počítače 1. Procesor 2. Paměť 2. 1. RAM 2. 2. Dlouhodobá paměť 2. 2. 1. Pevný magnetický disk 2. 2. 2. Disketa 2. 2. 3. Flash paměť 2 2. 4. Optické disky 2. 2. 4. 1. CD 2. 2. 4. 2. DVD 3. Vstupní zařízení 4. Klávesnice 5. Myš 6. Skener 7. Grafický tablet 8. Digitální fotoaparát 9. Mikrofon 10 Joystick

Zopakujme podobné operace pro další položky v seznamu: 3. Vstupní zařízení 3. 1. Klávesnice 3. 2. Myš 3. 3. Skener 3. 4. Grafický tablet 3. 5. Digitální fotoaparát 3. 6. Mikrofon 3. 7 Joystick 4 . Výstupní zařízení 4. 1. Monitor 4. 1. 1. LCD monitor 4. 1. 2. CRT monitor 4. 2. Tiskárna 4. 2. 1. Jehličková tiskárna 4. 2. 2. Inkoustová tiskárna 4 2. 3. Laserová tiskárna

Praktická práce na téma „Vizualizace informací v textové dokumenty».

Daný text:

Nejslavnější astronauti.

Je to 55 let, co se do vesmíru dostal první člověk. Od té doby tam zavítalo přes 500 lidí, z toho více než 50 žen. Naši planetu na oběžné dráze navštívili zástupci 36 zemí.

Jurij Gagarin (1934-1968). 12. dubna 1961 odstartovala z Bajkonuru kosmická loď Vostok-1 s prvním kosmonautem v historii na palubě. Na oběžné dráze prováděl Gagarin jednoduché experimenty – jedl, pil, dělal si poznámky. Astronaut dokončil 1 oběh kolem Země, který trval 108 minut. Den historického letu se začal slavit jako Den kosmonautiky. 12. duben 1961 navždy změnil život lidstva i samotného Gagarina. Stal se živým symbolem.

Valentina Těreškovová (narozena 1937). První úspěšné lety sovětských kosmonautů vedly k nápadu hlavního konstruktéra Sergeje Koroljova vypustit do vesmíru ženu. Od roku 1962 probíhá výběr uchazečů po celé republice. Z pěti připravených kandidátek byla vybrána Těreškovová, a to i kvůli svému pracovnímu původu. Kosmonautka uskutečnila svůj první let 16. června 1963 na kosmické lodi Vostok-6. Pobyt ve vesmíru trval tři dny.

Alexey Leonov (narozen 1934). Je číslem 11 na seznamu sovětských kosmonautů. Slávu Leonovovi přinesl jeho let do vesmíru jako kopilota na kosmické lodi Voschod-2 ve dnech 18. až 19. března 1961. Astronaut provedl první výstup do vesmíru v historii, který trval 12 minut 9 sekund. Během oněch historických okamžiků Leonov prokázal výjimečnou vyrovnanost – vždyť jeho skafandr byl nafouklý, což ztěžovalo cestu do vesmíru. Loď přistála v odlehlé tajze a kosmonauti strávili dva dny v mrazu.

Neil Armstrong (nar. 1930). července Neil Armstrong a pilot Edwin Aldrin přistáli se svým lunárním modulem v oblasti Sea of Tranquility. Pobyt na povrchu Měsíce trval 21,5 hodiny. Astronauti také podnikli procházku po měsíčním povrchu, která trvala 2,5 hodiny. První, kdo tam vkročil, byl Neil Armstrong. Astronaut, který stál na povrchu, pronesl historickou větu: „Je to jen jeden malý krok pro člověka, ale obrovský skok pro celé lidstvo.

Sergej Krikalev (narozen 1958). Dva lidé, Jerry Ross a Franklin Chang-Diaz, byli ve vesmíru sedmkrát. Rekord v době strávené na oběžné dráze ale patří sovětským a ruským kosmonautům. Na oblohu odstartoval 6krát, celkem strávil ve vesmíru 803 dní. Astronaut uskutečnil svůj poslední let v roce 2005 poté, co žil na ISS šest měsíců.

Valery Polyakov (narozen 1942). Povoláním Polyakova je lékař, stal se doktorem lékařských věd a profesorem. V historii SSSR a Ruska se Poljakov stal kosmonautem č. 66. Je držitelem rekordu v nejdelším pobytu ve vesmíru. Polyakov strávil na oběžné dráze Země v letech 1994-1995 437 dní a 18 hodin. A astronaut uskutečnil svůj první let zpět v roce 1988, kdy byl nad Zemí od 29. srpna 1988 do 27. dubna 1989. Tento let trval 240 dní, za což Valerij Poljakov obdržel titul Hrdina Sovětského svazu. Celkem Polyakov strávil ve vesmíru 678 dní.

Podle textu sestavte:

Číslovaný seznam lidí, kteří byli ve vesmíru, podle data jejich letu (od nejdříve);

Ilustrujte text obrázky (Desktop - složka Space);

Na základě textu vytvořte tabulku jako:

4) Ze složky „Hodnocení“ vyberte obrázek a zhodnoťte svou praktickou práci vložením obrázku pod hotovou práci.

V ruskojazyčném sektoru internetu existuje velmi málo praktických příkladů pro vzdělávání (a ještě méně s ukázkovým kódem) analýzy textových zpráv v ruštině. Proto jsem se rozhodl dát data dohromady a podívat se na příklad shlukování, protože není potřeba data připravovat pro trénování.

Většina použitých knihoven je již zahrnuta v distribuci Anaconda 3, takže vám doporučuji ji používat. Chybějící moduly/knihovny lze standardně nainstalovat pomocí pip install „název balíčku“.
Zahrnujeme následující knihovny:

Import numpy jako np import pandy jako pd import nltk import re import os import kodeků ze sklearnu import feature_extraction import mpld3 import matplotlib.pyplot as plt import matplotlib as mpl
K analýze můžete vzít jakákoli data. Pak mě zaujal tento úkol: Statistika vyhledávacích dotazů pro projekt Vládní výdaje. Potřebovali data rozdělit do tří skupin: soukromé, vládní a komerční organizace. Nechtěl jsem vymýšlet nic mimořádného, a tak jsem se rozhodl zkontrolovat, jak bude clusterování fungovat v tomto případě(při pohledu dopředu - vlastně ne). Můžete si však stáhnout data z VK některých veřejných:

Import vk #pass the session id session = vk.Session(access_token="") # URL pro příjem access_token, místo tvoi_id vložte id vytvořené aplikace VK: # https://oauth.vk.com/authorize?client_id =tvoi_id&scope=friends, pages,groups,offline&redirect_uri=https://oauth.vk.com/blank.html&display=page&v=5.21&response_type=token api = vk.API(session) poss= id_pab=-59229916 start withpublic mínus, ID uživatelské zdi bez mínusu info=api.wall.get(owner_id=id_pab, offset=0, počet=1) kolvo = (info//100)+1 shag=100 sdvig=0 h=0 čas importu při h 70): tisk (h) #ne předpoklad, jen pro kontrolu přibližného konce procesu pubpost=api.wall.get(owner_id=id_pab, offset=sdvig, count=100) i=1, zatímco i< len(pubpost): b=pubpost[i]["text"] poss.append(b) i=i+1 h=h+1 sdvig=sdvig+shag time.sleep(1) len(poss) import io with io.open("public.txt", "w", encoding="utf-8", errors="ignore") as file: for line in poss: file.write("%s\n" % line) file.close() titles = open("public.txt", encoding="utf-8", errors="ignore").read().split("\n") print(str(len(titles)) + " постов считано") import re posti= #удалим все знаки препинания и цифры for line in titles: chis = re.sub(r"(\<(/?[^>]+)>)", " ", řádek) #chis = re.sub() chis = re.sub("[^а-яА-Я ]", "", chis) posti.append(chis)
Použiji data vyhledávacích dotazů, abych ukázal, jak špatně se shlukují krátká textová data. Předem jsem vyčistil text od speciálních znaků a interpunkčních znamének a nahradil jsem zkratky (například individuální podnikatel - individuální podnikatel). Výsledkem byl text, kde každý řádek obsahoval jeden vyhledávací dotaz.

Načteme data do pole a přistoupíme k normalizaci – uvedení slova do původní podoby. To lze provést několika způsoby pomocí Porter stemmer, MyStem stemmer a PyMorphy2. Chtěl bych vás varovat - MyStem funguje přes wrapper, takže rychlost operací je velmi pomalá. Zaměřme se na Porterův stemmer, i když vám nikdo nebrání používat ostatní a vzájemně je kombinovat (projděte si například PyMorphy2 a poté Porterův stemmer).

Titles = open("material4.csv", "r", encoding="utf-8", errors="ignore").read().split("\n") print(str(len(titles)) + "requests read") z nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("Russian") def token_and_stem(text): tokens = filter_tokens = pro token v tokenech: if re.search("[a-zA-Z]" , token): filter_tokens.append(token) stems = return stems def token_only(text): tokens = filter_tokens = pro token v tokenech: if re.search("[A-Z]", token): filter_tokens.append (TOKEN) RETURN FILThed_TOKENS #Vytvořit slovníky (pole) ze základů Totalvocab_STEM = TOTALVOCAB_TOKEN = Pro I v názvech: Allwords_SteMed = TOKEN_AND_STEM (I) #PRINT (Allwords_STAMM Ed) Totalvocab_Stem.Extend (Allwords_words) Celkem token.exten allwords_tokenized)

Pymorfie2

import pymorphy2 morph = pymorphy2.MorphAnalyzer() G= pro i v názvech: h=i.split(" ") #print(h) s="" pro k v h: #print(k) p = morph.parse( k).normal_form #print(p) s+=" " s += p #print(y) #G.append(p) #print(s) G.append(s) pymof = open("pymof_pod.txt", "w", encoding="utf-8", errors="ignore") pymofcsv = open("pymofcsv_pod.csv", "w", encoding="utf-8", errors="ignore") pro položku v G : pymof.write("%s\n" % položka) pymofcsv.write("%s\n" % položka) pymof.close() pymofcsv.close()

pymystem3

Spustitelné soubory analyzátoru pro aktuální operační systém bude automaticky stažena a nainstalována při prvním použití knihovny.

Z importu pymystem3 Mystem m = Mystem() A = for i v názvech: #print(i) lemmas = m.lemmatize(i) A.append(lemmas) #Toto pole lze uložit do souboru nebo „zálohovat“ import pickle s otevřeným ("mystem.pkl", "wb") jako rukojetí: pickle.dump(A, handle)

Vytvořme hmotnostní matici TF-IDF. Každý vyhledávací dotaz budeme považovat za dokument (to se provádí při analýze příspěvků na Twitteru, kde každý tweet je dokument). Vezmeme tfidf_vectorizer z balíčku sklearn a stop slova vezmeme z korpusu ntlk (zpočátku ho budeme muset stáhnout přes nltk.download()). Parametry lze upravovat, jak uznáte za vhodné – od horní a spodní hranice až po počet n-gramů (v tomto případě vezměme 3).

Stopwords = nltk.corpus.stopwords.words("russian") #seznam ignorovaných slov můžete rozšířit stopwords.extend(["co", "toto", "tak", "tady", "být", "jak ", "in", "k", "on"]) z importu sklearn.feature_extraction.text TfidfVectorizer, CountVectorizer n_featur=200000 tfidf_vectorizer = TfidfVectorizer(max_df=0.8, max_features=10000, min_id,sstop=stop= Pravda, tokenizer=token_and_stem, ngram_range=(1,3)) get_ipython().magic("time tfidf_matrix = tfidf_vectorizer.fit_transform(titles)") print(tfidf_matrix.shape)
Na výslednou matici začneme nanášet různé metody shlukování:

Num_clusters = 5 # Metoda K-means - KMeans ze sklearn.cluster import KMeans km = KMeans(n_clusters=num_clusters) get_ipython().magic("time km.fit(tfidf_matrix)") idx = km.fit(tfidf_matrix) clusters = km.labels_.tolist() print(clusters) print (km.labels_) # MiniBatchKMeans from sklearn.cluster import MiniBatchKMeans mbk = MiniBatchKMeans(init="random", n_clusters=num_clusters) #(init="k-means++", ' random' nebo ndarray) mbk.fit_transform(tfidf_matrix) %time mbk.fit(tfidf_matrix) miniclusters = mbk.labels_.tolist() tisk (mbk.labels_) # DBSCAN ze sklearn.cluster import DBSCAN get_ipython().magic().magic čas db = DBSCAN(eps=0,3, min_samples=10).fit(tfidf_matrix)") štítky = db.labels_ labels.shape print(labels) # Aglomerativní shlukování z importu sklearn.cluster AgglomerativeClustering agglo1 = AgglomerativeClusters,n_clusters= ="euclidean") #affinity můžete si vybrat libovolné nebo vyzkoušet vše postupně: kosinus, l1, l2, manhattan get_ipython().magic("time answer = agglo1.fit_predict(tfidf_matrix.toarray())") answer.shape
Přijatá data lze seskupit do datového rámce a lze spočítat počet požadavků zahrnutých v každém clusteru.

#k-means clusterkm = km.labels_.tolist() #minikmeans clustermbk = mbk.labels_.tolist() #dbscan clusters3 = štítky #agglo #clusters4 = answer.tolist() frame = pd.DataFrame(titles, index = ) #k-means out = ( "title": titles, "cluster": clusterkm ) frame1 = pd.DataFrame(out, index = , columns = ["title", "cluster"]) #mini out = ( "title" : titles, "cluster": clustermbk ) frame_minik = pd.DataFrame(out, index = , columns = ["title", "cluster"]) frame1["cluster"].value_counts() frame_minik["cluster"].value_counts ()
Kvůli velké množství dotazy nejsou moc vhodné na prohlížení tabulek a chtěl bych více interaktivity pro pochopení. Proto vytvoříme grafy relativních pozic požadavků vůči sobě navzájem.

Nejprve musíte vypočítat vzdálenost mezi vektory. Pro tento účel bude použita kosinusová vzdálenost. Články doporučují používat odečítání od jedné, takže neexistují žádné záporné hodnoty a jsou v rozsahu od 0 do 1, takže uděláme totéž:

Ze sklearn.metrics.pairwise import cosine_similarity dist = 1 - cosine_similarity(tfidf_matrix) dist.shape
Protože grafy budou dvourozměrné a trojrozměrné a původní matice vzdáleností bude n-rozměrná, bude nutné použít algoritmy redukce rozměrů. Existuje mnoho algoritmů, ze kterých si můžete vybrat (MDS, PCA, t-SNE), ale vyberme si inkrementální PCA. Tato volba byla učiněna z důvodu praktické aplikace - zkoušel jsem MDS a PCA, ale BERAN Neměl jsem dost (8 gigabajtů) a když se soubor stránky začal používat, mohl jsem okamžitě restartovat počítač.

Inkrementální PCA se používá jako náhrada za hlavní komponentní analýzu (PCA), když je soubor dat, který se má rozložit, příliš velký na to, aby se vešel do paměti. IPCA vytváří nízkoúrovňovou aproximaci vstupních dat pomocí paměťové stopy, která je nezávislá na počtu vzorků vstupních dat.

# Metoda hlavní komponenty - PCA ze sklearn.decomposition import IncrementalPCA icpa = IncrementalPCA(n_components=2, batch_size=16) get_ipython().magic("time icpa.fit(dist) #demo =") get_ipython().magic(" time demo2 = icpa.transform(dist)") xs, ys = demo2[:, 0], demo2[:, 1] # PCA 3D from sklearn.decomposition import IncrementalPCA icpa = IncrementalPCA(n_components=3, batch_size=16) get_ipython ().magic("time icpa.fit(dist) #demo =") get_ipython().magic("time ddd = icpa.transform(dist)") xs, ys, zs = ddd[:, 0], ddd [:, 1], ddd[:, 2] #Okamžitě můžete zhruba vidět, jaký bude konečný výsledek #from mpl_toolkits.mplot3d import Axes3D #fig = plt.figure() #ax = fig.add_subplot(111, projection= "3d") #ax.scatter(xs, ys, zs) #ax.set_xlabel("X") #ax.set_ylabel("Y") #ax.set_zlabel("Z") #plt.show()
Přejděme přímo k samotné vizualizaci:

Z importu matplotlib rc #zahrnout ruské symboly na grafu font = ("rodina" : "Verdana")#, "váha": "normální") rc("font", **font) #můžete generovat barvy pro import clusterů random def create_colors(n): color_list = for c in range(0,n): r = lambda: random.randint(0,255) color_list.append("#%02X%02X%02X" % (r(),r( ), r())) return color_list #set colors cluster_colors = (0: "#ff0000", 1: "#ff0066", 2: "#ff0099", 3: "#ff00cc", 4: "#ff00ff", ) # clusterům dáváme jména, ale kvůli náhodnosti je nechme být 01234 cluster_names = (0: "0", 1: "1", 2: "2", 3: "3", 4: " 4",) #matplotlib inline #vytvořit datový rámec, který obsahuje souřadnice (z PCA) + čísla clusteru a samotné dotazy df = pd.DataFrame(dict(x=xs, y=ys, label=clusterkm, title=titles) ) #group by clusters groups = df .groupby("label") obr., ax = plt.subplots(figsize=(72, 36)) #figsize podle vašeho vkusu pro jméno, seskupte do skupin: ax.plot(group. x, group.y, marker= "o", linestyle="", ms=12, label=cluster_names, color=cluster_colors, mec="none") ax.set_aspect("auto") ax.tick_params(axis= " x", which="both" , bottom="off", top="off", labelbottom="off") ax.tick_params(axis= "y", which="both", left="off", top ="off", labelleft=" off") ax.legend(numpoints=1) #zobrazit legendu pouze 1 bodu #přidat popisky/názvy na pozice x,y pomocí vyhledávací dotaz#for i v rozsahu(len(df)): # ax.text(df.ix[i]["x"], df.ix[i]["y"], df.ix[i]["title "], size=6) #show chart plt.show() plt.close()
Pokud odkomentujete řádek s názvy, bude to vypadat nějak takto:

Příklad s 10 shluky

Ne přesně to, co bych očekával. Pomocí mpld3 převedeme obrázek na interaktivní graf.

# Plot obr, ax = plt.subplots(figsize=(25,27)) ax.margins(0.03) pro jméno, skupina ve skupinách_mbk: points = ax.plot(group.x, group.y, marker="o" , linestyle="", ms=12, #ms=18 label=cluster_names, mec="none", color=cluster_colors) ax.set_aspect("auto") labels = tooltip = mpld3.plugins.PointHTMLTooltip(body, labels, voffset=10, hoffset=10, #css=css) mpld3.plugins.connect(obr, tooltip) # , TopToolbar() ax.axes.get_xaxis().set_ticks() ax.axes.get_yaxis().set_ticks() #ax.axes.get_xaxis().set_visible(False) #ax.axes.get_yaxis().set_visible(False) ax.set_title("Mini K-Means", velikost=20) #groups_mbk ax.legend(numpoints=1 ) mpld3.disable_notebook() #mpld3.display() mpld3.save_html(obr., "mbk.html") mpld3.show() #mpld3.save_json(obr., "vivod.json") #mpld3.fig_to_html(obr.) obr. , ax = plt.subplots(figsize=(51,25)) scatter = ax.scatter(np.random.normal(velikost=N), np.random.normal(size=N), c=np.random.random (velikost=N), s=1000 * np.random.random(velikost=N), alfa=0,3, cmap=plt.cm.jet) ax.grid(color="white", linestyle="solid") sekera .set_title("Clusters", size=20) obr, ax = plt.subplots(figsize=(51,25)) labels = ["bod (0)".format(i + 1) pro i v rozsahu(N) ] tooltip = mpld3.plugins.PointLabelTooltip(scatter, labels=labels) mpld3.plugins.connect(obr, tooltip) mpld3.show()fig, ax = plt.subplots(figsize=(72,36)) pro název, skupinu ve skupinách: points = ax.plot(group.x, group.y, marker="o", linestyle="", ms=18, label=name_cluster_names, mec="none", color=cluster_colors) ax.set_aspect( "auto") labels = tooltip = mpld3.plugins.PointLabelTooltip(body, labels=labels) mpld3.plugins.connect(obr, tooltip) ax.set_title("K-means", size=20) mpld3.display()
Nyní, když umístíte kurzor na libovolný bod v grafu, objeví se text s odpovídajícím vyhledávacím dotazem. Příklad hotového html souboru si můžete prohlédnout zde: Mini K-Means

Pokud to chcete ve 3D a s měnitelným měřítkem, pak existuje služba Plotly, která má plugin pro Python.

Zápletka 3D

#například pouze 3D graf ze získaných hodnot import plotly plotly.__version__ import plotly.plotly as py import plotly.graph_objs as go trace1 = go.Scatter3d(x=xs, y=ys, z=zs, mode ="markers", marker=dict(size=12, line=dict(color="rgba(217, 217, 217, 0.14)", width=0.5), opacity=0.8)) data = layout = go.Layout( margin=dict(l =0, r=0, b=0, t=0)) fig = go.Figure(data=data, layout=layout) py.iplot(fig, filename="cluster-3d-plot" )

Výsledky jsou k vidění zde: Příklad

A jako poslední bod proveďte hierarchické (aglomerativní) shlukování pomocí Wardovy metody k vytvoření dendogramu.

V : from scipy.cluster.hierarchy import ward, dendrogram linkage_matrix = ward(dist) obr, ax = plt.subplots(figsize=(15, 20)) ax = dendrogram(linkage_matrix,orientation="right", labels=titles) ; plt.tick_params(\ axis= "x", which="oboth", bottom="off", top="off", labelbottom="off") plt.tight_layout() #save the drawing plt.savefig("ward_clusters2 png", dpi=200)
Závěry

V oblasti výzkumu přirozeného jazyka je bohužel spousta nevyřešených otázek a ne všechna data lze snadno a jednoduše seskupit do konkrétních skupin. Doufám ale, že tato příručka zvýší zájem o toto téma a poskytne základ pro další experimenty.

Abstraktní otevřená lekce na téma

" Vizualizace informací v textových dokumentech. Tabulky"

Cíl lekce:

Vzdělávací : podporovat tvorbu pojmů - tabulka, buňka, řádek, sloupec tabulky, úpravy a formátování tabulek, naučit se vkládat tabulku do dokumentu, upravovat a formátovat.

Vývojový : rozvíjet logické a racionální myšlení žáků, rozvíjet samostatnost při osvojování schopností PC při provádění praktická práce.

Vzdělávací : pěstovat pečlivý přístup k vybavení počítačové třídy, podporovat aktivizaci tvůrčích schopností žáků, pěstovat přiměřené sebehodnocení výsledků své činnosti.

Typ lekce : lekce osvojování nového materiálu

Struktura tréninku:

Organizační moment;

Aktualizace a motivace;

Učení nového materiálu;

Primární konsolidace;

Shrnutí lekce;

Domácí úkol.

Formy organizace kognitivní činnosti:

kolektivní;

čelní;

individuální.

Metody výuky:

vysvětlující a názorné;

částečně hledat;

reprodukční.

Postup lekce

Popisky snímků:

ROZVRH Pondělí: algebra, chemie, ruština, tělesná výchova; Úterý: informatika, literatura, geometrie, dějepis; Středa: fyzika, biologie, ruština, algebra; Čtvrtek: literatura, bezpečnost života, informatika, algebra, tělesná výchova; Pátek: chemie, geometrie, dějepis

Řádek sloupce tabulky

Buňka tabulky Buňky tabulky mohou obsahovat různé typy data (text, čísla, obrázky atd.)

Za tímto účelem můžete do dokumentu vložit prázdnou tabulku Microsoft Word použijte nabídku Vložit – Tabulka:

Zadejte požadovaný počet řádků a sloupců

Pohyb po tabulce: Stisknutím klávesy Tab Stisknutím kurzorových kláves Pomocí myši Výběr prvků tabulky:

V budoucnu lze parametry tabulky změnit pomocí kontextové menu(RMB): Vložení nebo odstranění řádků, sloupců a buněk; Změnit šířku sloupce a výšku řádku; Rozdělit buňky nebo sloučit se sousedními.

Vzhled tabulky můžete změnit: Práce s tabulkami - Návrhář

Praktická práce: Úkol 1: Vytvořte tabulku podle ukázky, vyplňte ji daty pomocí kopírování: pondělí úterý středa čtvrtek 1 hodina biologie algebra dějepis fyzika 2 hodina algebra biologie algebra dějepis 3 hodina dějepis fyzika biologie algebra 8. třída rozvrh hodin

Úkol 2: Vytvořte tabulku na základě ukázky. Vysvědčení žáka 8. ročníku Pololetí I II Čtvrtletí I II III IV Algebra 5 4 4 5 Geometrie 3 4 3 4 Fyzika 4 5 4 5 Dějepis 5 4 5 4 Biologie 4 5 3 5 Chemie 5 4 4 4 Informatika 4 5 5 5 Literatura 4 4 3 4

Další úkol: Vytvořte tabulku podle příkladu: Vysvědčení pro žáka 8. třídy

Kritéria hodnocení: Úkol 1 – „2-3“ body Úkol 2 – „2-3“ body Doplňkový úkol – „1“ bod „5“ – 6-7 bodů „4“ – 5 bodů „3“ – 3-4 body

Děkuji za pozornost!

Náhled:

Praktická prácena téma „Vkládání tabulek do dokumentu“

Úkol 1: Práce s tabulkou

Vytvořte tabulku podle ukázky, doplňte ji daty pomocí kopírování:

rozvrh hodin 8. třídy

	pondělí	úterý	středa	čtvrtek
1 lekce	biologie	algebra	příběh	fyzika
Lekce 2	algebra	biologie	algebra	příběh
Lekce 3	příběh	fyzika	biologie	algebra

Vložte sloupec vpravo do tabulky (pátek), vyplňte.

Úkol 2: Vytvořte tabulku takto:

Vysvědčení žáka 8. třídy

Půl roku
Čtvrtletí
Algebra
Geometrie
Fyzika
Příběh
Biologie
Chemie

Mapa technologické lekce

Třída: 7 "A"

UMK: Informatika: učebnice pro 7. ročník / L.L. Bosová, A.Yu. Bosová. – 5. vyd. - M.: BINOM. Vědomostní laboratoř, 2016. - 224 s. : nemocný.

Podrobit: Vizualizace informací v textových dokumentech.

Cíl lekce: Utváření představ o rozmanitosti a vhodnosti vizualizace informací v textových procesorech.

Cíle lekce:

1. Předmět

Seznámit studenty s nástroji strukturování a vizualizace textové informace;

Vytvořit si představu o vytváření seznamů a možnostech jejich použití v textových dokumentech;

Vytvořit si představu o vytváření tabulek a možnostech jejich použití v textových dokumentech;

Naučte se vytvářet víceúrovňové číslované seznamy a seznamy s odrážkami.

Vytvořit potřebu znalostí o daném předmětu;

Naučit volit nástroje informačních a komunikačních technologií pro tvorbu textových dokumentů;

Rozvíjet dovednosti v racionálním používání dostupných nástrojů.

3. Osobní

Rozvíjet u studentů připravenost a schopnost sebevzdělávání na základě motivace k učení a poznání;

Vytvořit potřebu sebevyjádření a seberealizace;

Vštěpujte dovednosti sebeovládání a sebeúcty.

1. Organizační moment (iniciace)

Vítá studenty, kontroluje připravenost na hodinu, organizuje pozornost dětí.

Pozdravte učitele, zkontrolujte dostupnost vzdělávacích materiálů na stolech, uspořádejte je pracoviště.

komunikativní: plánování vzdělávací spolupráce s vrstevníky

Osobní : psychická připravenost žáků na hodinu, sebeurčení

2. Zkontrolujte domácí úkol

Kontrola domácích úkolů (ve dvojicích, vzájemná kontrola)

Zkontrolujte domácí úkol (ve dvojicích, náhodně)

Poznávací: strukturování znalostí, reflexe metod a podmínek působení, kontrola a hodnocení procesu a výsledků činností

Osobní : schopnost pracovat ve dvojicích

3. Aktualizace znalostí a formulace tématu a cílů lekce

V minulé lekci jste se seznámili s novým konceptem „formátování“ textu. co to je?

Co můžete změnit při formátování znaků?

odstavce?

Jaká nastavení stránky můžete nastavit pro list? textový editor?

Chcete-li zjistit téma naší lekce, podívejme se na snímky 1 (na snímku je text vypisující zařízení počítače oddělený čárkami a seřazený do seznamu; na snímku de

seznam mikrookresů města Stavropol, diagram, fragment třídního deníku se známkami).

Jaké informace je pro nás snazší vnímat?

Jaký typ informací podle způsobu vnímání může zahrnovat seznamy, diagramy, tabulky?

Pokuste se formulovat téma naší lekce.

Odpovězte na otázky:

Textová dekorace

Písmo, velikost písma, styl, barva;

Zarovnání, odsazení prvního řádku, řádkování, odsazení vlevo a vpravo, mezery před a za;

Okraje, orientace, velikost papíru.

Seznam, graf, tabulka;

vizuální (vizuální).

Formulujte téma lekce „Vizualizace informací v textových dokumentech“.

Poznávací: strukturování znalostí, reflexe metod a podmínek působení, kontrola a hodnocení procesu a výsledků činnostíRegulační: rozvoj schopnosti formulovat téma a účel hodiny v souladu s úkoly a normami ruského jazyka

komunikativní: Orientace na komunikačního partnera, schopnost naslouchat partnerovi, schopnost argumentovat svým názorem, přesvědčovat a podléhat

Osobní: rozvoj logického myšlení, znalost základních mravních norem

4. Asimilace nových poznatků

Je známo, že textové informace člověk vnímá lépe, pokud anovizualizované - organizované ve formě seznamů, diagramů, tabulek, doplněných grafickými obrázky (nákresy, fotografie). Podle způsobu provedení se rozlišujíočíslované A výrazný seznamy (příklad na snímku 2).

Podle struktury: jednoúrovňový A víceúrovňový .

Chcete-li popsat řadu objektů, které mají stejné sady vlastností, nejčastěji

se používají tabulky , skládající se z řádků a sloupců (struktura tabulky na snímku 3).

Tabulky mohou obsahovat texty, čísla,obrázky (na snímku 4 je příklad tabulky obsahující texty, čísla a obrázky). Můžete si vytvořit své vlastní kresby pomocí grafické editory, můžete použít ty, které již byly vytvořeny nebo nalezeny na internetu. V mnoha textových procesorech můžete vytvářet obrázky z automatických tvarů (na snímku 5 je příklad grafických primitiv ve Wordu).

Podívejte se na prezentaci na dané téma, stručně si zapište důležité aspekty látky do sešitu.

Poznávací: rozvoj kognitivní činnosti

Regulační: plánování vašich aktivit k řešení daného problému, sledování získaného výsledku, oprava získaného výsledku

Osobní: rozvoj paměti, pozornosti, zrakové a sluchové paměti, schopnost samostatně provádět učební činnosti

komunikativní: rozvoj dialogické řeči

5. Primární konsolidace materiálu

A abyste si upevnili své znalosti na toto téma, navrhuji vám provést test možností. (Příloha 1)

Vyplní test (dle možností) a odevzdají ke kontrole vyučujícímu.

Poznávací: výběr nejvíce efektivní způsoby dokončení úkolu

Osobní: rozvíjet schopnost dosahovat cílů a hodnotit výsledky své práce

komunikativní: schopnost pracovat ve skupině, rozvoj dialogické řeči

6. Počítačová dílna

Pro upevnění získaných znalostí navrhuji provádět praktickou práci na počítači (příloha 2)

Praktické práce na počítači.

Osobní: rozvoj schopnosti dosahovat cílů a hodnotit výsledky své práce; formování a vývoj

analytické myšlení

7. Shrnutí lekce, reflexe

Hodnocení praktické práce studentů (známky jsou vyvěšeny ve věstníku).

Odraz:

Shrňte svou práci.

Udělejte emocionální hodnocení své práce výběrem vhodného obrázku (na kartičkách) a nakreslete jej na okraje sešitu naproti tématu lekce.

Hotovou praktickou práci prezentujte vyučujícímu.

Provádějí psycho-emocionální hodnocení své práce, kreslí piktogramy odpovídající emocím do sešitu naproti tématu lekce.

Poznávací: konstruování řečového projevu ústně, sledování a hodnocení průběhu a výsledků činností

Regulační: sledování a vyhodnocování vašich aktivit v rámci lekce

Sdělení : schopnost naslouchat a vést dialog, formulovat a argumentovat svůj názor

Osobní: reflexe metod a podmínek působení, kontrola a hodnocení procesu a výsledků činností

Dodatek 1

1 možnost

1. Číslovaný seznam by měl být použit, když:

3) popis předmětů v místnosti
4) seznam vybavení třídy

2. Vlastnosti dat v buňkách jsou určeny:

1) vlastnosti hranic
2) velikost písma
3) velikosti buněk
4) typ číselných údajů v buňkách

3. Připraven grafické obrázky lze upravovat pomocí textových procesorů:

1) změna jasu
2) vytváření nových vrstev
3) změna barev bitmap
4) vytvoření animace

4. Pro rozpoznání textu z tištěných médií a jeho vložení do paměti počítače pro úpravy je vhodné použít:

1) videokamera
2) klávesnice
3) skener
4) mikrofon

Automatické zařízení překódoval zprávu v ruštině z 8bitového kódu na 4bitový kód. Zároveň se objem překódované zprávy snížil o 128 bajtů. Délka původní zprávy ve znacích je _____ znaků.

6. Proveďte výpočty a zadejte číselnou hodnotu.

Informační objem slova o 24 znacích v kódování Unicode je _____ bajtů.

Možnost 2

1. Seznam s odrážkami by měl být použit, když:

1) sestavení akčního algoritmu
2) vyjmenování druhů květin na záhoně
3) popis sledu akcí pro práci se zařízením
4) popis libovolné sekvence

2. Vzhled tabulky definují:

3. Pomocí textového procesoru v hotovém obrázku nemůžete:

1) změnit jas
2) Změňte velikost obrázku
3) změňte kontrast
4) zavést nové vrstvy

4. Pro automatický překlad textových dokumentů použijte:

1) skener
2) textový procesor
3) skener
4) překladatelské programy

5. Proveďte výpočty a zadejte číselnou hodnotu.

Automatické zařízení překódovalo zprávu do ruštiny z 16bitového kódu na 8bitový kód. Zároveň se objem překódované zprávy snížil o 128 bajtů. Délka původní zprávy ve znacích je _____ znaků.

6. Proveďte výpočty a zadejte číselnou hodnotu.

Informační objem slova o 16 znacích v kódování Unicode je _____ bajtů.

Dodatek 2

Vizualizace informací: práce s tabulkou

Úkol 1: Vytvořte tabulku

Rozvrh lekcí:

Postup prací:

Použijte záložku "Vložit".

Vyberte tabulku (4 řádky, 5 sloupců). Vyplňte tabulku údaji (font –Times Nový římský , velikost12) pomocí kopírování (Tab –Ctrl+ Ins – Posun+ Ins):

Sloupec vpravo vložte do tabulky (pátek) a také vyplňte.

Kliknutím přidejte řádek „den v týdnu“. klikněte pravým tlačítkem myši v libovolné buňce prvního řádku.